Básico: Colab, Python, Numpy E Pandas: 2.1. Ambiente Google Colaboratory Ou
Básico: Colab, Python, Numpy E Pandas: 2.1. Ambiente Google Colaboratory Ou
Básico: Colab, Python, Numpy E Pandas: 2.1. Ambiente Google Colaboratory Ou
Básico: Colab, Python, NumPy e Pandas — <h2 style="color:#cc0000;"><b>Introdução à Visualização de Dados</b></h2><p style="font-size:80%;color:#cc0000;">com Python</p>
Open in Colab
Caso você já domine ou esteja confortável com esses recursos você pode pular este capítulo e seguir para o próximo.
editar os códigos e textos, e executar os programas produzindos as saídas no próprio documento. É uma forma bastante
útil de criar e publicar códigos e todo o material deste livro foi criado em Python notebooks para que você possa
reproduzir e alterar os códigos que são fornecidos.
Se você estiver acessando um Python notebooks, aqui está uma célula de código com um breve script Python que você
poderá executar calculando um valor, armazenando-o em uma variável e exibindo em seguida o resultado:
segundos_do_dia = 24 * 60 * 60
segundos_do_dia
86400
# imports
import numpy as np
import matplotlib.pyplot as plt
cores = 'rgbcmyk'
label = ['red','green','blue','cyan','magenta','yellow','black']
cor = n % len(cores)
x = 200 + np.random.randn(100)
plt.plot(x,color=cores[cor])
plt.title(label[cor].upper(),fontsize=14)
plt.show()
https://meusite.mackenzie.br/rogerio/MyBook/_build/html/c0_parte_1.html 1/19
08/05/24, 10:31 2. Básico: Colab, Python, NumPy e Pandas — <h2 style="color:#cc0000;"><b>Introdução à Visualização de Dados</b></h2><p style="font-size:80%;color:#cc0000;">com Python</p>
★ Alerta importante: ao trabalhar com um Python notebook todas as células compartilham o mesmo espaço de execução.
Assim as variáveis de criadas e alteradas em uma célula são imediatamente acessíveis a todas as demais células. Independente da
ordem em que aparecem.
As células de código não são programas independentes e seus resultados persistem após cada execução. Como você pode
executar qualquer célula a qualquer momento a ideia execução sequencial do programa é aqui um pouco modificada.
# Você pode executar essa célula uma vez, mas ganhará um erro ao
executá-la novamente
print(x)
del x
Produz:
2.1.4. Título 3
2.1.4.1. Título 4
2.1.4.1.1. Título 5
**bold**
*italic*
Produz:
bold
italic
2.1.4.3. Identação
https://meusite.mackenzie.br/rogerio/MyBook/_build/html/c0_parte_1.html 2/19
08/05/24, 10:31 2. Básico: Colab, Python, NumPy e Pandas — <h2 style="color:#cc0000;"><b>Introdução à Visualização de Dados</b></h2><p style="font-size:80%;color:#cc0000;">com Python</p>
‘>’ (ident) não suportado para edição de JupyterBooks, tire os comentários ``` para execução no Colab.
> indent 1
>> indent 2
* item
* item
* item
ou
1. item 1
2. item 2
3. item 3
Produz:
item
item
item ou
1. item 1
2. item 2
3. item 3
Projetos mais complexos, com vários programas e programas com centenas de linhas de código, podem entretanto exigir
o uso de ambientes integrados de desenvolvimento (IDE’s) como o PyCharm, Visual Code ou o Spyder para maior
produtividade. Note que scripts Python e Python notebooks são arquivos criados com extensões diferentes:
Caso você opte em explorar os códigos deste livro em um ambiente Python local recomendo a instalação do ambiente
Anaconda, um eco sistema profissional de desenvolvimento Python que inclui, além da linguagem Python ambientes para
edição de notebooks local e o IDE Spyder dentre outros pacotes, e você pode encontrar os links para download no final do
livro.
2.2. Python
Python é uma linguagem bastante poderosa e com muitos recursos. Nessa introdução de Python vamos apenas apresentar
um conjunto de recursos essenciais para que possamos prosseguir na visualização de dados com Python e você pode
consultar diversas fontes online e livros de introdução ao Python para saber mais sobe a linguagem.
https://meusite.mackenzie.br/rogerio/MyBook/_build/html/c0_parte_1.html 3/19
08/05/24, 10:31 2. Básico: Colab, Python, NumPy e Pandas — <h2 style="color:#cc0000;"><b>Introdução à Visualização de Dados</b></h2><p style="font-size:80%;color:#cc0000;">com Python</p>
inteiro = 123
real = np.pi
texto1 = '123'
texto2 = 'Led Zeppelin'
print(type(inteiro), inteiro)
print(type(real), real)
print(type(texto1), texto1)
print(type(texto2), texto2)
inteiro = inteiro + 1
real = real + 1
texto1 = texto1 + '4'
texto2 = texto2 + ': Stairway to Heaven'
print(type(inteiro), inteiro)
print(type(real), real)
print(type(texto1), texto1)
print(type(texto2), texto2)
https://meusite.mackenzie.br/rogerio/MyBook/_build/html/c0_parte_1.html 4/19
08/05/24, 10:31 2. Básico: Colab, Python, NumPy e Pandas — <h2 style="color:#cc0000;"><b>Introdução à Visualização de Dados</b></h2><p style="font-size:80%;color:#cc0000;">com Python</p>
import numpy as np
print(np.pi) # pi
print(np.exp(1)) # e
print(5 % 2)
# o mesmo que
print(np.mod(5,2))
print(np.random.rand(1))
print(np.random.sample(10))
3.141592653589793
2.718281828459045
1
1
[0.63306932]
[0.39264834 0.8069128 0.54888492 0.37745742 0.67222565 0.76824892
0.16465848 0.40584095 0.13047434 0.60367705]
2.2.4. Strings
As strings em Python são como arrays de caracteres. Em Python elas são estruturas imutáveis, isto significa que você não
poderá atribuir um valor a uma posição específica de um array em uma string.
★ As strings iniciam são arrays que iniciam em 0. Em Python o limite superior indica um valor < do índice do
caracter que será exibido e não um índice ≤ como em outras linguagens como C ou Java.
print(texto2[0:7])
print('0123456789012'[0:7])
# e,
# texto2[1] = 'x'
# não funciona uma vez que uma string é imutável em Python
Led Zep
0123456
str1 ='A arte existe porque a vida não basta. – Ferreira Gullar'
print(str1.find('arte'))
print(str1.lower())
str2 = str1.replace('arte','life')
print(str2)
2
a arte existe porque a vida não basta. – ferreira gullar
A life existe porque a vida não basta. – Ferreira Gullar
https://meusite.mackenzie.br/rogerio/MyBook/_build/html/c0_parte_1.html 5/19
08/05/24, 10:31 2. Básico: Colab, Python, NumPy e Pandas — <h2 style="color:#cc0000;"><b>Introdução à Visualização de Dados</b></h2><p style="font-size:80%;color:#cc0000;">com Python</p>
<class 'str'>
Seu texto: Texto
Seu número: 2.25
2.2.8. If-Then-Else
Em Python as instruções aninhadas são identadas (tab), o que corresponde ao {} de linguagens como Java e C. Assim,
instruções aninhadas à condição ou laço do programa devem estar à direita da instrução inicial da condição ou laço.
Condição 1 ...
Instrução 1.1 ...
Instrução 2.1 ...
Condição 2 ...
Instrução 2.1 ...
Instrução 3.1...
Instrução N
a = 1964
b = 1984
if b > a:
print("b is greater than a")
else:
print("a is greater than b")
if b > a:
print("b is greater than a")
elif a == b:
print("a and b are equal")
else:
print("a is greater than b")
b is greater than a
b is greater than a
★ Fique atento a identação do seu código. Em Python é ela que faz o aninhamento de instruções de código, tendo
assim o mesmo papel dos { } que empregamos em Java ou C.
https://meusite.mackenzie.br/rogerio/MyBook/_build/html/c0_parte_1.html 6/19
08/05/24, 10:31 2. Básico: Colab, Python, NumPy e Pandas — <h2 style="color:#cc0000;"><b>Introdução à Visualização de Dados</b></h2><p style="font-size:80%;color:#cc0000;">com Python</p>
for i in range(5):
print(i)
if i == 3:
break
0
1
2
3
i = 1
while i < 6:
print(i)
if i == 3:
break
i += 1
1
2
3
As iterações também podem ser feitas sobre listas de valores, numéricos ou não.
for i in [12,18,84]:
print(i)
12
18
84
Adriana
Daniel
Henrique
2.2.10. Funções
Funções em Python são definidas com a instrução def. As variáveis de uma função tem escopo local, mas as funções
podem também acessar variáveis globais do seu programa.
def mymax(a,b):
if a > b:
return a
else:
return b
mymax(1984,1964)
1984
Lista (list( ), [ ]) é uma coleção que é ordenada e mutável podendo ter membros duplicados.
Tupla (tuple( ), ( )) é uma coleção que é ordenada e imutável podendo ter membros duplicados.
Conjunto (set( ), { }) é uma coleção não ordenada e não indexada que não permite membros duplicados.
Dicionário (dict( ), {'key':value} ) é uma coleção desordenada de itens, mutável e indexada, e que não permite
membros duplicados.
Vamos nos deter apenas nas estruturas de listas e dicionários que terão mais utilidade aqui.
2.2.11.1. List
Lista (list) é uma coleção que é ordenada e mutável, e permite haver membros duplicados. Associado a listas você
encontra uma série métodos úteis para esses objetos como adição, busca e remoção de elementos.
https://meusite.mackenzie.br/rogerio/MyBook/_build/html/c0_parte_1.html 7/19
08/05/24, 10:31 2. Básico: Colab, Python, NumPy e Pandas — <h2 style="color:#cc0000;"><b>Introdução à Visualização de Dados</b></h2><p style="font-size:80%;color:#cc0000;">com Python</p>
'''
Empregue...
> help(mylist)
para ver todos os métodos associados a listas
'''
mylist.append('D')
print(mylist, 'depois de inserir D')
mylist.sort()
print(mylist, 'depois de ordenar a lista')
mylist[1] = 'ZZ'
print(mylist, 'depois de alterar o elementos de índice 1')
print('A' in mylist)
if 'A' in mylist:
print('Sim, A está na lista')
2
1
4
['A', 'B', 'C', 'A', 'B', 'D'] depois de inserir D
['A', 'A', 'B', 'B', 'C', 'D'] depois de ordenar a lista
['A', 'ZZ', 'B', 'B', 'C', 'D'] depois de alterar o elementos de
índice 1
True
Sim, A está na lista
Listas podem conter quaisquer tipos de elementos, incluindo outras listas, e podem ser empregadas para implementar
arrays numéricos em Python. Entretanto, para operações eficientes sobre arrays numéricos será preferível empregar
arrays do pacote NumPy.
★ Para operações eficientes sobre arrays numéricos é preferível empregar arrays do pacote NumPy.
# Arrays numéricos
mylist = [[1,2,3], [11,22,33], [9,9,9]]
print(mylist[1]) # [11,22,33]
print(mylist[1][0]) # 11
https://meusite.mackenzie.br/rogerio/MyBook/_build/html/c0_parte_1.html 8/19
08/05/24, 10:31 2. Básico: Colab, Python, NumPy e Pandas — <h2 style="color:#cc0000;"><b>Introdução à Visualização de Dados</b></h2><p style="font-size:80%;color:#cc0000;">com Python</p>
Por índice, empregamos essa forma quando precisamos do índice (posição) ou precisamos alterar os elementos da
lista
Por iterador, empregamos essa forma quando desejamos apenas recuperar (ler) os elementos. Ela não permite
alterar os elementos enquanto percorremos a lista
A segunda forma é um modo elegante que o Python implementa e você não encontrará esse modo em linguagens como C
ou Java. Se não for necessário alterar os elementos ou obter o índice ao percorrer a lista esta será a melhor forma a ser
empregada.
0 A
1 B
2 C
3 A
4 B
A
B
C
A
B
Também é útil entendermos como popular uma lista com o método append().
mylist = [] # cria a
lista vazia
print(mylist)
2.2.11.3. Dictionary
Dicionários (dictionary) são uma coleção desordenada, mutável e indexada em formato de chave: valor. Elas não
aceitam elementos duplicados (chaves), e se você já teve contato com uma estrutura de dados do tipo JSON essa é uma
estrutura bastante semelhante em Python. A principal vantagem dos dicionários é permitir recuperar os valores
diretamente a partir do valor da chave.
print(aniversarios.keys())
print(aniversarios['Adriana'])
Assim como nas listas, os dicionários suportam quaiquer tipos de dados no campo valor, incluindo listas e outros
dicionários.
https://meusite.mackenzie.br/rogerio/MyBook/_build/html/c0_parte_1.html 9/19
08/05/24, 10:31 2. Básico: Colab, Python, NumPy e Pandas — <h2 style="color:#cc0000;"><b>Introdução à Visualização de Dados</b></h2><p style="font-size:80%;color:#cc0000;">com Python</p>
print(contatos.keys())
print(contatos['Adriana'])
print(contatos['Adriana']['amigos'])
dict_keys(['Adriana'])
{'aniversario': 1984, 'telefone': '6767-6868', 'amigos':
{'Henrique': 2004, 'Anna': 1988}}
{'Henrique': 2004, 'Anna': 1988}
Beatriz 1978
Henrique 2004
Adriana 1984
Daniel 1996
Beatriz 1978
Henrique 2004
Adriana 1984
Daniel 1996
Beatriz
Henrique
Adriana
Daniel
1978
2004
1984
1996
mydict = {}
for i in range(len(lista_nomes)):
if lista_nomes[i] not in mydict.keys(): # Se não está no dicionário
acrescenta
mydict[lista_nomes[i]] = lista_niver[i]
print(mydict)
★ Note que [ ] é o construtor de uma lista, e o mesmo que list(), enquanto { } é o construtor de um dicionário, o
o mesmo que dict(). Ambos, entretanto, têm os elementos referenciados empregando [ ].
https://meusite.mackenzie.br/rogerio/MyBook/_build/html/c0_parte_1.html 10/19
08/05/24, 10:31 2. Básico: Colab, Python, NumPy e Pandas — <h2 style="color:#cc0000;"><b>Introdução à Visualização de Dados</b></h2><p style="font-size:80%;color:#cc0000;">com Python</p>
f = open("note.txt", "w")
for line in note:
f.write(line)
f.close()
f = open("note.txt", "r")
for line in f:
print(line)
This is a note
Para acesso a arquivos tipo texto via internet, que não estão locais em um diretório da sua máquina ou ambiente virtual
como o Colab, você pode empregar a classe urllib.request ou, se tiver familiaridade com comando Linux, o comando
!wget para fazer o download do arquivo e empregá-lo local como fizemos acima.
import urllib.request
data =
urllib.request.urlopen('https://raw.githubusercontent.com/Rogerio-
mack/Visualizacao-de-Dados-em-Python/main/data/PlayBallcsv.csv')
Day,Outlook,Temperature,Humidity,Wind,Play ball
2.3. NumPy
O NumPy é um pacote para computação científica em Python que dá suporte para arrays e matrizes multidimensionais e faz
operações e funções matemáticas de modo eficiente.
Na maior parte dos casos empregaremos as funções matemáticas do NumPy como operações para manipulação de
matrizes e vetores, funções trigonométricas, estatísticas e de randomização. O Pandas, pacote de manipulação de dados
que empregamos, é construído sobre o NumPy.
Teremos necessidade aqui de entender apenas algumas poucas classes de NumPy e, assim, um pequeno conjunto de
exemplos será suficiente para nossos propósitos.
import numpy as np
array1D = np.array([1,2,3])
array2D = np.array([[1,2,3,4],[11,12,13,14],[21,22,23,24]])
print(array1D)
print(array2D)
print(array1D[1])
print(array2D[1:3])
print(array2D[1][3])
https://meusite.mackenzie.br/rogerio/MyBook/_build/html/c0_parte_1.html 11/19
08/05/24, 10:31 2. Básico: Colab, Python, NumPy e Pandas — <h2 style="color:#cc0000;"><b>Introdução à Visualização de Dados</b></h2><p style="font-size:80%;color:#cc0000;">com Python</p>
1 2
(3,) (3, 4)
[1 2 3]
[[ 1 2 3 4]
[11 12 13 14]
[21 22 23 24]]
2
[[11 12 13 14]
[21 22 23 24]]
14
Os arrays NumPy operam como listas indexadas e você pode empregar as mesmas formas de índices e iteração que
empregamos em listas para percorrer arrays NumPy.
for i in range(array1D.shape[0]):
print(i, array1D[i])
0 1
1 2
2 3
0 0 1
0 1 2
0 2 3
0 3 4
1 0 11
1 1 12
1 2 13
1 3 14
2 0 21
2 1 22
2 2 23
2 3 24
1
2
3
1
2
3
4
11
12
13
14
21
22
23
24
x = np.array([1,2,3])
print( np.mean(x), np.sum(x), np.power(x,2) )
print( 2*x, x+x, x**2 + 2*x + 1, np.log(x) )
2.0 6 [1 4 9]
[2 4 6] [2 4 6] [ 4 9 16] [0. 0.69314718 1.09861229]
https://meusite.mackenzie.br/rogerio/MyBook/_build/html/c0_parte_1.html 12/19
08/05/24, 10:31 2. Básico: Colab, Python, NumPy e Pandas — <h2 style="color:#cc0000;"><b>Introdução à Visualização de Dados</b></h2><p style="font-size:80%;color:#cc0000;">com Python</p>
x = np.array([1,2,3])
np.random.seed(1984) # semente de
geração aleatória
print( np.random.randint(low=1, high=6, size=10) ) # gerando
inteiros aleatórios
print( np.random.rand(4) ) # gerando
valores aleatórios entre [0,1]
print( np.random.sample(5) ) # gerando um
sample de dados aleatórios
[1 2 3] [1, 2, 3]
[5 4 2 1 1 3 3 2 3 1]
[0.99873856 0.89441845 0.26139183 0.73330439]
[0.14629798 0.17234917 0.61481704 0.59564882 0.68232631]
[10 12 14 16 18]
[10. 10.20408163 10.40816327 10.6122449 10.81632653
11.02040816
11.2244898 11.42857143 11.63265306 11.83673469 12.04081633
12.24489796
12.44897959 12.65306122 12.85714286 13.06122449 13.26530612
13.46938776
13.67346939 13.87755102 14.08163265 14.28571429 14.48979592
14.69387755
14.89795918 15.10204082 15.30612245 15.51020408 15.71428571
15.91836735
16.12244898 16.32653061 16.53061224 16.73469388 16.93877551
17.14285714
17.34693878 17.55102041 17.75510204 17.95918367 18.16326531
18.36734694
18.57142857 18.7755102 18.97959184 19.18367347 19.3877551
19.59183673
19.79591837 20. ]
2.4. Pandas
O Pandas é um pacote Python para manipulação e análise de dados orientada a colunas. Ela organiza os dados em dois
tipos de estruturas, Séries e DataFrames e opera seleções e transformações sobre essas coleções de dados.
DataFrame: você pode imaginar como uma tabela de dados relacionais, com linhas e colunas nomeadas, como no
Excel ou em SQL.
Series: é uma única coluna de dados, e o DataFrame contém um ou mais Series com um nome para cada uma delas.
O DataFrame, implementado em Python, é uma abstração comumente usada para manipulação de dados que tem origem
na linguagem R, mas você encontrará implementações similares também em outras linguagens.
# Séries
student_names = pd.Series(['Adriana', 'Carol', 'Daniel'])
age = pd.Series([18, 19, 19])
# DataFrame
students = pd.DataFrame({ 'Student Name': student_names, 'Age': age })
students
https://meusite.mackenzie.br/rogerio/MyBook/_build/html/c0_parte_1.html 13/19
08/05/24, 10:31 2. Básico: Colab, Python, NumPy e Pandas — <h2 style="color:#cc0000;"><b>Introdução à Visualização de Dados</b></h2><p style="font-size:80%;color:#cc0000;">com Python</p>
0 Adriana 18
1 Carol 19
2 Daniel 19
tips = pd.read_csv('https://raw.githubusercontent.com/Rogerio-
mack/Visualizacao-de-Dados-em-Python/main/data/tips.csv')
tips.head()
O comando df.head() permite exibir o aspecto inicial dos dados a partir de suas primeiras linhas.
(244, 7)
244
tips.columns.to_list() # ou tips.columns
https://meusite.mackenzie.br/rogerio/MyBook/_build/html/c0_parte_1.html 14/19
08/05/24, 10:31 2. Básico: Colab, Python, NumPy e Pandas — <h2 style="color:#cc0000;"><b>Introdução à Visualização de Dados</b></h2><p style="font-size:80%;color:#cc0000;">com Python</p>
total_bill float64
tip float64
sex object
smoker object
day object
time object
size int64
dtype: object
tips.describe(include='all')
df.<nome do atributo>
df['<nome do atributo>']
eles retornam o mesmo resultado e a segunda forma é sempre necessária quando temos nomes de atributos com espaços
ou caracteres especiais.
https://meusite.mackenzie.br/rogerio/MyBook/_build/html/c0_parte_1.html 15/19
08/05/24, 10:31 2. Básico: Colab, Python, NumPy e Pandas — <h2 style="color:#cc0000;"><b>Introdução à Visualização de Dados</b></h2><p style="font-size:80%;color:#cc0000;">com Python</p>
print(tips.tip)
# ou
# print(tips['tip'])
0 1.01
1 1.66
2 3.50
3 3.31
4 3.61
...
239 5.92
240 2.00
241 2.00
242 1.75
243 3.00
Name: tip, Length: 244, dtype: float64
Esse conjunto de dados é um pd.Series e podemos fazer uma série de operações sobre essa coleção de dados, como
calcular a soma ou a média de valores.
tip_series = tips['tip']
print(f'Média das gorjetas: USD {tip_series.mean() :.2f} e Total das
gorjetas: USD {tip_series.sum() :.2f}')
Média das gorjetas: USD 3.00 e Total das gorjetas: USD 731.58
Pode ser útil também você transformar uma pd.Series em uma lista Python para que você possa realizar as operações de
listas que você já conhece.
dias = tips.day
dias = dias.to_list()
dias.count('Sat')
87
Mas você pode estar interessado na seleção de mais que uma coluna de dados. Para isso você pode simplesmente informar
para o Pandas uma lista de atributos a serem selecionados.
df [ [ <lista-de-colunas> ] ]
Diferentemente da seleção anterior que retorna um Série do Pandas, a seleção desse modo, com uma ou mais colunas
informadas em uma lista, retorna um DataFrame.
A seleção como DataFrame permite a seleção de várias séries de dados (atributos) para construírmos subconjuntos de
dados de interesse. Essas seleções de dados também são DataFrame e todas as operações de DataFrame são aplicáveis.
tips.columns
https://meusite.mackenzie.br/rogerio/MyBook/_build/html/c0_parte_1.html 16/19
08/05/24, 10:31 2. Básico: Colab, Python, NumPy e Pandas — <h2 style="color:#cc0000;"><b>Introdução à Visualização de Dados</b></h2><p style="font-size:80%;color:#cc0000;">com Python</p>
0 16.99 1.01 2
1 10.34 1.66 3
2 21.01 3.50 3
3 23.68 3.31 2
4 24.59 3.61 4
★ A seleção com uma ou mais colunas informadas em uma lista, retorna um DataFrame. Note que df['tip']
retorna um pd.Series, enquanto, selecionar df[['tip']] retorna um pd.DataFrame de uma única coluna.
De modo geral, você pode empreguar a seleção de pd.Series para selecionar um único atributo, e empregar a seleção
pd.DataFrame quando estiver interessado na criação de subconjuntos de dados.
tips.nsmallest(5,'total_bill')
tips_top3 = tips.nlargest(3,'total_bill')
tips_top3
dolar_real_rate = 5.8
tips['total_bill'] = tips['total_bill'] * dolar_real_rate #
alterando
tips['tip'] = tips['tip'] * dolar_real_rate #
alterando
https://meusite.mackenzie.br/rogerio/MyBook/_build/html/c0_parte_1.html 17/19
08/05/24, 10:31 2. Básico: Colab, Python, NumPy e Pandas — <h2 style="color:#cc0000;"><b>Introdução à Visualização de Dados</b></h2><p style="font-size:80%;color:#cc0000;">com Python</p>
A seleção de linhas é mais interessante por que podemos especificar condições para os valores que buscamos. Por
exemplo, você pode selecionar o tipo de peças que deseja ver em um DataFrame com dados de vários componentes, ou
selecionar a as unidades de fábrica de uma certa cidade que você tem os dados de produção.
df [ <critério de seleção> ]
Exemplos
df [ nome_coluna == valor ]
df [ nome_coluna != valor ]
df [ nome_coluna > valor ]
Assim, podemos selecionar os dados somente dos não fumantes ou não fumantes:
E podemos com isso já responder algumas questões interessantes que envolvem a proporção dos dados de fumantes e
não fumantes.
O uso mais geral das seleções é quando fazemos seleções de linhas e colunas dos dados, e às vezes nos referimos a esse
subconjunto dos dados de slice (fatia) dos dados.
A boa prática indica que sempre faremos primeiro a seleção das linhas,
Com isso podemos fazer inúmeras seleções de dados que temos interesse em visualizar ou analisar, e responder a muitas
perguntas sobre os dados.
https://meusite.mackenzie.br/rogerio/MyBook/_build/html/c0_parte_1.html 18/19
08/05/24, 10:31 2. Básico: Colab, Python, NumPy e Pandas — <h2 style="color:#cc0000;"><b>Introdução à Visualização de Dados</b></h2><p style="font-size:80%;color:#cc0000;">com Python</p>
True
False
As selecões de subconjuntos de dados, com veremos, tem uma papel importante na construção de visualizações e
entendimento dos dados pois, muitas vezes, estamos interessados em comparar diferentes classes ou subconjuntos
dados, como no exemplo abaixo em que observamos os valores das gorjetas de homens e mulheres.
O Pandas ainda conta com uma série de operações para manipulação e transformação dos dados como funções de joins e
merge de tabelas, groupby etc. empregaremos eventualmente essas operações ao longo do texto e para maiores detalhes
você poderá consultar a documentação do Pandas ou outras referências online.
By Rogério de Oliveira
© Copyright 2020.
https://meusite.mackenzie.br/rogerio/MyBook/_build/html/c0_parte_1.html 19/19