Ferramentas Utilizadas em Ciência de Dados e Big Data
Ferramentas Utilizadas em Ciência de Dados e Big Data
Ferramentas Utilizadas em Ciência de Dados e Big Data
A CIÊNCIA DE
DADOS
Introdução
Desde crianças, aprendemos a analisar situações e fazer escolhas com
base em informações que nos são passadas. Essas análises e decisões vão
se tornando mais complexas à medida que vamos adquirindo maiores
responsabilidades ao longo da vida. Com a tecnologia, não é diferente:
bases de dados imensas são inseridas em sistemas computacionais e
analisadas minuciosamente com linguagens de programação, norteando
a tomada de decisões de gestores de grandes empresas.
Neste capítulo, você vai estudar sobre algumas das principais ferra-
mentas utilizadas em ciência de dados, bem como observar e conhecer
na prática como as linguagens Python e R são facilitadoras no processo
de manipulação, extração e entendimento do comportamento dos
dados. Como as atividades de manipular e visualizar dados são fun-
damentais para os cientistas de dados, você verá exemplos práticos e
poderá perceber a velocidade e o desempenho dessas linguagens no
processamento de conjuntos de dados.
no campo da estatística, uma vez que essa disciplina é responsável por coletar,
classificar e distribuir conjuntos de dados, a fim de evidenciar ocorrências de
determinados eventos a partir de amostras específicas que são testadas em
diversas análises.
Os cientistas de dados utilizam a estatística como um importante mecanismo
para extrair a história por trás dos dados, entendendo os seus padrões e as
possíveis variações, de modo a encontrar soluções plausíveis para a tomada
de decisões em diferentes áreas de atuação. Além disso, com a estatística, o
cientista ou analista de dados pode identificar as correlações existentes entre
os conjuntos de dados.
Portanto, as ferramentas tecnológicas — como as linguagens de progra-
mação e dashboards interativos — assumem um importante papel de apoio
na aplicação das técnicas de estatística aos conjuntos de dados. Na Figura
1, veja um exemplo de dashboard interativo, que é uma ferramenta muito
utilizada por cientistas de dados para a sumarização de informações de um
ou mais conjuntos de dados.
Ferramentas
Entre algumas ferramentas que podemos citar como exemplo e que são uti-
lizadas pelos analistas ou cientistas para a visualização e manipulação de
dados, destacam-se as word clouds e os gráfico.
Ferramentas utilizadas em ciência de dados e Big data 3
Além do gráfico de colunas, há também outros gráficos que podem ser utilizados nos
mais variados cenários. Como exemplos, podemos destacar os gráficos de barras, de
pizza, de linhas, de dispersão, etc.
Vale lembrar que a linguagem possui uma série de bibliotecas que trabalham
em várias etapas da ciência de dados, conforme o seu guia para iniciantes
(PHYTON , 2019). Seguem alguns exemplos:
Na próxima tela, escolha o local onde o projeto será salvo e defina um nome
para ele. Na sequência, clique em Create, conforme a Figura 5.
Carlos 20 SP 1,78
Pedro 18 RJ 1,76
Paulo 25 MA 1,65
Lilian 24 PR 1,82
Alice 22 MS 1,79
Matheus 15 PB 1,73
Lucas 19 SC 1,77
import pandas
x = pandas.read _ excel('C:\DigiteSeuDiretorio\pessoas.xlsx',
sheet _ name='pessoas')
print(x)
8 Ferramentas utilizadas em ciência de dados e Big data
import pandas
x = pandas.read _ excel('C:\Users\whesl\Desktop\pessoas.xlsx',
sheet _ name='pessoas')
print(x.describe())
Ferramentas utilizadas em ciência de dados e Big data 9
3 Introdução à Linguagem R
A linguagem de programação R é direcionada aos processos de mineração e
manipulação de dados por meio da implementação de métodos estatísticos.
Na prática, a linguagem facilita a criação de filtros, permite a exibição de
dados em gráficos e esclarece informações que estão implícitas nos conjuntos
de dados. É de conhecimento geral entre os cientistas que muitos métodos
estatísticos, como regressão, árvore de decisão e classificação, destinam-se a
descobrir probabilidades e tendências. Nesse sentido, a linguagem R utiliza
esses e outros métodos estatísticos para extrair dados e produzir gráficos.
Além disso, é importante mencionar que a linguagem R é contextualizada e
moderna, recebendo atualizações constantes pela comunidade de desenvolvedores.
Ela possui inúmeros pacotes que dão suporte às suas principais funcionalidades.
Tanto a linguagem Python quanto a R apresentam as seguintes vantagens:
10 Ferramentas utilizadas em ciência de dados e Big data
Instalação do RStudio
As linguagens R e Python, em determinados momentos, podem ser consideradas
concorrentes, pois apresentam funções muito semelhantes. Sem dúvida, uma das
diferenças mais marcantes entre elas é que a linguagem R tem foco muito específico
no tratamento e na manipulação de dados estatísticos. A linguagem Python, por sua
vez, é dedicada à programação, ao processamento de língua natural e até mesmo
à engenharia de dados. Entretanto, ambas têm funcionalidades muito similares.
O RStudio é uma IDE para a execução de códigos da linguagem R. A
seguir, você verá como instalar a ferramenta e testar o seu funcionamento.
Para iniciar a instalação, acesse o site oficial do RStudio e busque o link de
download. Na sequência, instale a ferramenta e observe os quatro frames
numerados na Figura 8, assim como o significado de cada um (a biblioteca
Gapminder foi usada apenas como exemplo).
Data
Nome Data nasc. Bairro Cidade Curso Período compra Atendente Valor
Carlos 20/08/1983 Perdizes São Paulo Data Science Noite 10/03/2020 Gabriela 2000
Pedro 15/04/2000 Vila Yara Osasco Python Manhã 05/02/2019 Aline 1800
João 25/10/1981 Jd. Pinheiros Taboão da Serra R Tarde 06/12/2018 Luana 950
Alberto 10/11/1997 Vila Olímpia São Paulo Java Noite 15/04/2015 Paulo 900
Ferramentas utilizadas em ciência de dados e Big data
Wheslley 23/06/1990 Jd. De Lourdes Embu das Artes JavaScript Manhã 20/01/2020 Ana Paula 2750
Graciane 16/01/1987 Jd. Sadie Embu das Artes Excel Manhã 18/02/2020 Luciano 750
Ferramentas utilizadas em ciência de dados e Big data 13
Os links para sites da web fornecidos neste capítulo foram todos testados, e seu fun-
cionamento foi comprovado no momento da publicação do material. No entanto, a
rede é extremamente dinâmica; suas páginas estão constantemente mudando de
local e conteúdo. Assim, os editores declaram não ter qualquer responsabilidade
sobre qualidade, precisão ou integralidade das informações referidas em tais links.