Ferramentas Utilizadas em Ciência de Dados e Big Data

Fazer download em pdf ou txt
Fazer download em pdf ou txt
Você está na página 1de 18

INTRODUÇÃO

A CIÊNCIA DE
DADOS

Wheslley Rimar Bezerra


Ferramentas utilizadas em
ciência de dados e Big data
Objetivos de aprendizagem
Ao final deste texto, você deve apresentar os seguintes aprendizados:

 Reconhecer as ferramentas utilizadas nos processos de ciência de


dados.
 Explicar o uso de Python em ciência de dados.
 Descrever o uso de R em ciência de dados.

Introdução
Desde crianças, aprendemos a analisar situações e fazer escolhas com
base em informações que nos são passadas. Essas análises e decisões vão
se tornando mais complexas à medida que vamos adquirindo maiores
responsabilidades ao longo da vida. Com a tecnologia, não é diferente:
bases de dados imensas são inseridas em sistemas computacionais e
analisadas minuciosamente com linguagens de programação, norteando
a tomada de decisões de gestores de grandes empresas.
Neste capítulo, você vai estudar sobre algumas das principais ferra-
mentas utilizadas em ciência de dados, bem como observar e conhecer
na prática como as linguagens Python e R são facilitadoras no processo
de manipulação, extração e entendimento do comportamento dos
dados. Como as atividades de manipular e visualizar dados são fun-
damentais para os cientistas de dados, você verá exemplos práticos e
poderá perceber a velocidade e o desempenho dessas linguagens no
processamento de conjuntos de dados.

1 Ciência de dados e a estatística


A matemática é essencial para a ciência de dados. A contribuição dessa área
para o entendimento do comportamento dos dados é valiosa, especialmente
2 Ferramentas utilizadas em ciência de dados e Big data

no campo da estatística, uma vez que essa disciplina é responsável por coletar,
classificar e distribuir conjuntos de dados, a fim de evidenciar ocorrências de
determinados eventos a partir de amostras específicas que são testadas em
diversas análises.
Os cientistas de dados utilizam a estatística como um importante mecanismo
para extrair a história por trás dos dados, entendendo os seus padrões e as
possíveis variações, de modo a encontrar soluções plausíveis para a tomada
de decisões em diferentes áreas de atuação. Além disso, com a estatística, o
cientista ou analista de dados pode identificar as correlações existentes entre
os conjuntos de dados.
Portanto, as ferramentas tecnológicas — como as linguagens de progra-
mação e dashboards interativos — assumem um importante papel de apoio
na aplicação das técnicas de estatística aos conjuntos de dados. Na Figura
1, veja um exemplo de dashboard interativo, que é uma ferramenta muito
utilizada por cientistas de dados para a sumarização de informações de um
ou mais conjuntos de dados.

Figura 1. Exemplo de dashboard.

Ferramentas
Entre algumas ferramentas que podemos citar como exemplo e que são uti-
lizadas pelos analistas ou cientistas para a visualização e manipulação de
dados, destacam-se as word clouds e os gráfico.
Ferramentas utilizadas em ciência de dados e Big data 3

Word clouds é um recurso muito utilizado na visualização de dados e


é chamado em português de nuvem de palavras. Diferentemente da forma
como são visualizados os recursos baseados em imagens, as word clouds são
geradas por conjuntos de palavras cujo formato se assemelha a uma nuvem.
Essa ferramenta tem como finalidade evidenciar a frequência de ocorrência de
palavras que existem em um conjunto de dados (também chamado de dataset)
exclusivamente textual. Na prática, quanto mais vezes determinada palavra
for encontrada, maior será o seu tamanho na nuvem de palavras. Esse recurso
é útil em sites ou sistemas web, em que é possível observar quais foram as
palavras-chave mais buscadas pelos usuários de determinada plataforma. Para
Viégas, Wattenberg e Feinberg (2009), em um mundo no qual a visualização
de dados existe na web e é facilitada por uma série de ferramentas, as word
clouds são potenciais elementos de sucesso. Veja um exemplo desse recurso
na Figura 2.

Figura 2. Exemplo de word cloud.

Gráficos são recursos visuais que certamente ocupam a liderança entre as


principais ferramentas utilizadas pelos cientistas de dados em projetos. Com
eles, é possível perceber de forma natural a evolução e o comportamento de
determinado conjunto de dados, levando em consideração unidades de medida
4 Ferramentas utilizadas em ciência de dados e Big data

como o tempo, a distância ou outro parâmetro pré-determinado pelo cientista.


Segundo Cianci (2018), embora cada gráfico possa demonstrar diferenças entre
os dados, você não precisa selecionar todos os modelos disponíveis. Talvez,
para o seu projeto específico, apenas alguns modelos já sejam suficientes. Na
Figura 3, observe o exemplo de um gráfico de colunas. A figura representa a
quantidade de eletrônicos do tipo laptop, smartphone e desktop comprados
no período de janeiro a abril.

Figura 3. Exemplo de gráfico.

Além do gráfico de colunas, há também outros gráficos que podem ser utilizados nos
mais variados cenários. Como exemplos, podemos destacar os gráficos de barras, de
pizza, de linhas, de dispersão, etc.

2 Introdução à linguagem Python


A linguagem de programação Python é amplamente conhecida no mercado
de tecnologias ligadas à ciência de dados, visto que com ela é possível mani-
pular dados de forma totalmente performática. Python utiliza o paradigma
Ferramentas utilizadas em ciência de dados e Big data 5

de orientação a objetos, ou seja, é possível abstrair com ela coisas do mundo


real, e representá-las computacionalmente como uma coleção de objetos. Esses
objetos são organizados em estruturas de dados que podem ser manipulados
por operações fornecidas pela linguagem.
Além disso, Python é multiplataforma, podendo ser executada em diversos
sistemas operacionais, como Windows, Linux, MacOS, entre outros. É possível
também, com Python, estabelecer conexões a servidores web e, assim, ler e
modificar arquivos. Veja alguns dos recursos disponíveis (PYTHON, 2020):

1. suporte aos tipos básicos de dados, como números inteiros e de ponto


flutuante;
2. suporte aos pilares básicos de orientação a objetos, como abstração,
encapsulamento, herança e polimorfismo.

Vale lembrar que a linguagem possui uma série de bibliotecas que trabalham
em várias etapas da ciência de dados, conforme o seu guia para iniciantes
(PHYTON , 2019). Seguem alguns exemplos:

 visualização de dados – Matplotlib e Seaborn;


 análise exploratória – Numpy e Pandas;
 modelagem estatística – Scikit-learn e Statsmodels.

Segundo Freeman e Ross (2018), para trabalhar com dados e programação,


o cientista de dados deverá utilizar diferentes ferramentas de software, a fim
de organizar e gerenciar os seus códigos. Como há uma variedade grande de
ferramentas, o profissional pode escolher entre as que são mais aceitas pela
comunidade.
Neste capítulo, utilizaremos o PyCharm, uma IDE (sigla que, em por-
tuguês, significa ambiente de desenvolvimento integrado) específica para
a programação em Python e que foi desenvolvida pela empresa JetBrains.
Para baixar o PyCharm, você deve acessar o site oficial da plataforma e clicar
no botão Download, descrito na página, escolhendo a opção Community
(versão gratuita).
Após baixar e instalar o PyCharm, iniciaremos a manipulação de um
conjunto de dados. Com o software aberto, clique em Create New Project,
conforme mostra a Figura 4.
6 Ferramentas utilizadas em ciência de dados e Big data

Figura 4. Interface PyCharm.

Na próxima tela, escolha o local onde o projeto será salvo e defina um nome
para ele. Na sequência, clique em Create, conforme a Figura 5.

Figura 5. Criando um projeto no PyCharm.


Ferramentas utilizadas em ciência de dados e Big data 7

Com o projeto criado, vamos começar a codificar utilizando uma das


bibliotecas citadas acima: Pandas. A ideia nesse exemplo é obter uma planilha
e, em seguida, imprimi-la dentro do PyCharm utilizando a biblioteca Pandas.
Veja a sequência de etapas:

1. Crie uma planilha chamada “pessoas.xlsx”, conforme detalhado no


Quadro 1.

Quadro 1. Planilha pessoas.xlsx

Nome Idade Estado Altura

Carlos 20 SP 1,78

Pedro 18 RJ 1,76

Paulo 25 MA 1,65

Lilian 24 PR 1,82

Alice 22 MS 1,79

Matheus 15 PB 1,73

Lucas 19 SC 1,77

2. Em seguida, crie um arquivo com a extensão.py no PyCharm, digite os


códigos abaixo e pressione CTRL + SHIFT + F10 para ver o resultado.
Você certamente visualizará os dados da planilha impressos na parte
inferior da tela (Figura 6).

import pandas
x = pandas.read _ excel('C:\DigiteSeuDiretorio\pessoas.xlsx',
sheet _ name='pessoas')
print(x)
8 Ferramentas utilizadas em ciência de dados e Big data

Figura 6. Impressão da planilha pessoas.xlsx no PyCharm.

A primeira linha importa a biblioteca pandas para dentro do projeto escrito


em Python. Caso a biblioteca não esteja instalada, a própria IDE vai mostrar
uma mensagem informando sobre a necessidade de instalação do pacote. Você
poderá realizar a instalação de forma simples e guiada pela IDE.
A segunda linha, por sua vez, atribui a uma variável x o método de leitura
do arquivo Excel, contendo o caminho do arquivo e o nome da planilha que
será importada. Por fim, na terceira linha, a função print(x) é acionada
para a impressão dos dados da planilha que estão armazenados dentro
da variável x.
Se adicionarmos mais uma linha ao nosso código, poderemos ter uma
análise mais precisa sobre a nossa base de dados. Informações como média,
quantidade de registros, valores máximos e mínimos podem ser visualizadas
com o uso do método describe(). Considerando o exemplo da planilha pes-
soas.xlsx, vamos adicionar à nossa variável x o método describe(). O código
ficará assim:

import pandas
x = pandas.read _ excel('C:\Users\whesl\Desktop\pessoas.xlsx',
sheet _ name='pessoas')
print(x.describe())
Ferramentas utilizadas em ciência de dados e Big data 9

Observe que, como resultado, o método describe() trouxe cálculos como


a quantidade total de linhas da coluna Idade e da coluna Altura. O método
retornou ainda o valor mínimo e máximo de cada coluna, e o cálculo de média,
conforme você pode observar na Figura 7.

Figura 7. Aplicação do método describe() na planilha pessoas.xlsx no PyCharm.

3 Introdução à Linguagem R
A linguagem de programação R é direcionada aos processos de mineração e
manipulação de dados por meio da implementação de métodos estatísticos.
Na prática, a linguagem facilita a criação de filtros, permite a exibição de
dados em gráficos e esclarece informações que estão implícitas nos conjuntos
de dados. É de conhecimento geral entre os cientistas que muitos métodos
estatísticos, como regressão, árvore de decisão e classificação, destinam-se a
descobrir probabilidades e tendências. Nesse sentido, a linguagem R utiliza
esses e outros métodos estatísticos para extrair dados e produzir gráficos.
Além disso, é importante mencionar que a linguagem R é contextualizada e
moderna, recebendo atualizações constantes pela comunidade de desenvolvedores.
Ela possui inúmeros pacotes que dão suporte às suas principais funcionalidades.
Tanto a linguagem Python quanto a R apresentam as seguintes vantagens:
10 Ferramentas utilizadas em ciência de dados e Big data

 São gratuitas e podem ser estudadas e aplicadas por qualquer pessoa,


de forma livre;
 São amigáveis, com curva de aprendizagem simplificada e rápida;
 São conhecidas, isto é, há muito conteúdo gratuito disponível na
internet sobre essas linguagens, facilitando o surgimento de novos
desenvolvedores;
 São completas, pois possuem milhares de pacotes com foco em dife-
rentes funcionalidades.

Para Naveiro, Oliveira e Maçaira (2016), o uso de R está se ampliando


porque a linguagem pode ser associada à execução de tarefas consideradas
relativamente simples (como cálculo de média amostral) e de tarefas mais com-
plexas (como desenvolvimento de funções voltadas a modelos de predições).

Instalação do RStudio
As linguagens R e Python, em determinados momentos, podem ser consideradas
concorrentes, pois apresentam funções muito semelhantes. Sem dúvida, uma das
diferenças mais marcantes entre elas é que a linguagem R tem foco muito específico
no tratamento e na manipulação de dados estatísticos. A linguagem Python, por sua
vez, é dedicada à programação, ao processamento de língua natural e até mesmo
à engenharia de dados. Entretanto, ambas têm funcionalidades muito similares.
O RStudio é uma IDE para a execução de códigos da linguagem R. A
seguir, você verá como instalar a ferramenta e testar o seu funcionamento.
Para iniciar a instalação, acesse o site oficial do RStudio e busque o link de
download. Na sequência, instale a ferramenta e observe os quatro frames
numerados na Figura 8, assim como o significado de cada um (a biblioteca
Gapminder foi usada apenas como exemplo).

 Frame 1 - Editor de código: no editor de código, o programador digita


o script. O programa RStudio possui a função de autocompletar os
códigos digitados pelo desenvolvedor.
 Frame 2 – Console: no console, o RStudio exibe os retornos das exe-
cuções dos comandos, ou seja, nele é possível observar os resultados
da execução dos scripts.
 Frame 3 – Ambiente e histórico: nessa área, é possível observar o
histórico das ações executadas pelo programador, bem como quais
foram os comandos digitados por ele.
Ferramentas utilizadas em ciência de dados e Big data 11

 Frame 4 - Files, Plots, Packages, Help e Viewer: na aba Files, você


pode ver a árvore de arquivos e pastas do computador local do desen-
volvedor. Na aba Plots, é possível visualizar os gráficos construídos
no RStudio. Na aba Packages, pode-se analisar e atualizar os pacotes
instalados pelo programador. Na aba Help, você tem acesso aos manuais
da ferramenta, bem como da linguagem. Na aba Viewer, pode ver os
códigos em padrão JavaScript, ou seja, observar como ficariam se
fossem incluídos em uma estrutura HTML.

Figura 8. RStudio com Gapminder executado.

Primeiros passos com RStudio e leitura


de dados do Excel
Na sequência de passos que você verá a seguir, utilizaremos uma planilha do
Excel que será lida dentro do RStudio, representando nosso dataset.

1. Descubra o local onde o software RStudio está instalado na sua máquina


por meio do comando getwd().
2. Crie uma planilha no Excel, conforme o Quadro 2, com o nome de
“vendas.xlsx”.
12

Quadro 2. Planilha vendas.xlsx

Data
Nome Data nasc. Bairro Cidade Curso Período compra Atendente Valor

Carlos 20/08/1983 Perdizes São Paulo Data Science Noite 10/03/2020 Gabriela 2000

Pedro 15/04/2000 Vila Yara Osasco Python Manhã 05/02/2019 Aline 1800

João 25/10/1981 Jd. Pinheiros Taboão da Serra R Tarde 06/12/2018 Luana 950

José 23/02/1992 Moema São Paulo C# Tarde 08/07/2017 Rodrigo 870

Alberto 10/11/1997 Vila Olímpia São Paulo Java Noite 15/04/2015 Paulo 900
Ferramentas utilizadas em ciência de dados e Big data

Wheslley 23/06/1990 Jd. De Lourdes Embu das Artes JavaScript Manhã 20/01/2020 Ana Paula 2750

Graciane 16/01/1987 Jd. Sadie Embu das Artes Excel Manhã 18/02/2020 Luciano 750
Ferramentas utilizadas em ciência de dados e Big data 13

3. Salve o arquivo no mesmo local em que está o RStudio.


4. Instale o pacote “openxls” com o comando i n s t a l l
packages(“openxlsx”).
5. Ative o pacote com o comando library(openxlsx).
6. Importe a planilha com o comando relatorio <- read.xlsx
(“vendas.xlsx”).

Os comandos digitados, incluindo os seus resultados, estão detalhados


na Figura 9. É importante lembrar que cada comando deve ser executado
isoladamente. Só execute o próximo comando após a finalização do anterior.

Figura 9. Importando uma planilha Excel dentro do RStudio.

Ao digitar o comando view(relatorio, a planilha importada será


exibida dentro do RStudio, conforme mostra a Figura 10.
14 Ferramentas utilizadas em ciência de dados e Big data

Figura 10. Exibindo a planilha vendas dentro do RStudio.

Você já sabe o quão poderosa é a linguagem R, mas vale mencionar a importância


das suas inúmeras bibliotecas para a ciência de dados. Elas dão suporte a diversos
recursos que podem ser utilizados pelos cientistas de dados.
No vídeo Recursos para visualização de dados no R e a lógica do ggplot2, do canal
Walmes Zeviani, é apresentada a biblioteca ggplot2, bem como conceitos valiosos
sobre visualização de dados em R.

Você pôde observar neste capítulo uma introdução e a aplicabilidade das


linguagens Python e R. Nas duas tecnologias, é possível analisar dados com
bibliotecas gratuitas e modernas, que são utilizadas por matemáticos, estatísti-
cos, cientistas de dados e programadores. Assim, em virtude da popularidade
de ambas as linguagens, podemos afirmar que elas são boas escolhas para
quem deseja trabalhar com ciência de dados.
Portanto, é importante entender que Python e R são ferramentas essenciais
na vida de qualquer cientista de dados. Dominá-las pode ser um desafio, mas
como as comunidades são bem ativas, é possível encontrar diversos materiais
na internet sobre as duas linguagens, com foco exclusivo na aplicação delas
em ciência de dados.
Ferramentas utilizadas em ciência de dados e Big data 15

CIANCI, E. M. Choosing a chart type. 2018. Disponível em: https://www.erikcianci.com/


blog/2018/07/13/choosing-a-chart-type. Acesso em: 07 abr. 2020.
FREEMAN, M.; ROSS, J. Programming skills for data science: start writing code to wrangle,
analyze, and visualize data with R. Boston: Addison-Wesley, 2018.
NAVEIRO, A. P; OLIVEIRA, F. L. C.; MAÇAIRA, P. M. O uso do software r como ferramenta
de apoio à probabilidade, estatística e pesquisa operacional em engenharia de produção.
2016. Disponível em: http://www.puc-rio.br/pibic/relatorio_resumo2016/relatorios_pdf/
ctc/IND/IND-Andr%C3%A9%20Provenzano%20Naveiro.pdf. Acesso em: 07 abr. 2020.
PHYTON. Beginners guide overview. 2019. Disponível em: https://wiki.python.org/moin/
BeginnersGuide/Overview. Acesso em: 07 abr. 2020.
PHYTON. [Site]. 2020. Disponível em: https://www.python.org/. Acesso em: 07 abr. 2020.
VIÉGAS, F. B.; WATTENBERG, M; FEINBERG, J. Participatory visualization with wordle. [2009].
Disponível em: http://hint.fm/papers/wordle_final2.pdf. Acesso em: 07 abr. 2020.

Os links para sites da web fornecidos neste capítulo foram todos testados, e seu fun-
cionamento foi comprovado no momento da publicação do material. No entanto, a
rede é extremamente dinâmica; suas páginas estão constantemente mudando de
local e conteúdo. Assim, os editores declaram não ter qualquer responsabilidade
sobre qualidade, precisão ou integralidade das informações referidas em tais links.

Você também pode gostar