Ciência de Dados
Ciência de Dados
Ciência de Dados
Tornando-se um Unicórnio
Ciência de dados significa fazer um trabalho de análise que, por uma razão ou outra,
requer uma quantidade substancial de habilidades skills de software.
Às vezes, a entrega final é o tipo de coisa que um estatístico ou uma empresa analista
pode fornecer, mas atingir esse objetivo exige habilidades de software que seu analista
típico simplesmente não tem. Por exemplo, um conjunto de dados pode ser tão grande
que você precisa usar computação distribuída para analisá-lo ou tão complicado em seu
formato que muitas linhas de código são necessárias para analisá-lo. Em muitos casos, os
cientistas de dados também precisam escrever grandes pedaços de software de produção
que implementem suas ideias analíticas em tempo real. Na prática, geralmente existem
outras diferenças também. Por exemplo, os cientistas de dados geralmente precisam
extrair recursos a partir de dados brutos, o que significa que eles lidam com problemas
muito abertos, como quantificar o “spamness” de um e‐mail.
É muito difícil encontrar pessoas que possam construir bons modelos estatísticos, hackear
software de qualidade e relacione tudo isso de maneira significativa com os problemas de
negócios.
São muitos chapéus para usar! Esses indivíduos são tão raros que os recrutadores
costumam ligar para eles “unicórnios”.
A mensagem deste livro é que não é apenas possível, mas também relativamente simples
para se tornar um “unicórnio”. É apenas uma questão de adquirir o particular equilíbrio de
habilidades necessárias. Muito poucos programas educacionais ensinam todas as essas
habilidades, e é por isso que os unicórnios são raros, mas isso é principalmente um
acidente histórico.
É perfeitamente razoável que uma única pessoa tenha toda a paleta de habilidades, desde
que estejam dispostos a ignorar os limites tradicionais entre diferentes disciplinas
Este livro tem como objetivo ensinar tudo o que você precisa saber para ser um cientista
de dados. Meu palpite é que você é um programador de computador procurando aprender
sobre análise ou mais de um matemático tentando em sua codificação. Você também
pode ser um empresário que precisa do conhecimento técnico habilidades para responder
às suas perguntas de negócios ou simplesmente um leigo interessado.
Seja você quem for, este livro ensinará os conceitos de que você precisa.
Este livro não é abrangente. A ciência de dados é uma área muito grande para qualquer
pessoa ou livro para cobrir tudo isso. Além disso, o campo está mudando tão rápido que
qualquer livro “abrangente” estaria desatualizado antes de sair das prensas. Em vez
disso, apontei para dois objetivos. Em primeiro lugar, quero dar uma base sólida no visão
geral do que é ciência de dados, como fazê-lo e os fundamentos conceitos que resistirão
ao teste do tempo. Em segundo lugar, quero dar um “completo” conjunto de habilidades,
no sentido de que você tem o conhecimento básico para ir e fazer o trabalho de ciência de
dados (você pode codificar em Python, você conhece as bibliotecas usar, a maioria dos
grandes modelos de aprendizado de máquina, etc.), mesmo que projetos específicos ou
empresas podem exigir que você adquira um novo conjunto de habilidades em algum
lugar outro.
1.2. Não são cientistas de dados, apenas pagam a mais aos estatísticos?
Nate Siver, um Estatístico famoso pela precisão nas previsões das eleições dos US, uma
vez disse: “Vejo cientistas de dados como um termo atrativo para estatístico” (I think data
scientist is a sexed-up term for statititiciam), ele tem um ponto, mas o que diz é apenas
parcialmente verdade. A disciplina Estatística lida principalmente como métodos
matemáticos rigorosos para resolver problemas bem definidos. Os cientistas de dados
passam a maior parte do tempo obtendo dados em um formato em que métodos
estatísticos poderiam até ser aplicados. Isso envolve certificar-se de que o problema de
análise é uma boa combinação para os objetivos de negócios, extraindo características dos
dados brutos e lidar com quaisquer patologias dos dados ou casos de borda estranhos.
Uma vez que o trabalho pesado é feito, você pode aplicar ferramentas estatísticas para
obter os resultados finais, embora, na prática, muitas vezes você nem precise deles.
Este livro está organizado em treze seções. A primeira, Coisa que você sempre vai usar,
cobre tópicos que, na minha experiência, você vai acabar usando em quase projeto de
Data Science. São competências essenciais, absolutamente indispensáveis para ciência de
dados em qualquer nível.
A primeira seção também foi escrita com foco em pessoas que precisam de Data Sciencie
para responder a uma questão específica, mas não aspiram a se tornarem cientistas de
dados. Se você está neste campo, então há uma boa chance de que a Parte I do livro lhe
dê tudo o que você precisa.
Na segunda sessão, Coisas que você ainda precisa saber , cobre o núcleo adicional
habilidades para um cientista de dados. Algumas delas, como o agrupamento, são tão
comuns que eles quase chegaram à primeira seção, e eles poderiam facilmente
desempenhar um papel na qualquer projeto. Outros, como o processamento de linguagem
natural, são assuntos um pouco especializados que são críticos em certos domínios, mas
supérfluos em outros.
Na minha opinião, um cientista de dados deve estar familiarizado com todos esses
assuntos, mesmo que nem sempre usem todos. A seção final, Coisas que é bom saber,
cobre uma variedade de tópicos que são opcionais. Alguns desses capítulos são apenas
expansões de tópicos do primeiro duas seções, mas dão mais embasamento teórico e
discutem alguns tópicos adicionais. Outros são materiais inteiramente novos, que surgem
em dados ciência, mas que você poderia seguir por uma carreira sem nunca se deparar.
1) Você pode lê-lo de capa a capa. Se você fizer isso, deve dar-lhe um autocontido curso
de ciência de dados que o deixará pronto para enfrentar problemas reais. Se você tem
uma sólida experiência em programação de computadores, ou em matemática, então
algumas delas serão revisadas.
2) Você pode usá-lo para se atualizar rapidamente sobre um assunto específico. Tentei
para tornar os diferentes capítulos bastante autocontidos, especialmente os capítulos após
a primeira seção.
….
A general introduction to data analytics (MOREIRA et al., 2018) Seções 1.1, 1.2 e 1.3
Até recentemente, os pesquisadores que trabalhavam com análise de dados lutavam para
obter dados para seus experimentos. Os avanços recentes na tecnologia de
processamento de dados, armazenamento de dados e transmissão de dados, associados a
softwares de computador avançados e inteligentes, reduzindo custos e aumentando a
capacidade, mudaram este cenário. É a época da Internet das Coisas, onde o objetivo é
ter tudo ou quase tudo conectado. Dados previamente produzidos em papel agora estão
online. A cada dia, uma quantidade maior de dados é gerada e consumida.
Sempre que você colocar um comentário em sua rede social, faça upload de uma
fotografia, alguma música ou um vídeo, navegue pela Internet ou adicione um comentário
um site de comércio eletrônico, você está contribuindo para o aumento de dados. Além
disso, máquinas, transações financeiras e sensores, como câmeras de segurança, são
cada vez mais coletando dados de fontes muito diversas e difundidas.
Apesar da impressão que isso pode dar - que estamos nos afogando em dados – há vários
benefícios em ter acesso a todos esses dados. Esses dados fornecem uma rica fonte de
informações que podem ser transformadas em novas, conhecimento útil, válido e
compreensível para o ser humano. Assim, há um crescente interesse em explorar esses
dados para extrair esse conhecimento, usando-o para tomada de decisão em uma ampla
variedade de campos: agricultura, comércio, educação, meio ambiente, finanças, governo,
indústria, medicina, transporte e Cuidado. Várias empresas ao redor do mundo estão
percebendo a mina de ouro que têm e o potencial desses dados para apoiar seu trabalho,
reduzir o desperdício e atividades de trabalho perigosas e tediosas, e aumentar o valor de
seus produtos e seus lucros.
A análise desses dados para extrair tal conhecimento é tema de uma vibrante área
conhecida como data analytics, ou simplesmente “analytics”.
Você pode encontrar várias definições de análise na literatura. A definição aqui adotada é:
Analytics é a ciência que analisa dados brutos para extrair conhecimento útil (padrões)
deles.
Nos primeiros anos do século 20, surgiu o termo big data. Big data, um tecnologia de
processamento de dados, foi inicialmente definida pelos “três Vs”, embora mais alguns Vs
foram propostos desde então. Os três primeiros Vs nos permitem definir uma taxonomia
de big data. São eles: volume, variedade e velocidade.
Volume está preocupado em como armazenar big data: repositórios de dados para
grandes quantidades de dados.
A Velocidade diz respeito à capacidade de lidar com dados que chegam muito rápido, em
fluxos conhecidos como fluxos de dados. Analytics também é descobrir conhecimento de
fluxos de dados, indo além do componente de velocidade do big data.
Outro termo que apareceu e às vezes é usado como sinônimo de big data é Data Science.
De acordo com Provost e Fawcett [5], Big Data são dados conjuntos muito grandes
para serem gerenciados por tecnologias convencionais de processamento de
dados, exigindo o desenvolvimento de novas técnicas e ferramentas para
armazenamento de dados, processamento e transmissão. Essas ferramentas
incluem, por exemplo, MapReduce, Hadoop, Spark e Storm. Mas o volume de dados
não é a única caracterização de grandes dados. A palavra “grande” pode se referir ao
número de fontes de dados, à importância dos dados, à necessidade de novas técnicas de
processamento, à rapidez com que os dados chegar, à combinação de diferentes
conjuntos de dados para que possam ser analisados em tempo, e sua ubiquidade, uma
vez que qualquer empresa, organização sem fins lucrativos ou indivíduo tem acesso aos
dados agora.
Assim, o Big Data está mais preocupado com a tecnologia. Ele fornece uma computação
ambiente, não apenas para análise, mas também para outras tarefas de processamento
de dados.
Para lidar com esses requisitos, novas ferramentas e técnicas de software foram
desenvolvidos. Uma das primeiras técnicas desenvolvidas para processamento de big data
usando clusters foi MapReduce.
Para resolver de forma eficiente um problema de BIG DATA, um sistema distribuído deve
atender a seguintes requisitos:
Certifique-se de que nenhum pedaço de dados seja perdido e que toda a tarefa seja
concluída. Se um ou mais computadores tem uma falha, suas tarefas e os dados
correspondentes pedaço, deve ser assumido por outro computador no cluster.
Mas do que tratam os dados? Os dados, na era da informação, são um grande conjunto
de bits codificar números, textos, imagens, sons, vídeos e assim por diante. A menos que
adicionemos informação aos dados, eles não têm sentido. Quando adicionamos
informações, dando um significado para eles, esses dados tornam-se conhecimento. Mas
antes que os dados se tornem conhecimento, normalmente, eles passam por várias etapas
onde ainda são chamados de dados, apesar de serem um pouco mais organizados; ou
seja, eles têm algumas informações associadas a eles.
Nos dados tabulares, os dados são organizados em linhas e colunas, onde cada coluna
representa uma característica dos dados e cada linha representa uma ocorrência dos
dados. Uma coluna é chamada de um atributo ou, com o mesmo significado, um recurso,
enquanto uma linha é referida como uma instância, ou com o mesmo significado, um
objeto.
Exemplo 1.1
A maioria dos capítulos deste livro espera que os dados estejam em formato tabular; ou
seja, já organizado por linhas e colunas, cada linha representando uma instância e cada
coluna representando um atributo. No entanto, uma tabela pode ser organizados de forma
diferente, tendo as instâncias por coluna e os atributos por linha.
Existem, no entanto, dados que não são possíveis de representar em uma única tabela.
Exemplo 1.3 Como exemplo, se alguns dos contatos são parentes de outros contatos,
seria necessária uma segunda tabela, conforme a Tabela 1.2, representando as relações
familiares. Você deve observar que cada pessoa referida na Tabela 1.2 também existe na
Tabela 1.1, ou seja, existem relações entre atributos de tabelas diferentes.
Conjuntos de dados representados por várias tabelas, deixando claro as relações entre
essas tabelas, são chamadas de CONJUNTOS DE DADOS RELACIONAIS. Esta informação é
facilmente manipulada usando bancos de dados relacionais. Neste livro, apenas formas
simples de dados relacionais deve ser usado. Isso é discutido em cada capítulo sempre
que necessário.
»»
OBJETIVOS
Obter conhecimentos introdutórios sobre as áreas de Ciência de Dados e Big Data, suas
causas e oportunidades;
Demonstrar como resolver problemas reais por meio de perguntas sobre dados.
Volume de quantidade de dados: Representada a quantidade que temos em MB, Gbs, Tbs,
produzidos anualmente, implicando na necessidade de se ter grande poder computacional
para o armazenamento da massa de dados e também de grande poder computacional
para processamento desta quantidade de dados.
Trata-se da heterogeneidade dos dados gerados. Imagens, textos, vídeos áudios e etc.
Trata-se do enorme fluxo de dados transmitidos em tempo real dentro da rede mundial de
computadores.
É a ciência que analisa dados brutos para extrair conhecimento útil deles.
A ciência de dados está preocupado com a criação de modelos capazes de extrair padrões
de dados complexos e com o uso desses modelos em problemas da vida real.
Big Data
Há muita sobreposição entre os termos “ciência de dados” e “big data”. Dentro prática, há
uma relação próxima entre eles, mas na verdade eles significam coisas separadas. Big
Data refere-se a várias tendências em armazenamento e processamento de dados, que
trouxeram novos desafios, ofereceram novas oportunidades e exigiram novas soluções.
Muitas vezes, esses problemas de Big Data exigiam um nível de software conhecimentos
de engenharia que estatísticos normais e analistas de dados não eram capazes de lidar.
Também levantou muitas questões difíceis e mal colocadas, como a melhor forma de
segmentar usuários com base em dados brutos de fluxo de cliques. Essa demanda é o que
virou “cientista de dados” em um cargo novo e distinto. Mas os cientistas de dados
modernos abordam problemas de qualquer escala e só usam tecnologias de Big Data
quando são ferramenta certa para o trabalho.
Big Data também é uma área em que a engenharia de software de baixo nível se
preocupa
tornam-se especialmente importantes para os cientistas de dados. É sempre importante
que eles
pensar muito sobre a lógica de seu código, mas as preocupações com o desempenho são
estritamente preocupação secundária. No entanto, em Big Data, é fácil adicionar
acidentalmente vários horas para o tempo de execução do seu código, ou até mesmo
fazer com que o código falhe várias horas devido a um erro de memória, se você não ficar
de olho no que está acontecendo dentro do computador.
CLUSTER
Muitas vezes isso permite o uso de hardware simples, evitando a necessidade de utilização
de servidores complexos ou dos chamados supercomputadores para realizar a mesma
tareja, reduzindo, assim, os investimentos.
Small Data
Assim, enquanto o Big Data está focado em análises em grande escala, o Small Data
fornece informações mais qualitativas e precisas. Em outras palavras, pequenas pista e
informações valiosas.
5
Além dos "3 Vs" iniciais, velocidade, volume e variedade, fala-se ainda de Veracidade e
Valor, sendo veracidade o enorme volume de dados permite uma análise mais apurada e
exata, e Valor diz respeito que o acesso a uma quantidade de massiva de dados possibilita
à geração de valor.
4
Quanto maior a amostra, mais difícil de se encontrar padrões significativos ao mesmo
tempo que as distorções de "tamanho" podem dar relevância à trivialidades
3
Algumas das ferramentas existentes são: Word2vec, TF-IDF e Bag of Words.
2
É um conjunto de dados em menor escala, cujo volume, complexidade, variedade são
menores de que um Big Data, passiveis de ser processados por uma pessoa ou por uma
pequena organização. Por exemplo os referentes ao setor de compras de uma empresa.
1
Big Data está relacionado com tecnologia, diz respeito a todos os dados gerados
habitualmente pela atividade humana e Data Sciencie diz trata-se da ciência aplicada na
análise e processamento destes dados brutos, com o fim de extrair padrões e obtenção de
soluções para vida real.
Competências
Python/R;
SQL;
Diferenciais
SAS - Certificação, exame gratuito
VB, C, C#, Java;
Power BI
Mineração de Dados
Domínio em Wordpress;
Apache Airflow
GROINER, estruturas de dados js 8:20 Mythic4l M4n Month 10:30 FOWLER, code smells 12:20 ANICHE,
tdd