Machine Learning: metodologia de mineração automatizada com dados das redes sociais e processamento de linguagem natural
()
Sobre este e-book
Relacionado a Machine Learning
Ebooks relacionados
Inteligência Artificial: considerações sobre Personalidade, Agência e Responsabilidade Civil Nota: 0 de 5 estrelas0 notasIntrodução a Data Science: Algoritmos de Machine Learning e métodos de análise Nota: 0 de 5 estrelas0 notasBig Data Nota: 5 de 5 estrelas5/5Open Web Platform Nota: 0 de 5 estrelas0 notasBig Data para Executivos e Profissionais de Mercado - Terceira Edição: Big Data Nota: 0 de 5 estrelas0 notasBlockchain e Organizações Descentralizadas Nota: 3 de 5 estrelas3/5Internet das Coisas: uma análise sobre o impacto da tecnologia nos cuidados com animais domésticos Nota: 0 de 5 estrelas0 notasSegurança Da Informação Nota: 0 de 5 estrelas0 notasModelagem Matemática de Doenças Infecciosas: com aplicação em Python para COVID-19 Nota: 0 de 5 estrelas0 notasTrilhas em Segurança da Informação: caminhos e ideias para a proteção de dados Nota: 5 de 5 estrelas5/5Sociedade da informação: para onde vamos Nota: 0 de 5 estrelas0 notasUso de Técnicas de Data Science na Previsão: de Febre Amarela Utilizando o Twitter Nota: 0 de 5 estrelas0 notasIntrodução à Inteligência Artificial Nota: 0 de 5 estrelas0 notasA Tomada De Decisão Em Tempos De Big Data Nota: 0 de 5 estrelas0 notasOs Fundamentos Do Raciocínio Estatístico Nota: 0 de 5 estrelas0 notasSéries temporais com Prophet: Análise e previsão de dados com Python Nota: 0 de 5 estrelas0 notasBig Data: Técnicas e tecnologias para extração de valor dos dados Nota: 4 de 5 estrelas4/5Teoria dos Grafos: Uma abordagem prática em Java Nota: 0 de 5 estrelas0 notasInteligência artificial: Aprendendo sobre chatbots, robótica e outros aplicativos de negócios Nota: 0 de 5 estrelas0 notasData Visualization: Transforme dados em conhecimento Nota: 0 de 5 estrelas0 notasMachine Learning: Introdução à classificação Nota: 0 de 5 estrelas0 notasInteligência Artificial como serviço: Uma introdução aos Serviços Cognitivos da Microsoft Azure Nota: 3 de 5 estrelas3/5Inteligência artificial: O guia completo para iniciantes sobre o futuro da IA Nota: 5 de 5 estrelas5/5Pandas Python: Data Wrangling para Ciência de Dados Nota: 0 de 5 estrelas0 notasPython De A A Z Nota: 0 de 5 estrelas0 notasHistória e evolução da inteligência artificial Nota: 5 de 5 estrelas5/5Dados Abertos Governamentais conectados em Big Data: framework conceitual Nota: 0 de 5 estrelas0 notasInteligência artificial: Análise de dados e inovação para iniciantes Nota: 0 de 5 estrelas0 notasIntrodução à Visão Computacional: Uma abordagem prática com Python e OpenCV Nota: 0 de 5 estrelas0 notasNoSQL: Como armazenar os dados de uma aplicação moderna Nota: 0 de 5 estrelas0 notas
Tecnologia e Engenharia para você
Python De A A Z Nota: 0 de 5 estrelas0 notasEnviesados Nota: 5 de 5 estrelas5/5Dominando A Eletrônica Nota: 5 de 5 estrelas5/5Astronomia Básica Nota: 5 de 5 estrelas5/5Python Progressivo Nota: 5 de 5 estrelas5/5Fundamentos de Som e Acústica Nota: 5 de 5 estrelas5/5O Que Todo Atirador Precisa Saber Sobre Balística Nota: 5 de 5 estrelas5/5Sistemas Hidráulicos Nota: 4 de 5 estrelas4/5Paredes Gesso Acartonado Nota: 0 de 5 estrelas0 notasFundamentos De Banco De Dados Nota: 0 de 5 estrelas0 notasEletricista Residencial E Predial Nota: 3 de 5 estrelas3/5Curso De Mecânica Nota: 0 de 5 estrelas0 notasManual Do Proprietário - Para Operação, Uso E Manutenção Das Edificações Residenciais. Nota: 5 de 5 estrelas5/5Orçamento De Obras Nota: 4 de 5 estrelas4/5Introdução Aos Comandos Elétricos Nota: 0 de 5 estrelas0 notasLei Geral de Proteção de Dados (LGPD): Guia de implantação Nota: 5 de 5 estrelas5/5Power Bi Black Belt Nota: 0 de 5 estrelas0 notasTestando Componentes Eletrônicos Nota: 0 de 5 estrelas0 notasMétodos e técnicas de pesquisas científicas Nota: 3 de 5 estrelas3/5Falando Aos 52 Computadores Do Carro Moderno Nota: 0 de 5 estrelas0 notasIntrodução Aos Circuitos Elétricos Nota: 5 de 5 estrelas5/5Laboratório Técnico - Autocad Nota: 0 de 5 estrelas0 notasEletricidade Básica Nota: 0 de 5 estrelas0 notasMotores automotivos: evolução, manutenção e tendências Nota: 5 de 5 estrelas5/5O Segredo Da Roleta Online Nota: 0 de 5 estrelas0 notasGuia Do Técnico Em Segurança Do Trabalho Nota: 0 de 5 estrelas0 notasComo se faz: 99 soluções de instalações hidráulicas e sanitárias Nota: 0 de 5 estrelas0 notasPortuguês Para Concurso Nota: 0 de 5 estrelas0 notasNr-35 Trabalho Em Altura Nota: 0 de 5 estrelas0 notas
Avaliações de Machine Learning
0 avaliação0 avaliação
Pré-visualização do livro
Machine Learning - Flávio Mosafi
1. INTRODUÇÃO
O cenário atual da cidade do Rio de Janeiro, no tocante à segurança pública, em todos os campos, vem se agravando consideravelmente nos últimos anos, ao ponto de recentemente, em 2018, a cidade ter sofrido uma intervenção federal, fato nunca ocorrido na história do Brasil (1). Embora outras cidades da federação também tenham um alto índice de criminalidade, o Rio de Janeiro vem ganhando destaque nos noticiários, em virtude da frequência e da gravidade dos crimes, e também pela sua alta exposição – dado que é uma cidade turística. Diversos fatores têm influenciado esta situação, entretanto, a crise econômica e política vem se mostrando como fatores preponderantes.
Outro ponto que favorece os criminosos em seus atos ilícitos é a distribuição habitacional do município. Comunidades carentes estão instaladas em áreas desprovidas de infraestrutura adequada e, ao mesmo tempo, fincadas no cerne dos bairros mais nobres. Os criminosos se instalam nestas comunidades subjulgando os moradores de bem que ali residem, para ter mais facilidade no cometimento de seus atos ilícitos.
Diante do cenário exposto, no qual vivem os cidadãos do município do Rio de Janeiro, inúmeras pessoas fazem uso das redes sociais para registrar os crimes ocorridos na cidade, fazendo da rede, especialmente o Twitter, uma ferramenta colaborativa. Muitos usuários fazem uso destas informações para tomar decisões no seu dia a dia, por exemplo: verificar se na rota do transporte que o conduz ao trabalho ocorreu algum ilícito, podendo assim, buscar um caminho alternativo.
Ainda que essa colaboração seja um fato no que tange aos crimes ocorridos, muitas mensagens postadas são de difíceis interpretações. Isto é, a forma como os usuários escrevem nas redes sociais não segue um formalismo que segundo (2), refere–se ao estudo da forma linguística, observando especialmente, a fonética, fonologia, morfologia e sintaxe. Portanto, caso a sentença postada não utilize palavras simples e curtas pode induzir o leitor a um entendimento equivocado em relação a intenção do autor.
Este é um dos problemas existentes na mineração de dados oriundos da internet, pois para minerar texto ao ponto de identificar padrões e gerar conhecimento que agregue valor para tomada de decisão, é necessária a utilização de métodos, técnicas e ferramentas. Uma destas técnicas é o Processamento de Linguagem Natural (PLN) que consiste na aplicação de métodos que possibilitam à máquina manipular os dados de modo a extrair semântica dos textos (3).
A descoberta de conhecimento consiste em um processo não trivial de extração de dados de forma implícita, previamente desconhecida e potencialmente útil em uma base de dados. Ela pode ser aplicada em várias frentes e para diversos propósitos, contudo para efeito deste trabalho o objetivo é a identificação de padrões de eventos de segurança ocorridos no Rio de Janeiro.
1.1. MOTIVAÇÃO
A Mineração de dados e o aprendizado de máquina são temas que vêm sendo selecionados tanto pela academia quanto pelo mercado e tratado como um grande campo de estudo. Diversos projetos que contribuem para o conhecimento científico nascem dessas linhas de pesquisa. O Instituto de Segurança Pública (ISP) – autarquia vinculada diretamente à Secretaria de Estado de Segurança Pública (SESEG) – cuja missão é produzir e disseminar políticas de segurança pública, afirma que a taxa de letalidade violenta sofreu forte redução a partir de 2010, após o início das Unidade de Polícia Pacificadora (UPP) e a implantação do Sistema de Metas.
A partir de 2013, porém, a taxa entrou em trajetória ascendente e, em 2017, atingiu o patamar mais alto desde 2010, como demonstra à figura 1. Por esses fatos e pela elevada onda de crimes que ocorrem no município do Rio de Janeiro e regiões adjacentes. Este trabalho visa contribuir com a sociedade científica e ajudar os órgãos de segurança na identificação de padrões de comportamento criminosos a partir do desenvolvimento de uma metodologia para a extração automatizada das informações necessárias para a composição de estatísticas relacionadas a eventos de segurança publicados em microtextos de redes sociais.
Figura 1 – Vítimas de letalidade no Rio de Janeiro
1.2. CARACTERIZAÇÃO DO PROBLEMA
O aumento da criminalidade no estado do Rio de Janeiro tornou–se um grande problema para a sociedade. Os órgãos de segurança encontram muitas dificuldades para identificar e agir proativamente no combate aos latrocínios, homicídios, roubos, furtos, assaltos dentre outros crimes. Isso tem proporcionado o aumento desses atos em todo estado, conforme ilustrado na figura 2. A população tem utilizado diversos canais de comunicação, sobretudo as redes sociais, para notificar os atos ilícitos ocorridos no estado. Contudo essas informações são desestruturadas e algumas vezes repetitivas.
Elas seriam de grande valia para os órgãos de segurança no mapeamento e identificação de padrões de atos criminosos, se as mensagens postadas seguissem um formalismo de escrita. Ou seja, se as postagens não fossem compostas de símbolos, imagens, codinomes, abreviações etc. Assim, as mensagens (posts) passaram a não ser tão interessantes visto o grande esforço que seria gasto para se obter alguma informação interessante.
Figura 2 – Vítimas de letalidade violenta (por 100 mil habitantes)
Conquanto os dados estejam desestruturados é importante ressaltar a riqueza com que eles se apresentam. Vale investir tempo de análise para identificar a melhor forma de trabalhá–los e de extrair conhecimento deles. As Application Programming Interface (API’s) fornecidas pelas plataformas das redes sociais, disponibilizam diversos dados das postagens realizadas por seus usuários que podem ser recuperadas para extração das informações necessárias, como: autor; dia; hora; localização; mensagem; etc. Sendo essas, as informações importantes para auxiliar o negócio em questão na tomada de decisão. Um dos problemas identificados nas publicações das mensagens das redes sociais para mineração de microtextos, é a dificuldade de retirar os dados desnecessários do post sem descaracterizar o contexto que o autor tentou passar e, assim, poder interpretar a mensagem de forma correta.
1.3. OBJETIVOS
O objetivo deste trabalho é apresentar uma metodologia de extração automática de conhecimento, na forma de estatísticas relacionadas à eventos de segurança (tiros, operação policial, assaltos, roubos, sequestros, patrulhamento, dentre outros), de microtextos postados livremente em redes sociais e armazenados em uma base de dados para processamento futuro. Como objetivo secundário, este trabalho visa popular uma base de dados não estruturada (informações não higienizadas) e uma base de dados estruturada (informações higienizadas) como consequência do processo de mineração de dados, especificamente as etapas de coleta de dados e de pré-processamento, respectivamente.
1.4. JUSTIFICATIVA
Fundamental é uma palavra que expressa o papel das Forças Armadas do Brasil (FA), zelando por manter a ordem social. A Estratégia Nacional de Defesa (END) é um capítulo à parte neste contexto, todavia de suma importância, pois é nela onde são estabelecidas as diretrizes para garantir a segurança no país, tanto em tempo de paz quanto em tempo de guerra. Tais direcionadores visam, dentre outras frentes, a preparação e a capacitação das Forças Armadas no que tange a adoção de novas tecnologias por intermédio de pesquisas e parcerias com a iniciativa pública e privada, a fim de que os projetos fiquem sob o domínio nacional.
Assim sendo, o Instituto Militar de Engenharia (IME) torna–se peça central nesse processo, pois sendo um órgão responsável pela pesquisa em defesa cibernética do Exército Brasileiro (EB), contribui assiduamente para que as diretrizes da END sejam implementadas e alcançadas. Seguindo essa linha mestra, o trabalho busca contribuir com os órgãos de segurança do Brasil.
1.5. ESTRUTURA DO TEXTO
Este trabalho foi segmentado nas seguintes sete partes. No capítulo Conceitos e Estado da Arte são demonstrados os arcabouços conceituais, os trabalhos dos últimos cinco anos que estão relacionadas com este trabalho e os métodos e as técnicas utilizadas, a saber: análise de microtextos recuperados das redes sociais; uso do processamento de linguagem natural e utilização dos algoritmos de aprendizado de máquina supervisionados e não supervisionados em todo processo de mineração de dados.
A seção Trabalhos Relacionados contém o registro