TESE Rogério Luiz Cardoso Silva Filho
TESE Rogério Luiz Cardoso Silva Filho
TESE Rogério Luiz Cardoso Silva Filho
RECIFE
2017
Rogério Luiz Cardoso Silva Filho
RECIFE
2017
Catalogação na fonte
Bibliotecária Monick Raquel Silvestre da S. Portes, CRB4-1217
BANCA EXAMINADORA
____________________________________________
Prof. Alex Sandro Gomes
Centro de Informática / UFPE
_____________________________________________
Profª. Patrícia Smith Cavalcante
Centro de Educação / UFPE
_____________________________________________
Prof. Paulo Jorge Leitão Adeodato
Centro de Informática / UFPE
(Orientador)
Dedico este trabalho aos meus pais pelo amor e
por não terem medido esforços para a minha
formação educacional. Dedico também a minha
avó Joana e minha tia Enedina (In Memoriam)
por todo amor emanado.
Agradecimentos
Agradeço a Deus, pelo dom da vida, saúde e perseverança. A minha noiva Maria Alice pelo
amor, apoio e revisões sempre pontuais. Ao meu orientador, Paulo Adeodato, pelos
ensinamentos que sempre foram repassados de maneira clara e direta. Tenho certeza que serão
muito úteis na continuidade da minha jornada.
Levo agradecimentos também aos colegas de classe que vieram de todas as partes do
Brasil e participaram de inesquecíveis momentos durante essa formação. Pelo apoio
profissional, agradeço ao Instituto Federal do Norte de Minas Gerais e a todos os colegas que
de alguma maneira auxiliaram na realização desta pesquisa, em especial aos da DGTI.
“O que a vida quer da gente é coragem”
Guimarães Rosa
Resumo
O Ensino Médio brasileiro vem, ao longo dos anos, passando por constantes debates
acerca dos seus problemas de acesso e permanência, qualidade do ensino e até mesmo da sua
identidade. O crescimento da oferta da educação profissional integrada ao ensino médio
protagonizada pelos Institutos Federais (IFs), criados em 2008, vem trazendo resultados
interessantes diante dos grandes investimentos do Governo Federal. Dessa forma, novos
mecanismos que subsidiem gestores no processo de tomada de decisão e na avaliação do
binômio “oferta-qualidade” dessas instituições tornam-se cada vez mais necessários. Esta
dissertação, considerando o papel avaliativo do Exame Nacional do Ensino Médio (ENEM),
apresenta uma solução de mineração de dados em um processo de Knowledge Discovery in
Databases (KDD) para predição e estimação do desempenho dos alunos do Ensino Médio dos
IFs. Para a extração do conhecimento, foi utilizado o método baseado em etapas CRoss-
Industry Standard Process for Data Mining (CRISP-DM) aliado às ideias do framework
Domain-Driven Data Mining (D³M), visando à produção de resultados mais amigáveis aos
especialistas do domínio. As bases de dados do ENEM e as do Censo escolar foram integradas
para a formação de um data-mart apresentado no grão aluno. Após a interpretação e
modelagem do problema, os dados foram preparados para diferentes técnicas de Inteligência
Artificial; inserindo, modificando, preenchendo e excluindo variáveis através de informações
de contexto. A etapa de transformação contou ainda com um procedimento supervisionado de
redução de dimensionalidade que considerou a taxa de valores ausentes, variância e a
correlação entre as variáveis independentes. Na construção dos modelos, a técnica de
regressão logística produziu índices de propensão de sucesso dos alunos e atingiu resultados
superiores a 0,84 e 0,51 para as métricas AUC_ROC e KS2_MAX, respectivamente. Para a
extração do conhecimento em linguagem natural, árvores de decisão construíram condições
sequenciais e regras foram geradas por meio de indução baseada em escores. Essas técnicas
foram avaliadas quanto às métricas: confiança, suporte e lift. Ao final, concluiu-se que a
abordagem apresentada (Domain-Driven Data Mining) teve um ótimo resultado na
modelagem e na validação de políticas públicas.
Throughout the years, the Brazilian Secondary School has gone through constant
debates about its problems of access and permanence, quality of teaching and even of its
identity. The growth in the offer of vocational education integrated to secondary schools,
starred by the Federal Institutes (IFs), created in 2008, has brought interesting results in view
of the large investments of the Federal Government. Thus, new mechanisms that subsidize
managers in the decision-making process and in the evaluation of the "supply-quality"
binomial of these institutions become increasingly necessary. This dissertation, considering
the evaluative role of Secondary School Student Test (ENEM), presents a data mining
solution in a Knowledge Discovery in Databases (KDD) process for predicting and estimating
the performance of secondary school students of IFs. For the extraction of knowledge, the
CRoss-Industry Standard Process for Data Mining (CRISP-DM) method was used associated
with the ideas of the Domain-Driven Data Mining (D³M) framework, in order to produce
friendly results to domain experts. The ENEM and official school census databases were
integrated into data-mart presented in student grain. After the interpretation and modeling of
the problem, the data were prepared for different techniques of Artificial Intelligence;
inserting, modifying, populating, and deleting variables through context information. The
transformation stage also had a supervised procedure of dimensionality reduction that
considered the rate of missing values, variance and the correlation between the independent
variables. In the construction of the models, the logistic regression technique produced a
propensity score for success of students and had your results higher than 0.84 and 0.51 for the
metrics AUC_ROC and KS2_MAX, respectively. For the extraction of knowledge in natural
language, decision trees constructed sequential conditions and rules were generated through
induction based on scores. These techniques were evaluated for the metrics: confidence,
support and lift. In the end, it was concluded that the approach presented (Domain-Driven
Data Mining) had an excellent result in the modeling and the validation of public policies.
1 INTRODUÇÃO..............................................................................................................15
1.1 Motivação e Justificativa...............................................................................................16
1.2 Objetivos.........................................................................................................................19
1.3 Objetivos específicos......................................................................................................19
1.4 Estrutura do trabalho....................................................................................................20
2 REVISÃO BIBLIOGRÁFICA......................................................................................21
2.1 Estudos a partir das bases de dados públicas da educação brasileira......................21
2.2 EBTT – Institutos Federais...........................................................................................23
2.3 Mineração de Dados.......................................................................................................24
6 CONCLUSÃO................................................................................................................70
6.1 Resumo............................................................................................................................70
6.2 Contribuições..................................................................................................................71
6.3 Limitações.......................................................................................................................72
6.4 Trabalhos Futuros..........................................................................................................72
REFERÊNCIAS.............................................................................................................74
1 INTRODUÇÃO
de oferta havia sido extinta através do decreto n° 2.208/1997 (BRASIL, 1997) e só voltou a ser
regulamentada em 2004, com o decreto n° 5.154/2004 (BRASIL, 2004). Isso demonstra uma
contínua discussão acerca dos princípios e identidade da educação profissional ao longo dos anos,
bem como o protagonismo dos Institutos Federais na potencialização deste tipo de oferta, destacada
por (PACHECO, 2011) como uma revolução na educação profissional e tecnológica do Brasil.
De modo geral, diversas são as decisões que vêm sendo tomadas ao longo dos anos acerca
do ensino médio brasileiro, cuja tônica envolve desde novos investimentos a mudanças das
diretrizes curriculares (KUENZER, 2000; BERNARDIM; SILVA, 2014). Nesse sentido, novos
mecanismos para avaliar todo esse processo vêm se mostrando cada vez mais necessários, de
maneira que possam subsidiar os gestores, educadores e especialistas no processo de tomada de
decisão (ARAÚJO; LUZIO, 2005).
nacional da educação básica e, assim como o ENEM, servem de referência para a formulação de
políticas públicas e programas na área da educação.
No ENEM 2014, o desempenho dos alunos do terceiro ano do ensino médio das escolas
federais foi superior ao de outras redes de ensino, inclusive, das escolas particulares., conforme
ilustrado no gráfico da Figura 1. As médias da rede federal foram maiores em todas as áreas de
conhecimento, a saber: Linguagens, códigos e suas tecnologias (LC), Matemática e suas tecnologias
(MT), Ciência da Natureza e suas tecnologias (CN), Ciências Humanas e suas Tecnologias (CH),
além da redação. Analisando o ranking do Enem 2014 por Escola, 79 das 100 melhores médias das
escolas públicas são federais. O ranking é divulgado pelo INEP com o intuito de auxiliar pais,
professores, diretores de escolas e gestores educacionais nas reflexões sobre o aprendizado dos
estudantes no Ensino Médio. Para isso, o INEP utiliza o desempenho dos alunos matriculados na 3°
série do ensino médio, apresentando as proficiências médias por unidade escolar para cada uma das
áreas de conhecimento e para a redação (INEP, 2011).
instalados em mais de 568 cidades em todos os estados brasileiros (BRASIL, 2016). Em 2013, o
número de matrículas já chegou a um total de quase um milhão de alunos (MEC, 2013).
Apesar de os IFs possuírem uma mesma lei de criação e uma semelhante estrutura
organizacional, esses órgãos são autarquias, e como tais, possuem autonomia administrativa e
pedagógica. Neste cenário, é evidente a heterogeneidade acerca do direcionamento dos
investimentos no que se refere a capacitação de professores, grade curricular, estruturas físicas,
dentre outros aspectos que, segundo (TRAVITSKI, 2013) podem interferir no desempenho dos
alunos. (ALMEIDA FILHO, 2014) traz ainda a seguinte reflexão: “até que ponto existe a avaliação
da gestão dos IFs no que diz respeito ao binômio oferta-qualidade do ensino, haja vista a quantidade
de vagas criadas na última década?”
Emergente na tecnologia da informação, a Mineração de Dados (MD) é uma das áreas mais
ativas na última década, impulsionando um grande volume de trabalhos acadêmicos e da própria
indústria nos mais diversos domínios de aplicação (CAO, 2009).
A MD é uma maneira de analisar um conjunto de dados buscando identificar regras, padrões
e desvios. (J.HAN, J.PEI, M.KAMBER, 2012) definem a MD como um processo interdisciplinar de
extração de informação e conhecimento a partir de grandes volumes de dados. (DEOGUN et al.,
1997) ressaltam que essa interdisciplinaridade envolve, principalmente, as áreas de Estatística,
19
Banco de Dados (BD) e Inteligência Artificial (IA), que juntas, podem facilmente formular e
resolver problemas de predição e diagnóstico.
(ADEODATO, 2016) utilizou as bases de dados disponibilizadas pelo INEP (ENEM e
Censo Escolar) para a extração de informações sistemáticas capazes de auxiliar na construção de
soluções de apoio à tomada de decisão, utilizando-se de técnicas de inteligência artificial, estatística
e banco de dados. Esse estudo consiste na instanciação de métodos de MD ao domínio da educação,
chamada por alguns autores (ROMERO; VENTURA, 2013) (MOHAMAD; TASIR, 2013) de
Mineração de Dados Educacionais (MDE).
A Mineração de Dados é uma etapa do processo de Descoberta de Conhecimento
(Knowledge Discovery in Databases – KDD) que consiste na aplicação de técnicas de análise de
dados e algoritmos de descoberta em busca de padrões ou modelos (FAYYAD et al., 1996). Apesar
de ser a MD a principal fase do processo de KDD, outras etapas devem ser percorridas para que o
conhecimento extraído seja potencialmente útil e compreensível aos especialistas de domínio.
Para (KIANG, 2003), sistemas de classificação, utilizando MD, possuem um importante
papel no desenvolvimento de soluções que visam a dar suporte ao processo de tomada de decisão.
Portanto, o presente trabalho versa sobre a aplicação de métodos e técnicas de mineração de
dados por meio de um processo de descoberta de conhecimento nas bases de dados abertas do
Censo Escolar e ENEM, provenientes do ano de 2014. Considera-se como principal ideia desta
pesquisa, a concepção de um modelo capaz de predizer o desempenho dos alunos dos Institutos
Federais, identificando os principais pontos para o sucesso ou insucesso desses indivíduos, de
maneira que auxiliem gestores no processo de tomada de decisão.
1.2 Objetivos
Essa pesquisa visa a desenvolver um modelo, baseado na mineração de dados, que possa
avaliar e prever o desempenho dos alunos que se encontram no último ano do ensino médio dos
Institutos Federais de Educação.
Estimar as chances de alunos dos Institutos Federais de Educação terem sucesso no ENEM
Justificar o porquê da estimativa de sucesso
20
Identificar os principais fatores que influenciam para o desempenho dos alunos nos
Institutos Federais de Educação.
Gerar um data-mart para serem feitas consultas OLAP e modelos de classificação para
suporte à decisão sobre os dados de 2014.
Gerar uma base de regras e uma estrutura de conhecimento para permitir a interpretação dos
aspectos mais relevantes da qualidade dos alunos dos IFs em 2014.
Criar um fluxo de processamento automatizado para se poder replicar o modelo para outros
anos a partir das novas edições do ENEM e do Censo Escolar.
2 REVISÃO BIBLIOGRÁFICA
utilizados para a apresentação das informações. Fazendo uso das mesmas ferramentas, (PIRES,
2015) dividiu os alunos que realizaram o ENEM no ano de 2012 no estado de São Paulo em dois
grandes grupos e depois em outros dois subgrupos, utilizou dos dados socioeconômicos –
escolaridade dos pais e renda mensal familiar – como critério de seleção. Logo, por meio da análise
descritiva, explorou diversas variáveis que pudessem vislumbrar as reais condições presentes,
passadas e futuras dos participantes. O estudo sugeriu que o crescimento da renda potencializa as
diferenças entre os grupos, e identificou também que todas as regiões do país apresentam baixo
desempenho, inferiores a 58%.
Apresentando técnicas mais avançadas de exploração das bases de dados do MEC,
(AMENDOEIRA et al., 2013) expuseram o potencial e as possibilidades do uso da visão
multidimensional e de técnicas de datawarehouse (DW) em um processo de KDD, propiciando
agilidade e facilidade na obtenção de indicadores de qualidade. O estudo apresentou e discutiu
alguns indicadores relacionados ao ensino da Língua Portuguesa, extraídos pelas técnicas
apresentadas.
Indo um pouco mais além, (FONSECA; NAMEN, 2016) aplicou inferências estatísticas e
técnicas de MD, com o intuito de identificar fatores que relacionam o perfil dos professores com a
proficiência obtida pelos seus alunos na Prova Brasil – Sistema de Avaliação da Educação Básica
(SAEB). Os professores foram separados em grupos para a avaliação da influência positiva e
negativa no desempenho dos seus alunos. Os autores dividiram os professores que lecionam
Matemática em dois grupos: “Até 65%” e “Maior que 65%”. No primeiro, estavam os que
apresentaram até 65% dos seus alunos com o desempenho acima da média, já no segundo, os que
apresentaram mais de 65% dos alunos. De maneira análoga, para análise da influência negativa, os
professores foram separados em duas classes, uma com “Até 35%” dos alunos com desempenho
acima da média e outra com mais de 35% dos alunos. Apesar do cuidado em se manter uma certa
simetria de quantidade de indivíduos na divisão dos grupos, e acreditando na capacidade do critério
adotado para o levantamento de alguns indicadores de desempenho, o autor reconhece as possíveis
limitações em suas escolhas.
Com os grupos formados, por meio do algoritmo Naive bayes, calculou-se a probabilidade
que cada atributo implicou na classificação dos professores nas classes citadas. Em uma de suas
conclusões, o trabalho identificou que a estabilidade do vínculo profissional do corpo docente é
relevante para o desempenho positivo dos alunos. Além disso, avaliou que a desvalorização salarial
da profissão do educador; os altos índices de absenteísmo dos alunos e a crença do professor de que
poucos alunos entrarão na universidade tendem a influenciar negativamente o desempenho dos
estudantes.
23
Por meio das bases de dados do ENEM, Censo e IBGE, (ALMEIDA FILHO, 2014) analisou
como a ampliação da oferta da educação básica nos IFs da região Nordeste vem afetando a
qualidade do ensino no período de vigência do PNE 2001-2010. Embora o estudo explore as bases
de dados públicas da educação, inclusive com a proposição de indicadores de gestão escolar, o
trabalho é de cunho descritivo. Sua contribuição se deve principalmente na reflexão acerca de
distorções entre instituições pertencentes a uma mesma Rede. Para tal, o autor estabeleceu um
quadro comparativo com os dados que refletem várias dimensões, como infraestrutura, corpo
docente, didático-pedagógica e desempenho no ENEM de 52 campi do Nordeste. O estudo também
fez um resgaste histórico dos IFs no Brasil e apresentou pontos da conjuntura analisada para
24
a quantidade de trabalhos acerca dessa área evoluiu de forma exponencial, juntamente aos
periódicos, livros e demais eventos (SIEMENS; BAKER, 2012).
Existe uma série de trabalhos de revisões do estado da arte de MDE (BAKER; YACEF,
2009; ROMERO; VENTURA, 2010, 2013; PEÑA-AYALA, 2014). O trabalho mais citado do
gênero, segundo o Google Scholar, (BAKER; YACEF, 2009), utilizou de obras produzidas no
período de 1995 a 2005 destacando principalmente o surgimento da nova subárea, a diversidade de
fontes de dados existentes e algumas expectativas de resultados quando da aplicação de MDE. Além
desse, destaca-se também uma análise dos principais trabalhos de pesquisa publicados no Brasil na
área de MDE (RODRIGUES et al., 2014) O artigo resgata trabalhos que foram produzidos desde o
ano de 2006, e por meio da classificação dos artigos, os resultados dão conta de dimensões
interessantes da pesquisa da área no país.
A predição da performance dos alunos é uma das aplicações de MDE mais antigas e também
mais utilizadas. Os estudos, em sua maioria, visam a estimativa do desempenho dos alunos, bem
como o entendimento da relação do valor estimado com aspectos contextuais e características dos
próprios estudantes. Este não é um problema simples, vários são os fatores que podem influenciar
no desempenho dos mesmos, como informações demográficas, culturais, sociais, familiares,
socioeconômicas, psicológicas, histórico curricular, interações durante o curso etc. (ARAQUE et
al., 2009).
Dentre as pesquisas na área de MDE, destacam-se, em número de publicações, as relativas
aos ambientes de ensino a distância, devido à possibilidade de os resultados advindos da mineração
de dados suprirem a ausência de interação e supervisão física direta com os estudantes. Outro fator
corroborante é a valiosa coleção de dados disponíveis nos Ambientes Virtuais de Aprendizagem
(AVA).
Aplicando KDD sob os dados demográficos dos alunos da faculdade de Economia e
Ciências Sociais da Universidade de Mugla na Turquia no ano de 1995, (GURULER et al., 2010),
exploram os fatores que impactam no sucesso dos estudantes. Os autores utilizam regras de
classificação por árvore de decisão a fim de encontrar qual dado demográfico é mais influente no
desempenho do estudante. A base de dados utilizada foi uma visão de 111 variáveis independentes
oriundas de 13 tabelas pré-selecionadas, onde a média dos alunos foi utilizada como indicador de
sucesso. No intuito de envolver todas as funcionalidades dos softwares SQL Server e Analysis
Services acopladas à base de dados do sistema educacional, foi desenvolvida uma solução de estudo
chamada Mugla University Student Knowledge Discovery Unit Program – MUSKUP. O software
centraliza várias tarefas inerentes ao processo de KDD de maneira harmônica e transparente. O
autor as utilizou para construir dois modelos, o primeiro com alunos com nota maior ou igual à
26
média (2,0) e outro com nota maior ou igual a 3.0; e os validou através de curvas Lift. Os valores
encontrados foram de 1,74 para o primeiro modelo e 1,36 para o segundo, comprovando a
capacidade de predição dos dois modelos, sendo que, o segundo, teve um menor desempenho
devido ao menor número de casos positivos.
Utilizando os dados dos fóruns das redes sociais dos ambientes de aprendizagem da
educação a distância, (ROMERO et al., 2013), desenvolveram um modelo de performance do
estudante. O experimento contou, inicialmente, com dois conjuntos de dados. O primeiro com as
mensagens dos fóruns relativos à metade da disciplina de Fundamentos de Ciências da Computação
de 114 estudantes do curso de Ciências da Computação, e o segundo com as mensagens já do fim
do curso. Esses dois conjuntos foram subdivididos em mais dois, em que os atributos de maior
relevância foram separados por meio de um processo de seleção. O processo de seleção considerou
os atributos que foram selecionados por pelo menos 5 dos 10 algoritmos de seleção de variáveis
aplicados. Por fim, estes 4 subconjuntos foram novamente divididos em dois, considerando as
mensagens que não tinham relação com o assunto da disciplina, formando então 8 subconjuntos de
dados. Os dados foram categorizados em 3 categorias, a saber: Quantitativos (número de mensagens
lidas/postadas, tempo gasto, etc), Qualitativos (avaliação das postagens) e Sociais (ponderação
quanto a proporção de respostas dadas e de respostas recebidas). Como situação final dos alunos,
foram considerados de forma binária os valores “aprovado” ou “reprovado”.
Para fase de mineração, vários algoritmos de classificação tradicional e clustering foram
testados a fim de responder às seguintes questões: a) Quais técnicas de DM são melhores para
prever performance de estudantes a partir da participação em fóruns? Apesar de algoritmos de
classificação supervisionados já serem amplamente utilizados para estas tarefas, algoritmos não-
supervisionados, como o cluster, poderiam trazer resultados interessantes. b) Quais atributos são
melhores para a predição? c) Quais mensagens são melhores? d) É possível uma predição precoce?
Após os experimentos por meio do método 10 cross fold-validation, para a abordagem de
classificação tradicional, técnicas chamadas de “caixa-preta”, conforme esperado, obtiveram, de
maneira geral, maior desempenho, embora não significantes ao ponto de descartar as abordagens de
"caixa branca", que possuem uma melhor interpretabilidade. Já na abordagem via clustering,
somente um algoritmo obteve desempenho semelhante, se comparado à classificação tradicional.
Para estes modelos, que também oferecem uma boa interpretabilidade, foi construído um modelo
adicional de regras de associação para cada cluster, a fim de se identificar as regras mais
representativas. Essa medida visou dar ainda mais interpretabilidade através de regras SE-ENTÃO
às informações dos centroides, além de construir regras mais específicas para cada cluster.
27
Para entender quais atributos são melhores preditores, o autor mediu o comportamento dos
algoritmos em pares por meio do teste estatístico, Wilconxon signed rank test (REY; NEUHÄUSER,
2011). O teste permitiu identificar que os subconjunto de dados com variáveis selecionadas, quase
sempre obtiveram melhores métricas. Outro fator colocado pelos autores que corrobora com o uso
da seleção de atributos é o aumento da compreensibilidade do modelo. O mesmo teste estatístico foi
utilizado para identificar que o subconjunto de mensagens relacionadas ao curso obteve melhores
desempenhos do que quando todas as mensagens disponíveis eram utilizadas. Para analisar a
possibilidade de predição precoce, ainda com o teste Wilconxon, os autores identificaram que em
nenhum dos experimentos o grupo de mensagens colhidas no meio do curso obteve métricas
melhores. Contudo, comparando os índices de acurácia (70 e 80% para os dados do meio do curso,
e 80 e 90% para os dados do fim do curso) aos de outros trabalhos correlatos, o estudo afirma a
viabilidade de seus modelos para ambos os períodos. Porém, vale destacar que nenhum teste
estatístico foi utilizado pelos autores para a comparação dos resultados desses trabalhos.
A compreensibilidade dos modelos gerados a partir da Mineração de Dados é uma
preocupação constante em MDE. Dessa forma, com o objetivo de ressaltar a dificuldade na
construção de um bom modelo de predição, Xing e colegas, em 2015, propôs um modelo utilizando
os dados de um ambiente colaborativo e virtual de resolução de problemas matemáticos da
ferramenta Geogebra (VMTwG). Foi proposto um modelo com boa qualidade de predição e ao
mesmo tempo de fácil interpretação, contextualização e implementação. Os autores utilizaram
técnicas de Programação Genética, abordagens de análise de aprendizado e teorias de contexto
(XING et al., 2015).
No Brasil, destacam-se os trabalhos de (BAKER et al., 2011), em que foi apresentada uma
revisão das pesquisas realizadas na área de MDE. O estudo enfatiza nos principais métodos e
aplicações que vêm influenciando, de maneira satisfatória, a pesquisa e a prática da educação em
vários países, além de discutir as condições que viabilizam este campo de pesquisa no Brasil.
Dentre os trabalhos mais citados, estão os que envolvem o contexto de educação a distância, como
(KAMPFF, 2009), que implementou em um ambiente virtual de aprendizagem uma arquitetura de
geração de alertas para auxílio de professores na interação e no acompanhamento dos alunos. Os
alertas são gerados a partir da classificação dos estudantes, considerando suas características e
comportamento dentro do ambiente virtual.
Para o processo de MD foram considerados dados de alunos de turmas passadas para a
extração das regras, e de alunos acompanhados para a geração dos alertas. O experimento permitiu
comprovar que as intervenções realizadas pelo professor, a partir dos alertas, direcionadas a grupos
que compartilham necessidades específicas, contribuíram para a melhoria dos índices de
28
desempenho dos mesmos. Também com uma abordagem preditiva, (MANHÃES, 2015) conseguiu
com uma acurácia de 75% a 80%, identificar o risco de evasão dos alunos de graduação do curso de
Engenharia Civil da Universidade Federal do Rio de Janeiro – UFRJ. O experimento, através de
uma grande quantidade de testes, utilizou 10 algoritmos em três soluções diferentes de estratificação
de base de dados trazidas pela ferramenta WEKA1, 10 folds cross-validation, Train/Test Percentage
Split (data randomized) e Supplied test set.
Na Universidade Federal de Pernambuco (UFPE), (BARROS; ADEODATO, 2012),
apresentaram uma avaliação sistemática do problema de retenção e evasão universitária na mesma
universidade. O trabalho utiliza os dados acadêmicos e socioeconômicos dos alunos de vários
cursos no período de 1998 a 2008 e, seguindo o processo de extração de conhecimento Cross-
Industry Standart Process for Data Mining (CRISP – DM), desenvolve uma solução de mineração
de dados para identificar e estimar o risco de evasão ou retenção ainda no início do curso. Foram
utilizadas técnicas de regressão logística e redes neurais artificiais que produziram resultados com
alto desempenho, segundo as métricas KS2_MAX e AUC_ROC, além de indução de regras para a
construção de um modelo em linguagem natural. O estudo também apresenta uma análise do ponto
de vista de custos das perdas versus investimentos na prevenção da evasão escolar com o modelo
preditivo apresentado.
Quanto aos trabalhos que se assemelham à pesquisa proposta no que tange à fonte de dados,
destaca-se (ADEODATO, 2016). Com uma abordagem também preditiva, utiliza as bases de dados
disponibilizadas pelo INEP (ENEM e Censo Escolar) para produzir, através de regressão logística,
um classificador capaz de gerar uma pontuação de propensão ao sucesso das escolas privadas
brasileiras, além de identificar e quantificar os principais fatores que influenciam nesses resultados.
A metodologia utilizada para a extração do conhecimento foi a CRISP – DM, visando à futura
implantação de um Sistema de Suporte à Decisão para operação e navegação em tempo real.
Através de árvores de decisão e de indução de regras, os autores geraram modelos mais
compreensíveis, a fim de explicitar como o especialista humano decidiria de forma sequencial
utilizando-se de regras. A qualidade da pontuação de propensão ao sucesso das escolas foi validada
pelas métricas AUC_ROC e Max_KS2, obtendo os valores 0,897 e 0,632, respectivamente.
Pesquisas na área de educação discutem sobre a utilização do ENEM como indicador de
performance escolar. (TRAVITSKI, 2013) faz um amplo estudo sobre as questões sociopolíticas da
escolarização com métodos quantitativos, além de investigar os efeitos da utilização do ENEM para
avaliação escolar. No estudo é destacado que o ENEM não é um indicador adequado de qualidade
escolar para fins de responsabilização, sendo necessário a multiplicidade de indicadores, visto a
pluralidade de fontes de informações que refletem no desempenho dos estudantes. Porém, tendo em
vista a complexidade do problema da qualidade escolar, a sua importância e a falta de um
mecanismo mais completo que avalie as escolas de maneira mais justa e multidisciplinar, o autor
diz ser preciso tomar o ranking do ENEM como ponto de partida. E o coloca como um importante
instrumento no que se refere a definição de políticas públicas com vistas à transparência de
informação e aprimoramento da qualidade escolar.
30
3 METODOLOGIA, TÉCNICAS E
FERRAMENTAS UTILIZADAS
3.1 Introdução
Na área de Mineração de Dados, várias são as técnicas que podem ser utilizadas para
extração de conhecimentos em grandes bases de dados. Selecionar e utilizar as melhores técnicas
para o domínio da pesquisa de maneira adequada é crucial para a obtenção de resultados
satisfatórios.
Para guiar todo o processo, a utilização de uma metodologia faz-se necessária, pois
sistematiza o projeto em fases, guiando a implementação das etapas necessárias para a extração do
conhecimento (KDD), além de destacar os principais objetivos e preocupações de cada uma delas.
Este trabalho utilizou a metodologia CRISP-DM, que envolve todas as etapas destacas por
(FAYYAD et al., 1996), que são: seleção, pré-processamento, transformação, mineração de dados,
interpretação e avaliação. Contudo, outra metodologia, também inserida durante o processo de
KDD, a Data Drive Domain (D3M), possibilitou embutir conhecimento de domínio durante o
processo de descoberta de conhecimento, por meio de revisão de literatura e da experiência do autor
no âmbito dos Institutos Federais.
3.2 CRISP-DM
ajustados para a obtenção de melhores resultados. Nessa fase podem ocorrer retornos
para a fase de preparação dos dados.
6. Implantação (Deployment) – Nesta fase, que ocorre nos casos onde a criação do
modelo não é o fim do projeto, o conhecimento obtido precisa ser organizado e
apresentado de uma forma que o usuário possa usar.
Ressalta-se que a fase 6, fase de implantação, não será aplicada, pois foge do escopo desse
projeto, que se limita apenas à construção de um modelo preditivo, que possa identificar o sucesso e
ou insucesso dos alunos dos institutos federais de educação no exame nacional do Ensino Médio.
No entanto, a construção desse modelo visa a dar condições para uma fácil implantação do
conhecimento extraído.
sentido, a fim de nortear a metodologia dirigida aos dados, (CAO et al., 2005) propuseram uma
abordagem prática, por meio do framework Domain-Driven In-Depth Pattern Discover-DDID-PD,
que envolve praticamente as mesmas fases do conhecido CRISP-DM, porém com três grandes
diferenças, a saber: i) os resultados e a modelagem estão envolvidas na natureza cíclica do modelo,
ii) as fases comuns ao CRISP-DM são enriquecidas com a interação com especialistas do domínio,
iii) as diferenças nas fases do ciclo do modelo são responsáveis por alcançar os objetivos do mundo
real.
Com o crescimento nas últimas décadas dos sistemas de informação e das suas volumosas
bases de dados que são armazenadas em hardware cada vez mais baratos, a Mineração de Dados é
considerada uma das tecnologias mais promissoras da atualidade. Para (J.HAN, J.PEI,
M.KAMBER, 2012) MD pode ser vista como um resultado natural da evolução da tecnologia da
informação.
As tarefas de MD num processo de extração de conhecimento podem ser divididas em
abordagens supervisionadas e não-supervisionadas. As abordagens supervisionadas referem-se às
tarefas em que se é definido um foco, por meio de uma das variáveis, a qual espera-se que o
processo de mineração explique a relação entre ele e as demais variáveis independentes. Já numa
abordagem não-supervisionada, busca encontrar relações e padrões a partir do cruzamento entre
todas as variáveis do conjunto de dados disponíveis.
Para a abordagem supervisionada, modelo empregado neste trabalho, várias são as tarefas
inerentes ao processo de Mineração de Dados, que por sua vez utilizam-se de técnicas que
especificam métodos que auxiliam a extração do conhecimento desejado. Segundo (MCCUE,
2014), para um mesmo problema, várias técnicas devem ser testadas e combinadas, visando a
obtenção de uma melhor solução
Um dos objetivos mais comuns na MD, a Classificação visa identificar a qual classe um
determinado registro pertence. Para uma abordagem de aprendizado supervisionado, a classificação
recebe uma base de dados rotulada (classificada) e aprende a classificá-la para os mesmos rótulos,
novos registros. As técnicas de classificação também podem ser não-supervisionadas, nesse caso, o
34
modelo preditivo deve encontrar padrões e classificar os registros de acordo com medidas, que
podem ser de similaridade ou de dissimilaridade.
As técnicas de classificação são componentes importantes para sistemas de suporte a
decisão. Muitos problemas de tomada de decisão podem ser facilmente formulados para um
problema de classificação, o que faz com que uma variedade de métodos estatísticos e heurísticas da
literatura de Inteligência Artificial venham ser utilizadas para esses problemas. Por meio da
literatura, percebe-se que o comportamento utilizado na escolha das melhores técnicas pra um
determinado problema, tem sido justamente a utilização de várias abordagens. (KIANG, 2003),
recomenda que para a construção de um bom sistema de classificação é fundamental a utilização de
diferentes algoritmos ou combinação de diferentes métodos.
Para aplicações com o objetivo de dar suporte a sistemas de tomada de decisão, um fator
importante nos modelos de predição de desempenho, é a interpretabilidade (HUYSMANS et al.,
2011). Propriedade também destacada por (XING et al., 2015) que colocam a importância desses
modelos serem do tipo “caixa-branca”, para que sejam facilmente interpretados por humanos. Os
autores ainda citam o inapropriado uso de alguns tradicionais modelos de predição concebidos por
meio de técnicas como máquinas de suporte a vetor e redes neurais, devido à necessidade de
conhecimento avançado de computação para seu entendimento, validação e refinamento. Não
diferente, (ROMERO; VENTURA, 2013) enfatizam a importância da interpretação dos resultados
da mineração de dados em ambientes educacionais, e que, embora algumas abordagens “caixa-
preta” possam ter um melhor desempenho preditivo, tornam-se pouco úteis no empoderamento de
pessoas.
Para gerar a árvore, a partir dos dados da Tabela 1, utilizou-se o algoritmo Decision Tree
Learner, implementado na ferramenta de Mineração de Dados KNIME2, similar ao C4.5
(QUINLAN, 1993). O algoritmo exige que o alvo (classe) seja um atributo nominal, já as outras
variáveis independentes, também podem ser numéricas. As decisões de divisão são tomadas por
meio de duas medidas de qualidade, Índice de Gini e Taxa de Ganho.
Uma diferença entre a geração de regras por algoritmos próprios de regras de classificação e
regras geradas por algoritmos de árvores de decisão é a restrição de que toda regra obtida a partir de
uma árvore tenha o atributo raiz em sua condição. Outro importante fator é que a ordem em que as
regras são apresentadas estabelece uma lista sequencial de decisão, com prioridade maior de
predição de classe para a primeira regra. Quando um registro é classificado nenhuma outra regra
posterior poderá ser aplicada sobre ele (KAMPFF, 2009). No Quadro 1, quatro regras independentes
foram geradas. Caso um novo registro se enquadre na primeira regra, ele será classificado com o
desempenho “Satisfatório”, caso não se encaixe, as condições seguintes serão testadas. Se não
atender a nenhuma das condições, estabelecidas pelo modelo, será classificado como
“Insatisfatório”.
Para avaliação dos modelos criados pelas regras de classificação, métricas podem ser
inferidas, como cobertura e precisão, também chamado de risco e lift. A cobertura é o percentual de
tuplas ou instâncias cobertas pela regra em relação ao total, e a precisão é o percentual das tuplas
cobertas pela instância que a regra classificou corretamente (J.HAN, J.PEI, M.KAMBER, 2012)
E, consequentemente,
1
P( y=0)=1− p( y =1)=
1+ exp(β0 +β1 x1 +...+β p x p )
Onde β são os parâmetros do modelo, e a etapa de aprendizagem ou treinamento,
basicamente se dá pela estimação dos coeficientes, geralmente pelo método da máxima
verossimilhança (MONTGOMERY et al., 2009)
A transformação que está por trás do modelo logístico, a chamada função logit, denotada por
g( x ) é uma função linear nos parâmetros β , contínua e que pode variar de −∞ a +∞ :
Essa técnica estatística é possível através de uma alteração em sua função de resposta, que
permite o tratamento de variáveis dicotômicas ao invés das quantitativas, como nos modelos
lineares (J.HAN, J.PEI, M.KAMBER, 2012). Esse comportamento pode ser observado nos gráficos
presentes na figura 4.
39
Para avaliar os desempenhos das regressões logísticas treinadas neste trabalho, foram
utilizadas, além das medidas da matriz de confusão, as métricas KS2 (Komolgorov-Sminorv para
classificação binária) e AUC_ROC (Área sob a curva ROC).
A matriz de confusão, técnica mais simples de avaliação de modelo, é a sumarização dos
termos gerados pelo sistema de classificação entre os dados atuais e a classificação predita. Dadas
duas classes, pode-se falar em tuplas positivas e tuplas negativas. Verdadeiros positivos se referem à
tuplas positivas classificadas corretamente pelo sistema classificador, enquanto que os verdadeiros
negativos são as tuplas negativas marcadas corretamente. Falsos positivos são as tuplas negativas
marcadas erroneamente e por fim, falsos negativos as tuplas negativas marcadas também de
maneira equivocada pelo classificador (J.HAN, J.PEI, M.KAMBER, 2012), conforme Tabela 2.
Partindo da tabela de confusão, várias medias de avaliação do modelo podem ser extraídas,
conforme tabela da Figura 6 (em inglês).
positivo e baixa taxa de falso positivo), demonstrando uma relação entre os benefícios (verdadeiros
positivos) e os custos (falsos negativos) (FAWCETT, 2006).
Para comparar classificadores é necessário sintetizar a curva ROC para um simples medida
escalar que possa representar a performance dos classificadores. A maneira mais comum é calcular
a área sobre a curva, em inglês, Area under Curver (AUC). A métrica possui o valor 1 como
máxima e melhor medida, no entanto, não se deve ter valores menores que 0,5 pra classificadores
reais, pois essa é a área da linha diagonal com início no ponto mínimo (0,0) e fim no ponto máximo
(1,1) do plano.
Um indicador no domínio contínuo do escore é o teste Kolmogorov-Smirnov (KS).
Originalmente criado pra determinar se duas amostras possuem a mesma distribuição, o teste é uma
importante medida de separação. Segundo (SIEGEL, 1975) o teste envolve especificar a
distribuição de frequência acumulada que ocorreria e compará-la com a distribuição de frequência
acumulada observada, viabilizando assim, a utilização do método como medida de dissimilaridade
para problemas de classificação (KS2) (ADEODATO, 2016). Para ambos os propósitos a métrica
usual é calculada através da máxima distância entre as curvas acumuladas dos escores de cada
amostra. Todavia, a dissimilaridade do modelo é avaliada em um único ponto operacional.
Uma boa métrica para avaliar a representatividade de instâncias de uma mesma classe, as
medidas de confiança e lift, a última também chamada de risco, são muito utilizadas para entender a
relevância dos modelos preditivos baseados em regras. O lift é calculado com a frequência relativa
de representantes de uma classe de uma regra pela frequência relativa de representantes da mesma
classe na população. Ou seja, é o percentual das tuplas cobertas pela instância que a regra
classificou corretamente (J.HAN, J.PEI, M.KAMBER, 2012).
3 – Sítio sobre Bussiness Analytics, Big Datam Data Mining e Data Science
42
Weka e KNIME dentro de um conjunto de ferramentas capaz de ser utilizado na maioria das tarefas
de DM.
Para a realização desta pesquisa foram utilizadas somente ferramentas licenciadas sob
licença de software livre. O Sistema de gerenciamento de banco de dados (SGBD) PosgreeSQL foi
utilizado na fase de concepção do data-mart, além de servir para a fase inicial da exploração dos
dados, fase que também utilizou-se do Calc, ferramenta de escritório baseada em planilha presente
no pacote LibreOffice. Nesta fase também foram exploradas algumas funcionalidades da plataforma
de análises KNIME. Para esta última, destaca-se a estruturação por meio de fluxos de todo o pré-
processamento e transformação do conjunto de dados. Para a mineração, utilizou-se das ferramentas
R para a técnica de regressão logística e Weka para geração das árvores e indução de regras.
Todo o processo de KDD e as abordagens utilizadas em cada etapa está ilustrado na Figura
7, servindo para entendimento geral do fluxo adotado nesta pesquisa.
Este capítulo descreve as fases iniciais do processo de KDD. São evidenciados todos os
procedimentos de extração, redução, limpeza e transformações realizadas para a formação dos
conjuntos finais de dados para modelagem, denominadas inputs..
Os dados escolhidos para o estudo proposto nesta dissertação foram os últimos disponíveis
para o ano de 2014 para os Microdados do ENEM, Censo Escolar e Enem por Escola, todos
disponíveis no portal do INEP.
A base de dados do ENEM é formada por variáveis relativas aos alunos, à escola e à prova
em si. As provas estão estruturadas em 4 áreas de conhecimento, mais uma prova de redação. As
provas contêm, cada uma, 45 questões de múltipla escolha, englobando os componentes
curriculares descritos na Tabela 3.
de 2014, foram disponibilizados 6 pastas, a saber: Dados, Dicionário, Inputs, Leia-me, Planilhas e
Provas/Gabritos, totalizando um total de pouco mais de 6 GB de dados.
O Censo Escolar, também disponibilizado no formato CSV, é o principal instrumento de
coleta de informações da educação básica. A sua base de dados é dividida e traz informações das
Escolas, Turmas, Docentes e Matrículas em diferentes tabelas. Além dos dados, também é
disponibilizado um dicionário das variáveis e alguns filtros que auxiliam os pesquisadores na
exploração e utilização dos Microdados.
Junto aos microdados do ENEM, o INEP tem divulgado, nos últimos anos, os resultados e
informações contextuais dos estabelecimentos de ensino. Essas informações estão relacionadas às
suas proficiências médias em cada uma das áreas de conhecimento do ENEM, com informações
geradas a partir do Censo Escolar e ENEM. Alguns exemplos são: o porte da escola (gerado a partir
da quantidade de alunos declarados no censo escolar em turmas do ensino médio), a taxa de
participação (gerado a partir da diferença entre a quantidade de alunos em turmas do ensino médio e
a quantidade de inscritos no ENEM) e Média dos Top 30 (gerada a partir da média dos trinta
melhores alunos da escola).
Além dessas informações, passíveis de serem geradas apenas com os dados disponibilizados
pelo INEP, o sistema traz também alguns indicadores mais elaborados, que puderam ser formulados
somente após a junção da base do ENEM e Censo Escolar no grão aluno. Essa junção ainda não é
possível para os pesquisadores que possuem acesso apenas aos dados abertos do INEP, pois não
existe uma chave de ligação entre as bases no grão indicado. Para isso, o INEP realizou uma busca
exata dos dados pessoais dos alunos informados no Censo Escolar na base de dados dos inscritos no
ENEM 2014, aplicando um processo de consistência por meio de scripts de verificação de fonética
(INEP, 2015a)
Os indicadores elaborados são: i) Indicador de Adequação da Formação Docente (IFD), ii)
Indicador de Permanência na Escola (IPE) e iii) Indicador de Nível Socioeconômico (Inse). O IFD
apresenta uma classificação dos docentes em exercício na educação básica, considerando sua
formação acadêmica e a(s) disciplina(s) que leciona. Os docentes são classificados em 4 grupos, de
acordo com os requisitos legais de formação para cada disciplina em que atua e em cada instituição.
O índice é então calculado por meio da porcentagem de ocorrências de professores que pertencem
ao grupo que possuem formação ideal para lecionar as disciplinas.
O IPE é um indicador que se remete aos estudos do “efeito-escola”, que procura estimar o
impacto da escola sobre o desempenho dos alunos. O indicador parte da premissa de que os ganhos
dos alunos quando potencializados pela escola estão diretamente ligados ao tempo em que o mesmo
esteve exposto aos processos de ensino e de aprendizagem na respectiva instituição escolar. Através
45
de censos passados, são identificadas as instituições em que os alunos cursaram os anos anteriores
ao ensino médio, e de maneira ponderada, este tempo é relacionado com o seu desempenho (INEP,
2015b).
Já o Inse, utilizou-se de três bases de dados da educação, que são: a Avaliação Nacional da
Educação Básica (ANEB), a Avaliação Nacional do Rendimento Escolar (Anresc) e a base do
ENEM. Foram considerados apenas os alunos, que ao preencher o questionário contextual,
assinalaram pelo menos 5 questões sobre: posse de bens no domicílio, contratação de serviços
domiciliares, renda familiar e escolaridade dos pais. Utilizando uma abordagem probabilística para
preenchimento de repostas faltantes, calculou a medida do nível socioeconômico para cada aluno
através de uma escala contínua, e, a partir da análise de cluster (K-means), foram classificados sete
grupos da seguinte maneira: Muito Baixo, Baixo, Médio Baixo, Médio, Médio Alto, Alto e Muito
Alto (INEP, 2015c)
Assim, segundo o INEP, o Inse, juntamente ao IPE e ao IFD,
Após a composição do data-mart, foi necessário aplicar alguns filtros na base de dados, a
fim de selecionar apenas registros de interesse da pesquisa. Nesse sentido, os milhões de linhas
iniciais foram reduzidas para apenas 22.183 (vinte e dois mil cento e oitenta e três). De maneira
concomitantemente, os seguintes pontos como filtro de domínio foram considerados: ser aluno dos
Institutos Federais de Educação, Ciência e Tecnologia; estar cursando o ensino médio regular com
conclusão em 2014 excluindo o ensino médio não seriado; ter realizado as quatro provas objetivas e
a prova de redação obtendo proficiências superiores a zero em todas as provas objetivas 4.
Para que os dados sejam compreendidos e comparados entre estados e regiões, a partir do
desempenho dos alunos5, foi utilizado o gráfico mapa de árvore, Figura 11 e 12. É possível notar
que a região sudeste, além de possuir o maior número de inscritos, também possui o melhor
desempenho, estando todos os estados dessa região entre os 5 melhores do país. A região norte foi a
que demonstrou os piores resultados, não tendo nenhum dos seus estados presentes entre os 10
melhores.
5 – Calculado através da média do somatório de médias das provas objetivas e redação, semelhante ao ENEM por Escola 2014.
Disponível em: download.inep.gov.br/educacao_basica/enem/nota_tecnica/2014/nota_explicativa_enem_2014_por_escola.pdf
49
A fim de entender a correlação entre o desempenho nas proficiências para cada uma das
áreas de conhecimento (CH, LC, MT e CN) e a redação, um gráfico de dispersão foi construído,
50
Figura 13. As variáveis possuem alta correlação para todos os casos, com destaque para as
proficiências CH e LC. É possível perceber uma quantidade homogênea de indivíduos que tiveram
nota zero na redação, porém com diferentes resultados para as 4 áreas.
Em
uma
Quanto à raça declarada, a Figura 14 exibe uma disparidade de frequência entre as regiões
do país. A região sul se destaca pela grande maioria de brancos e a região nordeste com uma
maioria declarada parda. Todos os estados possuem uma quantidade pequena de negros. A região
norte foi a que apresentou uma maior quantidade de indivíduos da raça indígena.
Contagem Cor/Raça
Idade
Média Final
Idade
O desempenho dos estudantes, definido nesse trabalho como a média dos resultados obtidos
nas quatro provas objetivas e redação, pode ter sua frequência ilustrada por meio de um gráfico
histograma, Figura 18, e sua distribuição estatística por meio de um gráfico box-plot, Figura 19.
Contagem Média Final
Média Final
Partindo das informações presentes na base do Censo (tabela Docentes), pôde-se extrair o
grau de titulação de todos os professores para cada escola. Porém, como agregar essas informações
para o conjunto de dados preservando a sua essência conforme colocada pelos especialistas de
domínio? Nesse sentido, considerando o estudo de caso que trata da transformação de granularidade
em banco de dados relacionais, por meio de D³M,(ADEODATO, 2016), optou-se em ponderar,
arbitrariamente, a titulação de cada professor, resguardando que cada docente fosse considerado
apenas uma vez, no seu maior grau de titulação. Isto é, o peso (w) da titulação do professor i na
escola j foi definida por:
[ ]
1, se o professor i possui graduação e leciona na escola j
w ij= 2, se o professor i possui especialização e leciona na escola j
3, se o professor i possui mestrado e leciona na escola j
4, se o professor i possui doutorado e estuda na escola j
Logo,
i=n
∑ X ij wij
ITD j = i=1 , se wij =1
N j×4
Equação 3: Fórmula do índice de
titulação docente
Onde:
residem em cidades diferente das escolas em que estudam) também foram gerados com o intuito de
aumentar o número de informações e permitindo um maior entendimento semântico dos dados. Por
fim, após a junção de todas as bases e a criação das novas variáveis, formou-se uma grande base de
dados no grão aluno, compondo um novo data-mart composto de 316 variáveis.
Para a criação dos modelos preditivos é necessário classificar os alunos em função do seu
desempenho no ENEM. Sendo assim, utilizou-se da média final dos alunos em todas as 4 provas
objetivas e redação. Em seguida, a fim de classificá-los de maneira binária em alunos com bom
desempenho e ruim, foi utilizada a separação por quartis, considerando o quartil superior como
limiar de binarização (ADEODATO, 2016). Assim, alunos com bom desempenho são aqueles cuja a
média esteja no quartil superior da média dos alunos.
Utilizada na fase inicial, a estatística descritiva é utilizada para descrever e resumir os dados,
priorizando a menor perda de informações possível. Tipos de medidas de frequências, de tendências
57
Muitos fatores afetam o sucesso de uma aplicação de mineração de dados. A qualidade dos
dados é um desses. (HALL; HOLMES, 2003) destacam que a irrelevância e a redundância de
informações, bem como a existência de ruídos e discrepâncias, podem ser fatores dificultadores no
processo de descoberta de conhecimento.
Dessa forma, a redução da dimensionalidade além de ser útil para diminuir o tempo de
execução dos algoritmos de mineração, também auxiliam no desempenho final de algoritmos de
classificação, fato destacado por (J.HAN, J.PEI, M.KAMBER, 2012). Os autores ressaltam ainda a
necessidade de se manter a integridade dos dados originais, além da possibilidade de obtenção de
resultados mais compreensíveis.
Muitos trabalhos foram encontrados na literatura acerca da redução da dimensionalidade
para aplicações de DM. Essa redução pode ser feita de duas maneiras, diminuindo o número de
instâncias (KALEGELE et al., 2012) ou diminuindo o número de atributos que descrevem essas
instâncias (KOHAVI; JOHN, 1997).
A redução de atributos de um conjunto de dados possui duas abordagens; em inglês,
Wrapper model (KOHAVI; JOHN, 1997) e filter model (SUBRATA, DAS, 1971). A abordagem
Wrapper model requer um determinado algoritmo de aprendizagem e utiliza a sua performance para
seleção do melhor conjunto de variáveis. Já na abordagem filter model, nenhum algoritmo de
aprendizagem é utilizado e a redução de dimensionalidade acontece baseada em características dos
próprios dados
Utilizando do conhecimento de domínio e da base de dados, optou-se, primeiramente, em
retirar todas as variáveis irrelevantes à classe alvo, além das variáveis a posteriori e identificadores.
Em seguida, foram excluídas ainda as que possuíssem 100% de frequência, ou seja, com variância
próxima a 0. Variáveis assim tornam-se desprezíveis aos algoritmos de classificação.
Considerando a análise exploratória do capítulo anterior, pôde-se perceber que a presença de
alta correlação entre algumas variáveis independentes e a baixa variância poderiam ser melhor
tratadas a fim de se obter um resultado mais profícuo do processo de mineração. Além dessas
58
propriedades, a presença de valores ausentes, também passou a ser um problema, ao passo que,
apesar de poucas colunas terem os chamados, em inglês, missing values, algumas dessas continham
um número elevado.
Nesse sentido, buscando entender em pesquisas semelhantes a abordagem frente a esses três
fatores, percebeu-se que, apesar de serem frequentemente tratados, não está claro na literatura,
devido às particularidades de cada domínio, um limite máximo tolerável para nenhum desses
problemas.
Diante disso, ocorreram as seguintes questões para o conjunto de dados: i) Qual o melhor
grau limite de correlação entre as variáveis independentes? ii) Qual a porcentagem máxima de
missing values aceitável para o modelo? E iii) qual a grau de variância mínimo?
Buscando respostas, resolveu-se sistematizar um processo supervisionado baseado em
(SILIPO et al., 2014). Foram escolhidas 3 técnicas de classificação, Nayve bayes, Redes Neurais e
Árvores de decisão, a fim de encontrar os melhores valores de corte para serem usados nos filtros
para todas as questões colocadas anteriormente.
Um subconjunto de dados (34%) foi separado para a análise de redução de
dimensionalidade. Variáveis já consideradas importantes foram separadas e não participaram do
processo, que foi esquematizado pra cada uma dos três fatores da seguinte forma:
• Alta correlação: através de um processo iterativo, como nas outras duas, com valores v
iniciando de 0,1 a 0,99 com step de 0,1, as técnicas de classificação eram executadas sob os
todos os dados com correlação de até v % (para o par de variáveis com correlação fora do
limite v , apenas uma era escolhida para permanecer). Assim como nas outras duas
técnicas, o valor v , associado à melhor métrica AUC_ROC, era escolhido como valor
máximo de correlação entre as variáveis independentes. Observa-se que, para o cálculo da
correlação utilizou o coeficiente de Pearson para as variáveis categóricas e o valor Chi-
quadrado para as variáveis numéricas. Nenhum coeficiente foi definido entre variáveis
numéricas e categóricas.
que transforma de maneira linear os valores das variáreis, colocando-os entre 0 e 1 através da
seguinte fórmula:
(Vaŕiável−MÍNIMO (Variável))
(MÁXIMO (Variável)−MÍNIMO (Variável))
Equação 4: Fórmula de normalização
Para todas as técnicas, os valores ausentes das variáveis numéricas foram preenchidos com o
valor médio. Para as variáveis categóricas, foram separadas as que possuíam elevada taxa de valores
ausentes, e através de uma análise de domínio, os valores foram preenchidos. Um bom exemplo é a
“q031”(Você deixou de estudar o ensino médio?) em que foi preenchida a resposta NÃO. Pois,
além de ter sido a opção escolhida por 94% dos que responderam, 74% dos alunos do conjunto de
dados possuem idade regular para o curso do ensino médio (até 17 anos). Para que a resposta seja
SIM, esperava-se uma idade mais avançada, devido à necessidade de abandono e posterior regresso
do aluno ao ensino médio.
As variáveis que possuíam uma elevada taxa de ocorrência da moda, tiveram este valor
preenchido para os valores ausentes. Em alguns casos, o valor “AUSENTE” foi imputado.
Para todas as técnicas, atributos numéricos, com exceção dos índices gerados pelo MEC na
base ENEM POR ESCOLA, outliers foram identificados pela dispersão de três vezes o desvio
padrão, os quais foram substituídos pelo valor extremo.
Todo o processamento dos dados feito antes da submissão às técnicas de mineração de dados
foi estruturado em um fluxo, a fim de minimizar possíveis problemas quando da aplicação em
novos conjuntos de dados. Uma versão simplificada do fluxo pode ser observada na Figura 25.
5 EXTRAÇÃO DO CONHECIMENTO E
INTERPRETAÇÃO DOS RESULTADOS
Seguindo a fase da metodologia CRISP-DM, este capítulo exibe os resultados das técnicas
de modelagem que foram propostas no capítulo 3. Por se tratar de uma fase iterativa, é comum a
repetição para ajustes dos parâmetros, a fim de obterem melhores resultados (FAYYAD et al.,
1996). Nesta seção também é apresentada a análise dos resultados da pesquisa, sendo este capítulo o
mais importante desse trabalho.
As árvores de decisão foram construídas por meio do algoritmo J48, que é uma versão
otimizada do C4.5 (QUINLAN, 1993) implementada no pacote de software Weka. Justifica-se essa
escolha devido ao algoritmo ser o mais utilizado e conhecido na sua categoria, sendo amplamente
incorporado em ferramentas de mineração de dados (KIANG, 2003).
Utilizando o método “dividir para conquistar”, o C4.5 é chamado com três parâmetros:
“D”, partição de dados que inicialmente é compreendida por todos os atributos do conjunto de
treino com suas respectivas classes; “Lista_Atributos”, valores que descrevem os atributos da
partição “D” e “Método_Seleção_Atributo”, que especifica o procedimento heurístico usado para
revelar o atributo que melhor define a amostra.
Dessa maneira, em cada nó da árvore, o algoritmo escolhe através do seu
Método_Seleção_Atributo, o atributo que mais particiona o seu conjunto de amostra “D” em novos
subconjuntos que tenderão a uma categoria ou outra. Esse procedimento pode ser implementado
com base na medida de ganho de informação ou índice de Gini (J.HAN, J.PEI, M.KAMBER,
2012).
A estrutura final da Árvore de Decisão é formada por uma sequência hierárquica em forma
de árvore invertida da raiz para as folhas. As folhas das árvores representam regras que explicam o
conhecimento embutido nos dados de forma humanamente compreensível por regras “se-então”
(SAFAVIAN; LANDGREBE, 1991).
Com o objetivo de construir uma árvore com bom desempenho e com um tamanho que
facilite a análise dos especialistas do domínio, os 14.152 exemplos caracterizados por 112 atributos
64
foram submetidas ao processo de 10-cross-validation, sem a opção de poda. Além disso, o número
mínimo de registros por folha foi o valor 708, que representa 5% do conjunto de dados.
A Figura 26 ilustra parte de um ramo da árvore, indicando a representatividade da regra (i.e.
suporte), seguida da concentração de alunos pertencentes à classe alvo (primeiro quartil) (i.e.
confiança), ambas expressas em porcentagem, e a razão entre a confiança da regra e a população
(i.e. lift).
No
topo
da
árvore
estão
os
atributos mais importantes. Nota-se uma maior concentração de bons alunos entre os que optaram
por língua inglesa na prova do ENEM. Aspectos que representam o tamanho da escola e fatores
socioeconômicos também influenciam de maneira direta o desempenho dos estudantes.
65
A indução de regras também gera regras do tipo se-então, porém, “pepitas do conhecimento”
que passariam indetectáveis para as Árvores de Decisão, podem ser encontradas. A indução de
regras não particiona o espaço de entrada e nem pondera sua força pelo seu suporte (ADEODATO,
2016).
Para a aplicação da técnica indução de regras, o input de dados construído, conforme
discutido no capítulo 4, foi submetido ao algoritmo JRIP, uma versão otimizada do algoritmo IREP
(COHEN, 1995) e PART, ambas sem a opção de poda. Por meio da técnica 10-cross-validation, com
a restrição de número mínimo de instâncias por regras em 1% do conjunto de dados, os algoritmos
JRIP e PART geraram 7 e 10 regras, respectivamente.
As três regras com maior e menor lift são exibidas na Tabela 5, em que pode-se observar,
novamente, a influência direta de atributos econômico-financeiros. Essas características aparecem,
sejam ligadas às condições do aluno, como ter estudado em escola particular durante todo o ensino
fundamental, sejam ligadas à estrutura da escola. O índice de titulação docente aparece associado
aos atributos socioeconômicos como condição para o sucesso do aluno. A regra com maior lift com
5 condições, reflete bem a concentração de bons alunos no grupo de estudantes com melhores
condições financeiras e que estudam em escolas mais estruturadas. A regra explicita a baixa
intenção do candidato na contemplação de uma bolsa do Prouni 8, a importância da titulação dos
professores e da estrutura da escola, uma vez que são nas capitais que situam os IFs com maiores
investimentos.
De maneira contrária, a regra com segundo menor lift, 0,68, explicita uma condição
divergente ao observado pelos especialistas de domínio, merecendo ser maior investigada. A regra
relaciona ao grupo de alunos com baixo desempenho àqueles que estudam em escolas que possuem
salas de professores e alojamento estudantil. O alojamento estudantil é visto como um importante
aspecto da assistência ao educando, auxiliando na permanência de alunos de baixa renda na escola.
Já a sala de professores é um requisito importante para a ampliação do atendimento extra-classe dos
alunos.
8 – É o programa do Ministério da Educação que concede bolsas de estudo integrais e parciais de 50% em instituições privadas de
educação superior, em cursos de graduação e sequenciais de formação específica, a estudantes brasileiros sem diploma de nível
superior. <http://siteprouni.mec.gov.br/>
66
Escola não ter sala de professor e socioeconômico do aluno PART 83,3% 2,12% 3,33
alto
Escolher inglês, estudar em capital, ter estudado o ensino Jrip 83,2% 1,34% 3,33
fundamental somente em escola particular e escola reciclar
lixo.
Escola possuir sala de professor e alojamento de alunos PART 17,1% 1,78% 0,68
A Regressão Logística foi a técnica utilizada para a produção dos índices de propensão de
sucesso dos alunos no ENEM. A técnica também é capaz de identificar e quantificar os principais
atributos que influenciam na presença desses alunos no quartil superior de notas.
Para a aplicação da técnica, a amostra de dados foi dividido em dois subconjuntos,
treinamento e testes. O subconjunto de treinamento, com 66% dos dados, foi submetido ao método
forward stepwise para a extração do conhecimento. Amplamente utilizado em modelos de regressão
logística, o método consiste em um processo que adiciona ou exclui variáveis a cada etapa, baseado
em um critério que otimize o modelo, reduzindo a variância e evitando problemas de
multicolinearidade (KUTNER et al., 2004). Para este trabalho o critério de informação Akaike
(AIC)9 foi utilizado.
Para as variáveis categóricas foram geradas variáveis dummies, utilizando-se da última
categoria como referência. Dessa forma, para cada categoria gerou-se uma nova variável, que, por
definição, assumiu os valores 1 ou 0.
Das 112 variáveis independentes iniciais, somadas a K−1 dummies para cada variável
categórica de K níveis, foram incluídas apenas 57 variáveis no modelo de regressão, de acordo
com o método forward stepwise.,
Os índices de propensão dos dez melhores atributos, que influenciam de maneira negativa e
positiva o sucesso dos alunos, para o nível de significância de 5%, estão dispostos na Tabela 6.
Percebe-se, assim como na árvore de decisão e no modelo de regras, a grande influência de aspectos
socioeconômicos dos alunos e estruturais da escola.
Vale ressaltar que outros atributos aparecem somente na regressão, como o tempo que o
aluno levou para cursar o Ensino Fundamental. O modelo mostra também uma vantagem dos alunos
da região sudeste, bem como de quem presta o exame com o objetivo de ingressar na Educação
Superior Pública. É importante destacar ainda, uma maior concentração de atributos do grão aluno
entre os mais preditivos. No Apêndice E, estão dispostos todos os atributos com nível de
significância menor que 5%.
Como a solução de KDD proposta ainda não possui um uso específico em um cenário de
suporte a decisão, optou-se em avaliar a performance do modelo concentrando nas características do
mesmo, sem considerar um único limiar de decisão (ADEODATO, 2016). Posto isso, para a
avaliação do modelo treinado, foi executada a previsão do conjunto de testes com 4.812 registros, e,
de posse dos respectivos escores de propensão, foi gerada a curva ROC para o cálculo da área sob a
curva (AUC_ROC).
A métrica AUC_ROC é considerada uma das métricas de performance mais aceitas para
avaliação de modelos de classificação binária (PROVOST; FAWCETT, 2001) e apresentou, neste
trabalho, um valor de 0,84 para a curva ilustrada na Figura 27.
68
Outra métrica utilizada para avaliação do modelo foi a Max_KS2, que consiste no maior
valor da curva obtida por meio da diferença entre as funções de distribuição acumuladas dos alvos 1
e 0 - Teste de Kolmogorov-Sminrov. A representação das curvas das funções acumuladas e do teste
KS2, que atingiu a distância máxima no ponto 0,51, pode ser observada na Figura 28.
6 CONCLUSÃO
6.1 Resumo
Essa dissertação analisou e extraiu conhecimento das bases de dados do ENEM e do Censo
Escolar de 2014, sobre a qualidade do ensino médio brasileiro integrado à educação profissional. A
oferta do Ensino Profissional integrado ao Ensino Médio, por meio dos institutos federais, tem tido
um grande crescimento nos últimos anos mediante o alto investimento do governo federal.
Os desempenhos dos alunos oriundos dessas instituições no ENEM são muitas vezes
maiores que os de outras escolas, inclusive, escolas particulares. Considerando a grande
importância do ENEM na atualidade e a variedade de informações encontradas em suas bases de
dados foi sistematizado um modelo, baseado em mineração de dados, que pudesse auxiliar a
construção de mecanismos que subsidiem os gestores, educadores e especialistas no processo de
tomada de decisões estratégicas e validação de políticas públicas.
Este trabalho utilizou o conhecimento de especialistas do domínio publicados na literatura, e
por meio da metodologia CRISP-DM, aliada à D³M, forneceu um modelo capaz de avaliar e prever
o desempenho dos alunos que se encontram no último ano do Ensino Médio dos Institutos Federais.
Os alunos foram classificados em duas diferentes classes a partir da média das notas das
competências do ENEM e da redação. O quartil superior foi utilizado como limiar de desempenho,
possibilitando a aplicação de técnicas de classificação binária. A técnica de regressão logística gerou
indicador de chances de sucesso/insucesso dos alunos no ENEM além de identificar fatores
importantes que influenciam no futuro do estudante. Técnicas convencionais de avaliação de
modelos binários, AUC_ROC e KS_MAX, foram utilizadas para medir o desempenho dos índices
de propensão gerados pela técnica de regressão. A árvore de decisão e a indução de regras
explicitaram em linguagem natural as condições que influenciam no desempenho dos alunos e teve
as métricas confiança, suporte e lift avaliadas.
71
6.2 Contribuições
6.3 Limitações
• Repetir o estudo utilizando as bases de dados dos anos posteriores a 2014, para que possa
ser medida a performance desses modelos com novos dados reais.
74
REFERÊNCIAS
AKAIKE, H. An information criterion (AIC). Math Sci, v. 14, n. 153, p. 5–9, 1976.
ALMEIDA FILHO, Á. C. DE. Modelo De Mensuração Do Desempenho Dos Institutos Federais : Uma Análise a
Partir De Microdados Modelo De Mensuração Do Desempenho Dos Institutos Federais : Uma Análise a Partir
De Microdados. , 2014.
AMENDOEIRA, A.; SONIA, N.; DE, X.; et al. RBEP ESTUDOS Indicadores de qualidade do ensino
fundamental: o uso das tecnologias de mineração de dados e de visões multidimensionais para apoio à análise e
definição de políticas públicas *. Rev. bras. Estud. pedagog, v. 94, n. 238, p. 677–700, 2013.
ARAQUE, F.; ROLDÁN, C.; SALGUERO, A. Factors influencing university drop out rates. Computers and
Education, v. 53, n. 3, p. 563–574, 2009.
ARAÚJO, C. H.; LUZIO, N. Avaliação da educação básica: em busca da qualidade e eqüidade no Brasil.
Inep/MEC - Instituto Nacional de Estudos Educacionais Anísio Teixeira, p. 71, 2005.
BAKER, R.; ISOTANI, S.; CARVALHO, A. Mineração de Dados Educacionais: Oportunidades para o Brasil.
Revista Brasileira de Informática na Educação, v. 19, n. 2, p. 3, 2011. Disponível em: <http://br-
ie.org/pub/index.php/rbie/article/view/1301%5Cnhttp://www.br-ie.org/pub/index.php/rbie/article/view/1301>. .
BAKER, R. S. J. D.; YACEF, K. The State of Educational Data Mining in 2009 : A Review and Future Visions.
Journal of Educational Data Mining, v. 1, n. 1, p. 3–16, 2009.
BARROS, H. R.; ADEODATO, P. J. L. A Data Mining Approach for Preventing Undergraduate Students
Retention. WCCI IEEE World Congress on Computational Intelligence, p. 10–15, 2012. Disponível em:
<http://ieeexplore.ieee.org/stamp/stamp.jsp?arnumber=6252437>. .
BERNARDIM, M. L.; SILVA, M. R. DA. Políticas Curriculares para o Ensino Médio e para a Educação
Profissional : propostas , controvérsias e disputas em face das proposições do Documento Referência da Conae
2014 Curricular Policies to High School and Professional Education : Jornal De Políticas Educacionais, v. 16,
p. 23–35, 2014.
CAO, L. Introduction to domain driven data mining. Data Mining for Business Applications, p. 3–10, 2009.
Disponível em: <https://www-staff.it.uts.edu.au/~lbcao/publication/dmba-dddm.pdf>. .
CAO, L.; LIN, L.; CHENGQI, Z. Domain Driven in Depth Pattern Discovery: APractical Methodology.
Proceedings 4th Australasion Data Mining Conference AusDM05, v. 6, p. 101–114, 2005. The University of
Technology, Sydney. Disponível em: <http://hdl.handle.net/10453/1903>. Acesso em: 10/3/2017.
CHAPMAN, P.; CLINTON, J.; KERBER, R.; et al. CRISP-DM 1.0 Step-by-step data mining guide. 2000.
CLEARINGHOUSE, E. Teacher Quality and Student Achievement: A Review of State Policy Evidence Linda
Darling-Hammond Stanford University. Quality, v. 8, n. 1, p. 1–48, 2000.
COHEN, W. W. Fast Effective Rule Induction. In: A. Prieditis; S. Russell (Eds.); Machine Learning
Proceedings 1995. p.115–123, 1995. San Francisco (CA): Morgan Kaufmann. Disponível em:
<http://www.sciencedirect.com/science/article/pii/B9781558603776500232>. .
DEOGUN, J. S.; RAGHAVAN, V. V; SARKAR, A.; SEVER, H. Data Mining: Trends in Research and
Development. Rough Sets and Data Mining: Analysis of Imprecise Data. p.9–45, 1997. Boston, MA:
Springer US. Disponível em: <http://dx.doi.org/10.1007/978-1-4613-1461-5_2>. .
FAWCETT, T. An introduction to ROC analysis. Pattern Recognition Letters, v. 27, n. 8, p. 861–874, 2006.
FAYYAD, U.; PIATETSKY-SHAPIRO, G.; SMYTH, P. From Data Mining to Knowledge Discovery in
Databases. , 1996.
FONSECA, S. O. DA; NAMEN, A. A. Mineração Em Bases De Dados Do Inep: Uma Análise Exploratória Para
Nortear Melhorias No Sistema Educacional Brasileiro. Educação em Revista, v. 32, n. 1, p. 133–157, 2016.
Disponível em: <http://www.scielo.br/scielo.php?script=sci_arttext&pid=S0102-
46982016000100133&lng=pt&nrm=iso&tlng=en>. Acesso em: 20/10/2016.
GOLDHABER, D. D.; BREWER, D. J. Evaluating the Effect of Teacher Degree Level on Educational
Performance. , 1996.
GUERRA, P. C.; YUJI, R.; NAKAMURA, M.; HRUSCHKA, E. R. Estimativa de Demanda Potencial de
Matrículas em Ensino Superior usando Dados Públicos e Múltiplos Modelos de Regressão. , v. 2, 2014.
Disponível em: <http://www.producao.usp.br/handle/BDPI/48650>. .
GURULER, H.; ISTANBULLU, A.; KARAHASAN, M. A new student performance analysing system using
knowledge discovery in higher educational databases. Computers and Education, 2010.
HALL, M. A.; HOLMES, G. Benchmarking attribute selection techniques for data mining. … and Data
Engineering, IEEE Transactions …, v. 15, n. 6, p. 1437–1447, 2003. Disponível em:
<http://researchcommons.waikato.ac.nz/handle/10289/1026%5Cnhttp://ieeexplore.ieee.org/lpdocs/epic03/wrapp
er.htm?arnumber=1245283%5Cnhttp://ieeexplore.ieee.org/xpls/abs_all.jsp?arnumber=1245283>. .
HELENA, M.; CASTRO, G. DE. A reforma do ensino médio e a implantação do Enem no Brasil 1. , 2003.
HOSMER, D. W.; LEMESHOW, S. Applied regression analysis. New York, John Willey, 1989.
HUYSMANS, J.; DEJAEGER, K.; MUES, C.; VANTHIENEN, J.; BAESENS, B. An empirical evaluation of the
comprehensibility of decision table, tree and rule based predictive models. Decision Support Systems, v. 51, n.
1, p. 141–154, 2011.
76
INEP. NOTA EXPLICATIVA ENEM 2014 POR ESCOLA. , 2015a. Disponível em:
<http://download.inep.gov.br/educacao_basica/enem/nota_tecnica/2014/nota_explicativa_enem_2014_por_escol
a.pdf>. Acesso em: 14/3/2017.
INEP. Nota Técnica - Indicador de Nível Socioeconomico (Inse) das Escolas. , 2015c.
JOSÉ, A.; ARAÚJO, N. Ensino Profissionalizante de Nível Médio e seus Efeitos sobre Desempenho Escolar
e Inserção Produtiva: uma análise recente a partir de dados do Censo Escolar e ENEM, 2014. Universidade
Federal de Juíz de Fora - UFJF.
JOVIĆ, A.; BRKIĆ, K.; BOGUNOVIĆ, N. An overview of free software tools for general data mining. .
K.A, R. J. C.; H.M., D.; MAHER. Product appearance inspection methods and apparatus employng low variance
filter. US Patent 523762, 1993.
KALEGELE, K.; TAKAHASHI, H.; SVEHOLM, J.; et al. On-demand data numerosity reduction for learning
artifacts. Proceedings - International Conference on Advanced Information Networking and Applications,
AINA, , n. Ml, p. 152–159, 2012.
KOHAVI, R.; JOHN, G. H. Wrappers for feature subset selection. Artificial Intelligence, v. 97, n. 1–2, p. 273–
324, 1997. Disponível em: <http://www.sciencedirect.com/science/article/pii/S000437029700043X>. .
KRAWCZYK, N. O Ensino Médio no Brasil. Ação Educativa, v. Em questão, p. 1–48, 2009. São Paulo.
Disponível em: <http://www.bdae.org.br/dspace/bitstream/123456789/2342/1/emquestao6.pdf>. .
KUENZER, A. Z. O Ensino Médio agora é para a vida : Entre o pretendido , o dito e o feito. Educação &
Sociedade, , n. 70, p. 15–39, 2000. Disponível em: <http://www.scielo.br/pdf/es/v21n70/a03v2170.pdf>. .
KUTNER, M. H.; NACHTSHEIM, C. J.; NETER, J.; LI, W. Applied Linear Statistical Models (McGraw-
Hill/Irwin Series Operations and Decision Sciences). McGraw-Hill/Irwin, 2004.
LIMA, M.; MENDES, I.; SILVA, D. ENSINO MÉDIO INTEGRADO NO ESPÍRITO SANTO:
PERSPECTIVAS DO DEBATE ACERCA QUALIDADE A PARTIR DOS RESULTADOS DO DESEMPENHO
DE ESTUDANTES NO ENEM. , 2013.
MAHAPATRA, B. Data Reduction in MANETs using Forward Feature Construction Technique. International
Conference on Man and Machine Interfacing (MAMI), p. 0–2, 2015.
MARTINS; PAULA, A. Pressupostos de Gramsci na educação profissional e tecnológica de nível médio. #Tear:
Revista de Educação, Ciência e Tecnologia, v. 1, n. 2, 2012.
MCCUE, C. Data mining and predictive analysis: Intelligence gathering and crime analysis. Butterworth-
Heinemann, 2014.
77
MOHAMAD, S. K.; TASIR, Z. ScienceDirect Educational data mining: A review. Procedia - Social and
Behavioral Sciences, v. 97, p. 320–324, 2013.
MONTGOMERY, D. C.; RUNGER, G. C.; HUBELE, N. F. Engineering statistics. John Wiley & Sons, 2009.
PACHECO, E. Institutos Federais: Uma revolução na educação profissional e tecnológica. Brasília, 2011.
PEÑA-AYALA, A. Educational data mining: A survey and a data mining-based analysis of recent works. Expert
Systems with Applications, v. 41, n. 4 PART 1, p. 1432–1462, 2014.
PIRES, A. Renda familiar e escolaridade dos pais: reflexões a partir dos microdados do enem 2012 do estado de
são paulo. ETD - Educação Temática Digital, Campinas,SP, v. 17, p. 523–541, 2015. Disponível em:
<http://periodicos.sbu.unicamp.br/ojs/index.php/etd/article/view/8638262>. .
PROVOST, F.; FAWCETT, T. Robust Classification for Imprecise Environments. Machine Learning Journal,
v. 42, n. 3, p. 203–231, 2001. Disponível em: <http://people.stern.nyu.edu/fprovost/Papers/rocch-mlj.pdf>.
Acesso em: 21/4/2017.
PROVOST, F. J.; FAWCETT, T.; KOHAVI, R. The Case Against Accuracy Estimation for Comparing Induction
Algorithms. Proceedings of the Fifteenth International Conference on Machine Learning. Anais... , ICML ’98.
p.445–453, 1998. San Francisco, CA, USA: Morgan Kaufmann Publishers Inc. Disponível em:
<http://dl.acm.org/citation.cfm?id=645527.657469>. .
REY, D.; NEUHÄUSER, M. Wilcoxon-Signed-Rank Test. In: M. Lovric (Ed.); International Encyclopedia of
Statistical Science. p.1658–1659, 2011. Berlin, Heidelberg: Springer Berlin Heidelberg. Disponível em:
<http://dx.doi.org/10.1007/978-3-642-04898-2_616>. .
RODRIGUES, R. L.; RAMOS, J. L. C.; SILVA, J. C. S. S.; GOMES, A. S. A literatura brasileira sobre
mineração de dados educacionais. Congresso Brasileiro de Informática na Educação, , n. 3, p. 621–630, 2014.
ROMERO, C.; LÓPEZ, M. I.; LUNA, J. M.; VENTURA, S. Predicting students’ final performance from
participation in on-line discussion forums. Computers and Education, 2013.
ROMERO, C.; VENTURA, S. Educational Data Mining: A Review of the State of the Art. APPLICATIONS
AND REVIEWS, v. 40, n. 6, 2010.
ROMERO, C.; VENTURA, S. Data mining in education. Wiley Interdisciplinary Reviews: Data Mining and
Knowledge Discovery, 2013.
SHLENS, J. A tutorial on principal component analysis: derivation, discussion and singular value decomposition.
Online Note httpwww snl salk edushlenspubnotespca pdf, v. 2, p. 1–16, 2003. Disponível em:
<www.snl.salk.edu/~shlens/pca.pdf>. .
SIEMENS, G.; BAKER, R. S. J. D. Learning Analytics and Educational Data Mining: Torwards Communication
and Collaboration. Proceedings of the 2nd International Conference on Learning Analytics and Knowledge
- LAK ’12, p. 252–254, 2012. Disponível em: <http://www.columbia.edu/~rsb2162/LAKs reformatting
v2.pdf>. .
SILIPO, R.; ADAE, I.; HART, A.; BERTHOLD, M. Seven Techniques for Dimensionality Reduction.
KNIME.com, p. 1–21, 2014.
78
SPACKMAN, K. A. Signal detection theory: Valuable tools for evaluating inductive learning. Proceedings of the
sixth international workshop on Machine learning. Anais... . p.160–163, 1989.
SUBRATA, S. K. DAS. Feature Selection with a Linear Dependence Measure. IEEE Transactions on
Computers, v. C-20, n. 9, p. 1106–1109, 1971.
VIGGIANO, E.; MATTOS, C. O desempenho de estudantes no Enem 2010 em diferentes regiões brasileiras.
Revista Brasileira de Estudos Pedagógicos, v. 94, n. 237, p. 417–438, 2013. Disponível em:
<http://rbep.inep.gov.br/index.php/RBEP/article/viewFile/2776/1929>. .
WANG, G.; WANG, Y. 3DM: Domain-oriented Data-driven Data Mining. Fundam. Inform., v. 90, n. 4, p. 395–
426, 2009. Disponível em: <http://dx.doi.org/10.3233/FI-2009-0026>. .
WITTEN, I. H.; FRANK, E.; HALL, M. A. Data Mining: Practical Machine Learning Tools and Techniques
(Google eBook). 2011.
XING, W.; GUO, R.; PETAKOVIC, E.; GOGGINS, S. Participation-based student final performance prediction
model through interpretable Genetic Programming: Integrating learning analytics, educational data mining and
theory. Computers in Human Behavior, 2015.
YU, L.; LIU, H. Feature Selection for High-Dimensional Data: A Fast Correlation-Based Filter Solution.
International Conference on Machine Learning (ICML), p. 1–8, 2003. Disponível em:
<http://www.aaai.org/Papers/ICML/2003/ICML03-111.pdf>. .
79