Abordagem de Máquina para Avaliar Ensino Médio
Abordagem de Máquina para Avaliar Ensino Médio
Abordagem de Máquina para Avaliar Ensino Médio
JATAÍ-GOIÁS
2017
ANDRÉ OLIVEIRA GOMES
de Assis Costa
JATAI-GOIÁS
2017
Dados Internacionais de Catalogação na Publicação na (CIP)
CDD 006.3
ABASTRACT
School dropout is one of the major problems faced by education systems in many countries
around the world. There are several studies that evaluate possible causes for this situation, such
as socio-economic profile of the student, characteristics and structure of the school and also the
region where it is inserted, profile of teachers, as well as several others. However, much of this
information is imprecise or not known for a number of reasons that go beyond the capacity of
educational management systems. Therefore, the need to use systems that automate the analysis
of possible causes is extremely important for the decision-making process to be taken by managers.
The purpose of this paper is to apply machine learning techniques to perform this type of analysis.
The advent of machine learning techniques makes the optimal exploitation of databases possible,
allowing the emergence of new perspectives and information that may aid in the decision-making
process. Thus, it is possible to predict possible high school dropout with relative accuracy, based
on determinant factors found in data from previous academic years as family socioeconomic
information. For the accomplishment of the experiments we used a database obtained from the
reality of high school classes of schools in Portugal.
6
LISTA DE ILUSTRAÇÕES
1 INTRODUÇÃO ............................................................................................................ 9
3 FUNDAMENTAÇÃOTEÓRICA .................................................................................. 18
3.3.1.5 Perceptron/Adaline.................................................................................. 23
4 METODOLOGIA ........................................................................................................ 37
5 DESENVOLVIMENTO ............................................................................................... 47
5.2 IMPLEMENTAÇÃO............................................................................................. 47
7 APÊNDICE ................................................................................................................ 59
8 REFERÊNCIAS ......................................................................................................... 68
9
1 INTRODUÇÃO
Segundo dados publicados pelo Eurostat1 referentes à pesquisa realizada no ano de 2016
para mapeamento do abandono escolar na União Europeia, apesar de estar em constante queda
no percentual de evasão escolar, Portugal ainda apresenta índices alarmantes, sendo o quarto pior
país na região no quesito abandono escolar. Cerca de 14% dos jovens entre 18 e 24 anos deixam
prematuramente a educação, ficando atrás apenas de Malta (19,6), Espanha (19%) e Romênia
(18,5%). Ainda se levarmos em consideração a média de abandono escolar da União Europeia,
que ficou em torno de 10%, as taxas apresentadas por Portugal ainda destoam dos demais países
da zona do euro.
O problema da evasão escolar não é exclusividade de Portugal tornando-se uma
preocupação mundial como podemos ver em pesquisa realizada pelo Inep2 durante o período de
2007 e 2015 em todo território nacional brasileiro. Alguns dados sobre a evasão escolar foram
coletados (fig. 1), nos quais fica evidente a situação preocupante sobre o assunto. Cerca de 12,9%
e 12,7% dos alunos matriculados na 1ª e 2ª série do ensino médio respectivamente, evadiram da
escola entre 2014 e 2015 sendo as maiores taxas de evasão durante o ciclo escolar. Ainda foi
constatado que respectivamente na terceira e quarta colocação de maiores evasões estão o 9º
ano do ensino fundamental e 3º ano do ensino médio respectivamente com 7,7% e6,8%.
Porém o que a pesquisa não mostra são os motivos para esta evasão e quais poderiam ser
as causas que mais contribuem para tal situação. Utilizando técnicas de aprendizado de máquina
é possível que se tenha uma melhor compreensão ao analisar dados de turmas anteriores. Quanto
mais informações (atributos) houver sobre os alunos, como dados socioeconômicos da família e
informações pessoais, bem como quanto mais registros existirem, melhor poderão ser os
resultados e consequentemente a integridade e acurácia. Com isto é possível identificar os perfis
dos alunos que evadem do ensino escolar, além de o sistema ter condições de prever se
determinado aluno irá ou não evadir, com elevada taxa probabilística de acerto como apontado em
(Nicolae-Bogdan, et. Al. 2015) e (J. V. Amorim, et. Al. 2008) auxiliando na prevenção deste
problema
1
URL: https://www.dn.pt/sociedade/interior/portugal-tem-a-quarta-taxa-de-abandono- escolar-mais-
elevada-da-ue---eurostat-6244999.html
2URL: http://portal.inep.gov.br/artigo/-/asset_publisher/B4AQV9zFY7Bv/content/inep- divulga-dados-
ineditos-sobre-fluxo-escolar-na-educacao-basica/21206
10
Fonte: Inep - Instituto Nacional de Estudos e Pesquisas Educacionais Anísio Teixeira Legislação e
Documentos (2016).
previamente programada.
O aprendizado de máquina teve seu surgimento na década de 1980 surgindo como
uma das áreas da inteligência artificial (J. Russell S. and Norvig P. 1995). Porém, ao longo da
década de 1980 e início da década de 1990 houve o destaque do aprendizado de máquina
como disciplina independente da Inteligência artificial.
É possível fazer uso destas técnicas para a resolução de vários problemas os quais
antes demandariam bastante tempo e que em alguns casos não seriam possíveis de serem
realizados, devido à dificuldade em trabalhar com grande quantidade de dados.
Atualmente dispomos de poucos recursos alternativos para previsão de notas, pois
ficamos reféns da análise manual onde mesmo podendo chegar a padrões, o tempo para que
uma análise simples de apenas um estudante seja concluído é demasiadamente alto,
tornando inviável a previsão em tempo hábil.
12
1.1 JUSTIFICATIVA
1.2 OBJETIVOS
Sabe-se que certas condições e situações específicas dos alunos são determinantes
para seu sucesso em termos de desempenho. Desta forma, propõe-se utilizar uma técnica
específica do aprendizado de máquina, a regressão. A regressão será efetuada para a
previsão com relativa exatidão o desempenho do aluno em sua nota final, bem como identificar
fatores que mais influenciam nessa predição e relatar a eficiência e acurácia do modelo
proposto.
15
2 TRABALHOS RELACIONADOS
Dinamarca onde cerca de 14% dos alunos que iniciam no ensino médio acabam evadindo. É
importante salientar que na Noruega existem 3 sistemas de ensino e a solução apresentada,
focou no sistema mais utilizado, o sistema Lectio. Os algoritmos utilizados foram Random
Forest, Suport Vector Machine (SVM), Classification and Regression Tree (CART) e Naive
Bayes, pois foi identificado que seriam os mais eficientes perante a amostra de dados. Dentre
as técnicas utilizadas a mais eficiente foi a de Random Forest com uma precisão de 93,5%
seguida de respectivamente SVM, CART e por fim Naive Bayes. Os dados mais relevantes
para previsão foram tamanhos da turma e da escola, ausência no último mês e a renda média
por código postal.
18
3 FUNDAMENTAÇÃO TEÓRICA
As áreas de Machine Learning (ML) e Data Mining (DM) são duas das áreas de maior
crescimento no campo da tecnologia da informação nos dias atuais. Não é somente o fato de
estarem em vago mercado de TI que aproxima estas duas áreas, os dois campos
compartilham do uso de técnicas e conceitos como, por exemplo, a classificação e regressão,
que são usadas por ambas (Cássio O. et. Al. 2009), tornando a sua separação muitas vezes
uma tarefa difícil. Porém podemos destacar algumas diferenças básicas entre ML e DM. O
data mining é direcionado para busca de conhecimento compreensível, ou seja, identificar
informações e possibilitar inferências em quantidades massivas de dados que antes não eram
possíveis de serem identificadas, enquanto que o Machine Learning visa a otimização de
processos, ou seja, a partir de um treinamento do algoritmo, é possível que o próprio algoritmo
consiga automatizar tarefas. Podemos afirmar que o treinamento de uma rede neural para a
otimização de uma balança é parte apenas de ML e não de DM, porém existem casos que a
extração de conhecimento através de uma rede neural é muito relevante para o DM.
Geralmente DM é concentrado em enormes bancos de dados, pois depende de uma grande
quantidade de dados para que tenha seu desempenho garantido, já o ML geralmente utiliza
uma quantidade de dados menor. O DM é a parte do ML direcionada na procura de
conhecimentos compreensíveis e antes não notada em grandes quantidades de exemplos
19
3.3.1.1 Classificação
Uma das tarefas mais comuns, a Classificação, visa identificar a qual classe um
determinado registro pertence. Nesta tarefa, o modelo analisa o conjunto de registros
fornecidos, com cada registro já contendo a indicação à qual classe pertence, a fim de
“aprender” como classificar um novo registro (Cássio Oliveira Camilo et. al. 2009).
3.3.1.2 KNN
KNN é uma das técnicas utilizadas para classificação onde o conjunto de dados é
organizado em vetores n-dimensionais, cada um dos elementos deste vetor representa um
ponto no espaço n-dimensões, portanto o algoritmo procura dentre os elementos de
treinamento os registros mais próximos do que está sendo testado, ou seja, procura K
elementos de menor distância, este K elementos são comumente chamados de K-vizinhos
mais próximos, após isto o algoritmo verifica a classe mais frequente entre eles atribuindo-a
ao elemento desconhecido. Algumas métricas são utilizadas para definição das distâncias
entre elementos, dentre elas as mais famosas são a distância Euclidiana que é dada entre
pontos x e y por:
d(x,y)=|x1−y1|+|x2−y2|+..+|xn−yn|
Também é possível fazer o cálculo dos vizinhos mais próximos utilizando a distância
21
Fonte: https://estatsite.com/2016/06/11/1970/
3.3.1.5 Perceptron/Adaline
Onde X1é o i-ésimo padrão de treinamento e dié o valor desejado que o neurônio deva
gerar como saída quando estimulado com o vetor Xi(A. C. G. Thomé e C. P. B. Marques.
2003).
Uma das técnicas de aprendizado por redes neurais, surgindo na década de 1980 na
época em que o investimento em redes neurais voltou a crescer (A. C. G. Thomé. 2003). A
MLP é estruturalmente composta por camadas, cada camada dessas contendo vários
neurônios, cada um dos neurônios estimula todos os neurônios da camada seguinte, nenhum
dos neurônios pode estimular outro da mesma camada ou de camada anterior. A estrutura do
MLP consiste em três camadas, a de entrada que é a camada que possui os sinais de entrada,
porém não possui neurônios. Camada de saída, contendo os neurônios que geram a saída, e
por último as camadas escondidas ou intermediarias que estão situadas entre as camadas de
entrada e saída, não existe limites de quantidade dessas camadas assim como a sua
existência não é obrigatória.
O algoritmo mais famoso usado para treinamento de uma MLP é o back- progragation,
por ser um algoritmo estático é necessário prévio conhecimento da arquitetura da rede e a
mesma não pode ser alterada durante o treinamento.
25
Fonte: https://www.intechopen.com/source/html/39071/media/f2.jpg
3.3.1.7 Regressão
A regressão linear simples realiza uma análise estatística com o objetivo de verificar a
existência de uma relação funcional entre uma variável dependente com uma ou mais
variáveis independentes (Luiz Alexandre Paternelli. 2004). Para a melhor visualização e
representação da equação pode-se fazer um gráfico chamado de diagrama de dispersão para
que seja possível acompanhar como se comportam os valores da variável dependente (Y) em
função da variável independente (X).
Fonte: https://qualescap.files.wordpress.com/2014/11/sem-tc3adtulo112.png
Como podemos ver na figura 6, no diagrama de dispersão existe uma reta a qual seria
o “ajuste ideal”, porém vale ressaltar que existem outros modelos que podem representar a
relação entre a variável X e Y, podendo ser, linear, quadrática, cúbica entre outras. Os pontos
de diagrama de dispersão não se ajustam perfeitamente a curva do modelo matemático
utilizado, existindo certa distância entre os pontos e a curva do modelo matemático, isso
ocorre devido ao fato de não estarmos trabalhando com um fenômeno matemático e sim
fenômeno a qual está sujeito a influencias que acontecem ao acaso. Assim, o objetivo da
regressão é obter um modelo matemático que melhor se ajuste aos valores observados de Y
em funções da variação dos níveis da variável X (Luiz Alexandre Paternelli. 2004). Alguns
27
critérios devem ser respeitados para termos melhor obtenção de resultados, como por
exemplo, o modelo utilizado que deve ser condizente tanto com a curva quanto com o grau
para representação gráfica do fenômeno estudado, além disso, o modelo deve conter somente
as variáveis relevantes para explicar o fenômeno, tornando a fase de análise indispensável.
Para que os pontos do diagrama sejam o mais próximo possível do ponto da curva do
modelo matemático é possível o uso de alguns métodos entre eles o Método dos Mínimos
Quadrados, com o uso desse método a soma dos quadrados das distâncias entre os pontos
do diagrama e os respectivos pontos da curva da equação são minimizados, com o mínimo
possível de erros.
Yi = 𝛽 0 + 𝛽 1 X1 + e i
e1 = Yi− 𝛽0 − 𝛽1X1
Elevamos todos os membros da equação ao quadrado:
Para que possamos ter uma visão um pouco mais prática sobre como é o funcionamento
da regressão linear, usaremos como exemplo a previsão de preço de casas a venda, o primeiro
passo é encontrar a base de dados onde teremos informações de casas vendidas anteriormente,
quanto mais atributos como, por exemplo, tamanho em metro quadrado, quantidade de cômodos,
a quanto tempo a casa foi construída, sua localização entre outros, vale ressaltar que a quantidade
de registro na base de dados também pode influenciar na integridade do algoritmo, quanto mais
registros tiver a base de dados melhor. Depois de selecionados os dados e normalizados, ou seja,
fazendo o tratamento dos valores faltantes (missing values) e demais tratamentos conforme
necessidade do projeto, como por exemplo, os valores discrepantes. Em seguida a base de dados
é passada no algoritmo de regressão linear, é importante salientar que é necessária a separação
de qual atributo é o atributo alvo ou pelo termo técnico classe, no caso do exemplo das casas o
atributo classe é o preço de venda. O algoritmo irá treinar para “aprender” como os atributos
influenciam e indicar o preço de novos exemplos que forem passados ao algoritmo.
Fonte: https://image.slidesharecdn.com/machinelearning101-speakerdeck-
160918000037/95/machine-learning- 101-7-638.jpg?cb=1474157116
29
A regressão linear múltipla envolve três ou mais variáveis, sendo uma variável
dependente e duas ou mais variáveis independentes. A utilização de mais de uma variável
independente implica diretamente na precisão da predição do algoritmo, portanto a regressão
linear múltipla é uma variação da linear (Luiz Alexandre Paternelli. 2004). Porém com o uso
de mais variáveis a técnica de cálculo é bastante complicada, porém é facilitada com o uso
de álgebra de matrizes.
Um dos modelos utilizados para regressão linear múltipla é o modelo com K-variáveis
regressoras, que se dá por:
Existem alguns métodos para avaliarmos um modelo criado a partir de regressão, tanto
simples quanto múltipla dentre elas podemos citar duas: primeiro o Método de mínimos
quadrados: A soma dos quadrados representa uma medida de variação ou desvio da média.
É calculada como uma soma dos quadrados das diferenças da média. O cálculo da soma total
dos quadrados considera a soma dos quadrados proveniente dos fatores e da aleatoriedade
ou do erro. A soma dos quadrados dos resíduos. Na regressão, a soma total dos quadrados
ajuda a expressar a variação total dos y. A soma dos quadrados do erro residual é a variação
atribuída ao erro.
MSE=∑(yi−𝑦̂ 𝑖 )2
𝑒=1
Outro método é o de erro quadrático médio que é definido como sendo a média da
diferença entre o valor do estimador e do parâmetro ao quadrado. Ele mensura o
deslocamento dos valores. Erro baixo, quanto menor for o MSE, melhor está sendo o preditor.
30
Em outras palavras, quer dizer que o preditor está prevendo valores bem próximos dos dados
reais. Seu resultado mostra o quanto os valores preditos estão se distanciando. Os erros são
sempre elevados ao quadrado para não retornar um resultado negativo, então o erro
quadrático médio sempre estará maior ou igual a zero (0). Quanto menor, mais
aderente, mais próximo é.
n
1
MSE= ∑(𝑦̂ 𝑖 −yi)2
n
i=1
Fonte: https://image.slidesharecdn.com/machinelearning101-speakerdeck-
160918000037/95/machine- learning-101-7-638.jpg?cb=1474157116
3.4.1.1 K-means
Fonte: http://stanford.edu/~cpiech/cs221/img/kmeansViz.png
33
As SOM (do inglês, Self Organizing Maps) são redes neurais que implementam os
conceitos de auto-organização cerebral, sendo um tipo de aprendizado não supervisionado
que trabalha com a auto-organização, ou seja, quando o sistema evolui para uma forma
organizada por conta própria sem interferência externa. As SOM são comparáveis a
organização neural cerebral que onde insumos sensoriais, seja motor, visual, auditivo, etc,
são mapeados em áreas correspondentes do córtex cerebral de forma ordenada, conhecido
como mapa topográfico, tendo duas propriedades importantes: Em cada fase de
representação cada informação recebida é mantida em seu próprio contexto e os neurônios
que lidam com informações intimamente relacionadas são mantidos próximos para que
possam interagir através de conexões sinápticas curtas (John A. Bullinaria. 2004).
A SOM é composta por duas camadas a camada de entrada e a camada competitiva
(Ricardo Linden. 2009). Cada neurônio da camada de entrada representa uma dimensão do
padrão de entrada e distribui seu componente vetorial para a camada competitiva.
35
Fonte: http://www.decom.ufop.br/imobilis/wp-content/uploads/2017/05/kohonen1.gif
Como podemos ver no gráfico acima a parte inferior (input vector) representa a camada
de entrada que estão conectados com a camada competitiva através de pesos enquanto a
parte superior representa a camada competitiva. Cada um dos neurônios da camada
competitiva recebe a soma ponderada de entrada e tem uma vizinhança de K- neurônios
podendo ser em uma, duas ou mais dimensões. Ao receber uma entrada alguns dos neurônios
serão excitados o suficiente para dispararem, sendo que cada um dos neurônios disparados
pode ter efeito excitatório ou inibitório em sua vizinhança.
Logo após a inicialização dos pesos três processos básicos são realizados:
Competição: onde o maior valor é selecionado. Para definição do neurônio vencedor utiliza-
se a seguinte formula: 𝑖(𝑥) = arg min||𝑥 − 𝑤||, 𝑗 = 1,2,3, … , | o vencedor determina a
localização do centro da vizinhança dos neurônios a serem treinados. Cooperação: os
vizinhos do neurônio vencedor são selecionados e excitados por uma função de vizinhança.
Adaptação sináptica: os neurônios excitados ajustam seu peso sinápticos quando um
neurônio vence uma competição, não só o neurônio vencedor tem seu peso ajustado, mas os
de sua vizinhança também.
As SOM são eficientes para problemas de classificação, porém, não existe garantia de
sua convergência para redes de dimensões maiores além do que o treinamento pode ser
extremamente longo para problemas grandes de classificação. Porém apresenta a vantagem
de não só descobrir os conjuntos como também mostrar uma ordenação entre eles graças à
36
A escolha e preparação dos dados consistem em uma das partes mais importantes para o
aprendizado de máquina. Para nossa proposta a base de dados escolhida foi a de dados escolares
de duas instituições secundárias portuguesas, Escola Gabriel Pereira e Escola Mousinho da
Silveira, das quais foram selecionadas apenas notas que representem o desempenho nas duas
principais disciplinas, ou seja, português e matemática. Os dados utilizados estão disponíveis no
UCI Machine Learning Repository Center for machine learning and Intelligent Systems4 que
consiste em um repositório online de bases de dados para a comunidade de aprendizado de
máquina, tendo disponível mais de 390 bases de dados.
Antes de dissertar um pouco mais sobre os dados em si bem como sua estrutura, vale
comentar sobre as particularidades do sistema de ensino português.
A variação de notas consiste no intervalo entre 0 e 20 sendo 0 a nota mínima e 20 a nota
máxima, a média mínima para aprovação do aluno é 10. Em Portugal a educação primária consiste
em 9 séries seguidas por 3 séries da educação secundária. Durante o ano letivo o aluno é avaliado
em três períodos onde a terceira nota (G3) corresponde à nota final (Paulo Cortez et. Al. 2008).
Os dados foram coletados nos anos de 2005-2006 por Paulo Cortez e Alice Silva (Paulo
Cortez et. Al. 2008), que foi o artigo que tomamos como base para nosso trabalho. Para coleta de
dados foi usado o banco de dados das instituições para obtenção das notas e dados referentes a
ausências escolares. Os demais dados foram coletados através de questionários com perguntas
fechadas. Do total de 788 questionários respondidos, foram descartados 111, pois não tinham
identificação. Por fim os dados foram organizados em dois conjuntos, o primeiro referente à
matemática com 395 instancias e o de português com 649 instancias.
A tabela abaixo mostra a distribuição dos 33 atributos da base de dados bem como
descrição e tipo de cada um.
38
Atributo Descrição
Sex Sexo do estudante (binário: Masculino e feminino)
Age Idade do estudante (numérico: entre 15 e 22 anos)
School Escola do estudante (binário: Gabriel Pereira ou Mousinho da
Silveira)
Address Tipo de endereço do aluno (binário: urbano ou rural)
Pstatus Relação de habitação com os pais (binário: vivem juntos ou não)
Medu Grau de educação da mãe (numérico: de 0 a 4ª)
Mjob Trabalho da mãe (nominal)
Fedu Grau de educação do pai (numérico: de 0 a 4)
Fjob Trabalho do pai (nominal)
Guardian Responsável pelo aluno (nominal: mãe, pai ou outros)
Famsize Quantidade de membros da família (binário: <= 3 ou >3)
Famrel Qualidade da relação familiar (entre 1 – muito ruim e 5 – excelente)
Reason Motivos para o qual escolheu esta escola (nominal: perto de casa,
reputação da escola ou outro)
Traveltim Tempo de viagem até a escola (numérico: 1 - <15 min., 2 – 15 a 30
e min.,
3 – 30 min. há uma hora, 4 - >1 hora)
Studytim Tempo semanal de estudo (numérico: 1- <2 horas, 2- 2 a 5 horas, 3-
e 5a
10 horas, 4- >10 horas)
Failures Número de reprovações em classes passadas (numérico: entre 1 e
4)
Schoolsu Apoio educacional extra (binário: sim ou não)
p
Famsup Suporte educacional familiar (binário: sim ou não)
Activies Atividades extracurriculares (binário: sim ou não)
Paidclass Aulas extras pagas (binário: sim ou não)
Internet Acesso a internet em casa (binário: sim ou não)
Nursery Frequentava a escola maternal (binário: sim ou não)
Higher Pretende fazer ensino superior (binário: sim ou não)
Romantic O aluno tem relacionamento amoroso (binário: sim ou não)
Freetime Tempo livre após a escola (numérico: de 1- pouquíssimo a 5 muito)
Goout Sair com os amigos (numérico: de 1- pouquíssimo a 5- muito)
Walc Consumo de álcool no fim de semana (numérico: 1- po pouquíssimo
a 5-
muito)
Dalc Consumo de álcool no meio de semana (numérico: 1- pouquíssimo
a 5-
muito)
Health Estado de saúde atual (numérico: 1- muito ruim a 5 muito bom)
Absence Número de faltas (numérico: entre 0 e 93)
s
39
G1 Primeiro período (numérico: de 0 a 20)
G2 Segundo período (numérico: de 0 a 20)
G3 Nota final (numérico: de 0 a 20)
É importante conhecer e entender os dados com os quais se está trabalhando. Para isto,
algumas técnicas são de grande auxílio, dentre elas a plotagem dos dados em gráficos que
auxiliam a ter uma visão melhor. Como, por exemplo, nos gráficos a seguir.
Nos gráficos acima podemos ver como está a distribuição dos dados em relação ao sexo
do aluno, onde podemos observar que o sexo feminino possui uma quantidade de 383 registros
enquanto o masculino possui 266 registros. Podemos ainda notar que o intervalo entre 16 e 18
anos representa a idade da maioria dos alunos, sendo que percentualmente pessoas do sexo
feminino apresentam maior quantidade em relação ao masculino também dentro do intervalo entre
15 e 20 anos.
40
Como podemos observar em todo o intervalo de notas os alunos que não tiveram aulas
41
No gráfico acima temos uma perspectiva da situação dos alunos em relação a acesso
à internet em casa. A grande maioria de alunos em âmbito geral tem acesso à internet, dos
649 alunos na base de dados cerca de 498 possuem acesso à internet, também é possível
notar que quanto mais alto a nota maior a diferença entre alunos que possuam acesso à
internet em detrimento aos que não possuem. Quando o assunto é relacionamentos amorosos
notamos que em alguns intervalos de notas os alunos que não possuem relacionamento
tiveram desempenho muito superior aos demais, como por exemplo, a nota 11 e 13, além
destas 2 notas que apresentam a maior diferença notamos que praticamente todas as notas
acima da média os alunos sem relacionamento amoroso apresentaram desempenho superior.
42
Quando levamos em conta suporte familiar a educação notamos um fato que pode trazer
consequências negativas, o número de alunos sem esse tipo de suporte é elevado dos quais cerca
de 250 não o possuem. Os alunos com suporte familiar tiveram desempenho consideravelmente
melhor. Já em relação a apoio educacional extra por parte da instituição encontramos um quadro
onde apenas 39 alunos tiveram este tipo de suporte, tornando graficamente pouco relevante.
No gráfico acima identificamos que alunos que possuem família com mais de 3 membros
apresentam vantagem sobe os que possuem menos de 3 membros nas notas intermediarias,
perdendo essa vantagem conforme a nota aumenta chegando a se equiparar na nota 19. Parte
dessa disparidade pode ser explicada pela diferença de número de alunos com mais de 3 membros
43
na família, chegando a 457 do total de 649. Outro dado importante para análise é o responsável
legal pelo aluno dos quais notamos que a grande maioria tem a mãe como responsável sendo 455,
seguidos por 153 que tem como responsável o pai e 41outros, vale salientar que o desempenho
dos alunos que possuem como responsável a mãe apresenta superioridade aos demais, porém
em notas mais altas como 16 e 18 essa diferença diminui em favor aos alunos com pai como
responsável.
O número de alunos que moram em região urbana é bastante superior ao de alunos que
moram em região rural, porém é interessante notar a distribuição das notas onde tanto de região
urbano quanto rural, existe uma grande distribuição, principalmente para notas que ficam entre a
média e acima, enquanto notas abaixo da média chegamos a ter um intervalo composto apenas
por alunos que moram em região urbana (1 a 6).
Sklearn8uma das ferramentas mais importantes para quem deseja trabalhar com
aprendizado de máquina, pois esta ferramenta de código livre acompanha várias funções já
pré-programadas para o aprendizado de máquina. O Scikit-Learn da suporte a várias das
principais técnicas de aprendizado de máquina seja para regressão linear, Lasso regresion,
Classificação, Clustering dentre outras. A utilização de Sklearn possibilita a automatização no
trabalho com aprendizado de máquina, pois ao invés do programador ter a necessidade de
fazer todo o processo manual desde a criação de uma função para carregamento dos dados
fazendo a separação de parte dos dados para treinamento e outra parte para validação,
passando pela criação de outra função para treinamento do algoritmo com a base de teste,
até a parte da validação onde e necessário criação de função que possa processar os dados
que foram previamente separados para validação para testar a eficiência do algoritmo
programado. Com o Scikit-learn todos estes processos são feitos automatizados pelas
funções pré- compiladas, poupando tempo e otimizando o código.
5 DESENVOLVIMENTO
Quando falamos em Machine Learning várias são as técnicas que podemos utilizar.
Para que possamos saber a melhor técnica para cada caso, é necessária uma análise
profunda, onde leva-se em conta, a base de dados a qual está trabalhando, qual a finalidade
do trabalho e qual tipo de retorno queremos ter. Para este trabalho, foram testadas
inicialmente algumas técnicas para realização de diferentes tarefas. Foram obtidos alguns
resultados preliminares por meio de experimentos realizados com a tarefa de classificação,
contudo, optou-se por se concentrar na tarefa de predição para se manter o escopo da
proposta inicial do trabalho. Com o uso da regressão, foi possível obter uma estimativa da
nota final do aluno. Com a possibilidade de estimara nota do aluno, o leque de opções
preventivas a evasão é maior, pois as ações tomadas para que um aluno não se desmotive
pelo baixo rendimento são muito particulares, portanto um aluno que está próximo da média,
não necessariamente precisa da mesma medida de prevenção que um aluno que está longe
de atingir a média.
5.2 IMPLEMENTAÇÃO
5.2.1 Etapas
Durante o processo da criação do modelo algumas etapas são necessárias para que
possamos ter um melhor controle e eficiência. No desenvolvimento do nosso projeto quatro
etapas foram respeitadas, como podemos ver na seguinte imagem:
48
Após todas as etapas de preparação dos dados concluída, é iniciada a fase de criação
do modelo, conforme anteriormente mencionado. Existem bibliotecas que auxiliam na criação
49
Para que possamos ter um ajuste melhor de nosso modelo e conseguirmos resultados
de previsões mais próximos em relação aos dados reais é necessário o uso de técnicas de
otimização. A técnica por nós utilizada é a de gradient descent, técnica esta que consiste em
encontrar o mínimo de uma função, aproximando ao máximo o valor previsto do valor real,
este algoritmo se destaca em encontrar os melhores pesos. Na otimização baseada em
Gradient Descent é feita a tentativa de se encontrar a perda, ou seja, o quão ruim sua previsão
foi com um determinado conjunto de pesos. O algoritmo trabalha para que em cada iteração,
seja calculado o gradiente do termo de erro para descobrir a direção apropriada para mover
nossos pesos. Podemos dizer que estamos calculando as mudanças a serem feitas em
nossos pesos para reduzir o erro, ajustando nossa solução para a mais próxima possível do
ideal. Para a utilização de gradient descent foi criada uma função contendo o algoritmo
responsável pelo cálculo de melhor distância. Para a utilização desta técnica existem alguns
valores de suma importância que devem ser definidos previamente para otimização do
resultado, que são: tolerance e step size.
Tolerance é usado como condição de parada para o algoritmo, já que o mesmo é feito
de forma iterativa e precisa de uma parada em seu laço de repetição, além disso, delimita o
valor resultado da equação, portanto é necessário a definição do valor mais adequado,
lembrando que para cada modelo é necessária utilização de valor diferente, pois deve-se
analisar cada caso separadamente. Por estarmos trabalhando com algoritmo iterativo
precisamos da definição do tamanho do próximo passo que será realizado, para isso
precisamos definir o valor destepsize.
Step Size é a taxa de aprendizagem, é um fator na regra de atualização para os
parâmetros que ajudam a determinar a rapidez com que o algoritmo converge para a solução
ideal. A definição do tamanho do passo é um fator determinante o quanto deseja mover
enquanto tenta descer na descida gradiente, ou seja, minimizar o máximo possível a perda.
O sinal do tamanho da etapa deve ser sempre positivo. O algoritmo irá decidir a direção do
movimento em que a descida irá se mover. O step size não pode ser muito pequeno, pois
levará muito mais tempo para atingir os melhores pesos, ou seja, o tempo para execução do
treinamento será relativamente maior. Tendo isso em mente devemos definir o step size com
um valor maior, pois poderá resultar em uma grande redução no tempo de treinamento. No
entanto, isso pode ser considerado um problema maior ainda. Se o tamanho for muito grande,
o algoritmo pode superar a posição ideal e manter oscilando entre os dois lados.
51
p = p + (−stepe_size) ∗ d
Todo modelo deve passar pela fase de testes e validação para que se possa analisar
a eficiência do mesmo. Durante o desenvolvimento de nossos modelos utilizamos de várias
técnicas para teste de eficiência, dentre elas a do método dos mínimos quadrados, erro
quadrático médio e também pela plotagem de gráficos que nos dá a possibilidade de
interpretação por meio da representação visual. A seguir mostraremos alguns dos testes
realizados para validação de nossos modelos, acompanhando dados referentes às três
técnicas citadas. Os gráficos apresentados mostrarão a diferença das notas previstas e das
reais.
RSS = 239.195042723
Mean squared error = 1.22664124473
No segundo modelo utilizamos dois atributos a primeira e segunda nota (G1 e G2). Neste
modelo podemos ver o comportamento do mesmo quando inseridos mais atributos além de
verificar se existe alguma alteração na eficiência do modelo com as alterações realizadas, para
este segundo modelo os valores mais adequados para tolerance e stepsize foram respectivamente
1.0e1 e 7.0e-6.
RSS = 253.815927349
Mean squared error = 1.30162014025
Por último criamos um modelo com regressão linear múltipla utilizando todos os atributos
da base de dados incluindo a primeira e segunda nota (G1 e G2), para este último modelo os
valores de tolerance e stepsize foram respectivamente de 0.06e3 e 8e-7.
RSS = 271.268163116
Mean squared error = 1.39111878521
O objetivo deste trabalho foi realizar um estudo sobre a evasão escolar, que tem sido um
mal que afeta todo o mundo, além disso, apresentar proposta de um auxílio na prevenção da
mesma, pois existe uma grande dificuldade na definição dos causadores desta evasão, portanto
deve-se considerar combater o problema de formas variadas, uma delas é conseguir melhorar o
desempenho acadêmico do aluno consequentemente aumentando a motivação do mesmo, para
isso o uso de aprendizado de máquina torna-se um grande aliado.
Com base nos dados coletados e dos resultados do presente trabalho, é possível apontar
algumas considerações. Ainda na fase de análise dos dados é possível identificar padrões que
auxiliem o profissional gestor em educação, sendo possível, por exemplo, entender que, quanto
maior a média escolar maior é a diferença entre quantidade de pessoas do sexo masculino e do
sexo feminino. Também foi possível notar que a grande maioria dos alunos obtiveram notas
próximas à média. Este tipo de informação obtida pode gerar um poderoso retorno, pois na criação
de programas de contenção da evasão, dados como estes possibilitam a melhor divisão de grupos
de alunos para táticas diferentes de trabalho para cada um deles.
Conforme descrito nos capítulos anteriores, os modelos apresentados possibilitam que se
alcance resultados relevantes na previsão da nota final dos alunos. Ao levarmos em consideração
o uso de regressão linear com a base de dados, conseguimos uma taxa de aproximação entre nota
prevista e nota real, utilizando a técnica de erro quadrático médio de 1.22, ou seja, um resultado
de aproximação de valores consideravelmente alto.
Algumas perspectivas podem ser vislumbradas a partir deste estudo, como a possibilidade
de futuros trabalhos, por exemplo: a investigação do peso de cada atributo em relação a nota final,
ou seja, a obtenção da informação de quais atributos influenciam mais no desempenho escolar.
Com isso apresentamos uma solução alternativa para a prevenção da evasão escolar, ao
mesmo tempo em que adquirimos conhecimento tanto teórico quanto prático, sobre as ferramentas
e técnicas de Aprendizado de Máquina. Podendo confirmar que esta é realmente a área que
escolhemos para nossa vida profissional.
59
7 APÊNDICE
Camilo, Cássio. O.; Da Silva. Joao Carlos: Mineração de dados: Conceitos, Tarefas,
Métodos e Ferramentas. Instituto de Informática Universidade Federal de Goiás, 2009.
De Lima, Bruno Vicente Alves.; Machado, Vinicius Ponte.; Veras, Rodrigo de Melo Souza.:
Abordagem semi-supervisionada para Rotulação de dados. Departamento de Computação
Universidade Federal do Piauí, 2013.
Oliveira Camilo, Cassio. Carlos da Silva, João.; Mineração de Dados: Conceitos, Tarefas,
Métodos e Ferramentas, Instituto de Informática Universidade Federal de Goiás, 2009.
Enos, Daniel. Medeiros, Heitor.; Inteligência Artificial Aplicada, Universidade Federal do Rio
Grande do Norte, 2013.