Clase 12 - Guion de Clase
Clase 12 - Guion de Clase
Clase 12 - Guion de Clase
Introducción al
análisis predictivo con
Regresión
Acercándonos al concepto de
regresión.
Correlación, causalidad y dependencia.
Ahora bien, para esta clase tomemos como punto de partida que de algún modo
planteamos la hipótesis de que podría existir algún tipo de dependencia de una variable
con respecto a la otra. Si este tipo de dependencia existe, queremos ver de qué forma
se da esa relación. Tengamos en cuenta que el planteo de la posibilidad de relación es
una tarea externa a la formulación del modelo que vamos a ver aquí.
Podemos pensar esta situación como una función matemática estándar , donde
la variable y es una función de x, o sea que en definitiva y depende del cambio de x. Otra
forma de decir lo mismo es que x es una variable independiente, o sea que su cambio
no depende de nuestro modelo, y por su parte los cambios que se den en la variable y
se dan de acuerdo a los cambios de x. Aquí entonces estudiaremos la relación entre x e
y, teniendo en cuenta cuál es la variación de y ante los cambios de x.
Función lineal
En las figuras siguientes podemos ver, en primer lugar, el mismo valor de a con distintos
valores de b, aquí cambia la pendiente o inclinación. En segundo lugar, podemos ver un
valor fijo de b para distintos valores de a, aquí cambia la posición de la recta pero su
inclinación permanece igual. En cada caso podemos ver entonces qué parte de la
función es la que cambia.
Ideas previas
Unamos ahora los dos conceptos. Si tenemos un conjunto de puntos en las variables x e
y, y de alguna forma y depende de x, una forma de resumir esta información es suponer
que podemos trazar una recta que de alguna manera puede representar a esos puntos.
Es claro que no existe una recta que pueda pasar por absolutamente todos los puntos,
porque hay determinado grado de dispersión en estos puntos que no permite esto. No
obstante, lo que sí podemos hacer es tomar un criterio para la representación, y trazar
una recta que cumpla con este criterio. Por ejemplo, una recta que pase “lo más al
centro posible” del conjunto de puntos. En este caso, nos encontraremos en el caso de
la siguiente figura, donde tenemos una recta que pasa aproximadamente por el centro
de la forma dada por los puntos.
Lo que hacemos aquí es realizar un ajuste de la recta a los datos. A la técnica que
utilizamos para realizar este ajuste a un conjunto de puntos por parte de una recta la
llamaremos “método de mínimos cuadrados”. Esta recta tiene una forma precisa de
construirse que veremos a continuación, y todo conjunto de puntos, cualquiera sea su
forma, tiene una recta que se ajuste a ese conjunto por medio del método de mínimos
cuadrados. Si este ajuste además cumple con ciertas condiciones, podemos decir que
aplicamos un modelo de regresión lineal simple.
Por todo lo dicho, para poder aplicar un modelo de regresión lineal, debemos aplicar un
ajuste por el método de mínimos cuadrados, y debemos hacer verificaciones para
chequear que el modelo sea válido y bueno. Si esto se cumple, además de tener una
recta de ajuste, la denominaremos recta de regresión, porque cumple con las
condiciones que tiene que tener el modelo. Entonces es a partir de aquí cuando
comenzamos a hablar de un modelo de regresión lineal, y no antes. Una vez validado el
modelo, podemos usarlo para efectivamente representar a los datos y efectuar
predicciones, como veremos más adelante.
Condiciones a cumplir
El test de beta
Pero tenemos un problema. Analicemos este caso desde un punto de vista puramente
matemático. Supongamos, llevando este ejemplo al extremo, que la pendiente de b es
efectivamente igual a cero. Entonces la función se transforma en ,y
por lo tanto el término que acompaña a la x, multiplicado por cero, se anula. Con lo que
la función anterior queda como . Vemos aquí que la x desapareció de la fórmula, y
esto se traduce en el “desacoplamiento” de x e y. Esto significa que la variable y deja de
ser dependiente de x. Como no tenemos dependencia, ya no podemos aplicar el
modelo de regresión.
En este caso el modelo de regresión lineal no sirve. ¿Cómo nos damos cuenta cuando
pasa esto? Hablemos ahora del test de beta. Este es un test estadístico para verificar
que la pendiente no sea cero. Puede ser positiva o negativa, pero no debería ser cero.
No entraremos aquí en los detalles del test, pero sí aprenderemos a ver sus salidas. En
Python podemos obtener esta información con el paquete extra pingouin. Las siguientes
salidas fueron obtenidas con este paquete, y corresponden al primero y tercer caso
planteados anteriormente.
CI[97.5%
Caso 1 names coef se T pval r2 adj_r2 CI[2.5%] ]
CI[97.5%
Caso 3 names coef se T pval r2 adj_r2 CI[2.5%] ]
El coeficiente de determinación
CI[97.5%
Caso 1 names coef se T pval r2 adj_r2 CI[2.5%] ]
CI[97.5%
Caso 2 names coef se T pval r2 adj_r2 CI[2.5%] ]
Curiosamente, como puede verse en la tabla, este último caso pasa satisfactoriamente
el test de beta, con lo cual es un modelo válido, pero ciertamente poco útil. En este caso
quizá convendría aplicar otro tipo de modelo que se ajuste a la forma curva de los datos.
Tengamos entonces siempre en cuenta que el valor de R2 solamente tiene sentido una
vez que se verificó y se pasó satisfactoriamente el test de beta mencionado
anteriormente, y que además un modelo puede ser perfectamente válido pero no tener
mucha utilidad por una baja capacidad de explicación de la variabilidad de los datos.
De esta forma, buscamos un modelo con un valor de R2 que sea aceptable, de tal forma
que el azar, dado por su su complemento, sea lo más pequeño posible. Los valores
aceptables de R2 tienen que ver con el campo de aplicación. En términos generales, para
datos sociales y demográficos, podemos esperar valores de R2 superiores a 50% como
aceptables, y para procesos físicos o químicos es deseable llegar a valores mayores a
90% como aceptables.
Usar el modelo
Como mencionamos anteriormente, una vez validado el modelo en su test de beta y
evaluada su calidad con el valor de R 2, podemos darle uso. Esto consiste en aplicar el
modelo para predecir valores desconocidos. En este caso, realizaremos predicciones
para valores de y a partir de valores de x que no habían sido utilizados antes, utilizando
la recta de regresión para hacer la predicción. El nuevo punto a predecir se colocará
sobre la recta, y se podrá afirmar que el valor predicho tendrá una “fidelidad” igual al
valor de R2. Por ejemplo, si hay algún valor de x faltante en el conjunto de datos,
podemos suponer que su valor de y correspondiente corresponderá al señalado por la
recta para dicho valor de x, como se muestra a continuación con el punto cuadrado de
color verde.
En código de Python, veremos posteriormente que la aplicación es muy sencilla. Como
todos los métodos de Data Science, el modelo se utiliza simplemente a través de la
función predict().
FIN