Orellana PDF
Orellana PDF
Orellana PDF
Para ello proponemos un MODELO que relaciona una variable dependiente Por ejemplo, Y=2X+3
(Y) con una variable independiente (X).
La decisión sobre qué ailálisis usar en una situación particular, depende de la
naturaleza del OUTCOME y del tipo de función que se propone para relacionar
el outcome y la variable independiente.
Variables en regresión
/ �
Covariables o Outcomeo
Variables independientes o Variable dependiente o
Variables regresoras Variable de respuesta
Consideremos el modelo Y=aX+b • otros proóedíriúentos estadísticos más complejos pueden ser mejor
• Este modelo es una aproximación de la verdadera relación entre X e Y. comprendidos luego de estudiar regresión lineal.
• Para un dado va1or de X el modelo pre<lice un cierto valor para. Y,
• Mientras mejor sea la predicción, mejor es el modeló. REGRESIÓN LINEAL SIMPLE
Consideremos el siguiente experimento controlado y aleatorizado para estudiar
Un. MODELO DETERMINÍSUGO supone que bajo condiciones ideales, el el efecto de una nueva droga sobre la frecuencia cardiaca de ratas sanas.
comportamiento de la variable dependiente puede ser totalmente descripto por
una función matemática de l!!B variables independientes (o por un conjunto de Cinco ratas fueron asignadas aleatoriamente 'a una de cinco dosis y se registró la
ecuaciones que relacionen las variables). Es decir, en condiciones ideales el máxima disminución observada en la frecuencia cardiaca en una hora. Los datos
modelo permite predecir SIN ERROR el valor de la variable dependieI)te. obtenidos son:
• Ejemplo: Ley de la Gravedad. Dosis (mrú Máxima dismínución de la FC (DFC)
Este método para encontrar la recta que mejor ajuste a los datos se conoce como
MÉTODO DE MÍNIMOS CUADRADOS.
Afortunadamente no es necesario probar con diferentes rectas cuál de ellas es la
que produce la menor suma de cuadrados, ya que es posible encontrar
analíticamente las expresiones para /J. y /)1 • En el caso general en que tenemos
n pares de observaciones (.,Yj, Y;), /J,, y /11 son las soluciones del sistema de
ecuaciones normales:
y se obtiene:
Para decidir cuál de las dos rectas ajusta mejor estos datos consideraremos una
medida de cuán lejos está cada dato de la recta propuesta ⇒ RESIDUO. }:(X¡ -X)(Y¡ -Y)
RESIDUOS RESIDUOS
u u /J1=�¡..�1 ______
'I:CX¡-X) 2
X y.�. YaJus {y...---Y,;us) (y.i,,•Y,jus)' X Ycb, YaJ11$ (y••• - Y,;.,) (Yobr)',;.,)' i=l
0.5 · 5.0 7.3 -2.3 S.! 0.5 $.O 4.0 LO 1.00
<::::: la recta pasa por el punto (X, Y)
1.0 8.0 9.0 -1.0 1.0 1.0 8.0 7.5 0.5 0.25
1.5 12.0 10.8 1.3 1,6 1.5 12.0 11.0 1.0 1.00
2.0 13.0 12.5 0.5 0.3 2.0 13.0 14.5 -l.5 2.25 En el ejemplo de dosis-respuesta los estimadores de mínimos cuadrados para Po
2.5 16.0 14.3 1.8 3.1 2.5 16.0 18.0 -2.0 4.00 y � 1 resultan ser:
8.50 (0.5-1.5)(5.0-10. + ::: ::(2.5-1.5) �16-10.8) =!�:� = 4
*
Total= 0.3 10.9 Tola!= -1
/)¡ = � .. 5.
fl (0.5-LS) + ... +(2.5-1.5) 2.5
I<Yi -s.s-3.sx¡ f ¿(y1 -0.5-1x;)2 /)0 = y- /11 x = 10.8 -5.4 · 1.5 = 2.7
La mejor recta sería aquella que minimice la suma de las distancias al cuadrado
de los puntos a la recta, es decir deberíamos encontrar /Je, y /Ji tales que La RECTA AJUSTADA para nuestros datos es
Y; = disminución en la FC de la rata i
x1 = dosis de droga recibida por la rata i
&¡ = término error para la rata i
R,gruló1r Un,a/ Simple L,/1/iJna Oro/lana ,fooa 11 /lagus/61r Lineal Simple Llliana Ortllana ,2008. 12
Supuest<>s nacer, por éJemplo) suponemos que los valores de la variable rc,gresora no
l. NORMALIDAD. Para cada valor de X, Y es una variable aleatoria con
tienen error. Esto dificilmente sea cierto!!!!
distribución Normal con media·µ,. [La distribución de la DFC para cada
dosis de la droga es Nonnal con media µx]. ESTIMACIÓN DE ¡3. Y 131
2. HOMOSCEDASTICIDAD. Todas las distribucio�es pobiacional.es tienen la Los parámetros del modelo lineal se estiman a través del método de mínimos
misma varianza. [La varianza de DFC es la misma para todas las dosis]. cuadrac:los. Llamamos /J0 y /)1 a los estimadores de mínimos cuadrados de /3 0
3. LINEALIDAD. Las medias µ;. 4e.Í�s di,stintas poblacléwes está11 rel�ion¡das y /31 , para obtenerlos no es necesario hacer los supuestos 1,2 y 4, sólo el de
linealmente con X. [La media poblacion'iil en la DFC carobia linealmente con LlNEALIDAD.
la dosis].
• /J0 es un estimador insesgado de /30
� =E(Y/ X=x)"' /3o + 13 1 X • /3
1 es un estimador insesgado de f]1
Esto significa que:
⇒ 130 = ordenada al origen = MEDIA POBLACIONAL de la variable • /) tiene una distribución de muestreo con media p0 y
resultante (DFC) cuando la variable regresara (dosis) toma valor O. 0
Nuestra ecuación f = /)0 + /i1 x es una estimación de la verdadera recta Recordemos nuestro modelo
poblacional. Cambio en# pulsaciones. Cambio en # pulsaciones.
Ratas dosis 0.5 m . fulli!s dosis !.O m
RECAPITULEMOS
⇒ H�aquí:
1. Planteamos el Modelo de regresión lineal homoscedástico
· · 2. Presentamos estimadores de mínimos cuadrados para la pendiente y la
ordenada al origen.
¿Cómo se obtienen los estimadores? ➔ Métodos de Mínimos 1.0
Cuadrados ordinarios.
t Valor observado (Y,) " Valor predicho (''9'¡ , que estima aµ¡)
⇒ En lo que sigue: Distancia entre t y .ic = (Y; - '9 ';) = residuo del dato i i "" 1, 2, ... , 5
3. Estimaremos d-, la varianza común a las distintas poblaciones.
4. Obtendremos el error estándar de /11 y el de /J0 para construir: Cada resíduo (Y¡ - '2'¡ ) provee oportunidad de medir la variabilidad en cada
Tests de hipótesis para 130 y 131. población individual. Entonces, un candidato natural para estimar la varianza
pob]acional sería
Intervalos de confianza para 130 y 131- 5
2
S. Constnliremos la Tabla de Análisis de Varianza. ¿(Y¡-f,.)
i=1
s
¿CÓMO ESTIMAMOS LA VARIANZA cr 2
COMÚN A TODAS LAS Sin embargo, no tenemos 5 residuos independientes porque existen dos
POBLACIONES? vínculos entre ellos. En consecuencia, tenemos sólo 3 GRADOS DE
LIBERTAD en la suma de los residuos. Entonces estimamos ri con
5 2
¿(Y;-f;)
i=l
(5-2)
Si el tamaño de muestra fueran usaríamos
(n-2)
Notación
Regresldn LJ,rea/ Simple Lilwna Ore//a11a,20h8 /5
&gruión Lineal Simple Liltana Ore/lana ,2008 /6
10.736
Regresfór, Lineal Slmpf• J,i/iana On:llaM,2008 19
R,groslónLi,r,a/ Simpl• lillorra Or.11,ma ,1008 10
l
t
- condiciones basales de las ratas ligeramente diferentes,
Tal cotno ·ocurre para /11, bajo..el modelo propuesto J tiene di�liución
errores en los instrumentos de medícióp., etc. etc,
nonnal con media"º y varianza u2 (/J0 ) que se estima como
VARIABlLIDAD RESIDUAL (NO EXPLICADA POR LA DOSIS).
2
SE2 (/Jo)'="s;[-�+ x
n n
¿(xi-X) 2
i:l
2. Una ·m:ed.ida ·de la V:ÁRIABILIDAD NO EXPLICADA por la variable R2 nos dice qué porcentaje de la variabilidad total en la variable Y puede ser
regresora es la suma de los residuos al cuadrado. explicada por la variable regresora, en consecuencia es W1a medida de la
capacidad de PREDICCIÓN del modelo.
Residual Sum of Squares = RSS = L (Y, - ti )2
,�, R2 t.ambién puede verse como es una medida de la fuerza de la ASOCIACIÓN
LINEAL entre X e Y. (Hacemos énfasis en la palabra lineal porque fue
3. Finalmente, una medida de cuánto contribuye la variable . X a explicar la obtenido bajo unmodelo lioeal)
variabilidad de Y (VARIABILIDAD EXPLICADA POR EL MODELO DE
RE�R:ESJÓN) está dada por
Propiedades de R2
Regression Sum of Squares = RegSS = L (}j -f)2 - O :S:R2 :s; l
l=l
- No depende de las unidades de medición.
Resultado interesante ⇒ TSS = RegSS + RSS - Es el cuadrado del coeficiente de correlación de Pearson (deberíamos usar la
notación r2, pero ... )
- Mientras mayor es R2 mayor es la fuerza de la variable regresara para
Trataremos de construir una medida de la fuerza de la relación entre la variable predecir el outcome.
dependiente e independiente, que nos indique cuán buen predictor de Y es X. Se
trata de decidir si el hecho de conocer el valor de X (dosis) - Mien1ras mayor sea R2 menor es la RSS y por lo tanto, más cercanos están
los puntos a la recta.
Si uno puede predecir Y mucho mejor usando la recta de regresión
f"" /)0 + /J1 ·x que sin conocer el valor de X, entonces las variables están - Toma el mismo valor cuando usamos a X para predecir a Y o cuando usamos
a Y para predecir a X.
asociadas.
La medida de asociación que propondremos se construye con 4 elementos:
- Una regla para predecir Y cuando no conocemos X ⇒Y
Ejemplo (contínua.cíón)
• Una regla para. predecir Y cuando conocemos X ⇒ f =/Jo +/J¡ X
9
- Una medida resumen de los errores que se cometen con cada regla En nuestro ejemplo R 2 - ESS - -72· - 0.975.
TSS 74.80
⇒ TSS para la Regla l Entonces, el 97% de la variación observada en los datos de DFC es explicada
⇒ RSS para la Regla 2 por la dosis de droga. La dosis es un excelente predictor de la DFC:
Una medida de cuánto se reduce el error al usar la regla más sofisticada.
TSS-RSS RegSS Pero CUIDADO !!I Cuando tenemos sólo dos observaciones (n = 2): se obtiene
R2 = R2 = 1 independientemente de los datos ... porque dos puntos detenninan una
TSS rss línea recta, as( que mínimos cuadrados daría un ajuste perfecto!!
RSS = O ⇒ RegSS = TSS ⇒ R2 = 1
llamad!l COEFICIENTE DE DETERMINACIÓN
R,gres16n linea/ Slmpl• Lillana O,.,,/lana,2008 2J
Regreslóh L111ea/ Simple líllana Or•llana ,Jodli 24
TABLA-DE ANALISISDELA VARIANZA(ANOVA) . Entonces, cuando Ha es verdadera el MS del modelo y el MS residual deberían
Las sumas de cuadrados correspondientes a las tres fuentes de variación que parecerse mucho, o su cociente deberla parecerse a 1. Por lo tanto, es razonable
hemos 'descripto arriba se presentan habitualmente en una T�bla, denomfuada considerar el estadístico
Tabla de ANOVA RegMS RegMS
F= "'
RMS RSS/(n - 2)
Fuente de. Variación (Source) SS d.f. M.S como candidato para testear la hipótesis H., : ¡3 1 = O. Esperamos que F esté
Mode1·· RygSS .1 RegSS/1 cerca de l sí H0 es verdadera y que F sea grande y positiva cuando H., es falsa.
'
Residual RSS n-2 RSS/(n-2) Bajo los supuestos del modelo lineal y cuando a, es verdadera
Total TSS n-1
,· F ~ Distribución de Fisher con (1, n-2) grados de libertad
La columna d.f. indica los grados de libertad de cada SS. grados de libertad / \ractos de libertad
del numerador del denominador
- El modelo tiene d.f. =#de parámetros en el modelo -1= # de covariables en
el modelo.
- La suma de cuadrados residual tiene n - 2 grados de libertad (est1UI1.os Por lo tanto un test de nivel a para las hipótesis
estimando dos parámetros en el modelo) H.,: �1 = O versus H1 : �1 # O
- La suma de cuadrados total tiene n - 1 grados de libertad (hay un vínculo rechazará H., si el valor del. estadístico para los datos de la muestra produce un
que liga las desviaciones respecto de la media). p-valor (calculado sobre la distribución F de Fisher) menor que el nivel a..
La columna MS (Mean Square) se obtiene como el cociente entre la SS y sus Nota l. El test es de dos colas, porque detecta apartamientos de H., tanto en la
correspondientes grados de libertad. dirección positiva como en la dirección negativa. Sin embargo, la hipótesis nula
NO SE RECHAZA si el cociente F es pequefío! ! !
OTRO TEST PARA LA PENDIENTE ... Nota 2. En el caso de Regresión Lineal Simple, el test que hemos construido
basado en la distribución F de Fishery el test basado en 1a distribución t (a dos
A partir de la Tabla es posible derivar un test para Ha : j31 = O. colas) son equivalentes, ya que ambas distribuciones están relacionadas.
[En el contexto de regresión lineal simple ya hemos obterúdo el test t que Además ambos testean la. misma hipótesis. Esto no es así para el caso de
resuelve este punto, este test será más importante en Regresión MúltipleJ. Regresión Lineal Múltiple.
El razonamiento es el siguiente: Bajo los supuestos del modelo de regresión,
(1) La distribución de muestreo de RMS = RSS/(n- 2) tiene esperanza cr1- STATISTIX
(2) La distribución de muestreo .de EMS=RegSS/1 tiene esperanza Datos: YX
n Statistics / Linear Model / Linear Regression
o-2 + f3;1-''f,(x, -x) 2 Dependent Variable => Y
i=l
lndependent Variable => X
R,gr,s/ón L/r,eof Slmp/• Li/ll111L1 Or,llc;na, 1008 25
R�g,-esilm Liueal Simpfe L/liana Ortllana ,1008 26
PREDIOTOR·
VARIABLES COEFFICIENT STD ERROR ST.UDENT' S •r p
De donde:
- IC 95% para la media de Y cuando X"" 2.0 es (12.J, 14.9) [fitted value]
A partir de este error estándar podemos construir un INTERVALO de - IC 95% para un nuevo valor de Y cuando X= 2.0 es (10.6, 16.4) [predicted
CONFIANZA de nivel (1 - a) para el valor predicho de Y cuando X = x0• value]
Ejemplo (continuación)
El intervalo de confianza del 95% para predecir la DFC de una rata que recibió REGRESIÓN EN ESTUDIOS OBSERVACIONALES
una dosis de 2.0 mg es
A menudo el investigador no selecciona los valores de la variable •
1 (2-1.5) 2 independiente, sino que toma una· muestra de alguna población y obsel'Va
f2.0 ± 3.182,0.79582 1+- + -'------'..... = 13.S ±2.887 = (10.61, 16.39) simultáneamente X e Y para cada miembro de la muestra.
5 2.50
¿Son válidos los resultados que hemos.derivado suponiendo que lo1:1 yalores de
X eran fijos?
• Estímadores de �. y �1
Rqp-e.sión liu,ol Simple Liliana OreJfo.na ,1()08 29 negrtslón Linea/ Si,nple Ll/lona Ore/lona, 200/J JO
• Estimadores de cr2, cr2 (/J0), 0-1. (/J¡ ) ¡ � 1 no tiene interpretación CAUSAL si los datos provienen de un estudio
, Intervalos de confianza y test para �º y � 1 observacional!
• Estimadores e intervalos de confianza para µ� .Supongamos que en el estudio observacional los países se hubieran
• Predicción para Y cuando X= x y su intervalo de confianza. seleccionado de modo tal que la probabilidad de que un país sea seleccionado
depende de la tasa de actividadfemenina (W}.
SI, SON VÁLIDOS los resultados si se cumple que para cada valor de X: ¿Sería válida nuestra inferencia acerca de Pi en la regresión de la tasa de
❖ Y .tiene distribución normal con media µ. y varianza ci (NORMALIDAD) nacímiento respecto de la tasa de actividad femenina? Si!!!
❖ La media µx es una función lineal de X (LINEALIDAD) Consideremos los gráficos siguientes.
❖ La varianza ci es la misma para todo nivel de X.
PRED.ICTOR
VARIABLES COEFFICIENT STD ERROR STUDENT'S T p Si nosotros sabemos que cuando X= O entonces Y= O y ajustamos el modelo
NUMERO 5.86088 1. 22960 4. 77 0.0005 completo
R-SQUARED 0.6544 RESID. MEAN SQUME (MSE) 25837.l
ADJUSTED R-SQUARED 0,6256 STANDARD DEVIATION 160.739 Si el test para
SOURCE
----------- DF SS
----------- ----------
MS F p �: flo = O
rechaza la hipótesis nula, tenemos evidencia de que el supuesto de linealidad
REGRESSION 1 587005 587005 22. 72 0.0005
RESIDUAL 12 310045 25837.1 NO ES VÁLIDO!! 1
TOTAL 13 897050
Por lo tanto, cuando se sabe que la curva debe pasar por el origen, el test para
CASES INCLUDED 13 MISSING CASES O !30 O es de interés para chequear apartamientos de la linealidad.
=
¿Qué estimación de 13 1 es preferible? Nota. Otra situación en que !30 podría ser conocido, aunque distinto de cero,
• Si el modelo lineal es verdadero y además l30 = O entonces, la regresión por el seria el caso en que se sabe que el costo fijo diario de un servicio es J30 y que
origen resulta en un ajuste con menos error estándar para 13 1 • por cada paciente que ingresa el costo se incrementa en cierta cantidad j31. En
• Si el modelo lineal no es apropiado, aún cuando sea aproximadamente este caso el estimador de la pendiente es ligeramente diferente.
válido en el rango de valores observados de X, y se ajusta una regresión por
el origen se obtendrá una estimación sesgada de 13 1 -
R,gr,sfón Lirrtal Simple Lill@a Ore/lan� ,1008 JS
/úgr,s/611 Lin,al Sim¡,/s Li/1""" Ore/lona .l(/(18 J6
PROBLEMAS CON REGRESIÓN La relación de talla con edad en niños es aproximadamente lineal cuando se
Los siguientes son algunos problemas comunes que afectan la validez de las consideran tramos cortos de edad.
conclusiones de un Análisis de Regresión. · Si el supuesto de linealidad claramente no se cumple, como por ejemplo en una
- Relación no lineal. El método de mínimos cuadrados que hemos presentado relación en forma de U, como la del gráfico siguiente, los resultados y
busca el mejor ajuste a una linea recta. Si la relación entre las variables no es conclusiones del análisis de regresión pueden ser absolutamente engañosos. Por
lineal, la distribución.propuesta para los. estit:nadores es falsa. ejemplo, el test para la pendiente puede no rechazar la hipótesis de que la
pendiente es cero, es decir concluiríamos que las variables NO están asociadas,
- Vari.a�za no homogénea. Si la vari� de Íos errores cambia con los las variables están fuertemente asociadas ya que la medía de Y sigue una
valores de.X (heteroscedasticidad), entonces los errores estándares, los tests relación casi detenninistica con el valor de X, el problema es que esta relación
y los intervalos de confianza que hemos obtenido son inapropiados. no es lineal.
- Errores correlacfonados, Los errores estándares que hemos calculado, así
como los tests y los intervalos de confianza suponen que los errores son
independientes. Cuando. este supuesto se viola las conclusiones pueden ser
erróneas. r=-0.0117
- Errores no normales. Los tests e intervalos de confianza que hemos
presentado, basados en la distribución t y la F, suponen que para cada valor Recta ajustada
de X 1a distribución de la variable Y es normal. El no cumplimiento de este
supuesto ínvalida estos proce<limientos (especialmente cuando el tamaño de Y= 35.08 - 0.00637 X
muestra es pequeño).
- Casos influyentes. Los estimadores de mínimos cuadrados son muy poco
robustos. Un único datos outlier puede modificar sustancialmente la recta
estimada.
Cuando no se cumple el supuesto de linealidad la hipótesis H.,: 131 = O no es un
- Variables omitidas. Si otras variables afectan a ambas X e Y test de independencia entre las variables.
simultáneamente nuestra estimación de la pendiente puede subestimar o
sobrestimar la verdadera relación entre X e Y (Confounding factors).
Varianza no homogénea y errores no normales.
Comentaremos brevemente algunos de ellos. Buena noticia! 1 !
Relación no lineal. La recta estimada por. niínimcis cuadrados y 1os coeficientes de corre,lación y
determinación son modos válidos para DESCRIBIR la relación entre las
El modelo supone que la media poblacional de Y varía linealmente con X. La variables aún cuando el supuesto de normalidad no sea válido.
forma REAL de la relación es desconocida, y es muy poco probable que sea
EXACTAMENTE lineal. Sin embargo, una función lineal a menudo resulta ser Lo que no vale en e;te vaso es la inferencia.
una buena aproximación para la verdadera relación. En la práctica los sup)lestos de nonmilidad y homoscedasticidad nunca se
cumplen exactamente. Sin embargo, mientras más cerca estén nuestros datos de
Regruióu Litrrial Simple Li/ion« Orel/allrr ,1008 37 Regusíó,, lineal Simple Lillana Orel/anq ,10Q8 38
'los supuestos del modelo lineal, más apropiados serán los tests e intervalos de El dato influyente es USA, el resto son países de Asia y Africa.
confianza que construyamos.
Un dato influyente puede ser fácilmente detectado a través de métodos gráficos,
. Para ;muestras grandes el supuesto de distribución nonual no es crucial. Una aunque tambíén existen medidas indicadoras de cuán influyente es una
versión• extendida del Teorema Central del Límite dice que el estimador de observación. Las estudíaremos cuando veamos regresión múltiple.
mínimos . cuadrados de la pendiente tiene distribución de muestreo
aproxima4amente normal cuando n es grande. Cuando detectamos un outlier tan severo, es importante investigarlo, Puede
estar mal registrado. Si es correcto, quizás sea diferente de las otras del modo
como ocurre en el ejemplo anterior y hay que preguntarse si interesa mantenerlo
Observaciones influyentes en el análisis.
Una desventaja del método de cuadrados mínimos es que observaciones con X Si el dato es correcto y no hay razones para excluirlo del análisis entonces la
muy grande o muy pequefio que caigan lejos de la tendencia del resto de los estimación de los parámetros debería hacerse con un método robusto.
datos pueden modificar sustancialmente la estimación.
Una observación se denomina INFLUYENTE si al excluirla la recta de
regresión estimada cambia notablemente.
Veamos un ejemplo. Las variables de interés son (ambas tomadas en 1995)
DIAGNÓSTICO EN REGRESIÓN
para distintos países: ¿Cómo sabemos si el modelo ajusta razonablemente bien a nuestros datos?
Y"' Tasa de nacimiento (cada 1000 habitantes) en 1995 Comentaremos brevemente la metodología para diagnosticar:
X= Número de televisores (cada 100 habitantes) (1) Si hay apartamientos definidos de los supuestos del modelo
(2) Si hay observaciones influyentes.
---·--·-··--·
ScatteíPlotQ'f y vs X·
�,4 .:
1
1
24
te.i
• 1
1
Residuos versus valores predichos Valor absoluto de lo,v res vs predichos
�r - ·
11.� J
1 >.r-�: -----���.ron·Rt-Jl�IP!tit-
.. . ---- .-----�----..,l
��,-Plol cirJilS,.Jres: n:·'™AT
¡ .,'
! -- __ j
_,.i....
-. ,
,..,....� i· J.•: i
. .
..." .......�"'- ,.
J .. Ii - ' ' J 1
- -� - - �- ¡f ll¡
.! 1
Cuiin lejos cae el valor.de Y de la tendencia general en la muestra y análisis serán válidas pata los datos transformados y no siempre es simple
Cuán lejos se encuentran los valores de las variables regresoras de sus encontrar la transformación que solucione los problemas disgnosticados.
medias.
A continuación se presenta una Tabla que resume los métodos alternativos para
Nota. los distintos problemas diagnosticados.
- Los ·métodos que hemos comentado para detectar outliers y observaciones
influyentes son necesarios en un. análisis de regresión. Sin embargo, no son Problema Remedio
infalibles, no existe un algorfüno automatizado para la evaluación, ni un Errores no normales (n pequeño), - Regresión Robusta
criterio único, por lo que requieren del BUEN JUICIO del analista. 0utliers, Observaciones influyentes
- Otro problema es que si dos casos fuertemente influyentes son casi Heterogeneidad de varianzas - Regresión de mínimos cuadrados
coincidentes, cuando eliminemos uno de ellos, el ajuste prácticamente no se pesados
modificara gracias a la presencia del otro!!! Existen extensiones de estos Relación no lineal - Regresión no lineal
métodos para medir influencia conjunta de los datos tomados de a dos, de a
tres, etc.
- Regresión no paramétrica
¿Qué hacer si el modelo linealnoes apropiado? ❖ A veces es necesario sumar una constante a los datos para poder aplicar la
La solución es TRANSFORMAR la variable dependiente o la independiente, de transformación. Por ejemplo, si algunos datos son cercanos a O y se desea
modo , de "linealizar'' la relación, Si la distribución de • los residuos es usar la transformación 1/X, basta con correr el origen usando 1/(X+c), donde
razonablemente normal y la varianza de los errores aproximadamente constante; e es una constante apropiada.
entonces es conveniente intentar transformar la covariable. La razón es que si ❖ Después de sele.ccionar la o las transformaciones a utilizar debe ajustarse
transformamos la Y (por ejemplo usamos .Jy) puede cambiar sustancialmente nuevamente el modelo sobre la o las variables transformadas y estudiar los
la distribución de los errores y afectarse la homogeneidad de vmianz.as. residuales para decidir si el modelo resulta adecuado.
La Figura siguiente mues1ra algunas transformaciones típicas (llamamos X' a la
variable transfonnada) que permiten "Iinealizar la relación �ntre X e Y..
¿Qué hacer si falla el supuesto de distribución normal de los errores y/o de
Imagen Transformaciones posibles para X homogeneidad de varianzas?
Estos dos problemas :frecuentemente aparecen juntos. La solución en general es
una transformación de la variable Y, ya que lo que necesita modificarse es la
forma de la distribución de Y y su varianza. En ocasiones esta transformación
X' =..fx o en general XA con O<A<l puede ayudar además a "linealizar''la relación de Y con las covariables.
X' =log(X) Las transformación más simples son las transformaciones de potencia del tipo:
Y'=Y.,_,
En esta familia de transformaciones están incluidas las siguientes
transformaciones simples:
A,= 3 Y'=Y'
X' = X2 o en general xA con A> 1 11,=2 Y'=Y'
X' =exp(X) t..= l Datos crudos
A=½ Y'=ff
i., = 1/3 Y'=W
A.· o Y' =log(Y) por defmición
1 1
X'"" •- o en general -
·
con A*O 11, =. 0.5 .
Y'=--1.c.-
X XA
,,Jy
X'= exp(-X)
A.= -1 Y'=l_