Estimacion Transito Medio Diario Anual
Estimacion Transito Medio Diario Anual
Estimacion Transito Medio Diario Anual
net/publication/329969050
CITATIONS READS
0 3,501
1 author:
SEE PROFILE
Some of the authors of this publication are also working on these related projects:
Estudio de riegos de liga entre capas asfálticas tras una operación de fresado View project
All content following this page was uploaded by José Julián Rivera on 28 December 2018.
©[Copyright] La Editorial de la U.T.N., recuerda que las obras publicadas en su sitio web son de
libre acceso para fines académicos y como un medio de difundir la producción cultural y el
conocimiento generados por autores universitarios o auspiciados por las universidades, pero que
estos y edUTecNe se reservan el derecho de autoría a todos los fines que correspondan.
Universidad Tecnológica Nacional
Facultad Regional Santa Fe
Jurado de Tesis
Ing. Roberto Cruz
Dr. Omar Chiottti
Ms. Ing. Graciela Berardo
Febrero 2007
2
DEDICATORIA DEL AUTOR
Esta tesis va dedicada a mis familiares, amigos y a todas aquellas personas que me
han dado continuamente fuerzas para su concreción. Especialmente a mi esposa
María Eugenia, por haber sabido disimular tantas ausencias durante el cursado de la
maestría, a mis padres por inculcarme constantemente la cultura del estudio y a
Gerardo Botasso, y demás compañeros de trabajo, por su apoyo y hacer posibles los
tiempos necesarios durante la cursada de la maestría y desarrollo de la tesis.
3
INDICE
Resumen 6
Reconocimientos del autor 7
Listado de tablas 8
Listado de figuras 9
1. Introducción 14
1.1. Enfoque del estudio 14
1.2. Objetivos, etapas y alcances del trabajo 21
2. Marco teórico y descripción metodológica 23
2.1. Marco teórico del estudio 23
2.1.1. Otros conceptos del tránsito y su medición 23
2.1.2. El análisis estadístico del tránsito 26
2.1.3. La modelización del tránsito elegida 28
2.2. Descripción metodológica 29
2.2.1. El modelo de regresión lineal simple 33
2.2.2. El modelo de regresión lineal múltiple 46
2.2.3. Conceptos complementarios 71
3. Análisis de datos 73
3.1.Obtención de los datos 73
3.1.1. Análisis de formas 73
3.1.2. Delimitación del área de estudio y antigüedad de los datos 79
3.1.3. Elaboración de la matriz homogénea 82
3.2. Empleo de los datos 84
3.2.1. Obtención de los algoritmos para el incremento del tránsito 84
3.2.2. Obtención de los algoritmos para los coeficientes diarios 101
3.2.3. Obtención de los algoritmos para los coeficientes mensuales 112
3.3. Resumen de resultados 123
3.3.1. Pasos para la aplicación de los modelos 123
4. Validación y discusión 127
4.1. Validación de los modelos 127
4
4.1.1. Primer caso de validación 128
4.1.2. Segundo caso de validación 136
4.1.3. Tercer caso de validación 142
4.1.4. Cuarto caso de validación 148
4.2. Discusión de la metodología de estudio empleada 155
4.2.1. Obtención de los coeficientes por valores medios 156
4.2.2. Análisis comparativo para los coeficientes diarios 157
4.2.2. Análisis comparativo para los coeficientes mensuales 159
5. Conclusiones y recomendaciones 163
5.1. Conclusiones 163
5.1.1. Respecto a la problemática detectada y marco teórico para su resolución 163
5.1.2. Respecto a la obtención de datos 163
5.1.3. Respecto al empleo de los datos 164
5.1.4. Respecto a la validación de la metodología desarrollada 165
5.1.5. Respecto a la discusión por la metodología de estudio 165
5.2. Recomendaciones 166
Anexo A 167
a.1. Reseña teórica 1 167
a.2. Reseña teórica 2 169
a.3. Reseña teórica 3 171
a.4. Reseña teórica 4 174
a.5. Reseña teórica 5 177
a.6. Reseña teórica 6 179
a.7. Reseña teórica 7 184
a.8 Reseña teórica 8 193
a.9. Reseña teórica 9 198
Anexo B 206
b.1. Ejemplo 1 206
b.2. Ejemplo 2 208
b.3. Ejemplo 3 211
Bibliografía 213
5
Resumen
El TMDA (Tránsito Medio Diario Anual) es una forma de valoración del volumen de
tránsito empleada en un sinnúmero de aplicaciones viales y de estudios relacionados.
Por definición su obtención implica que deben medirse los volúmenes pasantes por la
vía en análisis durante todo el año calendario, lo cual no es factible en muchos de los
estudios que requieren su cuantificación.
Para subsanar esta problemática, se suele adoptar lo que puede denominarse como la
metodología clásica , que contempla la obtención del TMDA mediante el uso
complementado de conteos esporádicos sobre la vía en análisis con series históricas
de vías cercanas de similares características. De esta forma se incluye como requisito
principal que su aplicación sea efectuada por un profesional capacitado en la materia,
como único medio para reducir la subjetividad que implica el decidir sobre la validez
o no del empleo de una serie, el cual generalmente no se encuentra disponible (o
incluso no resulta justificable) en muchas de las aplicaciones del TMDA.
El presente estudio atiende a esta problemática mediante el desarrollo de una
metodología objetiva, que permite, mediante la valoración de parámetros medibles
de las condiciones de borde de la vía, la obtención de curvas de corrección para los
conteos esporádicos para su extrapolación al TMDA, con aplicabilidad en la región
conformada por las provincias argentinas de Buenos Aires, Córdoba, Santa Fe, Entre
Ríos y La Pampa.
Para esto la metodología emplea modelos obtenidos por regresión de los datos
históricos recolectados en el área en estudio. Razón por la cual se genera un fuerte
análisis de manejo estadístico y de la modelización por regresión, que sirve de base a
la aplicación de los datos relevados hasta la obtención de los modelos finales.
Como último paso se realiza el análisis de validación de la metodología mediante su
aplicación en diversas tipologías de vías y comparación de resultados con los valores
reales y los obtenidos mediante la metodología clásica, y se analiza el empleo de
técnicas alternativas para el desarrollo de los modelos, generándose también en este
sentido el análisis comparativo. Los resultados de ambos análisis permiten concluir
que mediante la metodología desarrollada pueden obtenerse en su área de aplicación
y en forma objetiva valores de TMDA confiables.
6
Reconocimientos del autor
7
Lista de tablas
8
Listado de figuras
9
3.29. Gráfico de caja y bigotes de los residuos para vías turísticas
3.30. Histograma de los residuos para vías comerciales
3.31. Nube de puntos para los coeficientes diarios en vías comerciales con peaje
3.32. Nube de puntos para los coeficientes diarios en vías comerciales sin peaje
3.33. Ajuste de la función polinómica de grado cinco, en vías comerciales con peaje
3.34. Gráfica de residuos de la función polinómica de grado cinco, en vías
comerciales con peaje
3.35. Ajuste de la función obtenida, en vías comerciales sin peaje
3.36. Gráfico de residuos de la función obtenida, en vías comerciales sin peaje
3.37. Gráfico de coeficientes mensuales vs mes del año
3.38. Gráfico de X1 vs. X2
3.39. Gráfico de X1 vs. X5
3.40. Gráfico de X2 vs. X3
3.41. Gráfico de X2 vs. X4
3.42. Gráfico de X3 vs. X4
3.43. Gráfico de X2 vs. X5
3.44. Gráfico de X3 vs. X5
3.45. Gráfico de X3 vs. X4
3.46. Gráfico de X1 vs residuos de la regresión múltiple simple
3.47. Gráfico de X1 vs residuos de la regresión múltiple de grado dos
3.48. Gráfico de X1 vs residuos de la regresión múltiple de grado tres
3.49. Histograma de residuos de la regresión múltiple de grado tres
4.1. Contador automático de tránsito empleado en el estudio
4.2. Valores de TD durante el año 2004 para primer caso de validación
4.3. Gráfico de caja y bigotes para TD en primer caso de validación
4.4. Vías de acceso a la ciudad de La Plata
4.5. Nube de resultados por metodología clásica, en primer caso de validación
4.6. Gráfico de caja y bigotes para resultados por metodología clásica en primer caso
de validación
4.7. Gráfico de probabilidad normal para resultados por metodología clásica en
primer caso de validación
4.8. Valores de TMDA por metodología desarrollada, en primer caso de validación
4.9. Gráfico de caja y bigotes para resultados por metodología desarrollada, en
primer caso de validación
10
4.10. Histograma de los resultados por metodología desarrollada, en primer caso de
validación
4.11. Red de Accesos a Córdoba
4.12. Gráfico día del año vs tránsito diario medido, en segundo caso de validación
4.13. Gráfico de caja y bigotes para los tránsitos medido, en segundo caso de
validación
4.14. TMDA por metodología clásica, en segundo caso de validación
4.15. Gráfico de caja y bigotes de TMDA por metodología clásica, en segundo caso
de validación
4.16. TMDA por metodología desarrollada en segundo caso de validación
4.17. Gráfico de caja y bigotes de TMDA por la metodología desarrollada, en
segundo caso de validación
4.18. Red de Accesos a Córdoba
4.19. Gráfico día del año vs tránsito diario medido, en tercer caso de validación
4.20. Gráfico de caja y bigotes para los tránsitos medidos en tercer caso de
validación
4.21. TMDA por metodología clásica, en tercer caso de validación
4.22. Gráfico de caja y bigotes de TMDA por metodología clásica, en tercer caso de
validación
4.23. TMDA por metodología desarrollada, en tercer caso de validación
4.24. Gráfico de caja y bigotes de TMDA por metodología desarrollada, en tercer
caso de validación
4.25. Autopista Buenos Aires La Plata
4.26. Ubicación del tramo urbano en análisis, en cuarto caso de validación
4.27. Tránsito diario medido, en cuarto caso de validación
4.28. Gráfico de caja y bigotes de TMDA directo, en cuarto caso de validación
4.29. TMDA por metodología clásica, en cuarto caso de validación
4.30. Gráfico de caja y bigotes de TMDA por metodología clásica, en cuarto caso de
validación
4.31. TMDA por metodología desarrollada en cuarto caso de validación
4.32. Gráfico de caja y bigotes de TMDA por metodología desarrollada, en cuarto
caso de validación
4.33. Gráfico de caja y bigotes para los intervalos de confianza de los coeficientes
diarios por valores medios
11
4.34. Gráfico de caja y bigotes para los intervalos de confianza de los coeficientes
diarios por regresión
4.35. Gráfico de caja y bigotes para los intervalos de confianza de los coeficientes
mensuales por valores medios
4.36. Gráfico de caja y bigotes para los intervalos de confianza de los coeficientes
mensuales por regresión
a.1. Nube de puntos que ajusta bien a la recta
a.2. Nube de puntos para la cual el ajuste lineal no resulta adecuado
a.3. Nube de puntos sin relación lineal entre variables
a.4. Nube de puntos con claros indicios de heterocedasticidad
a.5. Nube de puntos con datos atípicos
a.6. Nube de puntos con posibilidad de inclusión de variable binaria
a.7. Modelo Y = exp
a.8. Modelo Y = 1/
a.9. Modelo Y = 0 + 1 lg X
a.10. Modelo Y = 0X 1
-
a.11. Modelo Y = 0X 1
12
b.8. Influencia del punto B.
b.9. Influencia del punto C.
b.10. Efecto de omitir un atributo
b.11. Efecto al omitir un atributo
b.12. Efecto al omitir un atributo
13
Capítulo 1 Introducción
14
Estudio de mercado de combustibles, lubricantes, etc.
Seguridad
Cálculo de índices de accidentes y mortalidad
Evaluación de mejoras por seguridad
Investigación
Nuevas metodologías sobre capacidad
Análisis e investigación de los accidentes y la seguridad
Estudio sobre ayudas, programas o dispositivos para el cumplimiento
de las normas de tránsito
Estudios de antes y después
Estudios sobre medio ambiente y la energía
Usos comerciales
Hoteles y restaurantes
Urbanismo
Autoservicios
1
Actividades recreacionales y deportivas...
No sólo son numerosos los campos de aplicación del parámetro TMDA, sino que en
cada uno de ellos puede resultar de una gran importancia en la toma de decisiones,
junto con otras características del tránsito. Como ejemplo podemos considerar que
...el diseño de un camino, se encontrará preponderantemente influenciado por dos
factores; la configuración del terreno que debe atravesar y las modalidades y
exigencias del tránsito que debe soportar... Será un buen diseño el que, con un costo
anual mínimo, tenga en cuenta simultáneamente ambos factores, en la medida de su
importancia... Cuando el tránsito es reducido, el diseño del camino deberá estar
influenciado por la configuración del terreno, en cambio cuando el tránsito es
intenso, las necesidades de los usuarios y las características del tránsito deberán ser
los factores preponderantes... El volumen, composición, distribución, velocidad del
tránsito... determinan diversas magnitudes del diseño geométrico de un camino, tales
como radios y peraltes de curvas horizontales, parámetros de curvas verticales,
2
pendientes, anchos de calzada, etc...
1
Ingeniería de tránsito, fundamentos y aplicaciones , R. Cal y Mayor, J. Cárdenas, Alfaomega 7°ed.,
México 1995.
2
Tránsito medio diario anual 98/99 , División Tránsito de la Dirección Nacional de Vialidad,
Argentina 2000.
15
No obstante las amplias posibilidades de aplicación, la determinación y empleo del
TMDA, y demás parámetros asociados, en Argentina y Latinoamérica no están aun
generalizados, tal cual lo advierte el Banco Mundial cuando asegura que Aunque
el rápido desarrollo de la tecnología ha reducido el costo de las modernas técnicas de
gestión de tránsito, muchas ciudades están todavía pobremente organizadas y tienen
personal inadecuado para hacer uso efectivo de ellas. Tanto la asistencia técnica
como las inversiones son capaces de generar elevados retornos en este campo,
siempre y cuando se traten los problemas fundamentales de recursos humanos e
3
institucionales .
3
Ciudades en movimiento , Banco Mundial, TWU-44, 2002.
4
Una visión estratégica del Transporte en la Argentina , CIMOP, Argentina 2003.
16
su valor preciso para el período de duración de sus mediciones. Sin embargo, debido
a que sus variaciones son generalmente rítmicas y repetitivas, es importante tener un
5
conocimiento de sus características .
Ya que existe variabilidad en las necesidades que originan el movimiento de las
personas (tránsito), existe la necesidad de realizar conteos continuos a lo largo de
todo el año calendario, para así arribar al TMDA buscado. Siendo justamente esta la
razón a nuestro entender que diferencia este parámetro de otros de obtención más
inmediata (ancho de calzada, pendientes, velocidades de circulación, etc.).
5
Ingeniería de transporte , W. Hay, Limusa, México 1998.
6
Caracterización de errores de muestreo en censos de volumen y composición , M. Herz, J.
Galárraga, M. Maldonado, XIV Congreso Argentino de Vialidad y Tránsito, Argentina 2005.
17
clasificación según los tipos representativos de vehículos. En general los tipos de
vehículos con que se clasifica son automóviles, utilitarios de cuatro ruedas, ómnibus,
camiones simples, camiones con semiacoplado o semiremolque. Esta clasificación
puede variar según las necesidades, aumentando el número de clases o
disminuyéndola. La duración de los conteos estará entre 1 y 7 días, durante las 24
horas. Cuando el conteo es por día el TMDA se calcula de la siguiente manera.
TMDA TC f d fem (1.1)
Siendo:
TC = Tránsito contado a lo largo del día.
fd = Factor de corrección por el día de realización del conteo.
fem = Factor de corrección estacional correspondiente al mes m en que se
realizó el conteo.
Los factores de corrección diarios se determinan a partir de información obtenida de
los contadores permanentes más próximos al sitio y tienen por objeto estimar el
promedio diario semanal a partir de conteos de menor duración. Si el conteo es de 7
días no es necesario determinar este factor. En ese caso se estima el Tránsito Medio
Diario Semanal (TMDS) y el TMDA de la siguiente forma, partiendo de los Tránsitos
Contados (TC) en cada uno de los días de una semana:
1
TMDS TC (1.2)
7
y luego:
TMDA TMDS fem (1.3)
siendo:
TDH = Tránsito medido en el día hábil (viernes o lunes)
TDS = Tránsito medido durante el día sábado
TDD = Tránsito medido durante el día domingo
18
Los factores de corrección estacional se obtienen del organismo vial con jurisdicción
en el tramo, o bien se calculan a partir de información de contadores permanentes
próximos al lugar. Se deberá tener en cuenta que la DNV (Dirección Nacional de
Vialidad) determina los factores de corrección estacional solamente para días hábiles,
de manera que el TMCj deberá ser determinado solamente con días hábiles... 7.
Esta técnica puede ser bien empleada cuando el análisis es dirigido por un
especialista de tránsito, que puede interpretar la validez de relacionar un punto con el
otro (en función de la similitud en las necesidades cubiertas por el tramo de vía),
profesional generalmente no disponible en estudios que requieren la valoración del
TMDA para implementaciones que poco tienen que ver con la especialidad (estudios
de mercado, logística, accidentología, etc.), sumándose a esta complicación el hecho
no menor de que en la práctica sólo se cuenta con este tipo de conteos continuos en
zonas urbanas muy desarrolladas o vías rurales de importancia, quedando sin
cobertura la inmensa mayoría de las ciudades y rutas secundarias y terciarias que
constituyen la red vial de la región.
7
Planeamiento del transporte , L. Girardotti, Fac. de Ing. UBA, Argentina 2003.
19
suficientes para recolectar datos de tránsito. Por esto, el método define tres niveles
claramente determinados de entrada de datos, basados en la cantidad de información
disponible. Estos niveles representan la calidad de la estimación que el diseñador
puede efectuar de las características futuras del tránsito en la ruta a diseñar
El alto nivel de exactitud en los datos y en las proyecciones de las cargas de tránsito
aplicadas trae como consecuencia pavimentos mucho más confiables, a diferencia de
aquellas rutas diseñadas con información de cargas y volúmenes sin un alto nivel de
8
exactitud
A partir de lo aquí volcado, hemos buscado poner en relieve ciertas dificultades que
presenta la aplicación de los censos de cobertura y la posibilidad de inclusión de
mejores metodologías de estimación, pues en la mayoría de las técnicas de aplicación
del TMDA no se cuenta con refinamientos como el expuesto, de generar diversos
niveles de análisis en función de la precisión con que el tránsito ha sido analizado,
llevándose indefectiblemente, como ya se mencionara, a bajas confiabilidades.
Toda esta situación ha sido detectada con anterioridad, por eso a nivel mundial
existen estudios tendientes a establecer los parámetros de comportamiento del
tránsito en busca de calcular el TMDA mediante la utilización de conteos
esporádicos. Como ejemplo podemos mencionar las curvas de Petroff y Blensly,
destacando su particular antigüedad y restricción geográfica.
Es justamente la restricción geográfica lo que hace que no exista un modelo de
aplicación generalizada y mucho menos para la región central de la Argentina, lugar
propuesto para la realización del estudio. Por esto vale recordar lo enunciado en una
de las publicaciones más consultadas a nivel mundial por los especialistas en tránsito,
el Manual de Capacidad 2000 de la TRB (Transportation Research Board), que en su
capítulo de Características del tránsito vehicular y factores humanos sostiene que
las variables estacionales en la demanda de tránsito reflejan la actividad social y
económica del área servida por un camino. Los datos volcados en esta publicación
son típicos de la zona estudiada. Sin embargo, estos parámetros varían en función de
los hábitos de viaje locales y el medioambiente, los ejemplos no pueden ser usados
9
como un sustituto para la obtención de datos locales .
8
Vialidad II , C. Wahr, Universidad Técnica Federico Santa María, Chile 2003.
9
Highway Capacity Manual 2000 , Transportation Research Board, National Research Council,
EEUU 2000.
20
1.2. Objetivos, etapas y alcances del trabajo
Por lo que expusimos en el punto anterior, planteamos el presente trabajo, que busca
facilitar el empleo de extrapolaciones de los conteos esporádicos de tránsito al
TMDA, fundadas en:
parámetros medibles,
comportamientos conocidos de forma estadística,
y la posibilidad de aplicación en una amplia región relativamente homogénea,
como lo es la zona central de la República Argentina, conformada por las
provincias de Buenos Aires, Santa Fe, Córdoba, Entre Ríos y La Pampa.
Intentamos con el estudio generar una herramienta simplificada, constituida por una
metodología de relevamiento y algoritmos de aplicación, sostenida en un análisis
estadístico de regresión, que pueda ser utilizada como alternativa o reemplazo de los
actuales métodos existentes, sin necesidad de extrapolaciones subjetivas generadas
por la falta de datos o por no poseer el conocimiento acabado del lugar en estudio.
Este planteo guarda concordancia con la línea actual de pensamiento para la región,
ya que ...la velocidad de cambio y la inestabilidad económica son a menudo más
altas en países en desarrollo como los nuestros que en Europa o EEUU, así, no solo
el futuro es más difícil de predecir, sino que se ha pensado que el estilo de países en
desarrollo debe cambiarse radicalmente, y para esto se necesitan modelos que
debieran:
- Ser fácil de utilizar y requerir pocos recursos escasos.
- Usar información de bajo costo (que sea fácil de recolectar o que esté
disponible de otras fuentes).
- Permitir el uso de información histórica, de modo que ésta no sea
10
desechada...
Para poder llegar a este objetivo hemos planteado los siguientes lineamientos
generales, que delimitan las etapas del estudio:
10
Modelos de demanda de transporte , Juan de Dios Ortúzar, Universidad Católica de Chile,
Alfaomega, Chile 2000.
21
El desarrollo se basa en el análisis de datos de tránsito y sus características
recabados en diversas vías de la zona en estudio, combinados con datos
adicionales del entorno, referidos a lo geográfico, económico y social.
Para esto recolectamos los datos provenientes de fuentes del más amplio
espectro, fijando para ello un horizonte entre el año 1993 y 2003.
Los datos pasan a conformar una base de datos general homogénea, sobre la
que realizamos los análisis estadísticos necesarios para la conformación de
bases de datos reducidas, conteniendo las variables explicativas de
significancia. Aquí es donde se filtran y adaptan los datos recabados en
función de los requisitos particulares del estudio.
En función de las bases de datos reducidas, se determinan los algoritmos que
conforman el modelo por medio de regresión matemática, detectando su
ajuste.
Finalizamos el estudio comparando la aplicación de la metodología
desarrollada con otras alternativas, detectando las potenciales ventajas y
desventajas comparativas.
22
Capítulo 2 - Marco teórico y descripción metodológica
Como inicio del análisis veamos más detalladamente algunas de las características de
lo que denominamos tránsito, que consideramos de interés para su desarrollo.
Primeramente nos parece interesante diferenciar entre algunos conceptos que pueden
resultar similares, ya que ...el volumen y el flujo son dos medidas que cuantifican la
cantidad de tránsito pasante por un punto de un camino durante un intervalo dado de
tiempo. Estos términos se definen como:
- Volumen: el número total de vehículos que pasan por una sección dada de un
camino durante un intervalo de tiempo dado; los volúmenes pueden estar
expresados en año, día, hora o periodos menores.
- Flujo: es el equivalente horario de los vehículos que pasan por una sección de
camino dada durante un intervalo dado menor de una hora, usualmente 15
11
minutos...
Es claro que el análisis del trabajo se centraliza en el volumen de tránsito, pero como
vemos éste puede expresarse en diversas unidades de tiempo en función de los
requisitos de la metodología de aplicación del parámetro.
Entre estas formas de expresión surge el concepto de TMDA, pues ...el tránsito
medio diario anual es una medida fundamental del tránsito y en el sentido estricto se
define como el volumen de tránsito total anual dividido por el número de días del
12
año...
11
Highway Capacity Manual 2000 , Transportation Research Board, National Research Council,
EEUU 2000.
12
Tránsito medio diario anual 98/99 , División Tránsito de la Dirección Nacional de Vialidad,
Argentina 2000.
23
Por otro lado, para analizar las características puntuales del tránsito, debemos
comprender que éste es una expresión del transporte automotor carretero, y que por
lo tanto arrastra características del concepto general de transporte, algunas de las
cuales nos resultan de interés. La que sigue es una forma de enumerar a estas
...características generales del transporte:
a) El transporte es un bien altamente cualitativo y diferenciado: existen viajes
con distintos propósitos, a diferentes horas del día, por diversos medios, para
variados tipos de carga. Esto implica una enorme cantidad de factores
difíciles de analizar y cuantificar (por problemas de seguridad o comodidad,
por ejemplo).
b) La demanda de transporte es derivada: los viajes se producen por la necesidad
de llevar a cabo ciertas actividades (ej: trabajo, compras, recreación) en el
destino.
c) La demanda de transporte está localizada en el espacio.
13
d) La demanda de transporte es eminentemente dinámica...
13
Modelos de demanda de transporte , Juan de Dios Ortúzar, Universidad Católica de Chile,
Alfaomega, Chile 2000.
24
son menores que en los días laborales para caminos que sirven predominantemente a
viajes de negocios, como en vías urbanas... en comparación, los picos de tránsito
ocurren en los fines de semana en la mayoría de las rutas rurales y recreacionales...
de todos modos, la magnitud de la variación diaria es mayor para rutas recreacionales
14
y menor en rutas urbanas con viajes cotidianos...
14
Highway Capacity Manual 2000 , Transportation Research Board, National Research Council,
EEUU 2000.
15
Caracterización de errores de muestreo en censos de volumen y composición , M. Herz, J.
Galárraga, M. Maldonado, XIV Congreso Argentino de Vialidad y Tránsito, Argentina 2005.
16
Ingeniería de Tránsito , R. Cal y Mayor, J. Cárdenas, Alfaomega, Méjico 1995.
25
- Determinar los patrones de flujo de tránsito (variaciones estacionales, diarias,
horarias, etc.)
- Permitir la elaboración de la serie histórica para así determinar la tendencia
en el uso del camino en el largo plazo
...Los censos de cobertura se realizan en tramos en los que no se efectúan censos
permanentes, instalando durante 48 horas, en días hábiles, contadores automáticos de
tránsito con registro horario...
...Los censos de clasificación se realizan en estaciones predeterminadas en días
hábiles durante 24 horas consecutivas. En estos censos se clasifican manualmente los
vehículos según las siguientes siluetas: automóviles, pick-up, ómnibus, camiones
17
simples, camiones con acoplado y semiremolques...
Dijimos que los censos permiten establecer los patrones y analizar la serie histórica
de los datos, entramos de este modo al análisis estadístico del problema y
comenzamos a considerar lo que se conoce como serie de tiempo.
... Se tiene una serie de tiempo cuando se recopila información sobre ciertas
variables agregadas (población, ingreso, flujos vehiculares) en distintos instantes de
17
Tránsito medio diario anual 98/99 , División Tránsito de la Dirección Nacional de Vialidad,
Argentina 2000.
18
Red de Acceso a Córdoba; Capacidad y Nivel de Servicio para el tránsito actual y su predicción ,
Instituto Superior de Ingeniería de Transporte, Universidad Nacional de Córdoba, Argentina 1996.
26
tiempo. Esta información tiene la ventaja de que suele estar institucionalizada, por lo
que los datos ampliamente disponibles y las series históricas tienen una longitud
interesante. Un requisito importante es que las series sean lo más completas posible,
19
por lo que, previo a su utilización, deben ser llenadas con métodos adecuados...
Estas series pueden ser empleadas en métodos en busca de conclusiones como a las
que intentamos llegar con este estudio. Estos ...métodos de series de tiempo son
técnicas estadísticas que hacen uso de datos históricos acumulados en un periodo de
tiempo. Asumen que lo ocurrido en el pasado continuará ocurriendo en el futuro.
Como su nombre sugiere, estos métodos relacionan el pronóstico a un solo
20
momento...
Por ser el tránsito el dato principal de entrada, hablamos de un modelo basado en él.
...Los modelos basados en conteos de tránsito parecen una idea particularmente
interesante, ya que:
- Los conteos son relativamente baratos de obtener (se recolectan con varios
usos posibles en mente: diseño de intersecciones, manutención de caminos,
etc.).
19
Modelos de demanda de transporte , Juan de Dios Ortúzar, Universidad Católica de Chile,
Alfaomega, Chile 2000.
20
Operations management. Focusing on quality and competitiveness , R. Russel, B. Taylor, Prentice
Hall, EEUU 2003.
27
- Hoy existen técnicas y equipos modernos muy eficientes para contar en forma
automática y luego procesar, en forma también automática, la información.
- Contar vehículos, es más sencillo que realizar encuestas (donde hay que
realizar entrevistas, completar cuestionarios y codificar respuestas).
- Algunas operaciones de conteo se realizan como parte de la operación normal
de organismos de planificación y operación (ej. plazas de peaje).
- La gran mayoría de las actividades de conteo no requiere demorar el
21
tráfico...
21
Modelos de demanda de transporte , Juan de Dios Ortúzar, Universidad Católica de Chile,
Alfaomega, Chile 2000.
28
consistente con la solución de mínimos cuadrados ordinarios, por lo que posee
22
enorme popularidad tanto en ciencias exactas como en ciencias sociales...
Como vemos se mantiene un paralelismo con lo que veníamos diciendo, ya que
planteamos un modelo al que ingresemos en un principio con datos de tránsito y de
variables de entorno de la vía (ingredientes X) para llegar a un resultado de TMDA
(Y).
Llegamos de esta forma a delinear cual es el marco teórico para nuestro estudio, ya
que nos hemos detenido en los conceptos que hacen a la noción del tránsito (algunos
de los cuales se profundizan más adelante) y hemos recorrido el camino que nos
lleva teóricamente a convalidar la idea de modelar la situación mediante regresión
matemática.
Son justamente las técnicas de regresión, en su descripción como metodología, la
temática de la segunda parte de este capítulo, previo a su empleo en el análisis de los
datos.
22
Modelos de demanda de transporte , Juan de Dios Ortúzar, Universidad Católica de Chile,
Alfaomega, Chile 2000.
23
Estadística , M. Spiegel, Mc Graw Hill, EEUU 1988.
29
cualquier tipo de estudio, cuyos movimientos y relaciones, por su variabilidad
intrínseca, no puedan ser abordadas desde la perspectiva de las leyes deterministas.
Esta se ocupa de recoger, clasificar, resumir, hallar regularidades y analizar los
datos, siempre y cuando la variabilidad e incertidumbre sea una causa intrínseca de
los mismos; así como de realizar inferencias a partir de ellos, con la finalidad de
ayudar a la toma de decisiones y en su caso formular predicciones...
La estadística es inferencial cuando el objetivo del estudio es derivar las
24
conclusiones obtenidas a un conjunto de datos más amplio...
Comencemos entonces con su análisis.
24
Bioestadística: Métodos y Aplicaciones , J. Barón López, Universidad de Málaga, España 1998.
30
estimar la función de distribución F de la variable de error. La estimación de ambas
funciones se hace a partir del conocimiento de una muestra de las variables en
estudio, .
Una vez estimadas estas funciones se tiene conocimiento de la relación funcional de
la variable respuesta con las variables regresoras, dada por la función de regresión
que se define como
(2.3)
pudiéndose estimar y predecir con ésta el valor de la variable respuesta de un
individuo del que se conocen los valores de las variables regresoras. Esto es, de un
individuo t se sabe que X1 = x1,t,...,Xk = xk,t, entonces se puede predecir el valor de Yt
y calcular un intervalo de predicción del mismo.
31
No deben considerarse los métodos de regresión paramétricos y los no
paramétricos como competidores sino como métodos complementarios... pues
los dos métodos proporcionan información complementaria acerca del
problema en estudio...
Según la forma de recogida muestral
- Modelos de regresión de diseño fijo, en estos modelos las variables
regresoras son valores predeterminados. Este modelo se utiliza en el estudio
del comportamiento de una variable respuesta cuando las variables regresoras
varían en una determinada dirección. En este caso se debe diseñar y realizar
un experimento en el que las variables regresoras se muevan en dicha
dirección. Por tanto, en este diseño se controla en todo momento el valor de
las variables regresoras.
- Modelos de regresión con diseño aleatorio, en estos modelos las variables
regresoras son variables aleatorias. Se utiliza este modelo cuando se estudia la
relación entre la variable respuesta y las variables regresoras a partir de una
muestra obtenida de la observación de las variables en unidades de
experimentación elegidas al azar. Esto es, el experimentador es un observador
pasivo en la recogida muestral y los resultados sólo serán válidos para el
rango de variación conjunta de las variables implicadas en el estudio.
El tratamiento matemático en ambos modelos, de diseño fijo y de diseño aleatorio, es
similar aunque las conclusiones e interpretación de los resultados varían según sea el
25
caso...
Para este estudio empleamos el modelo de regresión con diseño fijo debido a las
características de la obtención de los datos y a su menor complejidad. Veamos como
estudia la estadística estos modelos.
25
Modelos Estadísticos aplicados , J. Vilar Fernández, Universidade da Coruña, España 2003.
32
(2.7)
t t t t
donde = , = , = , = .
y se supone que se verifican las siguientes hipótesis:
La función de regresión es lineal,
(2.8)
o, equivalentemente, E = 0, i = 1,...,n, aunque puede ser que no haya
linealidad y E sea 0.
La varianza es constante (homocedasticidad),
(2.9)
2
o, equivalentemente, Var = , i = 1,...,n.
La distribución es normal,
(2.10)
o, equivalentemente, i ~N , i = 1,...,n.
Las observaciones Yi son independientes. Bajo las hipótesis de normalidad,
esto equivale a que la Cov(Yi,Yj) = 0, si i j.
Esta hipótesis en función de los errores sería los i son independientes , que
bajo normalidad, equivale a que Cov = 0, si i j.
En este modelo hay tres parámetros que se deben estimar: los coeficientes de la recta
2
de regresión, 0 y 1; y la varianza de la distribución normal, .
El cálculo de estimadores para estos parámetros puede hacerse por diferentes
métodos, siendo los más utilizados el método de máxima verosimilitud y el método
de mínimos cuadrados (Reseña teórica 1, Anexo A).
Los estimadores del modelo de regresión simple tienen las siguientes propiedades:
De su primera ecuación canónica se deduce que la recta de regresión pasa por
el punto que es el centro geométrico de la nube de datos.
El estimador 1 es la pendiente de la recta regresión, se denomina coeficiente
de regresión y tiene una sencilla interpretación, indica el crecimiento (o
decrecimiento) de la variable respuesta Y asociado a un incremento unitario
en la variable regresora X.
33
Utilizando las hipótesis de normalidad e independencia la distribución del
estimado 1 es una normal de media 1 y varianza / . Esto es,
(2.11)
Por tanto la Var
- disminuye al aumentar n,
- disminuye al aumentar (varianza marginal)
2
- disminuye al disminuir .
El estimador 0 indica el valor de la ordenada en la recta de regresión
estimada para x = 0 tiene menor importancia y, en muchos casos, no tiene una
interpretación práctica. La distribución de 0 es una normal de media 0 y
varianza
+ = . (2.12)
Esto es,
(2.13)
Por tanto la Var disminuye al disminuir Var (disminuye al aumentar
2 2
n o al aumentar o al disminuir ). - disminuye al disminuir .
Nuevamente, utilizando las hipótesis de normalidad e independencia se
2
obtiene que la distribución del estimador máximo-verosímil de , viene
dada por
(2.14)
n
De las ecuaciones canónicas se deduce que los residuos verifican que i=1 ei
n
=0y i=1 eixi = 0. Por tanto, el número de grados de libertad de los residuos
es n-2 porque hay n residuos relacionados por dos ecuaciones. De donde
(2.15)
2
y MV es un estimador consistente pero sesgado. Por este motivo, como
2 2
estimador de se utiliza la varianza residual, R definida como la suma de
residuos al cuadrado dividida por el número de grados de libertad
(2.16)
34
2
R es un estimador consistente e insesgado.
La relación entre los dos estimadores de la varianza es
(2.17)
2 2
Para tamaños muestrales grandes, ambos estimadores, MV y R toman
valores muy próximos.
La distribución de la varianza residual viene dada por
(2.18)
A partir de este estadístico se pueden obtener intervalos de confianza de la
2
varianza poblacional, . Con nivel de confianza 1- el intervalo de
confianza es
(2.19)
En la práctica, de la distribución de 1 aparece , que es desconocido, para
calcular un intervalo de confianza para este parámetro debemos estimar
2
mediante un estimador, R . De la distribución de éste se obtiene que la
distribución del estadístico pivote 1 que sigue la distribución tn-2,
(2.20)
Un intervalo de confianza para 1 a un nivel de confianza 1- es
(2.21)
donde tn-2( ) es un número que verifica que P( tn-2( )) = , siendo
una variable aleatoria con distribución t con n-2 grados de libertad.
De forma análoga se puede obtener un intervalo de confianza del parámetro
2
0. De las funciones de distribución de 0 y R se deduce que la distribución
del estadístico 0 verifica que
(2.22)
Los estimadores 0 y 1 no son variables aleatorias independientes ya que su
covarianza viene dada por
35
(2.23)
por tanto, si es positiva, la Cov es negativa, esto es, al crecer 1
disminuye 0.
donde 1 = y 0 = - 1 .
26
Bioestadística: Métodos y Aplicaciones , J. Barón López, Universidad de Málaga, España 1998.
36
Para el modelo de regresión lineal simple ...es importante analizar el siguiente
contraste
(2.27)
Utilizando 1 como estadístico del contraste C1 que es bilateral, se obtiene la
siguiente región de aceptación a un nivel de significación ,
(2.28)
El p-valor del contraste C1 es
(2.29)
siendo una variable aleatoria con distribución tn-2. Este contraste se denomina
27
contraste (individual) de la t...
27
Modelos Estadísticos aplicados , J. Vilar Fernández, Universidade da Coruña, España 2003.
37
elevando al cuadrado y sumando se obtiene,
(2.31)
en base a la ortogonalidad de los vectores se obtiene que los productos cruzados son
cero, de donde se sigue la siguiente igualdad (Teorema de Pitágoras) que permite
(2.32)
38
Por la hipótesis de normalidad y bajo H0 se deduce que el estadístico FR sigue una
distribución F (Contraste de la F) con 1 y n-2 grados de libertad.
(2.33)
Sí el p - valor = P( ) es grande (mayor que ) se acepta H0.
El Contraste de la F es un contraste unilateral (de una cola), pero en este modelo
proporciona exactamente el mismo resultado que se obtiene por el contraste
individual de la t relativo al coeficiente de regresión 1 (Contraste de la t).
(2.34)
lo que permite descomponer los residuos de la siguiente forma
(2.35)
Un razonamiento análogo al realizado anteriormente permite descomponer la
variabilidad no explicada como sigue,
39
(2.36)
Ahora la descomposición de la variabilidad total es la siguiente,
(2.37)
En base a esta igualdad se puede construir la Tabla 2.3, más completa que la anterior.
40
no es válida para utilizar como medida de discrepancia, para resolver el problema se
2
compara con R,2 y el cociente de ambas cantidades se utiliza como estadístico del
contraste en estudio.
(2.38)
Bajo la hipótesis de normalidad y H0 (hipótesis de linealidad) se deduce que L
(2.39)
Este contraste de linealidad de la F es unilateral. Si el p-valor = es
grande (mayor que ) se acepta que la curva de regresión es lineal.
(2.40)
o bien
(2.41)
Como scE < scG, se verifica que 0 < R2 < 1.
El coeficiente de determinación mide la proporción de variabilidad total de la
variable dependiente (Y) respecto a su media que es explicada por el modelo de
regresión. Es usual expresar esta medida en tanto por ciento, multiplicándola por
cien.
Por otra parte, teniendo en cuenta que i - = 1 , se obtiene
(2.42)
41
2.2.1.4. El coeficiente de correlación
(2.43)
donde representa la desviación típica de la variable X (análogamente para
). Un buen estimador de este parámetro es el coeficiente de correlación lineal
muestral (o coeficiente de correlación de Pearson), definido por
(2.44)
Por tanto, r . Este coeficiente es una buena medida de la bondad del ajuste de
la recta de regresión. Evidentemente, existe una estrecha relación entre r y 1
42
En el Ejemplo 1 del Anexo B pueden verse diversos casos de ajustes de curvas a
nubes de puntos.
43
En algunos casos transformar las variables del modelo permite resolver problemas
como falta de normalidad o heterocedasticidad. Por ello, si en el análisis de residuos
no se observan estos problemas, se puede intentar conseguir la linealidad del modelo
transformando solamente la variable regresora x. Pero si, por el contrario, se
observan estos problemas puede ser necesario transformar las dos variables.
44
Veamos una clasificación de los residuos.
- Residuos ordinarios: Se define el residuo ordinario asociado a una
observación muestral como la diferencia entre la observación y la
predicción ,
(2.47)
El i-ésimo residuo ei es una variable aleatoria que tiene las siguientes
propiedades
(2.48)
Bajo la hipótesis de normalidad se obtiene
(2.49)
2
- Residuos estandarizados: De lo expuesto se deduce que no es
constante, lo que hace difícil identificar las observaciones con residuos
grandes. Por ello es usual tipificarlos y se definen los residuos estandarizados
como
(2.50)
Los residuos estandarizados tienen media cero y varianza próxima a 1, esto
permite distinguir a los residuos grandes.
- Residuos estudentizados: De lo expuesto también se deduce que existe una
relación de dependencia entre el numerador y el denominador de ri ya que en
el cálculo de sR se utiliza el residuo ei. Este problema se elimina si se estima
la varianza residual a partir de toda la muestra excepto la observación (xi,yi).
A la varianza residual así obtenida se le denota por sR,(i) 2.
Se definen los residuos estudentizados como
(2.51)
Si n es grande los residuos estandarizados y estudentizados toman valores
próximos.
Bajo la hipótesis de normalidad se verifica que ti sigue una distribución t con
n-3 grados de libertad.
28
Modelos Estadísticos aplicados , J. Vilar Fernández, Universidade da Coruña, España 2003
45
Los residuos estudentizados se pueden calcular de forma más sencilla como
sigue
(2.52)
- Residuos eliminados: Se definen los residuos eliminados como la diferencia
entre lo observado en la respuesta yi y la predicción cuando se utiliza toda la
muestra excepto la observación en estudio y que se denota por i ,
(2.53)
Entre los residuos ordinarios y los residuos eliminados existe la siguiente relación
(2.54)
Si la observación (xi,yi) tiene una influencia grande en el cálculo de la recta de
regresión, los dos residuos ei y e son diferentes, en caso contrario, serán muy
parecidos.
n
En el ajuste de una recta de regresión a una muestra bidimensional i=1 , al
observar el gráfico de y frente a x, en algunas ocasiones, existen observaciones
(valores extremos) que se separan claramente del resto de la nube de observaciones.
Es importante conocer la influencia que estos puntos tienen en el cálculo de la
estimación de la recta. Es decir, fijada una observación (xt,yt) de la muestra, la
variación que se produce en la estimación de la recta de regresión al calcularla con
toda la muestra excepto con el dato (xt,yt) en lugar de hacerlo con toda la muestra.
Esto puede verse claramente en el Ejemplo 2 del Anexo B.
Hasta ahora hemos analizado un situación en donde con una sola variable se puede
dar respuesta a una realidad dada, pero esto no siempre es así.
46
Regresemos a la definición de modelos de regresión vista, que dice que éstos
estudian la relación estocástica cuantitativa entre una variable de interés y un
conjunto de variables explicativas.
Sea Y la variable de interés, variable respuesta o dependiente y sean x1,x2,...,xk las
variables explicativas o regresoras. La formulación matemática de estos modelos es
la siguiente
(2.55)
donde es el error de observación debido a variables no controladas.
Como el modelo de regresión lineal general supone que la función de regresión
m es lineal, podemos decir que su expresión matemática es
(2.56)
Un primer objetivo en el estudio de este modelo es el de estimar los parámetros del
mismo 0, 1, 2,..., k, y la función de distribución del error F a partir de una muestra
de n observaciones, que tendrá la forma
(2.57)
De la expresión matemática del modelo de regresión lineal general se deduce que
para i = 1,2,...,n se verifica la siguiente igualdad
(2.58)
donde i es el error aleatorio o perturbación de la observación i-ésima.
Es interesante escribir el modelo de regresión lineal general en forma matricial.
(2.59)
escrito en forma matricial
(2.60)
donde es un vector n-dimensional (matriz n × 1) de la variable respuesta o
dependiente,
X es la matriz del diseño de las variables regresoras (matriz n × (k+1)), la primera
columna de esta matriz está formada por unos, es la columna asociada con el
47
parámetro 0; la columna j+1 contiene la información relativa a la variable xj, j =
1,...,k, es la columna asociada al parámetro j.
...En el estudio del modelo de regresión lineal general se asume que se verifican las
siguientes hipótesis:
La función de regresión es lineal,
m( i.) = m =E =E (2.61)
= 0 + 1xi1 + 2xi2 + ... + kxik, i = 1,...,n,
o, equivalentemente, E = 0, i = 1,...,n.
La varianza es constante (homocedasticidad),
(2.62)
2
o, equivalentemente, Var = , i = 1,...,n.
La distribución es normal,
(2.63)
o, equivalentemente, i ~N , i = 1,...,n.
48
Las observaciones Yi son independientes (bajo normalidad, esto equivale a
que la Cov(Yi,Yj) = 0, si i j).
Esta hipótesis en función de los errores sería los i son independientes, que
bajo normalidad, equivale a que Cov = 0, si i j''.
n > k+1. En caso contrario no se dispone de información suficiente para
estimar los parámetros del modelo.
29
Las variables regresoras x1,x2,...,xk son linealmente independientes...
(2.66)
Derivando respecto a e igualando a cero, se obtienen las ecuaciones de regresión
(2.67)
de donde se deduce el siguiente estimador por mínimos cuadrados
(2.68)
Debe tenerse en cuenta que para calcular este estimador es necesario que la matriz
XtX sea invertible. Esto está garantizado por la sexta hipótesis del modelo.
La matriz XtX es una matriz (k+1)x(k+1) cuya expresión es la siguiente
29
Modelos Estadísticos aplicados , J. Vilar Fernández, Universidade da Coruña, España 2003
49
La matriz XtY es una matriz (k+1) × 1 que viene dada por
Si se trabaja con todas las variables centradas se obtiene otra forma interesante de
expresar el modelo de regresión lineal.
(2.69)
donde , 1, 2,..., k son las medias muestrales de las variables Y,x1,x2,...,xk.
Razonando como antes, se obtiene el siguiente estimador por mínimos cuadrados del
t
vector =
(2.70)
donde es la matriz del diseño de las variables regresoras centradas (matriz n × k )
50
En el estudio del modelo de regresión lineal múltiple con k variables regresoras a
partir de una muestra de n observaciones se considera el subespacio vectorial de
Rn, de dimensión (k+1), generado por los vectores { } (columnas de
la matriz de diseño X). El problema de ajustar un modelo de regresión lineal múltiple
se puede interpretar geométricamente como el problema de encontrar en este
subespacio vectorial el vector (vector de predicciones) lo más próximo al vector
de la variable respuesta, . Esto es, encontrar el vector que minimice el módulo
del vector de residuos, = - (la suma de los residuos al cuadrado). La resolución
de este problema viene dada por el vector proyección ortogonal del vector en el
subespacio considerado. Por tanto,
(2.71)
siendo H la matriz de proyección (hat matrix) en el subespacio .
El estimador por mínimos cuadrados viene dado por las coordenadas del vector de
predicciones en el subespacio respecto a la base { }.
De esta interpretación geométrica se deduce que los residuos verifican las siguientes
(k+1) restricciones
(2.72)
por tanto, los residuos tienen n-(k+1) grados de libertad.
Dado que
(2.73)
Por tanto la matriz de proyección sobre el subespacio es
(2.74)
n
Por tanto la matriz H = i,j = 1 se obtiene a partir de la matriz del diseño X, es una
matriz n×n y juega un papel muy importante en el modelo de regresión lineal.
En el estudio del modelo de regresión múltiple tiene gran interés la suma de residuos
al cuadrado que representa la variabilidad no explicada por el modelo (scR). A partir
2
de este valor se obtiene el estimador de la varianza .
Una forma sencilla de calcular scR es la siguiente: el vector de residuos se puede
expresar como
51
(2.75)
(2.76)
(2.77)
de donde se sigue que
(2.78)
o equivalentemente
Esta expresión es muy útil para el cálculo de scR. Debe tenerse en cuenta que el
cálculo de la matriz Xt ya se utilizó en el calculo del estimador .
(2.80)
52
De donde se deduce que los estimadores i y j (i j) no son incorrelados ya
2
que ij = Cov 0, con i,j = 0,1,...,k y, por tanto, no son independientes.
En particular, la varianza del estimador i viene dada por
(2.81)
-1
siendo qii el elemento i-ésimo de la matriz .
El estimador tiene distribución normal multivariante de orden k+1,
(2.82)
El estimador i del parámetro i tiene la siguiente distribución normal
(2.83)
El parámetro i indica la influencia de la variable regresora xi en la variable
respuesta Y, representa el incremento que se produce en la variable respuesta
por un crecimiento unitario en la variable regresora xi.
Debe tenerse en cuenta que el valor de i está condicionado al modelo de regresión
múltiple con el que se está trabajando y si se cambia el modelo (se eliminan variables
regresoras o se introducen nuevas variables) el coeficiente i, asociada a la variable
regresora xi, también cambia.
Aceptar que el valor de i es cero equivale a aceptar que la variable xi no está
relacionada linealmente con la variable Y.
2
Si se conoce la varianza del modelo , utilizando las distribuciones expuestas se
pueden calcular intervalos de confianza de los parámetros i, individuales o
conjuntos (regiones de confianza del vector paramétrico , con
j1,j1,...,jh ) o hacer contrastes de simplificación sobre estos
2
parámetros. En la práctica casi nunca se conoce el parámetro y es necesario
estimarlo.
- El estimador de la varianza: Una hipótesis básica del modelo es que los errores son
normales y homocedásticos, por tanto, Var = 2, i=1,...,n, el parámetro 2
(2.84)
53
2
El estimador R es distinto del estimador que se obtiene por máxima verosimilitud,
2
MV , dado por
(2.85)
La relación entre ambos estimadores es la siguiente:
(2.86)
2 2
El estimador R tiene la ventaja, respecto a MV , de ser insesgado.
Utilizando la hipótesis de normalidad se obtiene la siguiente relación que permite
2
conocer la distribución de R ,
(2.87)
2
De esto se obtiene que un intervalo de confianza de con un nivel de confianza 1-
es
(2.88)
Sobre los coeficientes del modelo de regresión lineal múltiple se pueden realizar
algunas inferencias.
De la distribución de i dada se deduce
(2.89)
2 2
Como no se conoce, se sustituye por su estimador R , lo que permite obtener el
siguiente estadístico
(2.90)
Además se deduce que la distribución de i es tn-
(2.91)
54
Utilizando esto se obtiene que un intervalo de confianza para i a un nivel de
confianza 1- es
(2.92)
(2.93)
representa la discrepancia entre la información que proporciona la muestra y la
información que proporciona la hipótesis nula H0.
Como el p-valor de este contraste bilateral es
(2.94)
La región de aceptación del contraste a un nivel de significación es
(2.95)
55
insesgados. El teorema afirma que en la estimación del modelo de regresión lineal
si las perturbaciones i son incorreladas, de igual varianza e
independientes de las variables explicativas. Entonces los estimadores mínimo-
cuadráticos son óptimos o de mínima varianza dentro de la clase de los
estimadores centrados que son funciones lineales de las observaciones, yi.
El Teorema de Gauss-Markov asegura que los estimadores mínimo-cuadráticos son
los mejores dentro de la clase de estimadores que son insesgados y funciones
lineales de las observaciones, pero no garantiza que estos estimadores sean mejores
que otros estimadores que no pertenezcan a la clase anterior.
Por otra parte, al comparar estimadores se está utilizando el criterio de Error
Cuadrático Medio (ECM), siendo
(2.96)
En la clase de los estimadores insesgados, el sesgo es cero. Por tanto
(2.97)
Si los estimadores mínimo-cuadráticos son los de menor varianza también son los de
menor ECM. Pero puede ocurrir que existan estimadores sesgados con menor
varianza que los estimadores mínimo-cuadráticos de forma que tengan menor ECM.
Finalmente debe tenerse en cuenta que en este teorema no se exigen hipótesis sobre
la distribución de los i, tan solo que sean independientes y con la misma
30
varianza...
30
Modelos Estadísticos aplicados , J. Vilar Fernández, Universidade da Coruña, España 2003
56
De esta igualdad se construye la correspondiente tabla ANOVA, Tabla 5.
(2.100)
Bajo la hipótesis nula y por la hipótesis de independencia se sigue que M sigue una
distribución F (Contraste de la F) con k y n (k+1) grados de libertad,
(2.101)
De donde se deduce que p-valor del contraste es
57
(2.102)
donde Fk,n-(k+1) denota una variable aleatoria que sigue una distribución F con k y n-
(k+1) grados de libertad. El contraste de la F es unilateral (de una cola) y generaliza
el contraste de regresión expuesto para el modelo de regresión lineal simple.
Sí el valor crítico (p-valor) del contraste es grande (mayor que el nivel de
significación ) se acepta H0, que el modelo de regresión no es influyente y debe
buscarse un modelo alternativo.
- Contrastes individuales de la F: El contraste individual de la t que permite
contrastar la influencia individual de la variable xi se deduce de la distribución del
estimador i, pero también puede hacerse por medio de una tabla ANOVA,
estudiando el incremento que se produce en la suma de cuadrados explicada por el
modelo al introducir la variable regresora en estudio xi.
Para ello, si se desea contrastar la influencia de la variable xi, se ajusta el modelo de
regresión completo, con las k variables regresoras y se calcula la suma de cuadrados
explicada por el modelo (scE(k)). A continuación, se ajusta el modelo de regresión
con k-1 variables, todas excepto la variable xi. Se calcula la suma de cuadrados
explicada por este modelo (scE(k-xi)). Ahora se define la suma de cuadrados
incremental debida a xi como el valor
(2.103)
Este valor indica el aumento de la variabilidad explicada por el modelo al introducir
la variable xi. Para contrastar la influencia individual o no de xi, se realiza el siguiente
contraste,
(2.104)
Bajo la hipótesis nula se verifica que i sigue una distribución F (Contraste
individual de la F) con 1 y n-(k+1) grados de libertad.
(2.105)
Evidentemente, si H0 es cierto, scE(xi) 0 y i tomará valores pequeños. Por tanto
este contraste es unilateral siendo el p-valor del contraste el siguiente
58
(2.106)
Este contraste proporciona exactamente el mismo resultado que el contraste
individual de la t, ambos dan igual p-valor. Sin embargo este método presenta la
ventaja adicional de poder utilizarse para contrastar la influencia de un subconjunto
de l variables explicativas, con l < k, . En este caso el estadístico
del contraste es
(2.107)
59
Caso 6. Ninguna de las variables regresoras influye en la variable respuesta o la
31
influencia no la detecta la muestra tomada...
(2.108)
donde s es la covarianza muestral entre las variables X e Y ; sX y sY son las
desviaciones típicas muestrales de X e Y , respectivamente.
En general cuando se ajusta un modelo estadístico a una nube de puntos, una medida
de la bondad del ajuste es el coeficiente de determinación, definido por
(2.109)
...El grado de correlación existente entre tres o más variables se llama correlación
múltiple...
A menudo es importante medir la correlación entre una variable dependiente y una
variable independiente particular, cuando todas las demás variables se suprimen
(indicado con frecuencia con la frase quedando iguales las restantes). Esto se
32
consigue definiendo un coeficiente de correlación parcial...
Vemos entonces que si el modelo que se ajusta es un modelo de regresión lineal
múltiple, a R se le denomina coeficiente de correlación múltiple y representa el
porcentaje de variabilidad de la Y que explica el modelo de regresión.
Como scE < scG, se verifica que 0<R2<1. Si R2=1 la relación lineal es exacta y si
R2=0 no existe relación lineal entre la variable respuesta y las variables regresoras.
31
Modelos Estadísticos aplicados , J. Vilar Fernández, Universidade da Coruña, España 2003
32
Estadística , M. Spiegel, Mc Graw Hill, EEUU 1988.
60
El coeficiente de correlación múltiple R es igual al coeficiente de correlación lineal
simple entre el vector variable respuesta y el vector de predicciones ,
(2.110)
El coeficiente de correlación múltiple R presenta el inconveniente de aumentar
siempre que aumenta el número de variables regresoras, ya que al aumentar k
(número de variables regresoras) disminuye la variabilidad no explicada, algunas
veces de forma artificial lo que puede ocasionar problemas de multicolinealidad.
...no hay límite para la cantidad de variables que pueden aparecer en el modelo,
siempre y cuando estas no estén relacionadas linealmente entre sí
33
(multicolinealidad)...
(2.111)
Cambiando las sumas de cuadrados por varianzas se obtiene el coeficiente de
2
determinación corregido por el número de grados de libertad, , definido como
sigue
(2.112)
Ahora es fácil deducir la siguiente relación entre los dos coeficientes de
determinación
(2.113)
33
Modelos de demanda de transporte , Juan de Dios Ortúzar, Universidad Católica de Chile,
Alfaomega, Chile 2000.
61
También es fácil relacionar el estadístico del contraste de regresión múltiple con el
coeficiente de determinación, obteniendo
(2.114)
Consideremos ahora a que es un conjunto de variables aleatorias,
el coeficiente de correlación parcial entre Xi y Xj es una medida de la relación lineal
entre las variables Xi y Xj una vez que se ha eliminado en ambas variables los efectos
debidos al resto de las variables del conjunto . Al coeficiente de
correlación parcial entre X1 y X2 se le denotará por r12·3...k·
Para una mejor interpretación de este concepto, considérese el conjunto de cuatro
variables , se desea calcular el coeficiente de correlación parcial
entre las variables X1 y X2. Para ello, se procede de la siguiente forma,
Se calcula la regresión lineal de X1 respecto de X3 y X4
(2.115)
donde e1·34 son los residuos del ajuste lineal realizado.
Se calcula la regresión lineal de X2 respecto de X3 y X4
X2 (2.116)
donde e2.34 son los residuos del ajuste lineal realizado.
El coeficiente de correlación parcial entre X1 y X2 es el coeficiente de
correlación lineal simple entre las variables e1.34 y e2.34,
(2.117)
Por tanto, el coeficiente de correlación lineal se define siempre dentro de un conjunto
de variables y no tiene interpretación ni sentido si no se indica este conjunto de
variables.
(2.118)
En un modelo de regresión múltiple
(2.119)
se puede calcular fácilmente el coeficiente de correlación parcial entre la variable
respuesta Y y una variable regresora Xi controlado por el resto de variables
62
regresoras. Para ello se utiliza el estadístico del contraste individual de la t respecto a
la variable Xi y que se definió anteriormente como
(2.120)
obteniéndose la siguiente relación
(2.121)
donde C = el conjunto de índices de todas las variables
regresoras excepto el índice i.
2.2.2.4. La multicolinealidad
Analicemos, al igual que como lo hicimos con la regresión lineal simple, los
principales problemas que se pueden presentar en la construcción de un modelo de
regresión múltiple:
Multicolinealidad: las variables regresoras son muy dependientes entre sí, y
es difícil separar su contribución individual al modelo. Como consecuencia
los parámetros del modelo son muy inestables, con varianzas muy grandes.
Error de especificación: el modelo de regresión no proporciona un buen
ajuste a la nube de observaciones. Esto puede ser por diferentes motivos: la
relación no es lineal, existen variables explicativas relevantes que no han sido
incluidas en el modelo, etc. Por ello, cuando se dispone de un conjunto
amplio de posibles variables explicativas, es importante disponer de
algoritmos que seleccionen el subconjunto más adecuado de variables
explicativas que se deben incorporar al modelo de regresión, así como de
medidas que midan la bondad del ajuste.
Falta de Normalidad: los residuos no son normales.
Heterocedasticidad: la varianza no es constante.
Existencia de valores atípicos o heterogéneos: existen datos atípicos que se
separan de la nube de datos muestrales que pueden influir en la estimación
del modelo de regresión o que no se ajustan al modelo.
Dependencia (autocorrelación): existe dependencia entre las observaciones.
63
(2.122)
el estimador por mínimos cuadrados se obtiene resolviendo el sistema de
ecuaciones
(2.123)
Por tanto, para calcular es necesario invertir la matriz . Se pueden dar las
siguientes situaciones:
.
Una (o más) de las columnas de la matriz de diseño X, .j, es una
combinación lineal exacta de las otras columnas, esto es, una variable
explicativa es combinación lineal de las otras. Entonces el rang(X)<k+1, el
-1
=0 y no existe . Por tanto el sistema =XtY no tiene
solución única. No se puede estimar unívocamente el vector . Este sería el
caso extremo de multicolinealidad que en la práctica no se suele dar.
El caso opuesto al anterior se da cuando las variables regresoras son
ortogonales. Esto es,
(2.124)
En este caso los resultados del modelo de regresión se pueden interpretar sin
ambigüedad. La matriz XtX es diagonal y la matriz Var también es
diagonal, lo que implica que los estimadores i, i = 1,2,...k, son incorrelados.
El signo de i es igual al signo del coeficiente de correlación r , y la
2
contribución de la variable regresora xi a R es independiente de las otras
variables regresoras que están incluidas en el modelo de regresión, esto es, si
se elimina alguna variable regresora o se añade una nueva (ortogonal), la
contribución de xi es la misma.
En la mayoría de las situaciones lo que ocurre es una situación intermedia
entre los dos casos extremos anteriores. Esto es, existe una cierta relación
entre las variables explicativas lo que hace que los estimadores i estén
correlacionados. Si está relación es muy fuerte porque dos o más variables
regresoras están próximas a una relación de linealidad del tipo
(2.125)
siendo 1, 2,..., k números no todos iguales a cero. Entonces se tiene un
problema de multicolinealidad.
64
Aunque exista problema de multicolinealidad, se puede ajustar y estimar el
modelo de regresión lineal, pero con mucha variabilidad, en el sentido de que
las varianzas de los estimadores de los coeficientes del modelo son muy altas,
lo que afecta al estudio del modelo.
(2.126)
si existe alta multicolinealidad 1-r122 0 y, por tanto, Var >>Var .
La última ecuación se generaliza para un modelo de regresión lineal con k variables
regresoras, de la siguiente forma
(2.127)
donde ri.resto2 es el coeficiente de correlación múltiple entre la variable explicativa xi
y el resto de variables explicativas.
Se denomina factor de incremento de la varianza al número
(2.128)
Por tanto,
(2.129)
De aquí se deduce que Var < Var , lo que implica que el modelo
de regresión lineal simple estima con mayor precisión la influencia de la variable xi
en la variable respuesta que el modelo de regresión múltiple.
Si existe multicolinealidad, el FIV es muy grande y Var es mucho
mayor que Var .
De todo lo anterior se deduce que en un problema de regresión múltiple con fuerte
multicolinealidad se verificará:
Los estimadores i tendrán varianzas muy altas y estarán muy
correlacionados entre sí.
Por la alta variabilidad de los estimadores i puede ocurrir que los contrastes
individuales (contrastes de la t) sean no significativos mientras que el
contraste conjunto (contraste de la F) sea altamente significativo.
65
La multicolinealidad normalmente afecta a unas variables y a otras no, por
tanto, puede afectar a unos parámetros del modelo y a otros no.
La multicolinealidad no afecta a las predicciones ( ), residuos , y
varianza poblacional .
En resumen la multicolinealidad es un problema de la muestra de la que se
quiere obtener más información de la que contiene.
Se resuelve el problema de multicolinealidad eliminando del modelo las
variables explicativas dependientes. Esto es, se deben eliminar del modelo
aquellas variables que proporcionan una información que se obtiene de otras
variables ya incluidas en el modelo.
En la Reseña Teórica 5, Anexo A, se citan las formas de detectar la mulicolinealidad.
(2.134)
Por tanto, ei es una variable aleatoria con distribución
(2.135)
. .
donde hii es el valor de influencia de i que mide la distancia estadística de i a .
Un residuo grande indica que la observación está lejos del modelo estimado y, por
66
tanto, la predicción de esta observación es mala. Las observaciones con residuos
grandes se denominan observaciones atípicas o heterogéneas (outliers).
Como los residuos tienen varianza variable y son dimensionados (tienen las unidades
de la variable Y ), normalmente se tipifican
(2.136)
2
los residuos tipificados siguen una distribución normal estándar, pero como es
2
desconocido, se sustituye por su estimador, la varianza residual R y se obtienen los
residuos estandarizados, definidos como
(2.137)
Por la hipótesis de normalidad los residuos estandarizados siguen una distribución t
con n-(k+1) grados de libertad. Como ya se indicó en el estudio del modelo de
regresión lineal simple, en el cálculo de ri existe el problema de que hay una relación
de dependencia entre el numerador y el denominador de ri. Para evitar esto, con
mayor esfuerzo computacional, se calcula para cada i, i = 1,...,n, el estimador R, , la
varianza residual del modelo de regresión obtenido a partir de la muestra en la que se
ha eliminado la observación . Ahora se definen los residuos estudentizados
como
(2.138)
Los residuos estudentizados siguen una distribución t con (n-1)-(k+1) grados de
libertad. Si el tamaño muestral (n) es grande, los residuos estandarizados y los
estudentizados son casi iguales y muy informativos, pudiéndose considerar grandes
los residuos estandarizados tales que > 2.
En la Reseña Teórica 6 del Anexo A, se pueden observar formas gráficas para el
análisis de los residuos, las que se emplean en algunos casos más adelante.
67
explicativas más un término de error . Se supone que el término de error es
independiente de las k variables explicativas o, equivalentemente, que cualquier otra
variable explicativa no incluida en el modelo y que pueda explicar a la variable Y es
independiente de las variables explicativas del modelo. En la práctica no siempre es
posible incluir todas las variables relevantes, bien porque alguna de estas variables
no se considera relevante o porque no se puede medir. Otras veces se incluyen
erróneamente variables irrelevantes o se especifica una relación lineal que no lo es.
Todo ello conduce a especificar incorrectamente el modelo, resultando importante
determinar la influencia de tales especificaciones incorrectas y tenerlas en cuenta en
los resultados.
68
e) Errores de transferencia, al usar un modelo desarrollado para A (cierta área o
época) en B (otra área o época), aun con los ajustes necesarios.
f) Errores de agregación: la agregación no es un problema sencillo; sin
embargo, si se estima un modelo agregado, los errores pueden ser mayores.
Existen distintos tipos de agregación; por ejemplo, de información básica y
34
de alternativas...
34
Modelos de demanda de transporte , Juan de Dios Ortúzar, Universidad Católica de Chile,
Alfaomega, Chile 2000.
69
libertad al aumentar una variable regresora que no aporta variabilidad
explicada, pero para tamaños muestrales grandes el efecto es mínimo.
Especificar una relación lineal que no lo es, proporciona malos resultados,
sobre todo fuera del rango de valores observados porque una relación no
lineal en un estrecho intervalo de observación se puede aproximar por una
lineal. Las graves consecuencias de este error son las siguientes:
- Los estimadores son sesgados y su varianza se calcula mal.
- La varianza residual se calcula mal y los contrastes individuales de la t no
son válidos.
- Las predicciones del modelo son malas, sobre todo fuera del rango de
valores de las observaciones.
Los errores de especificación se detectan utilizando los gráficos de residuos. Se
deben tener en cuenta especialmente:
El gráfico de residuos frente a predicciones .
El gráfico de residuos frente a una variable explicativa .
El gráfico de residuos frente a una variable explicativa omitida .
En muchas ocasiones se intuye que se debería incluir un término cuadrático o
una interacción (producto) de variables explicativas, siendo razonable hacer
el gráfico de los residuos frente a variables como xij2 o xij . xik.
El gráfico de residuos frente a la variable índice o tiempo si las
observaciones son recogidas secuencialmente y se sospecha que el tiempo
puede ser una variable regresora.
70
crece al aumentar el número de regresores. Además puede haber problemas de
multicolinealidad cuando hay muchas variables regresoras.
Para responder a estas preguntas se dispone de diferentes procedimientos
estadísticos. Bajo la hipótesis de que la relación entre las variables regresoras y la
variable respuesta es lineal existen procedimientos paso a paso (o stepwise) que
permiten elegir el subconjunto de variables regresoras que deben estar en el modelo.
También existen medidas de la bondad de ajuste de un modelo de regresión que
permiten elegir entre diferentes subconjuntos de variables regresoras el mejor
subconjunto para construir el modelo de regresión. Para la utilización de estas
medidas de bondad de ajuste no es necesaria la hipótesis de linealidad. La utilización
combinada de los algoritmos de selección de las variables regresoras y los criterios
de bondad de ajuste permiten seleccionar adecuadamente el modelo de regresión que
se debe utilizar. En todo caso, una vez elegido el modelo de regresión, antes de
utilizarlo, se debe de contrastar que se verifican las hipótesis estructurales del modelo
y si no se verifican, se debe reformular el modelo.
Los procedimientos para seleccionar las variables regresoras que deben entrar en el
modelo se pueden observar en la Reseña Teórica 8 del Anexo A.
Por último, nos parece adecuado resaltar que ...un modelo es más complejo que otro
si tiene más operaciones del mismo tipo, o si tiene operaciones más explosivas en
cuanto a error, o si tiene mayor número de variables. Se supone que un modelo se
hace más complejo para reducir su error de especificación (es). Sin embargo, a
medida que la especificación mejora, hay más variables que medir y mayores
problemas en cuanto a su facilidad de medición; por lo tanto, se puede esperar que el
error de medición (em) aumente. En la mayoría de los casos, éste crece rápido al
principio, pero luego la curva de error se vuelve asintótica (se aplana).
71
Si definimos el error predictivo total E=(em2 + es2)1/2, podemos ver que el mejor
punto de predicción (el mínimo E) no corresponde al punto de máxima complejidad
dado el em asociado... para predecir puede ser mejor un modelo más sencillo y
robusto si los datos son de mala calidad. Sin embargo, para aprender y para entender
el fenómeno, siempre va a ser más adecuado el modelo con la especificación más
35
correcta...
35
Modelos de demanda de transporte , Juan de Dios Ortúzar, Universidad Católica de Chile,
Alfaomega, Chile 2000.
72
Capítulo 3 - Análisis de datos
73
2) Movimientos característicos o variaciones cíclicas; estas se refieren a las
oscilaciones a largo término en torno a una recta o curva de tendencia. Estos
ciclos pueden ser periódicos o no, es decir pueden seguir o no esquemas
repetidos en intervalos iguales de tiempo.
3) Movimientos estacionales o variaciones estacionales; estos se refieren a los
esquemas idénticos o casi idénticos que una serie en el tiempo parece seguir
durante meses correspondientes en años sucesivos. Tales movimientos se
deben a sucesos recurrentes que tienen lugar anualmente, tales como el
brusco aumento de precios al consumo antes de la navidad.
4) Movimientos irregulares o aleatorios; estos se refieren a los movimientos
esporádicos de las series en el tiempo debidos a sucesos de azar, tales como
inundaciones, huelgas o elecciones. Si bien se puede suponer que tales
sucesos producen variaciones que pierden su influencia tras poco tiempo,
cabe la posibilidad de que sean tan intensos que den lugar a nuevos
36
movimientos cíclicos de otro tipo...
36
Estadística , M. Spiegel, Mc Graw Hill, EEUU 1988.
74
2) Método del porcentaje de tendencia; en este método expresamos los datos
para cada mes como porcentajes de valores de tendencia mensuales.
3) Método del promedio móvil en porcentaje; en este método calculamos un
promedio móvil de 12 meses.
4) Método de la relación de enlace; en este método expresamos los datos para
cada mes como un porcentaje de los datos para los meses previos; estos
porcentajes mensuales se llaman relaciones de enlace porque relacionan cada
mes con el precedente.
Por otro lado, la teoría del tránsito establece que ...los volúmenes de tránsito futuro
se derivan a partir del tránsito actual TA y del incremento del tránsito IT... de acuerdo
a esto se puede plantear:
TF TA IT (3.2)
el tránsito actual TA, se puede establecer a partir de aforos vehiculares sobre las
vialidades... el incremento del tránsito IT es el volumen de tránsito que se espera en
37
el año futuro...
Habitualmente, tal vez por una cuestión de cálculos, cuando se aplica el concepto de
incremento de tránsito se tiende a la simplificación de considerarlo como un hecho
escalonado año a año. Es decir que conceptualmente se considera que durante el
ciclo no existe un crecimiento propio del tránsito, lo que simplifica el análisis de
series por anularse la componente generada por la tendencia. La interpretación
gráfica de lo expuesto la podemos ver en la Figura 3.1, donde la TCT es la tasa de
crecimiento del tránsito para los respectivos ciclos.
37
Ingeniería de tránsito, fundamentos y aplicaciones , R. Cal y Mayor, J. Cárdenas, Alfaomega
7°ed., México 1995.
75
Vol (veh/dia)
TCT2
TCT3
TCT1
Estacionalidad
1 2 3 4 Año
En cambio, una visión análoga de lo que dicta la teoría de series de tiempos, seria la
que se observa en la Figura 3.2, en donde se da una curva de tendencia (por ejemplo
lineal) al largo plazo de la serie, de la cual se desprenden las estacionalidades.
Vol (veh/dia)
1 2 3 4 Año
76
Vol (veh/dia)
1 2 3 4 Año
El tomar como base estos conceptos es lo que lleva a la necesidad de retrotraer los
datos de tránsito para su comparación al día 1 del año, para que luego de ser
realizados los cálculos necesarios puedan ser expandidos en función de la tasa de
crecimiento.
Esta técnica nos lleva a situaciones como las que observamos en la Figura 3.4, en
donde se ven con líneas punteadas las series correspondiente a los coeficientes de
corrección mensuales para una misma vía pero en dos años diferentes. La línea
punteada superior corresponde a un año con tasa de crecimiento del tránsito positiva,
mientras que la línea inferior corresponde a uno con tasa negativa, ambas situaciones
muy comunes en la base de datos recolectada para el estudio. Una vez desafectadas
las series por las tasas de crecimiento, es decir como si la tasa fuera 0, obtenemos la
serie de línea continua intermedia. Así, vemos como dos series que podrían
suponerse en un principio responden a distintas demandas características, son en
realidad comparables cuando de ellas se elimina un elemento que puede interpretarse
como coyuntural, como lo es el valor en si de la tasa de crecimiento del tránsito.
77
1,5
1,4
coeficientes mensuales
1,3
1,2
1,1
1
0,9
0,8
0,7
0,6
1 6 11
meses
78
Cabe aclarar que esta forma de modelo arrastra características del modelo
tradicional, pues ...se destaca que en el modelo de estimación del TMDA que puede
denominarse tradicional, existe cierta inconsistencia formal, ya que se utilizan
factores de desestacionalización multiplicativos y los promedios se realizan por
medias aritméticas, cuando resultaría más convenientes el uso de medias
38
geométricas...
Si bien esto es así, decidimos seguir por esta línea de trabajo, pues llevar el análisis a
otro tipo de modelaciones existentes daría como resultado consideraciones de difícil
aceptación, aun para profesionales con cierta formación matemática, perdiéndose la
característica de uso difundido que pretendemos y planteamos para el modelo desde
un principio.
Como ya dijéramos para el presente trabajo hemos establecido como área en estudio
la conformada por las provincias de Buenos Aires, Córdoba, Santa Fe, La Pampa y
Entre Ríos. Estas provincias de la región central de la Argentina son seleccionadas
por conformar una región relativamente homogénea, cuando se la analiza desde el
punto de vista socioeconómico.
Además establecemos estos límites, si bien en casos extremos las diferencias pueden
resultar importantes, por ciertas similitudes en aspectos geográficos y climáticos de
las zonas abarcadas, similitudes que se tornan notorias si se realiza la comparación
con otras provincias pertenecientes al cordón montañoso de los Andes, al extremo
sur patagónico o al norte subtropical.
...Mediante el estudio del relieve y del clima es posible determinar las distintas
regiones geográficas argentinas. Pero además de la forma y de las características de
la superficie terrestre, es necesario tener en cuenta, como factor determinante, el tipo
de actividad económica que se desarrolla. La semejanza y homogeneidad del relieve,
el clima, la flora, la fauna, el suelo, los recursos naturales y el uso que el hombre da a
la tierra contribuyen a definir la extensión y los límites aproximados y a veces
39
transitorios de una unidad geográfica...
38
Estimación de cambios en el volumen de tránsito a causa del cobro de peaje en rutas de acceso a
Córdoba , P. Arranz, F. Marhuenda, E. Masciarelli, XIV Congreso Argentino de Vialidad y Transito,
Argentina 2005.
39
La Región Pampeana , R. Lima Coimbra, monografía, UNCPBA, Argentina 2003.
79
Como unidad de análisis fijamos al partido (o departamento) en los que se
encuentran divididas las provincias, esta decisión surge como un balance entre la
precisión deseada en el estudio y la exactitud alcanzable con los datos disponibles.
...Los términos exactitud y precisión implican conceptos independientes pero
complementarios. La exactitud se relaciona con el alcanzar una respuesta correcta,
mientras que la precisión se relaciona con la magnitud del rango de estimación del
parámetro en cuestión...
Como un ejemplo de exactitud se puede considerar un método aplicado para estimar
una medida de performance. Si la medida de performance es la demora, un método
exacto puede proveer una estimación muy aproximada de la demora actual bajo
condiciones de campo. La precisión es una estimación del rango aceptable para una
40
perspectiva de análisis proveyendo una estimación exacta...
Pasemos al tratamiento de los límites para las series históricas de datos a emplearse.
Como comenzamos el análisis de datos a finales del año 2004, y por cuestiones de
antigüedad y disponibilidad, decidimos emplear para la obtención del modelo las
series comprendidas entre los años 1993 y 2003, destinando los datos
40
Highway Capacity Manual 2000 , Transportation Research Board, National Research Council,
EEUU 2000.
41
Modelos de demanda de transporte , Juan de Dios Ortúzar, Universidad Católica de Chile,
Alfaomega, Chile 2000.
80
correspondientes al año 2004, si los hubiera, exclusivamente a la validación de los
algoritmos resultantes.
81
Con datos disponibles Sin datos disponibles
Fig. 3.5. Mapa de cobertura de los datos recabados
82
- Localidad de ubicación del punto de registro
- Provincia en la que se encuentra la localidad
- Fuente del dato
- Característica de urbano o rural del punto
- Características de turística o comercial de la vía
- Existencia o no de peaje en el tramo
- Coeficientes de corrección diaria (en siete campos, 1 para domingo y 7 para
sábado)
- Coeficientes de corrección mensual (en doce campos, 1 para enero y 12 para
diciembre)
- Año del registro
- Incremento de tránsito registrado durante ese año
- Clasificación del tránsito en automóviles y camionetas, ómnibus, camión
liviano y camión pesado
A estos registros se suman los datos recabados de diversas variables que reflejan la
actividad socioeconómica del área en estudio, según lo detallamos más adelante
cuando describimos la obtención del algoritmo para la tasa de incremento del
tránsito.
83
Para la clasificación del tránsito incluimos una variable dada por el porcentaje
de vehículos livianos circulantes (automóviles y camionetas).
Cabe recordar en este punto que para el cálculo de los coeficientes de corrección
diarios y mensuales efectuamos con cada grupo de datos, y en función de su forma
de expresión, las operaciones que permiten luego asegurar que:
TMDA0 = TD0 x COEFDIARIO x COEFMENSUAL (3.4)
Donde tanto TMDA0 y TD0 son valores con tendencia discriminada.
Como hemos dicho, a los datos incluidos en las matrices a ser empleadas en las
regresiones se les ha discriminado la tendencia. Esto nos lleva a la necesidad de
incorporar posteriormente un término que considere el incremento del tránsito.
...Para obtener estimativos confiables de los volúmenes vehiculares que circularán
en el futuro se utilizarán modelos, los cuales son alimentados utilizando parámetros
socioeconómicos (como la población total, la población económicamente activa, la
42
población ocupada y los vehículos registrados)...
84
y = son las elasticidades del tránsito respecto a las variables
independientes
...incluyendo parámetros como:
POB = variación porcentual de las poblaciones que sirve cada ruta
PAR = variación porcentual del parque de automóviles
43
PBI = variación porcentual del Producto Bruto Interno Nacional...
El problema que se nos plantea ahora es saber qué variables socioeconómicas elegir
para explicar el incremento del tránsito, resultando a la vez posibles de ser recabadas
con relativa facilidad.
...Respecto a las variables exógenas, se analizaron diversas posibilidades en base a
las siguientes pautas:
a) Que la posible variable a incluir en el estudio tuviera series de duración y
desagregación acorde a la serie temporal de tránsitos
b) Que la posible variable a incluir en el estudio fuera más fácil de predecir que
el propio tránsito...
Entre las posibles variables identificadas a nivel nacional y regional, se encontraron
algunas que no tenían la desagregación adecuada, que resultaban solamente de
mediciones en aglomerados urbanos, que no poseían una longitud acorde o que
estaban afectadas de falta de datos, etc., en la mayoría de los casos resultaban de más
difícil predicción que el mismo tránsito. Entre todas ellas, el PBI (Producto Bruto
Interno) a precios constantes, en desagregación trimestral resultó la más indicada.
Aun cuando el PBI resulta, en si misma, una variable cuya predicción puede resultar
azarosa, pueden encontrarse más fácilmente referencias acerca de su probable
44
evolución en publicaciones de organismos e instituciones privadas...
42
Ingeniería de tránsito, fundamentos y aplicaciones , R. Cal y Mayor, J. Cárdenas, Alfaomega
7°ed., México 1995.
43
Censos y proyecciones de tránsito de la red de accesos a Córdoba , Instituto Superior de Ingeniería
de Transporte, Universidad Nacional de Córdoba, Argentina 1996.
44
Estudio econométrico y pronóstico del tránsito que pasa por casillas de peaje en concesiones viales
de Argentina , P. Arranz, E. Masciarelli, F. Marhuenda, ISIT, Universidad Nacional de Córdoba,
Argentina 2004.
85
realiza en cambio por profesionales no directamente vinculados a la temática o en
lugares en donde no se cuenta con series históricas de tránsito, razones que son
justamente las causas del estudio, la predicción se debe realizar en forma subjetiva o
empleando otros parámetros relacionados de más sencilla predicción, o que son
comúnmente supuestos en estudios socioeconómicos para una amplia gama de
estimaciones.
86
20,0
15,0
10,0
5,0
y
0,0
-15,0 -10,0 -5,0 0,0 5,0 10,0 15,0 20,0
-5,0
-10,0
x
45
Estadística Básica Aplicada , A. Fernández Morales y B. Lacomba Arias, Ágora Universidad,
España 2004.
87
curtosis estandarizado se encuentra levemente fuera del rango. Este análisis nos
permite tener además gráficas de dispersión y de caja y bigotes, que dan una
referencia visual de la distribución de la muestra, los que se observan en la Figura 3.7
y la Figura 3.8.
-34 -14 6 26 46
Y
tasa
Fig. 3.7. Gráfico crecimiento
de dispersión transito
de la tasa de crecimiento del tránsito
-34 -14 6 26 46
Y
Fig. 3.8. Gráfico de caja y bigotes de la tasa de crecimiento del tránsito
88
En este caso se supera levemente el umbral de asimetría y curtosis, pero con idéntico
fin que en el caso anterior, decidimos continuar con la muestra para el análisis de
regresión.
Las gráficas de dispersión y de caja y bigotes también nos permiten observar la
distribución de estos datos, tal cual observamos en la Figura 3.9 y la Figura 3.10.
-12 -7 -2 3 8 13 18
X
tasadevariacion
Fig. 3.9. Gráfico dispersión de laempleo
variación del empleo
-12 -7 -2 3 8 13 18
X
Fig. 3.10. Gráfico de caja y bigotes de la tasa de variación del empleo
89
Coeficiente R2 de determinación 0,05
Coeficiente R2 ajustado 0,05
Error típico 4,78
Como vemos los resultados obtenidos no son buenos, ya que R2 es muy bajo (debería
acercarse a 1) y el r se encuentra cercano a 0 (debería acercarse a 1 o 1).
Debemos observar ahora si analizando los residuos obtenidos podemos encontrar las
causas de tan bajo ajuste. El gráfico de los residuos frente a las predicciones es
el que proporciona una mayor información acerca del cumplimiento de las hipótesis
del modelo, como lo podemos ver en los siguientes casos:
No se detecta ningún problema. (Figura 3.11)
90
Fig. 3.13. Ejemplo de gráfico de residuos con ajuste mal calculado
91
Cuando efectuamos el análisis con el gráfico de residuos vs. predicciones de esta
regresión, Figura 3.16, no observamos la existencia de ninguno de estos problemas
enunciados.
2,5
2
1,5
1
0,5
residuos
0
-0,5
-1
-1,5
-2
-2,5
predicciones
Como hemos visto una forma de transformación habitual consiste en tomar logaritmo
de la variable independiente. Como esta variable presenta valores negativos,
desplazamos el origen de la variable en 10 unidades (valor mayor al máximo registro
negativo) y aplicamos la regresión lineal simple. Los resultados obtenidos son:
Función de regresión Y = 4,15 log(X+10) + 1,17
92
Coeficiente de correlación múltiple 0,29
Coeficiente R2 de determinación 0,09
Coeficiente R2 ajustado 0,08
Error típico 4,71
Si bien en este caso obtenemos mejores resultados, estos se encuentran muy lejos de
acercarse a valores aceptables.
Al analizar los residuos estandarizados, encontramos algunos casos en los que se
supera el umbral establecido de valor absoluto 2, permitiéndonos suponer la
existencia de datos atípicos. Razón por la cual decidimos realizar una nueva
regresión descartándolos.
En esta nueva regresión obtenemos como resultados:
Función de regresión Y = 4,79 log(X+10) + 0,49
Coeficiente de correlación múltiple 0,33
Coeficiente R2 de determinación 0,11
Coeficiente R2 ajustado 0,11
Error típico 4,56
Como podemos ver, los resultados mejoran levemente, pero sin llegar a umbrales de
aceptabilidad. Además al analizar los residuos estandarizados no hallamos valores
atípicos, razón por la cual decidimos probar una nueva forma de linealización,
basada en tomar logaritmos de la variable independiente y de la variable dependiente
(regresión doble-log46), tal cual lo recomienda la bibliografía de consulta. Para tomar
logaritmos de la variable dependiente también es necesario desplazar el origen de la
misma para que no se presenten valores negativos. Como resultados obtenemos:
Función de regresión log(Y+10) = 0,15 log(X+10) + 1,01
Coeficiente de correlación múltiple 0,34
Coeficiente R2 de determinación 0,11
Coeficiente R2 ajustado 0,11
Error típico 0,15
Los valores son similares a los ya obtenidos, hallándose también en este caso algunos
datos atípicos, que luego de descartados dan como resultado la siguiente regresión:
Función de regresión log(Y+10) = 0,15 log(X+10) + 1,01
Coeficiente de correlación múltiple 0,32
46
Economía de mercado, virtudes e inconvenientes , EMVI, Universidad de Málaga, España 2005.
93
Coeficiente R2 de determinación 0,10
Coeficiente R2 ajustado 0,10
Error típico 0,13
Como vemos, no se registran mejoras, por lo cual decidimos recurrir a soluciones
computacionales de mayor poder.
Empleamos ahora el programa TCWin, el cual al hacer correr los datos disponibles
nos indica las ecuaciones de regresión obtenidas, ordenadas por su R2. Para este caso
el mejor valor de R2 es de 0,13 y para una ecuación de la forma:
Y = a + b X + (c/ X) + d X2 + (e/ X2) + f X3 + (g/ X3) + h X4 + (i/ X4) + j X5 + (k/ X5)
(3.6)
Concluimos, por todo lo expuesto, que con los datos disponibles no podemos
establecer un buen modelo de correlación entre la tasa de crecimiento del tránsito y
la variación del empleo. Debemos trazar entonces otra línea de trabajo.
Establecemos entonces:
X = variación de parque automotor (variable independiente) = (automotores
en ciclo en estudio automotores ciclo anterior) . 100 / (automotores ciclo
anterior)
Y = crecimiento tránsito (variable dependiente)
Nuevamente, previo al análisis de regresión, efectuamos el análisis estadístico de la
muestra, el cual para los datos de tasa de crecimiento del tránsito resulta:
Frecuencia = 64
Media = -2,77969
Varianza = 45,1439
94
Desviación típica = 6,71892
Mínimo = -14,8
Máximo = 18,3
Rango = 33,1
Asimetría tipificada = 2,1114
Curtosis tipificada = 1,46844
Como vemos la asimetría resulta levemente por encima del umbral establecido, lo
cual consideramos no llegará a afectar el análisis. La gráfica de caja y bigotes de la
Figura 3.17 nos permite observar la distribución de la muestra.
-15 -5 5 15 25
Y
Fig. 3.17. Gráfico de caja y bigotes de la tasa de crecimiento del tránsito
95
0 1 3 2 4 5 6
X
x
Fig. 3.18. Gráfico de caja y bigotes de la variación del parque automotor
1,80
1,60
1,40
1,20
log (y+20)
1,00
0,80
0,60
0,40
0,20
0,00
-0,40 -0,20 0,00 0,20 0,40 0,60 0,80
log x
Fig. 3.19. Gráfico variación tránsito vs variación parque automotor, afectados por log.
Pero al realizar las regresiones y tras descartar algunos datos atípicos, los valores que
obtenemos son:
Función de regresión log(Y+20) = 0,19 log X + 1,18
96
Coeficiente de correlación múltiple 0,62
Coeficiente R2 de determinación 0,39
Coeficiente R2 ajustado 0,38
Error típico 0,07
Estos valores, si bien resultan mucho mejores a los obtenidos con la tasa de empleo,
no llegan a los umbrales de aceptabilidad que nos hemos fijado.
Decidimos entonces volver atrás el análisis y aplicar la regresión directamente sobre
los valores sin linealizar. Esto nos permite obtener los siguientes valores:
Función de regresión Y = 2,23 X 7,99
Coeficiente de correlación múltiple 0,75
Coeficiente R2 de determinación 0,56
Coeficiente R2 ajustado 0,55
Error típico 2,53
El contraste de la F también demuestra la influencia de la linealidad, dándonos un p-
valor muy por debajo de 0,05.
Aunque ya hemos explicado el contraste de la F, tal vez sea conveniente tratar de
simplificar un poco más el concepto de su empleo. Con este estadístico lo que se
pretende es comparar el modelo propuesto con aquel en donde no aparece la X
planteada, esto es, ver si realmente hay una dependencia entre Y y X según lo hemos
planteado. Cuanto mayor es el valor del estadístico, mayor la evidencia que juntamos
para probar que hay dependencia, y menor p-valor. Para un 95 % de confianza si el
p-valor es menor que 0,05 entonces demostramos esta dependencia.
Con los residuos estandarizados elaboramos la gráfica de la Figura 3.20 y la de la
Figura 3.21, que muestran una sensible normalidad de los mismos, con media 0 y
desvío estándar 1. La estadística completa de los residuos estandarizados es:
Media = -0,00222222
Varianza = 1,01613
Desviación típica = 1,00803
Mínimo = -2,1
Máximo = 1,9
Rango = 4,0
Asimetría tipificada = 0,817851
Curtosis tipificada = -0,532223
97
-2,1 -1,1 -0,1 0,9 1,9
residuos
Fig. 3.20. Gráfico de caja y bigotes para los residuos,
empleando variación de parque automotor
Histograma
Frecuencia
...
,
0,
1,
1,
-1
-1
-0
or
ay
m
Clase
y
Fig. 3.21. Histograma de los residuos empleando variación del parque automotor
Como dijéramos, el análisis realizado hasta ahora con la variable independiente del
parque automotor se lleva adelante con el módulo de regresión del programa
Microsoft Excel, veamos los resultados que obtenemos en esta última regresión
cuando empleamos el programa Statgraphics Plus, más potente que el anterior.
El gráfico del modelo ajustado obtenido con este programa, Figura 3.22, nos permite
observar las bandas para los errores, valores que empleamos más adelante en la
discusión del modelo final obtenido.
98
6
3
0
Y -3
-6
-9
-12
0 1 2 3 4 5 6
X
Fig. 3.22. Gráfico del modelo ajustado con bandas para los errores
Los resultados no son malos, pero como el modelo final se compone del producto de
los submodelos, debemos hallar en cada uno de estos el menor error posible, en
busca de un error general aceptable, tal como ya lo explicáramos.
Volvemos por esto al empleo del programa TCWin, que permite establecer modelos
más complejos y ajustados que, al fin y al cabo, podrían ser establecidos por
regresión simple mediante las adecuadas linealizaciones, como hemos hecho hasta
ahora. Como describimos anteriormente, este programa, al ser cargado con la matriz
de datos, nos da como resultado una lista de regresiones en orden decreciente de
coeficiente de correlación.
47
Construcción de modelos de regresión multivariantes , L. Molinero, Alce Ingeniería, España 2002.
99
Función de regresión
Y = 35,596896 (243,628504 / X) + (555,412790 / X2) (585,523100
3 4 5
/ X ) + (283,681553 / X ) (51,088958 / X )
Coeficiente R2 de determinación 0,66
Coeficiente R2 ajustado 0,59
Error típico 2,40
Estadístico F 11,37 (p-valor 0,0000) significativo al 99%
En la Figura 3.23, podemos observar como la función se ajusta a nuestra nube de
puntos y en la Figura 3.24 se observa el gráfico de dispersión de los residuos.
Llegamos de este modo a una ecuación que nos arroja valores aceptables de ajuste.
y=a+b/x+c/x2+d/x3+e/x4+f/x5
Eq#=6503 r2=0.66217311
10
0
y
-5
-10
-15
0 1 2 3 4 5 6
Y Actualx Y Predicted
Fig. 3.23. Ajuste de la ecuación a la nube de puntos, empleando variación parque automotor
y=a+b/x+c/x2+d/x3+e/x4+f/x5
Eq#=6503 r2=0.66217311
Y Actual-Y Predicted
0 1 2 3 4 5 6
x
Fig. 3.24. Gráfico de dispersión de los residuos, empleando variación parque automotor
100
3.2.2. Obtención de los algoritmos para los coeficientes diarios
Para el análisis en busca del algoritmo que nos permita calcular los coeficientes
diarios de corrección, fijamos como punto de partida a las siguientes variables:
X = variable independiente, representa los días de la semana
X = 1 (día domingo)
X = 2 (día lunes)
X = 3 (día martes)
X = 4 (día miércoles)
X = 5 (día jueves)
X = 6 (día viernes)
X = 7 (día sábado)
Y = variable dependiente, es el coeficiente diario
101
0,68 0,88 1,08 1,28 1,48
Y
Fig. 3.25. Gráfico de caja y bigotes de los coeficientes diarios
1,600
1,400
coeficiente de corrección diaria
1,200
1,000
0,800
0,600
0,400
0,200
0,000
0 2 4 6 8
días de la semana
102
discriminados en tal sentido, lo cual en nuestro caso no ha sido posible, por lo que
decidimos dejar de lado este tipo de planteos.
...Se han estudiado cuales son los días de la semana que llevan los volúmenes
normales de tránsito...
En ciertas carreteras los volúmenes de lunes a viernes son muy estables; y se
registran máximos volúmenes durante el fin de semana, ya sea el sábado o domingo,
debido a que durante estos días por estas carreteras circula una alta demanda de
usuarios de tipo turístico y recreacional...
En otras carreteras los volúmenes máximos se presentan entre semana, al igual que
en las calles de la ciudad, donde la variación de los volúmenes de tránsito diario no
es muy pronunciada en los días laborales. Ambos casos reflejan el uso comercial de
48
estas vías...
Decidimos entonces incluir la variable clasificatoria por uso de la vía, previo a los
análisis de regresión.
Como ya estableciéramos esta variable toma valor 1 cuando la vía es comercial y 0
cuando es turística. Los gráficos de la Figura 3.27 y la Figura 3.38, reflejan la
inclusión de esta clasificación.
clase 0 "turística
1,400
1,200
1,000
0,800
0,600
0,400
0,200
0,000
0 2 4 6 8
48
Ingeniería de tránsito, fundamentos y aplicaciones , R. Cal y Mayor, J. Cárdenas, Alfaomega
7°ed., México 1995.
103
clase 1 "comercial"
1,600
1,400
1,200
1,000
0,800
0,600
0,400
0,200
0,000
0 2 4 6 8
Podemos ver como la inclusión de la clase realmente genera dos nubes de puntos
diferenciables y como éstas convalidan lo asegurado en la consulta bibliográfica. Así,
la primera nube presenta una tendencia hacia una parábola cóncava hacia abajo y la
segunda aparenta ser una parábola cóncava hacia arriba. Estamos ahora en
condiciones de realizar las regresiones por separado que analizamos a continuación.
104
Estos valores nos permiten observar un muy buen ajuste de esta regresión, pero al
analizar los residuos estandarizados se registran algunos casos que superan el umbral
establecido del valor absoluto 2, por tal razón decidimos eliminar estos datos y
realizar nuevamente la regresión, obteniéndose en este caso como resultados:
Función de regresión Y =-0,043715 X2 + 0,363511 X + 0,452025
Coeficiente de correlación múltiple 0,97
Coeficiente R2 de determinación 0,94
Coeficiente R2 ajustado 0,94
Error típico 0,04
Como puede observarse, el quitar estos pocos datos atípicos nos permite obtener una
sensible mejora en los resultados, sin una modificación fuerte de la ecuación. El
coeficiente de correlación múltiple, que como viéramos debe acercarse en valor
absoluto a 1, es de 0,97. El coeficiente de determinación que debe ser cercano a 1, es
de 0,94 y muy pocos de los residuos estandarizados poseen valor absoluto superior a
2, presentando su distribución en la Figura 3.29 una sensible normalidad. El contraste
de la F también demuestra la tendencia de la linealización con un p-valor muy por
debajo de 0,05. La estadística completa de los residuos es:
Media = 0,000689655
Varianza = 1,00137
Desviación típica = 1,00069
Mínimo = -1,84
Máximo = 2,3
Rango = 4,14
Asimetría tipificada = 0,35049
Curtosis tipificada = -0,553592
105
En función de estos resultados llegamos a la conclusión de que el algoritmo obtenido
para las vías turísticas es válido.
106
Histograma de residuos estandarizados
Frecuencia
07
43
79
15
51
3
...
,7
,3
,0
,6
,2
or
0,
0,
0,
1,
1,
-1
-1
-1
-0
-0
ay
m
Clase
y
Fig. 3.30. Histograma de los residuos para vías comerciales
Los ajustes alcanzados con esta clase nos permiten deducir que la línea de trabajo
seguida no nos conduce a un buen resultado, posiblemente por falta de inclusión de
una nueva variable de clasificación.
Para esto volvemos análisis de la Figura 3.28, donde además de la concavidad hacia
arriba de la clase para la nube de puntos, observamos cierta dispersión en los valores
extremos (es decir 1 y 7).
Tres son las variables clasificatorias que podemos incluir, en función de los datos
disponibles. Estas son la urbanidad de la vía, la existencia de peaje o la clasificación
del tránsito. El análisis detallado de las series en función de estas tres variables nos
lleva a pensar que la variable clasificatoria faltante es la de existencia o no de peaje
sobre la vía, con la que se obtienen las nubes de puntos de la Figura 3.31 y de la
Figura 3.32.
clase 1, peaje 1
1,600
1,400
1,200
1,000
0,800
Y
0,600
0,400
0,200
0,000
0 2 4 6 8
X
Fig. 3.31. Nube de puntos para los coeficientes diarios en vías comerciales con peaje
107
uso 1, peaje 0
1,400
1,200
1,000
0,800
Y
0,600
0,400
0,200
0,000
0 1 2 3 4 5 6 7 8
X
Fig. 3.32. Nube de puntos para los coeficientes diarios en vías comerciales sin peaje
La nube de puntos para este caso presenta una clara concavidad hacia arriba, aunque
en un sector medio muestra un salto en la función. Esto nos lleva a pensar que un
polinomio de grado superior puede ser la mejor forma de regresión, no obstante lo
cual experimentamos inicialmente buscando una función polinómica de grado dos,
mediante el módulo de regresión del programa Microsoft Excel, para analizar su
ajuste, obteniendo como resultado:
Función de regresión Y =0,03 X2 - 0,28 X +1,58
Coeficiente de correlación múltiple 0,92
Coeficiente R2 de determinación 0,84
Coeficiente R2 ajustado 0,83
Error típico 0,07
Como podemos observar el ajuste nos da valores muy buenos. Complementariamente
el análisis de los residuos estandarizados no nos permite observar datos atípicos, no
obstante lo cual es de esperarse la existencia de regresiones que ajusten mejor a esta
nube.
108
Buscando estos mejores resultados, volvemos al empleo del programa TCWin. Con
los datos ingresados, obtenemos un listado de ecuaciones de regresión ordenadas por
su coeficiente de determinación, que para este caso resulta de 0,88 en alrededor de 20
ecuaciones. Guiados nuevamente por el principio de parsimonia , de entre éstas
tomamos la de más sencilla expresión y la analizamos en detalle, obteniendo:
Función de regresión Y = 0,002781 X5 - 0,053475 X4 + 0,378762 X3 -
1,184775 X2 + 1,434157 X + 0,758143
Coeficiente R2 de determinación 0,88
Coeficiente R2 ajustado 0,85
Error típico 0,06
Estos resultados verifican el buen ajuste obtenido con la regresión de segundo grado,
ya que con una mayor sencillez de cálculo se obtienen resultados similares.
El análisis gráfico de la curva ajustada de grado 5, Figura 3.33, y de sus residuos,
Figura 3.34, también nos permite establecer a ésta como la función de regresión
buscada.
y=a+bx+cx2+dx3+ex4+fx5
Eq#=6002 r2=0.88110535
1,6
1,4
1,2
1
0,8
y
0,6
0,4
0,2
0
0 1 2 3 4 5 6 7 8
Y Actualx Y Predicted
Fig. 3.33. Ajuste de la función polinómica de grado cinco, en vías comerciales con peaje
y=a+bx+cx2+dx3+ex4+fx5
Eq#=6002 r2=0.88110535
0,5
0,3
Residuals
0,1
-0,1
-0,3
-0,5
0 1 2 3 4 5 6 7 8
x
Fig. 3.34. Gráfica de residuos de la función polinómica de grado cinco, en vías comerciales con peaje
109
3.2.2.2.2. Análisis en vías comerciales sin peaje
110
Y = a + b X + c X2 lnX + d X3 + e ex (3.7)
y=a+bx+cx2lnx+dx3+eex
Eq#=4476 r2=0.70215256
1,4
1,2
1
0,8
y
0,6
0,4
0,2
0
0 1 2 3 4 5 6 7 8
Y Actualx Y Predicted
y=a+bx+cx2lnx+dx3+eex
Eq#=4476 r2=0.70215256
0,5
0,4
0,3
0,2
Residuals
0,1
0
-0,1
-0,2
-0,3
-0,4
-0,5
0 1 2 3 4 5 6 7 8
x
Fig. 3.36. Gráfico de residuos de la función obtenida, en vías comerciales sin peaje
111
3.2.3. Obtención de los algoritmos para los coeficientes mensuales
El salto conceptual desde el coeficiente diario al mensual podría ser criticado, pero la
carencia generalizada de datos hace imposible la obtención de coeficientes más
detallados, cuando no lo es incluso la obtención del propio coeficiente mensual.
...El coeficiente de estacionalidad del mes sólo puede estimarse en el corto plazo
por analogía con tramos con coeficientes conocidos, sea por contadores permanentes,
sea por censos de cobertura efectuados en distintas épocas del año. Por esta razón,
con censos de corta duración la expansión se realiza al TMDM, y la corrección al
TMDA exige disponer del coeficiente del mes de fuente exógena.
Si se releva el volumen de tránsito de todo un mes, el Tránsito Medio Diario del Mes
se calcula con la expresión siguiente
TMDM = (5 media día hábil + media sábado + media domingo)/7 (3.8)
El coeficiente de estacionalidad de la semana dentro del mes es usualmente asumido
igual a la unidad, pues el patrón del tránsito es repetitivo en módulos de 7 días, y las
diferencias atribuibles a censar en la primera semana del mes o en otra semana
49
suelen ser despreciables...
Aunque la forma de calcular el TMDM citada en este párrafo pueda ser mejorada
empleando la ecuación:
TMDM = (nº días hábiles . media día hábiles + nº días no hábiles . media de
día no hábiles) / (nº de días hábiles + nº de días no hábiles) (3.9)
todo parece indicar que lo aquí expresado en cuanto a los patrones de tránsito es
valedero. Por esto consideramos que no es necesario contar con un coeficiente
intermedio que distinga los volúmenes entre las distintas semanas de un mes. De
todos modos sería adecuado que este parámetro, en caso de que las condiciones
particulares de un estudio hicieran imperiosa su determinación, tome valor en forma
independiente del mes que se trate. Razón por la cual podría incluirse sencillamente
como un factor más en la ecuación final para el cálculo del TMDA, mediante un
algoritmo que posea como variable independiente la ubicación que la semana en la
que se realiza el conteo posee dentro del mes.
49
Caracterización de errores de muestreo en censos de volumen y composición , M. Herz, J.
Galárraga, M. Maldonado, XIV Congreso Argentino de Vialidad y Tránsito, Argentina 2005.
112
Ratificada la estructura del modelo general pasamos al análisis puntual para los
coeficientes mensuales. Pero previo al análisis numérico revisemos algunos aspectos
considerados en estudios similares a éste.
...En el marco de los estudios de este informe, se hace necesaria la disponibilidad
de análisis de los determinantes de la demanda de acuerdo a las estacionalidades...
En el modelo empleado la variable explicada son los vehículos circulantes y las
variables explicativas:
- Ingreso. Esta variable se capta a través del Indice de Producción Industrial,
utilizado especialmente por su gran fidelidad como aproximación al producto bruto y
por su frecuencia. A través de esta variable se considera como impacta la actividad
sobre el tránsito a estimar
- Población. Es de singular importancia la inclusión de esta variable, en especial al
tratarse de una estimación de transporte de pasajeros
- Peaje. Se incluye como una variable adicional de precios
Inicialmente se habían considerado variables adicionales, como las de matrículas
educativas y personas ocupadas, pero estas dos variables resultaron no significativas
al momento de realizar las estimaciones además su importancia como
50
determinantes era mas bien secundaria
Si bien en este trabajo ya habíamos considerado la inclusión de las variables de
borde, este párrafo expresa su empleo cuando se analizan las estacionalidades,
tratadas aquí justamente mediante los coeficientes de corrección mensuales. Es por
esto, para facilitar el análisis de las interrelaciones entre variables, que para esta parte
del trabajo nos planteamos la idea desde el principio de llegar a los algoritmos
buscados mediante la regresión múltiple.
50
Estimación econométrica del tránsito vehicular y de la demanda del servicio de transporte
ferroviario y automotor en el Gran La Plata , J. Alonso, Expte. Muni. La Plata 78.449/01, Argentina
2001.
113
X1 = 5 para mayo
X1 = 6 para junio
X1 = 7 para julio
X1 = 8 para agosto
X1 = 9 para septiembre
X1 = 10 para octubre
X1 = 11 para noviembre
X1 = 12 para diciembre
Con estas dos variables podemos construir el gráfico de la Figura 3.37, para analizar
la relación existente entre ambas en función de nuestros datos.
1,8
1,6
1,4
1,2
1
Y
0,8
0,6
0,4
0,2
0
1 3 5 7 9 11
X
Podemos deducir de esta gráfica que la nube de puntos podría ajustarse por una
ecuación polinómica, pero es muy posible que el ajuste no sea bueno, debido a que la
dispersión existente en cada valor de X1 es alta. La inclusión de variables de entorno
de la vía entonces puede que genere un modelo por regresión múltiple más ajustado.
Las nuevas variables a considerarse son:
X2 = urbanidad (X2 = 0 rural, X2 = 1 urbana)
X3 = uso (X3 = 0 turística, X3 = 1 comercial)
X4 = peaje (X4 = 0 sin peaje, X4 = 1 con peaje)
X5 = clasificación, expresado en % de autos más camionetas
114
Previo a los análisis de regresión identifiquemos si existe multicolinealidad entre las
variables propuestas, para esto podemos analizar el gráfico de dispersión matricial o,
lo que es análogo, las relaciones existente entre variables par a par. Para esto
construimos los gráficos entre pares de variables y efectuamos los análisis
correspondientes:
X1 vs. X2 = Como X1 representa los meses y contamos con series en forma
equilibrada para ambiente urbano y rural, es de esperarse una gráfica como la
obtenida en la Figura 3.38, en donde se evidencia la no existencia de una
relación lineal.
1,2
1
0,8
x2
0,6
0,4
0,2
0
1 3 5 7 9 11
x1
100
80
60
x5
40
20
0
1 3 5 7 9 11
x1
115
X2 vs. X3 = Se trata de la comparación de dos variables binarias. Habría fuerte
colinealidad si se agruparan los puntos exclusivamente en forma oblicua, es
decir valores (0;0) con (1;1) o valores (0;1) con (1;0), o presentara pendiente
muy pronunciada la correlación, lo cual no se registra, como se observa en la
Figura 3.40.
116
X5 vs. X2 = Podemos observar en la Figura 3.43 como las series con las que se
cuenta poseen sólo alta clasificación cuando la vía es urbana, lo que resulta
en una forma de correlación.
117
Fig. 3.45. Gráfico de X3 vs. X4
El análisis de las gráficas de relaciones entre variables, no hace más que ratificar lo
que podemos deducir de un estudio lógico. Es decir, es de esperarse que en vías de
uso turístico sea muy alto el porcentaje de vehículos livianos particulares en relación
con vehículos pesados de transporte de carga (aunque existan vehículos pesados de
transporte de pasajeros, que no aparentan resultar de importancia), como así también
es de esperarse que en vías urbanas la presencia de vehículos pesados sea muy
reducida (nuevamente la presencia de vehículos pesados de transporte de pasajeros
no aparenta influir). Todo esto claro, para los datos con los cuales contamos en este
estudio. Esto nos lleva a descartar el empleo de la variable de clasificación, ya que en
cierta forma es explicada por la inclusión de las demás variables de entorno.
Como primera prueba analizamos entonces la regresión lineal múltiple con las
variables seleccionadas, pero ésta nos da muy bajo ajuste:
Función de regresión Y = 1,02 + 0,01 X1 + 0,01 X2 0,08 X3 + 0,01 X4
Coeficiente de correlación múltiple 0,28
Coeficiente R2 de determinación 0,08
Coeficiente R2 ajustado 0,07
Error típico 0,16
Del análisis de la gráfica residuo vs. X1 de la Figura 3.46 podemos deducir que la
relación lineal entre Y y X1 no es la más adecuada, análisis fundamentado en que X1
es la variable independiente de significancia (t = 7,09 p-valor 0,0000).
118
5,0
4,0
3,0
2,0
1,0
residuos
0,0
-1,0 1 3 5 7 9 11
-2,0
-3,0
-4,0
-5,0
x1
(3.10)
Al intentar hallar la regresión múltiple el software falla, pues los datos de X32
resultan una combinación lineal de las demás columnas, para solucionar esto
debemos eliminar este término de la regresión. Los resultados que obtenemos
entonces con el programa Statgraphics Plus son:
La ecuación del modelo ajustado es
Y = 0,756962 + 0,0960639 X1 + 0,0803555 X3 - 0,0259452 X1X3 - 0,0052679 X12
R2 = 0,23
119
R2 ajustado = 0,23
Error estándar de est. = 0,150163
Error absoluto medio = 0,104626
Vemos que el ajuste mejora con respecto a la regresión lineal múltiple, lo cual es
previsible cuando se observa la relación entre la variable de significancia X1 e Y.
Observamos también que mayor grado en el polinomio sería adecuado, ya que el
gráfico de residuos vs. X1 de la Figura 3.47 nuevamente no muestra una nube de
puntos aleatoria.
5
4
3
2
residuos
1
0
-1 1 3 5 7 9 11
-2
-3
-4
x1
120
Y = a X1 + b X2 + c X3 + d X4 + e X12 + i X1X2 + j X1X3 + k X1X4 + l X2X3 + m
X2X4 + n X3X4 + o X13 + s X12X2 + t X12X3 + u X12X4 + ad X1X2X3 + ae X1X2X4
+ af X1X3X4 + ag X2X3X4 (3.12)
Dado que algunos términos resultan una combinación lineal de otros o poseen un
estadístico F bajo, deben ser descartados en la regresión. Los resultados que
obtenemos finalmente son:
Ecuación del modelo ajustado
Y = 0,566 + 0,119 X1 - 0,01 X12 - 0,002 X12X2 + 0,014 X12X3 - 0,002 X12X4 -
0,0002 X13 + 0,052 X1X2 - 0,049 X1X2X3 + 0,017 X1X2X4 - 0,13 X1X3 - 0,048
X1X3X4 + 0,065 X1X4 + 0,065 X2 - 0,289 X2X4 + 0,188 X2X3X4 + 0,408 X3
R2 = 0,50
R2ajustado = 0,50
Error estándar de est. = 0,121258
Error absoluto medio = 0,085315
El coeficiente de determinación toma valores buenos, sin llegar a los umbrales
habituales de aceptación. En busca de mejoras realizamos el análisis de los residuos
estándar para descartar datos atípicos. Una vez eliminados estos datos, llegamos a la
siguiente ecuación de regresión:
Ecuación del modelo ajustado
Y = 0,479143985 + 0,136277392 X1 + 0,059669021 X2 + 0,523605787 X3
0,009715863 X12 + 0,034070315 X1 X2 0,152392231 X1 X3 + 0,045233251
X1 X4 0,000268142 X13 - 0,000651558 X12 X2 + 0,014428784 X12 X3
0,000729828 X12 X4 0,175791796 X2 X4 0,040418127 X1 X2 X3 +
0,010884546 X1 X2 X4 0,040714787 X1 X3 X4 + 0,114275601 X2 X3 X4
R2 = 0,66
R2ajustado = 0,65
Error estándar de est. = 0,0745175
Error absoluto medio = 0,0575518
Si bien el R2 es menor a 0,7, umbral habitualmente empleado en análisis estadísticos,
el valor de 0,66 alcanzado no es malo. Además podemos observar en la Figura 3.48
por fin una nube aleatoria de puntos en la gráfica de residuos vs. X1, indicando la no
necesidad de agregar un grado más a la ecuación, cosa que por otro lado resultaría
poco práctico.
121
3
2
1
residuos 0
-1
-2
-3
0 2 4 6 8 10 12
X1
Fig. 3.48. Gráfico de X1 vs residuos de la regresión múltiple de grado tres
Entre los residuos se observan valores fuera del umbral de valor absoluto 2, pero
estos son muy reducidos en comparación con el resto de los datos, e incluso su
distribución resulta marcadamente normal como se observa en la Figura 3.49.
Histograma
140
120
100
Frecuencia
80
60
40
20
0
5
5
87
62
37
12
87
62
37
37
62
87
12
37
62
87
3
4
34
74
14
54
93
33
73
,4
,0
,6
,2
,8
,4
,0
0,
0,
1,
1,
1,
2,
2,
-2
-2
-1
-1
-0
-0
-0
Clase
Cuando efectuamos el cálculo de los coeficientes en función de este modelo, para ser
presentados en una tabla, observamos valores comparables a los incluidos en la base
de datos sobre la cual trabajamos, salvo en el caso de vías de uso turístico, ambiente
122
rural y sin peaje, en donde los coeficientes obtenidos resultan muy pequeños. Al
indagar por la causa de esta anomalía, descubrimos que para el estudio no se
contaron con series de datos en vías de estas características, hecho que
evidentemente ha influido en la obtención de un modelo no aplicable en estos casos.
Por tal razón no debemos considerar como válidos a los coeficientes para esa
combinación de variables de entorno, quedando excluido el caso de los resultados.
Hemos generado los análisis volcados en los puntos anteriores, en donde se indican
las regresiones efectuadas (con sus coeficientes y contrastes), las variables
alternativas consideradas, los análisis de correlación, los análisis sobre los residuos y
demás aspectos especificados en el párrafo anterior. Resta entonces sólo presentar en
forma resumida la metodología desarrollada.
Paso 1: Obtención del TDreal sobre la vía, considerado desde las 0 horas hasta las 24
horas. Indicar día de la semana (DS), mes (M), uso de la vía (C), urbanidad (U) y
existencia o no de peaje (P).
Paso 2: Establecer la tasa de crecimiento del tránsito estimada para la vía durante el
año en estudio. Para esto realizar su estimación directa, o emplear el algoritmo o la
Tabla 3.1 para su estimación mediante la variación del parque automotor durante el
año en estudio y para la localidad en donde se encuentra el punto analizado:
TCT = 35,596896 (243,628504 / VP) + (555,412790 / VP2)
(585,523100 / VP3) + (283,681553 / VP4) (51,088958 / VP5) (3.14)
Donde
TCT = Tasa crecimiento tránsito
VP = Variación parque automotor
123
VP TCT
0,5 -10,1
1,0 -5,5
1,5 -4,2
2,0 -4,4
2,5 -3,7
3,0 -2,3
3,5 -0,5
4,0 1,3
4,5 3,1
5,0 4,8
5,5 6,4
6,0 7,9
6,5 9,3
7,0 10,5
7,5 11,7
8,0 12,7
8,5 13,7
9,0 14,6
9,5 15,5
10,0 16,2
Tabla 3.2. Tasa de Crecimiento de Tránsito en función del registro automotor
Paso 3: En función del día del año en la que se determina el TDreal y e la TCT
obtenida, descontar la tendencia en forma proporcional para establecer un TD0, con:
TCT DA
TD0 TDreal (1 ) (3.15)
100 365
Donde:
TD0 = Tránsito diario sin tendencia
TDreal = Tránsito diario directamente establecido
TCT = Tasa de crecimiento del tránsito
DA = Día del año del dato (1 para el 1º de enero, ...., 365 para el 31º de
diciembre)
124
CD = 0,002781 DS5 - 0,053475 DS4 + 0,378762 DS3 - 1,184775 DS2 +
1,434157 DS + 0,758143 (3.18)
Donde:
CD = Coeficiente diario
DS = Día de la semana (1 para domingo, ..., 7 para sábado)
125
Paso 6: Calcular TMDA mediante:
TCT 1
TMDA TD0 CD CM 1 (3.20)
100 2
En caso de contarse con más datos de tránsitos diarios, aplicar la metodología y
calcular la estadística de los resultados obtenidos para convalidar o no la media de
los mismos mediante la normalidad de los resultados.
126
Capítulo 4 - Validación y discusión
51
Construcción de modelos de regresión multivariantes , L. Molinero, Alce Ingeniería, España 2002.
52
Ingeniería de tránsito, fundamentos y aplicaciones , R. Cal y Mayor, J. Cárdenas, Alfaomega
7°ed., México 1995.
127
distribución simétrica, en donde la media sea el TMDA y un menor desvío estándar
signifique mayor adaptación a la realidad (validez del modelo).
Basados en esta línea de pensamiento nos proponemos para analizar la validez del
modelo obtenido, efectuar su aplicación en tramos de vía con demanda y condiciones
de entorno conocidas, y comparar los valores obtenidos con los resultantes de la
aplicación del método clásico, en función de los coeficientes relevados en una vía de
la zona que sirve a similares itinerarios de tránsito.
Por esto analizamos los siguientes casos, que nos dan una combinación de las
condiciones de entorno:
Calle 28 entre 489 y 490 de La Plata. Vía urbana, de tránsito comercial y sin
peaje.
Ruta Nacional Nº9 entre Córdoba y Jesús María. Vía rural, de tránsito
comercial y con peaje.
Ruta Nacional Nº20 entre Córdoba y Carlos Paz. Vía rural, de tránsito
turístico y con peaje.
Autopista Buenos Aires La Plata, en su tramo por Dock Sud. Vía urbana, de
tránsito comercial y con peaje.
128
Fig. 4.1. Contador automático de tránsito empleado en el estudio
El año 2004 fue año bisiesto, por lo cual obtuvimos 366 datos de tránsito diario. Con
estos registros podemos confeccionar la curva de TD (Tránsito Diario medido) vs.
día del año que observamos en la Figura 4.2, junto con su línea de tendencia positiva.
Resulta muy importante destacar que esta serie no ha sido incluida entre las series
empleadas en las regresiones, es decir que los modelos desarrollados no están
influenciados por la misma.
8000
7000
6000
tránsito diario medido
5000
4000
3000
2000
1000
0
0 100 200 300
día del año
Fig. 4.2. Valores de TD durante el año 2004 para primer caso de validación
129
Media = 5811,42
Varianza = 709963,0
Desviación típica = 842,593
Mínimo = 3686,0
Máximo = 7478,0
Rango = 3792,0
Asimetría tipificada = -3,35455
Curtosis tipificada = -2,45725
Estos datos se complementan con la gráfica correspondiente de la Figura 4.3 que
también nos permiten observar esta tendencia a la normalidad.
Realizamos la aplicación sobre esta vía según los lineamientos ya explicados en este
documento. Para eso en primer lugar consideramos que no existen datos de conteos
previos sobre la misma, razón por la cual debemos analizar la existencia de estos
sobre vías cercanas con similares características.
Como dijimos la Calle 28 en el tramo en estudio sirve mayoritariamente al tránsito
que ingresa y egresa a la ciudad de La Plata, desde las localidades satélites a ésta de
City Bell y Villa Elisa. En forma paralela a esta vía, se encuentra la RN Nº1,
conocida como el Camino Gral. Belgrano, y la RP Nº14, conocida como el Camino
Centenario, que se observan en la Figura 4.4.
130
Fig. 4.4. Vías de acceso a la ciudad de La Plata
Hasta el año 2002 estas vías servían también al tránsito desde y hacia la Capital
Federal y el Gran Buenos Aires, pero desde la inauguración del último tramo de la
Autopista Buenos Aires La Plata en ese año, éste ha sido trasladado en su mayoría,
sirviendo ahora prioritariamente ambas arterias a itinerarios similares a los de la vía
en estudio.
Mas allá de esta similitud de características (que podría resultar en cierto modo
discutible), la única posibilidad de conseguir datos de tránsito en esa zona puede
darse sobre los caminos citados (lo cual no es discutible). A lo que debe agregarse
que en concordancia con el tramo en estudio ambos circulan por zonas urbanas, sin
peajes y sirviendo mayoritariamente a tránsito comercial, al igual que la Calle 28.
Todo esto nos lleva en la aplicación de la metodología clásica al aceptar series de
algunas de estas vías para ser aplicadas en nuestro estudio.
Cuando analizamos nuestra base de datos, vemos que contamos sólo con datos para
el Camino Centenario durante el ciclo 2003, suministrados por la Dirección de
Vialidad de la Provincia de Buenos Aires. Con estos datos puede elaborarse la Tabla
4.1 correspondiente.
131
COEFICIENTE MENSUAL
ENE FEB MAR ABR MAY JUN JUL AGO SEP OCT NOV DIC
1,093 1,034 0,979 0,990 0,981 1,006 1,042 1,017 0,994 0,963 0,967 0,951
COEFICIENTE DIARIO
DOM LUN MAR MIE JUE VIE SAB
1,269 1,042 0,948 0,972 0,941 0,816 1,136
Sabemos además que durante ese ciclo se registró sobre la vía un crecimiento de
tránsito del 2,7 %.
Con estos coeficientes y los datos de tránsito diario considerados sin tendencia,
realizamos el cálculo del TMDA día a día.
Como la aplicación de la metodología no explica como estimar la tasa de crecimiento
por la cual se deben afectar los cálculos, lo más coherente es suponer una tasa
idéntica a la del ciclo anterior (salvo que existan serios indicios de que esto es
inadecuado), es decir 2,7 %, tal cual lo realizamos en estos cálculos. Recordemos que
la inclusión en este caso de este término es necesario porque en la obtención de estos
coeficientes realizamos el descuento del crecimiento.
La estadística obtenida con esta aplicación resulta:
Frecuencia = 366
Media = 5918,83
Varianza = 633590,0
Desviación típica = 795,984
Mínimo = 3397,0
Máximo = 8066,0
Rango = 4669,0
Asimetría tipificada = -1,09412
Curtosis tipificada = 2,97803
La estadística se complementa con los gráficos de la Figura 4.5, 4.6 y 4.7
correspondientes.
132
9000
8000
7000
6000
5000
tmda
4000
3000
2000
1000
0
0 50 100 150 200 250 300 350
dias
Fig. 4.5. Nube de resultados por metodología clásica, en primer caso de validación
3300 4300
5300 6300 7300 8300
TMDA
Fig. 4.6. Gráfico de caja y bigotes para resultados por metodología clásica
en primer caso de validación
99,9
99
95
80
50
20
5
1
0,1
3300 4300
5300 6300 7300 8300
TMDA
Fig. 4.7. Gráfico de probabilidad normal para resultados por metodología clásica
en primer caso de validación
133
4.1.1.2. Determinación del TMDA mediante la metodología desarrollada
Para realizar el cálculo del TMDA día a día debemos en primer lugar estimar la tasa
de crecimiento del tránsito mediante la variable variación del parque automotor. El
registro de automotores para la localidad de La Plata ascendía en el año 2003 a
268.977 veh, registrándose para el 2004 unos 280.433 veh, por lo tanto la variación
en el registro asciende a 4,3 %. Con este valor ingresamos a la Tabla 3.1 y
determinamos que el incremento de tránsito correspondiente es de 2,3 %.
Luego, determinamos los coeficientes diarios y los volcamos en la Tabla 4.2.
COEFICIENTE DIARIO
DOMINGO LUNES MARTES MIERCOLES JUEVES VIERNES SABADO
1,095 1,001 1,000 1,008 0,955 0,866 1,061
Tabla 4.2. Coeficientes diarios según metodología desarrollada, en primer caso de validación
COEFICIENTE MENSUAL
ENE FEB MAR ABR MAY JUN JUL AGO SEP OCT NOV DIC
1,044 1,032 1,024 1,020 1,018 1,016 1,012 1,005 0,994 0,976 0,950 0,914
Tabla 4.3. Coeficientes mensuales según metodología desarrollada, en primer caso de validación
Con estos valores podemos calcular el TMDA día a día, presentándose la siguiente
estadística:
Frecuencia = 366
Media = 5811,15
Varianza = 588680,0
Desviación típica = 767,255
Mínimo = 3701,0
Máximo = 7701,0
Rango = 4000,0
Asimetría tipificada = -2,06178
Curtosis tipificada = 0,161674
Con la cual elaboramos las gráficas de la Figura 4.8, 4.9 y 4.10.
134
9000
8000
7000
6000
5000
TMDA
4000
3000
2000
1000
0
1 101 201 301
día del año
Fig. 4.8. Valores de TMDA por metodología desarrollada, en primer caso de validación
100
80
60
40
20
0
3500 4500 5500 6500 7500 8500
TMDA
Fig. 4.10. Histograma de los resultados por metodología
desarrollada, en primer caso de validación
135
4.1.1.3. Evaluación de resultados
Como podemos observar en este primer caso de validación los resultados obtenidos
son muy buenos. Sabíamos que el TMDA real asciende a 5811 veh/día, y
determinamos con el método clásico una media de 5919 veh/día con una distribución
prácticamente normal, es decir obtenemos un resultado general sólo un 1,8 % por
encima del valor real y con un desvío estándar de 796 veh/día, o sea que con
aproximadamente un 70 % de los datos obtenemos un entorno de ± 13,7 % del valor
real (dado que está probado que en el intervalo de la media ± el desvío estándar se
encuentran aproximadamente el 68 % de los datos en una distribución normal53).
Todo esto no hace más que ratificar la decisión que tomamos de aceptar las series del
Camino Centenario para su aplicación sobre la Calle 28.
Por su parte, los resultados obtenidos con la metodología desarrollada, siempre para
este caso en particular, son aun mejores, ya que la media del TMDA calculado de
5811 veh/día (exactamente el valor real) con una distribución normal, resultando el
desvío estándar de 767 veh/día, o sea que con aproximadamente un 70 % de los datos
obtenemos un entorno de ± 13,2 % el valor real.
53
La distribución normal , S. Pertegas Días, S. Pita Fernández, Fisterra, España 2001.
136
Fig. 4.11. Red de Accesos a Córdoba
Para esta vía obtenemos la serie de transito diarios completa para el año 2001, la cual
observamos junto con su línea de tendencia negativa en la Figura 4.12.
12000
10000
8000
tránsito diario
6000
4000
2000
0
0 100 200 300
día del año
Fig. 4.12. Gráfico día del año vs tránsito diario medido, en segundo caso de validación
137
Curtosis tipificada = 39,5669
Valores con los que podemos construir el gráfico de la Figura 4.13.
Para este tramo de vía contamos con los factores de corrección denunciados en un
trabajo técnico54 sobre el propio punto en estudio (en realidad en el trabajo estos
valores vienen expresados en porcentuales, los que hemos debido adaptar a la forma
de coeficientes), los cuales son adoptados, aunque esto juegue como una ventaja
comparativa en la aplicación de la metodología ya que no se trata de series sobre
puntos cercanos que hubieran implicado la subjetividad de decidir sobre su empleo o
no. Cabe aclarar que estos factores no consideran los descuentos por incrementos del
tránsito, sino que están generados mediante los conceptos clásicos ya enunciados en
este documento. Por tal razón su aplicación debe efectuarse en forma directa con los
tránsitos diarios medidos, sin que sean necesarias consideraciones adicionales.
Los factores obtenidos del trabajo son los que se observan en la Tabla 4.5.
138
Con estos coeficientes calculamos día a día los TMDA que se observan en la Figura
4.14.
10000
9000
8000
7000
TMDA calculado 6000
5000
4000
3000
2000
1000
0
0 100 200 300
día del año
54
Caracterización de errores de muestreo en censos de volumen y composición , M. Herz, J.
Galárraga, M. Maldonado, XIV Congreso Argentino de Vialidad y Tránsito, Argentina 2005.
139
3500 5500 7500 9500 11500
TMDA
Fig. 4.15. Gráfico de caja y bigotes de TMDA por metodología
clásica, en segundo caso de validación
En cuanto a la tasa de crecimiento del tránsito, contamos con el dato de que en el año
2000 el parque automotor registrado en la ciudad de Córdoba asciende a 367.245
veh, mientras que en el año 2001 esta cifra llega a 376.743 veh, es decir que se
registra un incremento en el parque del 2,6 %, a lo que corresponde de acuerdo al
algoritmo obtenido una tasa de crecimiento del tránsito del 3,7 %, lo cual en cierta
forma confirma la tendencia negativa de los tránsitos diarios medidos (Figura 4.12).
Mediante los datos enunciados, obtenemos los TMDA que se observan en la Figura
4.16.
140
20000
18000
16000
14000
TMDA calculado
12000
10000
8000
6000
4000
2000
0
0 100 200 300
día del año
0 3 6 9 12 15
TMDA (X 1000)
tmda
Fig. 4.17. Gráfico de caja y bigotes de TMDA por la metodología
desarrollada, en segundo caso de validación
141
4.1.2.3. Evaluación de resultados
142
Fig. 4.18. Red de Accesos a Córdoba
Para esta vía obtenemos la serie de transito diarios completa para el año 2001, que se
observa en la Figura 4.19, en donde también se ha incluido la línea de tendencia.
50000
45000
40000
tránsito diario medido
35000
30000
25000
20000
15000
10000
5000
0
0 100 200 300
día del año
Fig. 4.19. Gráfico día del año vs tránsito diario medido, en tercer caso de validación
143
Asimetría tipificada = 10,0659
Curtosis tipificada = 4,79866
Valores con los que podemos construir el gráfico de la Figura 4.20.
17 27 37 47 57
TD (X 1000)
td
Fig. 4.20. Gráfico de caja y bigotes para los tránsitos medidos en tercer caso de validación
Nuevamente, para este tramo de vía contamos sólo con los factores de corrección
denunciados en el trabajo técnico ya citado55 sobre el propio punto en estudio, y
expresados en valores porcentuales, los que hemos debido adaptar a la forma de
coeficientes. Adoptamos estos valores, aunque no se trate de series sobre puntos
cercanos que hubieran implicado la subjetividad de decidir sobre su empleo o no.
Aclaramos de vuelta que estos factores no consideran los descuentos por incrementos
del tránsito, sino que están generados mediante los conceptos clásicos ya enunciados
en este documento. Por tal razón, su aplicación debe efectuarse en forma directa con
los tránsitos diarios medidos, sin que sean necesarias consideraciones adicionales.
Los factores obtenidos del trabajo son los que se observan en la Tabla 4.8.
55
Caracterización de errores de muestreo en censos de volumen y composición , M. Herz, J.
Galárraga, M. Maldonado, XIV Congreso Argentino de Vialidad y Tránsito, Argentina 2005.
144
Tabla 4.8. Coeficientes para la metodología clásica, en tercer caso de validación
Con estos coeficientes calculamos día a día los TMDA que se observan en la Figura
4.21.
70000
60000
50000
TMDA calculado
40000
30000
20000
10000
0
0 100 200 300
día del año
145
Con la que elaboramos el gráfico de la Figura 4.22.
0 2 4 6 8
TMDA (X 10000)
tmda
Fig. 4.22. Gráfico de caja y bigotes de TMDA por metodología
clásica, en tercer caso de validación
146
50000
45000
40000
35000
TMDA calculado
30000
25000
20000
15000
10000
5000
0
0 100 200 300
día de la semana
14 24 34 44 54
TMDA (X 1000)
tmda
Fig. 4.24. Gráfico de caja y bigotes de TMDA por metodología
desarrollada, en tercer caso de validación
147
4.1.3.3. Evaluación de resultados
148
Fig. 4.25. Autopista Buenos Aires La Plata
Fig. 4.26. Ubicación del tramo urbano en análisis, en cuarto caso de validación
Para esta vía contamos con datos de tránsito diario suministrado por un profesional
particular que efectuó estudios sobre la vía durante una semana completa en el mes
de octubre de 1999, los que se observan en la Figura 4.27.
80000
70000
60000
50000
40000
30000
20000
10000
0
D L Ma Mi J V S
DÍA
149
Además hemos recabado la información denunciada por la empresa COVIARES
S.A., concesionaria de esta vía, de que en el tramo en estudio el TMDAreal registrado
durante 1999 asciende a 59045 veh/día, presentando un incremento del tránsito del
2,1 % en el ciclo.
Simultáneamente se cuenta con los factores de corrección obtenidos en 1998, ciclo
inmediatamente anterior al analizado, sobre la misma vía pero en la localidad de
Hudson, punto ubicado a pocos kilómetros del sector en estudio. Estos factores se
observan en la Tabla 4.11.
150
Asimetría tipificada = 0,0523682
Curtosis tipificada = 0,155275
Con la cual se puede construir el gráfico de distribución de la Figura 4.28.
47 52 57 62 67 72 77
TMDA (X 1000)
TD
Fig. 4.28. Gráfico de caja y bigotes de TMDA directo, en cuarto caso de validación
70000
60000
TMDAcalculado
50000
40000
30000
20000
10000
0
0 1 2 3 4 5 6 7 8
datos
151
De los cuales puede obtenerse la siguiente estadística:
Frecuencia = 7
Media = 59154,9
Varianza = 362,476
Desviación típica = 19,0388
Mínimo = 59125,0
Máximo = 59180,0
Rango = 55,0
Asimetría tipificada = -0,485968
Curtosis tipificada = -0,355497
Que nos permite construir el gráfico de la Figura 4.30.
152
Tabla 4.12. Coeficientes para metodología desarrollada, en cuarto caso de validación
Nos resta ahora calcular el incremento del tránsito producido durante el ciclo, pero
como sólo contamos con registros de los vehículos en el partido de Avellaneda para
el año 1999, sin obtenerse datos para 1998, no podemos emplear el algoritmo
desarrollado para este término. Por tal razón, y según lo recomienda nuestra
metodología, debemos obtener el incremento del tránsito de una fuente externa. En
forma análoga a la que empleamos con la metodología clásica consideramos que este
valor asciende al 2,1 %.
Al aplicar la metodología obtenemos los resultados que se observan en la Figura
4.31.
70000
60000
TMDAcalculado
50000
40000
30000
20000
10000
0
0 2 4 6 8
datos
153
Mínimo = 50179,0
Máximo = 62600,0
Rango = 12421,0
Asimetría tipificada = -0,578556
Curtosis tipificada = 0,307131
La cual nos permite confeccionar el gráfico de la Figura 4.32.
154
La obtención directa del TMDA por el promedio de los valores medidos sobre
la vía, y sin considerar estacionalidades e incrementos de tránsito, difiere sólo
un 1,6 % del valor real, con una dispersión que implica que aproximadamente
el 70 % de los datos se encuentra a ±14,1 % de la media.
La obtención del TMDA por el método clásico arroja valores que difieren sólo
un 0,2 % del valor real, con una dispersión que implica que aproximadamente
el 70 % de los datos se encuentra a ±0,03 % de la media.
La obtención del TMDA por el modelo desarrollado, difiere sólo un 3,4 % del
valor real, con una dispersión que implica que aproximadamente el 70 % de
los datos se encuentra a ±7,0 % de la media.
De todo esto podemos concluir que, en este caso en particular, el calcular el TMDA
directamente con la media de los valores medidos sobre la vía puede darnos
resultados ajustados, pero con cierta dispersión, aunque es de esperarse que en meses
con tránsitos más alejados de la media los resultados obtenidos posean mucho menor
justeza y confiabilidad. Para el caso de empleo de la metodología clásica se obtienen
resultados muy buenos, ratificando la elección de la serie empleada, pero sin dejarse
de lado la necesidad de recopilación de antecedentes y de la interpretación de la
validez de estos por parte de un profesional relacionado con la temática. Finalmente,
para el caso de empleo del modelo desarrollado observamos que, si bien los
resultados no llegan al nivel de aproximación de la metodología clásica, estos se
acercan mucho a los valores reales, con una dispersión admisible y nuevamente sin la
necesidad de recolectar series históricas de puntos cercanos, aunque cabe recordar
que en esta oportunidad no pudo emplearse el algoritmo para obtención de la tasa de
crecimiento del tránsito.
155
Seguramente la forma alternativa más simple de obtención de los coeficientes es la
del cálculo de cada uno de ellos como media de los coeficientes relevados.
A continuación analizamos los resultados que se obtienen mediante esta metodología
y los comparamos con los obtenidos por regresión, incluyendo algunas observaciones
adicionales que nos parecen de interés.
156
Coeficientes mensuales de vías de uso comercial, en ambiente urbano y con peaje
Pasemos a la determinación de los valores medios en cada uno de los casos de cada
uno de los coeficientes, estableciendo simultáneamente sus intervalos de confianza
del 95 %. Para esto último debemos emplear la fórmula:
S
X 1,96 (4.1)
n
Donde:
X = media aritmética
S = desvío estándar
n = número de muestras
Los coeficientes diarios que obtenemos como media y los valores para un intervalo
de confianza del 95 % se resumen en la Tabla 4.14.
Tabla 4.14. Coeficientes diarios e intervalos de confianza obtenidos por valores medios
157
Y su gráfica de distribución es la que se observa en la Figura 4.33.
Este mismo análisis extendido a los coeficientes diarios obtenidos por regresión nos
lleva a la Tabla 4.15.
Con la correspondiente estadística para los valores del intervalo de confianza del 95
%:
Frecuencia = 21
Media = 0,0354286
Varianza = 0,000184657
Desviación típica = 0,0135889
Mínimo = 0,021
Máximo = 0,057
Rango = 0,036
Asimetría tipificada = 1,10476
Curtosis tipificada = -1,23832
158
Estadística que nos lleva al gráfico de la Figura 4.34.
21 31 41 51 61
+/- (X 0,001)
+/-
Fig. 4.34. Gráfico de caja y bigotes para los intervalos de confianza
de los coeficientes diarios por regresión
Como podemos observar, aunque para algunos puntos presenta mejores valores una
metodología y para el resto la otra, puede deducirse en forma general que para los
coeficientes obtenidos por cálculo de las medias tenemos un valor promedio para el
intervalo de confianza del 95 % de ±0,057 y un desvío estándar de 0,034. Por su
parte, los valores para los coeficientes obtenidos por regresión presentan un
promedio de ±0,035 y un desvío estándar de 0,013. Resulta claro entonces que, para
la muestra de datos considerada, es más efectiva la obtención de los coeficientes por
regresión matemática que por cálculo de los valores medios, recordando que en este
caso pudieron descartarse puntos por su residuo y en el otro no.
Los coeficientes mensuales obtenidos como media y los valores para un intervalo de
confianza del 95 % correspondientes para la muestra analizada se resumen en la
Tabla 4.16.
159
Tabla 4.16. Coeficientes mensuales e intervalos de confianza obtenidos por valores medios
Con la siguiente estadística para los valores para un intervalo de confianza del 95 %:
Frecuencia = 84
Media = 0,041881
Varianza = 0,000926106
Desviación típica = 0,030432
Mínimo = 0,012
Máximo = 0,18
Rango = 0,168
Asimetría tipificada = 8,94198
Curtosis tipificada = 14,1965
La que nos permite confeccionar el gráfico de distribución de la Figura 4.35.
160
Por su parte, para un intervalo de confianza del 95 % en los coeficientes mensuales
obtenidos mediante los modelos de regresión desarrollados, tenemos los valores de la
Tabla 4.17.
161
0 0,01 0,02 0,03 0,04 0,05
+/-
Fig. 4.36. Gráfico de caja y bigotes para los intervalos de confianza
de los coeficientes mensuales por regresión
Nuevamente podemos observar que aunque para algunos puntos presenta mejores
valores una metodología y para el resto la otra, puede asegurarse en forma general
que los coeficientes obtenidos por cálculo de las medias conllevan un valor promedio
para el intervalo de confianza del 95 % de ±0,042 y un desvío estándar de 0,030. Por
su parte, los valores para los coeficientes obtenidos por regresión presentan un
promedio de ±0,018 y un desvío estándar de 0,008. Resulta claro entonces que, para
la muestra de datos considerada, resulta más efectiva la obtención de los coeficientes
por regresión matemática, recordando que para estos la realización del estudio
permitió el descarte de algunos datos atípicos.
Todo lo expuesto nos lleva a considerar que, si bien no es posible realizar una
comparación directa entre ambas metodologías de obtención de los coeficientes, por
no haberse considerado la eliminación de los datos outliers en el cálculo de valores
medios, cuando se comparan sus intervalos de confianza al 95 %, para los datos con
los cuales son obtenidos en cada caso, el modelo de regresión matemática resulta
más adecuado que el de cálculo por las medias. Por lo tanto es razonable pensar que
mediante la técnica de regresión pueden obtenerse coeficientes de corrección al
menos tan confiables como cuando se obtienen por valores medios.
162
Capítulo 5 Conclusiones y recomendaciones
5.1. Conclusiones
163
Las series de tránsito existentes en el área en estudio son abundantes, pero se
encuentran expresadas en forma muy variada, lo que hace necesario su
adaptación para la aplicación de técnicas comparativas.
Los datos socioeconómicos también son abundantes, pero para el nivel de
desagregación establecido en el estudio se reduce sustancialmente la
disponibilidad de datos, resultando acotadas las variables empleables.
La consulta a instituciones y profesionales particulares, para ambas tipologías
de datos, permite generar una base de datos voluminosa para el análisis de la
región conformada por las provincias de Buenos Aires, Córdoba, Santa Fe,
Entre Ríos y La Pampa, y para el periodo de estudio que va desde 1993 a
2003.
164
de peaje, salvo en el caso de las vías turísticas rurales sin peajes, para las
cuales los modelos generados no tienen validez, por haberse carecido de
datos sobre éstas en el desarrollo de los mismos. Por esto, en caso de
analizarse vías de esta tipología deberán emplearse metodologías alternativas
a la desarrollada.
Para las variaciones mensuales resulta superflua la consideración de la
clasificación del tránsito, ya que ésta se ve explicada por el uso de la vía y si
ésta se encuentra en ambiente rural o urbano.
165
Todo lo expuesto lleva a la conclusión final de que si la metodología desarrollada se
aplica en forma coherente, en vías ubicadas dentro del área en estudio, para los casos
en los cuales los modelos tienen validez, los resultados de TMDA obtenidos poseen
un buen nivel de confiabilidad.
5.2. Recomendaciones
166
Anexo A
(a.1)
y, por tanto, la función de densidad conjunta de la muestra es,
(a.2)
n
Una vez tomada la muestra y, por tanto, que se conocen los valores de i=1 ,
se define la función de verosimilitud asociada a la muestra como sigue
(a.3)
2
esta función (con variables 0, 1 y ) mide la verosimilitud de los posibles valores
de estas variables en base a la muestra recogida.
2
El método de máxima verosimilitud se basa en calcular los valores de 0, 1 y que
maximizan la función y, por tanto, hacen máxima la probabilidad de ocurrencia de la
muestra obtenida. Por ser la función de verosimilitud una función creciente, el
problema es más sencillo si se toman logaritmos y se maximiza la función resultante,
denominada función soporte,
(a.4)
Maximizando la anterior se obtienen los siguientes estimadores máximo verosímiles,
167
(a.5)
donde se ha denotado e a las medias muestrales de X e Y, respectivamente; sx2 es
la varianza muestral de X y sXY es la covarianza muestral entre X e Y. Estos valores
se calculan de la siguiente forma:
(a.6)
- Método de mínimos cuadrados.
A partir de los estimadores: 0 y 1, se pueden calcular las predicciones para las
observaciones muestrales, dadas por,
(a.7)
o, en forma matricial,
(a.8)
t
donde = . Ahora se definen los residuos como
ei= yi - i, i = 1,2,...,n,
Residuo = Valor observado Valor previsto
en forma matricial,
(a.9)
Los estimadores por mínimos cuadrados se obtienen minimizando la suma de los
cuadrados de los residuos, o sea minimizando la siguiente función,
(a.10)
derivando e igualando a cero se obtienen las siguientes ecuaciones, denominadas
ecuaciones canónicas,
168
(a.11)
De donde se deducen los siguientes estimadores mínimo cuadráticos de los
parámetros de la recta de regresión
(a.12)
Se observa que los estimadores por máxima verosimilitud y los estimadores mínimo
cuadráticos de 0 y 1 son iguales. Esto es debido a la hipótesis de normalidad,
asegurar que 0 = 0,MV = 0,mc y 1 = 1,MV = 1,mc.
169
Fig. a.2. Nube de puntos para la cual el ajuste lineal no resulta adecuado
170
En la Figura a.5 existen puntos atípicos que probablemente influyan en la
estimación de la recta ajustada.
En la Figura a.6 existe una variable regresora binaria que se debe de incluir
en el modelo de regresión.
171
Fig. a.7. Modelo Y = exp
172
En la Figura a.10 se observa el modelo Y = 0X 1
-
En la Figura a.11 se observa el modelo Y = 0X 1
-
Fig. a.11. Modelo Y = 0X 1
173
a.4. Reseña Teórica 4
174
falta de normalidad es debida a una fuerte asimetría de la distribución que, en
muchos casos, va acompañada de otros problemas como falta de linealidad o
heterocedasticidad. Entonces lo recomendable es transformar la variable respuesta
que normalmente arregla ambos problemas. La familia de transformaciones de Box-
Cox es la que normalmente se utiliza.
- La hipótesis de homocedasticidad: Implica que Var( i)= 2=cte, se detecta
fácilmente en el gráfico de residuos (eij) frente a las predicciones ( i) o,
equivalentemente, en el gráfico de los residuos (eij) frente a la variable regresora (xi).
Un modelo bastante frecuente de heterocedasticidad es el siguiente
(a.13)
con error i =g i, la varianza del error es
(a.14)
si g no es constante, el modelo es heterocedástico y el caso más frecuente es el
siguiente
(a.15)
En este caso se puede transformar el modelo para obtener un modelo homocedástico.
Si v=1, la desviación típica de los errores crece linealmente con la variable regresora,
la transformación adecuada es multiplicar todo el modelo por 1/X, obteniendo
(a.16)
Este modelo puede escribirse como un modelo lineal simple homocedástico,
(a.17)
donde se denota i=Yixi , 0= 1, 1= 0, i=1-xi y errores i=k i con varianza
2 2
Var =k =cte.
En algunos casos transformando solamente la variable respuesta se consigue
homocedasticidad y se resuelven otros posibles problemas como falta de simetría y
de normalidad. Nuevamente, la familia de transformaciones de Box-Cox es útil para
este propósito y la sencilla transformación =0 (tomar logaritmos en la variable
respuesta) es suficiente para obtener homocedasticidad.
Una alternativa para estimar el parámetro que se puede utilizar en la
transformación de Box-Cox es la siguiente:
175
Ordenar las predicciones de menor a mayor ( ).
Hacer grupos (normalmente de tamaño entre 5 y 11) de los respectivos
residuos manteniendo ese orden.
Calcular en cada grupo la media de las predicciones y la desviación
típica de los residuos con k = 1,2,...,m, donde m es el número de grupos
utilizado.
Dibujar la gráfica de pares .
Ajustar a esta nube de puntos la curva sk = k. .
Si v=0, hay homocedasticidad y no es necesario hacer ninguna transformación.
Si v 0 se transforma la variable respuesta según la transformación de Box-Cox con
parámetro = 1-v.
176
segunda, se basa en aplicar métodos estadísticos diseñados para el estudio con
observaciones dependientes como son los métodos de series de tiempo y los modelos
de regresión dinámica.
La dependencia entre las observaciones surge la mayoría de las veces porque los
datos son recogidos a lo largo del tiempo, y los gráficos y contrastes expuestos son
válidos para detectarla.
Gráficos para detectar dependencia son: el gráfico de los residuos frente al
índice (tiempo), (t, et), el gráfico de los residuos et+1 frente a et y el
correlograma.
Contrastes para detectar dependencias son: los contrastes basados en rachas,
contrastes sobre las autocorrelaciones, el contraste de Ljung-Box.
Dentro de los contrastes de autocorrelaciones para modelos de regresión, el contraste
de Durbin-Watson es muy utilizado.
177
(a.18)
Éste es un caso extremo de multicolinealidad y no se puede calcular ya que
rang = k. Pero si k es grande todos los términos de R son pequeños, ri,j = 0,
si i j, i,j = 1,...,k - 1 y ri,k 0, i = 1,...,k - 1.
Los elementos de la diagonal de la matriz R-1. Ya que se verifica que el i-
ésimo elemento de esta matriz es
(a.19)
por tanto si FIV es un valor muy alto, existe multicolinealidad causada por
la variable xi. Por ejemplo
si diag R-1 = FIV > 10 ri.resto2 > 0,9.
Como consecuencia se debería eliminar la variable explicativa xi del modelo
de regresión.
El inconveniente de este método es que la matriz R-1 se calcula con poca
precisión (depende mucho de la muestra) cuando la matriz R es casi singular
(su determinante es próximo a cero).
Calcular los autovalores de la matriz R. Si las variables regresoras son
ortogonales, todos los autovalores de R son iguales a uno, pero si hay
multicolinealidad, al menos uno de los autovalores de R es próximo a cero, la
variable regresora asociada a ese autovalor será la que es aproximadamente
una combinación lineal de las otras variables regresoras.
Para medir si un autovalor es próximo a cero o, equivalentemente, para medir
la multicolinealidad asociada a la matriz R se utiliza el índice de
condicionamiento de la matriz R que es una buena medida de la
singularidad de esta matriz. La definición del índice de condicionamiento es
la siguiente,
(a.20)
A modo indicativo se puede utilizar el siguiente criterio:
Si 10 < IC no hay multicolinealidad.
Si 10 < IC < 30, hay moderada multicolinealidad.
Si IC > 30, hay alta multicolinealidad.
178
a.6. Reseña Teórica 6
179
El gráfico de residuos frente a las predicciones , que permite
detectar diferentes problemas:
- Heterocedasticidad, la varianza no es constante y se deben de transformar
los datos (la variable Y ) o aplicar mínimos cuadrados ponderados.
- Error en el análisis, se ha realizado mal el ajuste y se verifica que los
residuos negativos se corresponden con los valores pequeños i y los
errores positivos se corresponden con los valores grandes de i, o al revés.
- El modelo es inadecuado por falta de linealidad y se deben de transformar
los datos o introducir nuevas variables que pueden ser cuadrados de las
existentes o productos de las mismas. O bien se deben introducir nuevas
variables explicativas.
- Existencia de observaciones atípicas o puntos extremos.
- Tener en cuenta que se debe utilizar el gráfico de residuos frente a las
predicciones en lugar del gráfico de residuos frente a las
observaciones porque las variables e están correladas, mientras
que las variables e no lo están.
El gráfico de residuos frente a una variable explicativa de la Figura
a.14, permite deducir si la existencia de heterocedasticidad o la falta de
linealidad en el modelo son debidas a la variable explicativa representada.
Gráficos de este tipo son los representados en las figuras. En la primera de
ellas se observa que la relación con la variable xj no es lineal y,
probablemente, un ajuste cuadrático sea adecuado, también se tendrían dudas
acerca de la homocedasticidad del modelo.
180
En la Figura a.15, se observa que el modelo es heterocedástico y la causa de
este problema puede ser la variable explicativa xj. Por ello, la solución se basa
en transformar el modelo teniendo en cuenta este hecho.
181
modelo de regresión. Esto se puede observar en el gráfico de residuos frente a
predicciones de la Figura a.17.
182
Tipo 1. Si se tienen k variables regresoras y se desea obtener
el gráfico parcial de residuos respecto a la variable xk, se procede de la
siguiente forma:
- Se calcula el modelo de regresión respecto a las restantes (k-1) variables
regresoras,
(a.21)
- Se calculan los residuos
(a.22)
que son la parte de Y no explicada por las variables x1,x2,...,xk-1.
- Por tanto, la gráfica de los residuos parciales ek* frente a la variable xk
permite valorar la importancia real de esta variable.
Tipo 2. Un gráfico muy parecido y más fácil de calcular se obtiene de la
siguiente forma. Calcular
*
k = + k k = + k k
= - (a.23)
*
Se obtiene un nuevo gráfico parcial representando los residuos parciales k
(a.24)
Se representa el gráfico de residuos de ek* frente a los residuos e ,k. Esto es, el
gráfico de los pares . Este gráfico da una idea de la relación entre la
variable Y y la variable xk una vez que se ha eliminado la influencia de las
otras variables regresoras.
183
El gráfico de residuos frente al índice (tiempo=i), proporciona
información acerca de la hipótesis de independencia de los residuos. En este
gráfico se pueden observar algunas características que indican falta de
independencia, tales como una correlación positiva o negativa, la existencia
de tendencias, saltos estructurales, rachas,....,etc.
En este gráfico también se puede observar si existe una relación lineal con el
índice y éste debe de incluirse en el modelo de regresión como variable
explicativa.
184
En relación con la utilización de los residuos para contrastar la normalidad, debe de
tenerse en cuenta que de la relación se sigue que
(a.26)
Por tanto, si i es pequeño, el término dominante en la relación anterior es el
sumatorio que por el Teorema Central del Límite es aproximadamente normal.
Entonces puede ocurrir que los ei sean aproximadamente normales aunque los i no
lo sean. En cualquier caso, si n es grande en relación con k+1 se pueden utilizar los
residuos estandarizados ri para contrastar la hipótesis de normalidad.
La falta de normalidad influye en el modelo en:
Los estimadores mínimo-cuadráticos no son eficientes (de mínima varianza).
Los intervalos de confianza de los parámetros del modelo y los contrastes de
significación son solamente aproximados y no exactos.
Causas que dan origen a la falta de normalidad son las siguientes:
Existen observaciones heterogéneas. En este caso se debe averiguar la causa
que origina estas observaciones: errores en la recogida de datos; el modelo
especificado no es correcto porque se han omitido variables regresoras (por
ejemplo, no se ha tenido en cuenta una variable de clasificación cuando las
observaciones proceden de diferentes poblaciones).
Se debe hacer un estudio de influencia de las observaciones atípicas para
averiguar el grado de influencia en la estimación del modelo. Si esta
influencia es muy grande puede ser conveniente recurrir a procedimientos de
estimación robusta en el cálculo del modelo.
Existe asimetría en la distribución. En este caso suele ser conveniente
transformar la variable respuesta (transformación de Box-Cox). Este
problema suele estar relacionado con otros problemas como falta de
linealidad o heterocedasticidad, la solución de transformar las observaciones
pueden resolverlos conjuntamente.
Si la hipótesis de normalidad no se verifica y las soluciones anteriores no son
válidas se pueden obtener intervalos de confianza de los parámetros por
métodos diferentes de los expuestos en los que se tiene en cuenta la
distribución específica de los errores.
185
- Hipótesis de homocedasticidad. Una hipótesis del modelo de regresión es la
homocedasticidad y todo lo comentado sobre este problema en el modelo de
regresión lineal simple sigue siendo válido en el modelo de regresión lineal múltiple.
La falta de homocedasticidad influye en el modelo de regresión lineal, los
estimadores mínimo-cuadráticos siguen siendo centrados pero no son eficientes y las
fórmulas de las varianzas de los estimadores de los parámetros no son correctas. Por
tanto no pueden aplicarse los contrastes de significación.
La heterocedasticidad se detecta en los gráficos de residuos:
De forma general, en el gráfico de residuos frente a las predicciones .
En el gráfico de residuos frente a una variable explicativa si se
sospecha que la heterocedasticidad es debida a la variable explicativa xj.
Si los gráficos anteriores son dudosos se pueden hacer grupos de los residuos
ordenados de menor a mayor según las predicciones y en cada grupo
calcular la media de las predicciones y la desviación típica de los
residuos . Si hay homocedasticidad, la nube de puntos se ajusta a
una recta horizontal, en caso contrario, es necesario transformar los datos.
Existen contrastes específicos para contrastar la homocedasticidad.
Para resolver este problema las alternativas que hay son las siguientes:
Transformar los datos. En muchos casos es suficiente con tomar logaritmos
en la variable respuesta (o de forma más compleja, aplicar la transformación
de Box-Cox). Por otra parte, el problema puede estar ligado a otros
problemas como falta de normalidad, falta de linealidad que, normalmente,
también se resuelven al hacer la transformación.
Si la heterocedasticidad es debida a una variable regresora (por ejemplo xk) y
la varianza aumenta linealmente con la variable xk, Var = kxik. Entonces se
obtiene homocedasticidad haciendo la siguiente transformación del modelo
de regresión
(a.27)
Si la que varía linealmente con xk es la desviación típica, la transformación a
realizar sería la siguiente
(a.28)
186
Las transformaciones anteriores son casos particulares del método de
mínimos cuadrados ponderados, método muy utilizado para obtener
estimadores de los parámetros en situaciones de heterocedasticidad.
Las transformaciones anteriores son casos particulares del
denominado método de mínimos cuadrados ponderados. El método se basa
en calcular los estimadores de los parámetros del modelo como los valores
que minimizan la siguiente función de los residuos
(a.29)
donde (ei) es una función peso que toma valores altos si la varianza
de ei es pequeña y toma valores bajos si la varianza de ei es grande.
El método de mínimos cuadrados ponderados es un caso particular
del método de mínimos cuadrados generalizados.
- Hipótesis de independencia. La independencia de los errores es una hipótesis básica
en el estudio de un modelo de regresión lineal.
La falta de cumplimiento de la hipótesis de independencia tiene efectos graves sobre
los resultados del estudio. Influye en:
Los estimadores son centrados pero ineficientes (no son de varianza
mínima).
2 2
El estimador R normalmente subestima el parámetro , lo que hace que los
contrastes de significación (contrastes individuales de la t) no sean válidos y
tienden a detectar relaciones inexistentes, denominadas relaciones espurias,
que son relaciones falsas entre variables independientes que siguen una
evolución análoga en el tiempo y tienen un R2 alto.
Las predicciones son ineficientes.
La falta de independencia se suele dar situaciones en que las observaciones
son recogidas secuencialmente en el tiempo. Esto ocurre en el estudio de
muchas variables económicas, sociales y demográficas. En este caso la
variable tiempo puede ser una variable regresora.
Se detecta la falta de independencia en:
Los siguientes gráficos: el gráfico de residuos (et) frente al índice (o tiempo),
(t); el gráfico de (et) frente a (et-1); el gráfico de la función de autocorrelación
simple de los residuos (fas).
187
Los siguientes contrastes de independencia: el contraste de Durbin-Watson
sobre el primer coeficiente de correlación; el contraste de Ljung-Box sobre
las autocorrelaciones que se consideren significativas.
Si existe dependencia entre las observaciones la metodología descrita para estudiar
los modelos de regresión lineal general por mínimos cuadrados ordinarios no es
válida y, en la mayoría de las situaciones, deben utilizarse técnicas de series de
tiempo y regresión dinámica.
En algunas situaciones se pueden estimar los parámetros del modelo de regresión por
el método de mínimos cuadrados generalizados.
...Es importante realizar un análisis de influencia para conocer las observaciones
muestrales que tienen una mayor influencia en el modelo y las observaciones atípicas
56
o heterogéneas que no se ajustan al modelo...
(a.30)
donde hti son unos pesos que en el modelo de regresión lineal simple (k=1) tienen la
forma
(a.31)
La ecuación en forma matricial es
(a.32)
-1 t
siendo H = X X la matriz de proyección ortogonal en el espacio generado por
n
las variables regresoras. H = t,i = 1 es una matriz cuadrada y simétrica.
De esto se deduce que la predicción de una observación t es una combinación lineal
188
El valor de yi.
El valor de hti.
Por tanto, el valor hti mide, al menos parcialmente, la influencia a priori de la
observación i-ésima en el cálculo de la predicción t. Los elementos de la diagonal de
la matriz H, hii, i=1,...,n, miden la influencia de la observación i-ésima en el cálculo
de i. Su expresión viene dada por
(a.33)
.t
donde i es la fila i-ésima de la matriz X (datos de la observación i-ésima).
En particular, en el modelo de regresión lineal simple (k=1) se verifica
(a.34)
En resumen, la influencia a priori de las observaciones viene dada por los elementos
.
de la diagonal de H, hii, i=1,2,...,n, el valor hii mide la distancia del punto i al
centro , y se le denomina valor de influencia a priori (en inglés leverage ).
Observaciones con valor de influencia alto son observaciones que a priori influyen
en el cálculo del modelo y observaciones con valor de influencia bajo a priori
influyen poco.
Para saber si un hii es un valor grande o no se debe de tener en cuenta que si no hay
filas repetidas en la matriz de diseño X se verifica que:
(a.35)
Por tanto E = ( )/n. Y se puede considerar que una observación tiene un
valor de influencia grande si se verifica que
(a.36)
Otro criterio se basa en calcular la varianza de los hii
(a.37)
y considerar que una observación tiene un valor de influencia grande si
(a.38)
56
Modelos Estadísticos aplicados , J. Vilar Fernández, Universidade da Coruña, España 2003
189
El valor de influencia de las observaciones muestrales es un valor comprendido entre
1/n y 1, siendo los casos extremos los siguientes:
.
i = , entonces hii = 1/n.
Considérese la muestra de un
modelo de regresión lineal simple, entonces hii = 1 /(n - 1), i = 1,...,n - 1,
puntos en los que xi = x*, y hnn = 1, el mayor valor que puede tomar. En este
caso la recta de regresión pasa por los puntos y , siendo
n-1
= 1/ (n - 1) i=1 yi.
Unas pocas observaciones con valor de influencia a priori grande pueden producir
multicolinealidad entre dos o más variables regresoras. Esto puede observarse
claramente en la Figura a.19, donde se representa el gráfico de dos variables
regresoras x1 y x2 en el que la mayoría de las observaciones están agrupadas en una
nube pero hay dos observaciones con un alto valor de influencia a priori, estas dos
observaciones producen una alta correlación (R=0,632) entre las dos variables
regresoras. Si se eliminan las dos observaciones influyentes de la muestra la
correlación es casi nula (R=0,079), las variables son incorreladas.
190
(a.39)
siendo S la matriz de varianzas-covarianzas del vector de variables .
La distancia de Mahalanobis es una distancia estadística que generaliza la distancia
euclídea entre dos vectores en la que se tiene en cuenta la dispersión de las variables
y su dependencia. Un valor alto de la distancia de Mahalanobis indica que el punto se
aleja del centro de la nube y, por tanto, es una posible observación influyente a
priori.
(a.40)
donde el subíndice (i) indica que no se utiliza la observación i-ésima.
Se define el residuo eliminado e(i) como el residuo obtenido utilizando la predicción
(i)
calculada a partir de la muestra excepto la i-ésima observación, i . Esto es,
(a.41)
Teniendo en cuenta la siguiente relación entre los residuos ordinarios y los
eliminados
(a.42)
se puede deducir un nuevo criterio para distinguir a las observaciones influyentes a
priori: si la observación i-ésima influye mucho (hii es grande) los residuos ordinarios
y los residuos eliminados son distintos, por el contrario, si el valor de influencia es
pequeño (hii 0) los dos residuos (ordinario y eliminado) son parecidos.
191
H1 : El modelo ajustado con toda la muestra es distinto al modelo ajustado
con la muestra excepto el dato .
Si la observación es influyente en el modelo de regresión se observa en
la estimación de los parámetros del modelo de regresión :
el vector de predicción de las observaciones:
la predicción de la respuesta en el punto i-ésimo: i
(a.44)
Las tres distancias llevan al mismo estadístico, el D-estadístico de Cook, definido por
D = = =
= = = , (a.45)
siendo ri el i-ésimo residuo estandarizado y k el número de variables regresoras. Bajo
la hipótesis nula, la observación i-ésima no es una observación influyente a
posteriori, se verifica que
(a.46)
La familia de estadísticos DFFITS relacionados con el D-estadístico de Cook se
definen como
(a.47)
donde ti es el residuo estudentizado. Belsey, Kuh y Welsch (1980) proponen utilizar
como cota superior de este estadístico el valor 2 (k/n)1/2. Esto es, la observación
es influyente a posteriori si
(a.48)
192
a.8 Reseña teórica 8
193
región de aceptación de que la variable regresora no es significativa (no entra
en el modelo).
Se calculan los coeficientes de correlación lineal simple r , i = 1,...,k.
Supongamos que el mayor de ellos corresponde a la variable xk, que será la
candidata a entrar en el modelo.
Paso 2. Se obtiene la regresión de Y sobre xk y se calcula el estadístico k para
el coeficiente k
(a.49)
(Es equivalente hacerlo con los contrastes individuales de la F, que es lo que
hacen la mayoría de los programas estadísticos, entonces el criterio de salida
viene dado por un número FOUT y la región de aceptación es , y el
criterio de entrada sería un número FIN.)
Paso 3. El valor k se compara con el valor tIN elegido, de forma que:
194
- si < tOUT, se acepta que la variable xk no es significativa y se elimina del
modelo. Se vuelve al Paso 4, con xk-1 como variable regresora. Continúa el
proceso.
- si > tOUT, entonces la variable xk es significativa. Se vuelve al Paso 4, con
xk-1 y xk como variables regresoras. Continúa el proceso.
Muchos paquetes estadísticos tienen programado este algoritmo utilizando el
contraste de la F en lugar del contraste de la t y, generalmente, utilizan que FIN =
FOUT, esto es una elección del usuario pero no una condición para su utilización. Lo
que si es necesario es que FIN > FOUT, para evitar que una variable que entra en una
etapa salga en la siguiente.
El algoritmo paso a paso tiene las ventajas del algoritmo de introducción progresiva
pero lo mejora al no mantener fijas en el modelo las variables que ya entraron en una
etapa, evitando de esta forma problemas de multicolinealidad. En la práctica, es un
algoritmo bastante utilizado que proporciona resultados razonables cuando se tiene
un número grande de variables regresoras.
En todo caso, la utilización de estos algoritmos de manera automática es peligroso y
una vez obtenido el modelo de regresión se debe chequear que se verifican las
hipótesis del modelo así como tener en mente el problema de regresión que se está
estudiando.
195
mejor subconjunto de un determinado número de variables regresoras según un
criterio de ajuste prefijado.
Para decidir entre dos o más subconjuntos de variables regresoras en el estudio de un
modelo de regresión múltiple es interesante disponer de medidas que midan la
bondad del ajuste del modelo construido. Se supone que el número de variables
explicativas que puede haber en el modelo es k, el número de observaciones es n y, si
se ajusta un modelo de regresión lineal con i variables, el número de parámetros del
modelo es i+1. Entonces se definen las siguientes medidas de bondad de ajuste:
Coeficiente de determinación, R2, definido como
(a.50)
Este criterio aumenta al ir introduciendo nuevas variables en el modelo. Sea
denota Rj2, j = 1,...,k, el máximo valor posible de R2 cuando en el modelo hay
j variables explicativas, se verifica Rj - 12 < Rj2, (Rj2 es monótona creciente) y
las diferencias Rj2 - Rj - 12 decrecen. En base a esto, un criterio sencillo sería
considerar un número pequeño y elegir el modelo con j más pequeño y tal
que Rk2 -Rj2 < (Rk2 es el coeficiente de determinación del modelo con las k
variables regresoras). Este criterio tiene el inconveniente de no tener en
cuenta el número de variables regresoras. Tiende a sobreajustar y utilizar
demasiadas variables regresoras.
2
Coeficiente de determinación corregido, , esta medida de bondad de ajuste
evita el problema de la medida anterior. Se define como
(a.51)
2
Por tanto, < R2, y el coeficiente 2
tiene en cuenta el número de variables
regresoras y no tiene porque crecer al introducir nuevas variables regresoras.
2 2
Se denota j al mayor valor de para el modelo de j variables, entonces un
buen criterio sería elegir el subconjunto de j variables que maximiza este
2
coeficiente, j .
2 2
Varianza residual, R . Se ha definido R como
(a.52)
196
donde scmR (Mean Square Error) es la media de los errores al cuadrado. Un
buen criterio de selección del subconjunto de variables es elegir el
subconjunto de j variables que minimiza el valor scmRj, siendo ésta la
varianza residual obtenida con el modelo de j variables.
Teniendo en cuenta que
(a.53)
se deduce que
(a.54)
por tanto, el criterio de minimizar la varianza residual es equivalente al
criterio de maximizar el coeficiente de determinación corregido.
El estadístico Cp de Mallows. Los criterios anteriores se basan en el scmR,
pero también es interesante tener en cuenta el sesgo en la selección del
modelo ya que si se omite una variable regresora importante los estimadores
de los coeficientes de regresión son sesgados y los criterios anteriores pueden
elegir un modelo que tenga sesgo grande aunque su scmR sea pequeño. Un
criterio que tenga en cuenta el sesgo ayudará a elegir el modelo
adecuadamente. Con este objetivo surge el estadístico Cp de Mallows
definido como,
(a.55)
donde p es el número de parámetros del modelo (en un modelo de regresión
2
lineal múltiple p = j + 1, con j el número de variables regresoras), R es la
2
varianza del modelo con todas las variables y R (p) es la varianza residual al
ajustar el modelo con j=p-1 variables regresoras.
Para interpretar este estadístico, se define el error cuadrático medio de
predicción (ECMP) para los puntos observados cuando se utiliza un modelo
con p parámetros como
n 2 n 2
ECMPp= i=1 = i=1
n
= i=1 Var + Sesgo2 , (a.56)
donde p,i es la predicción cuando se utiliza el modelo con p parámetros y mp,i
=E .
197
Siendo un buen criterio de selección del modelo el de elegir el modelo que
tenga el ECMPp mínimo. Este criterio es equivalente a minimizar el
estadístico Cp de Mallows.
Además puede probarse que en los modelos sin sesgo Cp = p. Por tanto,
aquellos subconjuntos de j variables regresoras que tengan un Cp p = j + 1,
son buenos . Normalmente se construye una gráfica de Cp para los
diferentes subconjuntos que se quieren analizar frente a p. Y se consideran
buenos los subconjuntos que tienen Cp pequeño y además están por debajo de
la diagonal Cp = p.
En la Figura a.20 se puede observar el Cp para dos subconjuntos de variables
regresoras y se observa que el subconjunto A tiene un sesgo mucho mayor
que el del subconjunto B, pero éste tiene menor Cp.
(a.57)
198
siendo In la matriz identidad de orden n. Si no se verifica la hipótesis de
homocedasticidad, o la de independencia, o ambas, entonces la matriz de varianzas-
covarianzas tiene la forma general
(a.58)
siendo una matriz simétrica, definida positiva de orden n × n. En este caso, se
puede calcular el estimador de por el método de mínimos cuadrados generalizados.
Este método se desarrolla en dos etapas: en una primera etapa se transforma el
modelo de regresión original
(a.59)
Para ello y por ser una matriz simétrica, definida positiva, existe una matriz
cuadrada P tal que
(a.60)
esta matriz no tiene porque ser única, pero si existe. Multiplicando por P la
ecuación de regresión se obtiene
(a.61)
*
Denominando = P , X* = PX y *
= P , se obtiene la ecuación de regresión
(a.62)
y los errores del modelo verifican
(a.63)
por tanto los errores son incorrelados y homocedásticos. Ahora se puede aplicar el
método de mínimos cuadrados ordinarios a estos datos transformados ( ) para
obtener el estimador
(a.64)
Por el Teorema de Gauss-Markov, este estimador G es el mejor estimador lineal
insesgado. En la práctica, la matriz P, aunque existe, es desconocida y es necesario
estimarla ( ) a partir de las observaciones, obteniendo el estimador
(a.65)
A continuación se exponen dos situaciones comunes en las que se puede aplicar este
método de estimación.
199
- Heterocedasticidad .Si las observaciones son independientes pero heterocedásticas
entonces la matriz de varianzas-covarianzas viene dada por
Y la matriz P
(a.67)
Esto equivale a trabajar con el modelo transformado
(a.68)
Sobre este modelo se aplica ahora el método de mínimos cuadrados ordinarios. En
particular, si se trabaja con el modelo de regresión lineal se obtiene el siguiente
estimador del coeficiente de regresión
(a.69)
Este estimador se denomina estimador por mínimos cuadrados ponderados y es un
caso particular del estimador por mínimos cuadrados generalizados. En la práctica,
200
2 2
para utilizar este estimador hay que calcular estimadores de los parámetros 1 ,..., n
(a.70)
y estimar la función g.
Hacer grupos en las observaciones (en el orden en que se han recogido)
normalmente del mismo tamaño k y suponer que en cada grupo la varianza es
constante. Entonces se estima la varianza en cada grupo a partir de las
observaciones del grupo. Una forma de conseguir esto es ajustar el modelo de
regresión por mínimos cuadrados ordinarios a las observaciones originales y
a partir de los residuos de este modelo obtener los estimadores de la varianza
en cada grupo.
- Observaciones dependientes. Si las observaciones son homocedásticas pero
dependientes entonces la matriz de varianzas-covarianzas es de la forma general
(a.71)
En la mayoría de las situaciones la estructura de dependencia de los errores puede
ajustarse a un modelo paramétrico. Un modelo sencillo y muy utilizado es el modelo
AR(1), (modelo autorregresivo de orden uno). En este caso se verifica que los errores
siguen la ecuación
(a.72)
siendo la autocorrelación de orden 1 del proceso t, por tanto, < 1, y at es una
sucesión de variables aleatorias independientes e igualmente distribuidas.
En este caso, la matriz de varianzas-covarianzas es
(a.73)
la matriz P de transformación es
201
-1
y la matriz es
(a.74)
-1
Nuevamente, en la práctica, es desconocido y se tiene que estimar. Por la forma
-1
de la matriz , es suficiente con estimar el parámetro y sustituir en la matriz. Para
estimar , puede utilizarse el siguiente procedimiento: ajustar a los datos el modelo
de regresión lineal por mínimos cuadrados ordinarios y calcular los residuos mínimo
cuadráticos
(a.75)
A partir de estos residuos se obtiene el siguiente estimador de ,
(a.76)
-1 -1
sustituyendo por en la matriz se obtiene la matriz estimada , a partir de la
cual se obtiene el estimador
(a.77)
Siguiendo este procedimiento se puede obtener el siguiente estimador iterativo:
Paso 1. Se utiliza el estimador F para obtener nuevos residuos ei'.
Paso 2. De estos residuos se obtiene un nuevo estimador .
'
Paso 3. Utilizando se calcula un nuevo estimador F.
202
En este problema también se pueden considerar otros estimadores del parámetro o
modelos de dependencia más complejos que dependen de un número mayor de
parámetros.
(a.78)
.
donde ( ) es una función de ponderación que se introduce para reducir (e incluso
eliminar) el efecto de los residuos altos. Por tanto se definen los pesos de forma
que tomen valores pequeños en los residuos ei grandes . Para aplicar esta definición
es necesario conocer los residuos ei. Este razonamiento conduce al siguiente
algoritmo iterativo análogo al descrito para el método de mínimos cuadrados
generalizados:
Etapa 1. Calcular un estimador inicial (por ejemplo, el estimador por mínimos
cuadrados ordinarios) = MCO de los parámetros del modelo, a partir del
cual se obtienen los residuos iniciales, ei
(a.79)
Etapa 2. Se define una función de ponderación razonable . Por ejemplo, la
función de Huber de la Figura a.21.
(a.80)
203
donde ri es el residuo estandarizado asociado a ei y C es una constante.
Si C toma valores pequeños (inferior a 1,5) entonces las observaciones con
residuos relativamente grandes influyen poco en la estimación del modelo.
Etapa 3. Se calcula el valor de que minimiza la función
n
= i=1 ei2. (a.81)
A este vector se le denomina (1) '.
En el modelo de regresión lineal simple, el estimador que se obtiene para el
coeficiente de regresión lineal es
(a.82)
Etapa 4. Con los nuevos estimadores se obtienen unos nuevos residuos
et y se continúa el proceso en la Etapa 2 hasta obtener la convergencia de
las estimaciones que según Huber (1981) se consigue de forma rápida en la
mayoría de las situaciones.
204
utilizar p=2. Es necesario hacer un análisis de los residuos para determinar si
el ajuste es adecuado y se satisfacen las hipótesis básicas.
Dado que las variables xi y xj (respectivamente xi y xj) son dependientes
pueden surgir problemas de multicolinealidad. Para disminuir los efectos de
este problema es conveniente trabajar con las variables centradas y, por tanto,
utilizar el siguiente modelo de regresión
(a.85)
Si en el gráfico de la nube de puntos se observa que hay indicios de
periodicidad (configuración cíclica) puede ser conveniente utilizar términos
trigonométricos y ajustar un modelo de la forma
(a.86)
donde p y son valores a determinar. Una ventaja de los términos
trigonométricos es que sin y cos son ortogonales si los xi están
equiespaciados.
El modelo polinómico con dos variables explicativas de grado dos tiene la
forma
(a.87)
donde además de los términos cuadráticos hay un término de interacción de
las dos variables explicativas . Este modelo se conoce con el nombre
de superficie respuesta y es muy utilizado en diseño de experimentos y
control de calidad industrial.
205
Anexo B
b.1. Ejemplo 1
206
Fig. b.2. Relación lineal entre variables pequeña
207
Fig. b.4. Ajuste razonable a una recta
En la Figura b.5 existe una fuerte dependencia lineal negativa entre las dos
variables y la correlación es muy alta (próxima a 1).
r = 0,924, R2 = 0,846, recta de regresión: y = -2,528 2,267x
Contraste de regresión: R = 105,193 F1,18 p-valor = 0,000. Se acepta la
existencia de una relación lineal.
b.2. Ejemplo 2
208
Fig. b.6. Nube con tres observaciones extremas (outliers).
Recta de regresión R2 R
Sin valores extremos (17 ptos.) y = 0,242 + 0,923x 0,945 0,972
Con A (18 ptos.) y = 1,534 + 0,672x 0,212 0,460
Con B (18 ptos.) y = -0,177 + 1,034x 0,986 0,993
Con C (18 ptos.) y = 3,876 0,048x 0,008 0,087
Tabla b.1. Recta de regresión con puntos extremos
209
Fig. b.8. Influencia del punto B.
210
que su influencia es muy grande, si se utiliza o no el punto C en el cálculo de
la recta de regresión el resultado cambia totalmente. Por otra parte, yC no se
separa mucho de su predicción cuando se utiliza la muestra con el punto
C y, probablemente, no sea un dato atípico.
b.3. Ejemplo 3
211
Caso 3. Al omitir la variable atributo en la Figura b.12, aparece una relación
lineal que no existe.
212
Bibliografía
213
Cevallos E. (2005), Estudios económicos de las obras viales que conforman
el programa norte grande, provincia de Tucumán , DVPT Estudio I.EE. 156-
8-1-(A), Argentina.
CIMOP (2003), Una visión estratégica del Transporte en la Argentina ,
Argentina.
Dirección de Señalización Luminosa (2002), Metodología para el cálculo
del Indice de Tránsito , GCBA, Argentina.
División Tránsito de la Dirección Nacional de Vialidad (2000), Tránsito
medio diario anual 98/99 , Argentina.
EMVI (2005), Regresión lineal , Universidad de Málaga, España.
Federal Highway Administration (1976), Guide for manual of instructions
for traffic surveys , EEUU.
Fernández Morales A., Lacomba Arias B. (2004), Estadística Básica
Aplicada , Ágora Universidad, España.
García R. (2001), Curso básico de Statgraphics Plus 5.0 , SLADI
Universidad Complutense de Madrid, España.
Girardotti L. (2003), Planeamiento del transporte , Fac. de Ing. UBA,
Argentina.
Graham-Rowe D. (2005), Smart traffic forecast offers seven-day
predictions , NewScientist, EEUU.
Hara J. (1998), Transportation system análisis and software application ,
University of Osaka Prefecture, Japón.
Hay W. (1998), Ingeniería de transporte , Limusa, México.
Herz M., Galárraga J., Maldonado M. (2005), Caracterización de errores de
muestreo en censos de volumen y composición , XIV Congreso Argentino de
Vialidad y Tránsito, Argentina.
Instituto Superior de Ingeniería de Transporte (1996), Censos y
proyecciones de tránsito de la red de accesos a Córdoba , Universidad
Nacional de Córdoba, Argentina.
Instituto Superior de Ingeniería de Transporte (1996), Red de Acceso a
Córdoba; Capacidad y Nivel de Servicio para el tránsito actual y su
predicción , Universidad Nacional de Córdoba, Argentina.
214
Khisty J. (1996), An introduction of transportation engineering , University
of British Columbia, Canada.
Leiva F. (2002), El túnel subfluvial Paraná-Santa Fe, 30 años al servicio del
tránsito , Ente Interprovincial Túnel Subfluvial, Argentina.
Lima Coimbra R. (2003), La Región Pampeana , UNCPBA, Argentina.
Mix Ingeniería (2000), Flujo vehicular en Bahía Blanca , Documento
Técnico, Argentina.
Molinero L. (2002), Construcción de modelos de regresión multivariantes ,
Alce Ingeniería, España.
Navin F. (1993), The science, engineering and practice of land transport ,
University of British Columbia, Canada.
OCCOVI (2004), Control de Gestión , Informe Técnico, Argentina.
Ortúzar, J. de D. (2000), Modelos de demanda de transporte , Universidad
Católica de Chile, Alfaomega, Chile.
Papacostas C. (1987), Fundamentals of transportation engineering ,
Prentice-Hall, EEUU.
Pertegas Días S., Pita Fernández S. (2001), La distribución normal ,
Fisterra, España.
Russel R., Taylor B. (2003), Operations management. Focusing on quality
and competitiveness , Prentice Hall, EEUU.
Sociedad Argentina de Ingeniería de Tránsito (1989), 2º Reunión de la
Ingeniería de Tránsito , Equitel S.A., Argentina.
Spiegel M. (1988), Estadística , Mc Graw Hill, EEUU.
Transportation Research Board (2000), Highway Capacity Manual 2000 ,
National Research Council, EEUU.
Vilar Fernández J. (2003), Modelos Estadísticos aplicados , Universidade da
Coruña, España.
Wahr C. (2003), Vialidad II , Universidad Técnica Federico Santa María,
Chile.
215