6.2. Evidencia Estadística 2

Descargar como pptx, pdf o txt
Descargar como pptx, pdf o txt
Está en la página 1de 31

6.

Probabilidad y estadística

6.2. Evidencia estadística


Estadística
• La evidencia científica suele presentarse de forma estadística.
• Estadística: Análisis y procesamiento de conjuntos de datos.

• La evidencia científica habitualmente consiste en grandes colecciones de datos acerca de un objeto de


estudio (por ejemplo, el conjunto de los resultados experimentales obtenidos en el curso de la investigación).
•  Para poder extraer conclusiones relevantes a partir de un conjunto de datos empíricos, es necesario
recurrir a métodos de análisis estadístico.

– Ejemplos:
• Un experimento de física subatómica en el CERN puede involucrar miles de observaciones, generando gran cantidad
de datos que deben ser procesados estadísticamente.

• Los estudios epidemiológicos estándar tienen muestras de cientos de individuos.

• Big data/data mining (conjuntos masivos de datos analizados estadísticamente con ayuda de ordenadores)
Estadística
• La evidencia científica suele presentarse de forma estadística.
• Estadística: Análisis y procesamiento de conjuntos de datos.

• La evidencia científica habitualmente consiste en grandes colecciones de datos acerca de un objeto de


estudio (por ejemplo, el conjunto de los resultados experimentales obtenidos en el curso de la investigación).
•  Para poder extraer conclusiones relevantes a partir de un conjunto de datos empíricos, es necesario
recurrir a métodos de análisis estadístico.

– Ejemplos:
• Un experimento de física subatómica en el CERN puede involucrar miles de observaciones, generando gran cantidad
de datos que deben ser procesados estadísticamente.

• Los estudios epidemiológicos estándar tienen muestras de cientos de individuos.

• Big data/data mining (conjuntos masivos de datos analizados estadísticamente con ayuda de ordenadores)
Estadística
• La evidencia científica suele presentarse de forma estadística.
• Estadística: Análisis y procesamiento de conjuntos de datos.

• La evidencia científica habitualmente consiste en grandes colecciones de datos acerca de un objeto de


estudio (por ejemplo, el conjunto de los resultados experimentales obtenidos en el curso de la investigación).
•  Para poder extraer conclusiones relevantes a partir de un conjunto de datos empíricos, es necesario
recurrir a métodos de análisis estadístico.

– Ejemplos:
• Un experimento de física subatómica en el CERN puede involucrar miles de observaciones, generando gran cantidad
de datos que deben ser procesados estadísticamente.

• Los estudios epidemiológicos estándar tienen muestras de cientos de individuos.

• Big data/data mining (conjuntos masivos de datos analizados estadísticamente con ayuda de ordenadores)
Estadística
• La evidencia científica suele presentarse de forma estadística.
• Estadística: Análisis y procesamiento de conjuntos de datos.

• La evidencia científica habitualmente consiste en grandes colecciones de datos acerca de un objeto de


estudio (por ejemplo, el conjunto de los resultados experimentales obtenidos en el curso de la investigación).
•  Para poder extraer conclusiones relevantes a partir de un conjunto de datos empíricos, es necesario
recurrir a métodos de análisis estadístico.

– Ejemplos:
• Un experimento de física subatómica en el CERN puede involucrar miles de observaciones, generando gran cantidad
de datos que deben ser procesados estadísticamente.

• Los estudios epidemiológicos estándar tienen muestras de cientos de individuos.

• Big data/data mining (grandes conjuntos de datos analizados estadísticamente con ayuda de ordenadores)
• Estadística descriptiva: Se busca describir las propiedades de un conjunto de datos.
– Ejemplo: A partir de datos sobre la altura de cada estudiante en una clase, se calcula la frecuencia de
cada medida, la altura media de la clase, la altura mediana o la dispersión de las alturas de los
estudiantes.

• Estadística inferencial: A partir de datos sobre parte de una población, se busca realizar inferencias
acerca de las propiedades de la población en su conjunto (
– Ejemplo: Se realiza una encuesta entre parte de la población de un país para realizar estimaciones
acerca de la
• Estadística descriptiva: Se busca describir las propiedades de un conjunto de datos.
– Ejemplo: A partir de datos sobre la altura de cada estudiante en una clase, se calcula la frecuencia de
cada medida, la altura media de la clase, la altura mediana o la dispersión de las alturas de los
estudiantes.

• Estadística inferencial: A partir de datos sobre parte de una población, se busca realizar inferencias
acerca de las propiedades de la población en su conjunto (
– Ejemplo: Se realiza una encuesta entre parte de la población de un país para realizar estimaciones
acerca de la
• Estadística descriptiva: Se busca describir las propiedades de un conjunto de datos.
– Ejemplo: A partir de datos sobre la altura de cada estudiante en una clase, se calcula la frecuencia de
cada medida, la altura media de la clase, la altura mediana o la dispersión de las alturas de los
estudiantes.

• Estadística inferencial: Tomando como evidencia datos sobre parte de una población o una serie
de casos (muestra), se busca realizar inferencias (inductivas) acerca de las propiedades de la
población en su conjunto, o acerca de propiedades generales del tipo de fenómeno ejemplificado
por los casos (es decir, inferencias cuyas conclusiones sean aplicables más allá de los casos sobre
los que se tiene datos).
– Ejemplo: Se realiza una encuesta sobre intención de voto entre parte de la población de un país para
realizar estimaciones acerca del resultado de unas elecciones.
• Estadística descriptiva: Se busca describir las propiedades de un conjunto de datos.
– Ejemplo: A partir de datos sobre la altura de cada estudiante en una clase, se calcula la frecuencia de
cada medida, la altura media de la clase, la altura mediana o la dispersión de las alturas de los
estudiantes.

• Estadística inferencial: Tomando como evidencia datos sobre parte de una población o una serie
de casos (muestra), se busca realizar inferencias (inductivas) acerca de las propiedades de la
población en su conjunto, o acerca de propiedades generales del tipo de fenómeno ejemplificado
por los casos (es decir, inferencias cuyas conclusiones sean aplicables más allá de los casos sobre
los que se tiene datos).
– Ejemplo: Se realiza una encuesta sobre intención de voto entre parte de la población de un país para
realizar estimaciones acerca del resultado de unas elecciones.
Inferencias estadísticas
• Los métodos inferenciales estadísticos parten de datos acerca de una serie de casos o individuos (muestra) y tienen
como objetivo extraer conclusiones aplicables de manera general al tipo de fenómeno o la población estudiados.
• (Muestra estadística = conjunto de casos/individuos sobre los que se tiene datos)
•  En particular, al analizar estadísticamente un conjuntos de datos se suelen buscar tendencias y correlaciones
entre variables de interés (y que sean aplicables de manera general, más allá de los casos dentro de la muestra).

– Ejemplo: Un cierto estudio epidemiológico puede tener como objetivo investigar si existe una correlación entre una
dieta alta en sal y el desarrollo de hipertensión.

• La evidencia estadística recopilada en una investigación científica no siempre permite extraer conclusiones
absolutas o correlaciones perfectas (que se den en cada caso).
Población
•  En muchas ocasiones solo se podrán inferir tendencias/correlaciones probabilísticas (más o menos marcadas) a
partir de los datos empíricos disponibles.
Muestra
•  La evidencia estadística sirve de base para alcanzar conclusiones de naturaleza probabilística.

– Ejemplo: Aunque no toda persona con una dieta alta en sal acabe siendo hipertensa, la evidencia estadística
disponible permite concluir que una dieta alta en sal hace más probable desarrollar hipertensión.
Inferencias estadísticas
• Los métodos inferenciales estadísticos parten de datos acerca de una serie de casos o individuos (muestra) y tienen
como objetivo extraer conclusiones aplicables de manera general al tipo de fenómeno o la población estudiados.
• (Muestra estadística = conjunto de casos/individuos sobre los que se tiene datos)
•  En particular, al analizar estadísticamente un conjuntos de datos se suelen buscar tendencias, patrones y
correlaciones entre variables de interés (y que sean aplicables de manera general, más allá de los casos dentro de la
muestra).

– Ejemplo: Un cierto estudio epidemiológico puede tener como objetivo investigar si existe una correlación entre una
dieta alta en sal y el desarrollo de hipertensión.

• La evidencia estadística recopilada en una investigación científica no siempre permite extraer conclusiones absolutas o
correlaciones perfectas (que se den en cada caso). Población
•  En muchas ocasiones solo se podrán inferir tendencias/correlaciones probabilísticas (más o menos marcadas) a
partir de los datos empíricos disponibles.
Muestra
•  La evidencia estadística sirve de base para alcanzar conclusiones de naturaleza probabilística.

– Ejemplo: Aunque no toda persona con una dieta alta en sal acabe siendo hipertensa, la evidencia estadística disponible
permite concluir que una dieta alta en sal hace más probable desarrollar hipertensión.
Inferencias estadísticas
• Los métodos inferenciales estadísticos parten de datos acerca de una serie de casos o individuos (muestra) y tienen
como objetivo extraer conclusiones aplicables de manera general al tipo de fenómeno o la población estudiados.
• (Muestra estadística = conjunto de casos/individuos sobre los que se tiene datos)
•  En particular, al analizar estadísticamente un conjuntos de datos se suelen buscar tendencias, patrones y
correlaciones entre variables de interés (y que sean aplicables de manera general, más allá de los casos dentro de la
muestra).

– Ejemplo: Un cierto estudio epidemiológico puede tener como objetivo investigar si existe una correlación entre una
dieta alta en sal y el desarrollo de hipertensión.

• La evidencia estadística recopilada en una investigación científica no siempre permite extraer conclusiones absolutas o
correlaciones perfectas (que se den en cada caso).
•  En muchas ocasiones solo se podrán inferir tendencias/correlaciones probabilísticas (más o menos marcadas) a
partir de los datos empíricos disponibles.
•  La evidencia estadística sirve de base para alcanzar conclusiones de naturaleza probabilística.

– Ejemplo: Aunque no toda persona con una dieta alta en sal acabe siendo hipertensa, la evidencia estadística disponible
permite concluir que una dieta alta en sal hace más probable desarrollar hipertensión.
Inferencias estadísticas
• Los métodos inferenciales estadísticos parten de datos acerca de una serie de casos o individuos (muestra) y tienen
como objetivo extraer conclusiones aplicables de manera general al tipo de fenómeno o la población estudiados.
• (Muestra estadística = conjunto de casos/individuos sobre los que se tiene datos)
•  En particular, al analizar estadísticamente un conjuntos de datos se suelen buscar tendencias, patrones y
correlaciones entre variables de interés (y que sean aplicables de manera general, más allá de los casos dentro de la
muestra).

– Ejemplo: Un cierto estudio epidemiológico puede tener como objetivo investigar si existe una correlación entre una
dieta alta en sal y el desarrollo de hipertensión.

• La evidencia estadística recopilada en una investigación científica no siempre permite extraer conclusiones absolutas o
correlaciones perfectas (que se den en cada caso).
•  En muchas ocasiones solo se podrán inferir patrones/tendencias/correlaciones probabilísticos (más o menos
marcadas) a partir de los datos empíricos disponibles.
•  La evidencia estadística sirve de base para alcanzar conclusiones de naturaleza probabilística.

– Ejemplo: Aunque no toda persona con una dieta alta en sal acabe siendo hipertensa, la evidencia estadística disponible
permite concluir que una dieta alta en sal hace más probable desarrollar hipertensión.
Inferencias estadísticas
• Los métodos inferenciales estadísticos parten de datos acerca de una serie de casos o individuos (muestra) y tienen
como objetivo extraer conclusiones aplicables de manera general al tipo de fenómeno o la población estudiados.
• (Muestra estadística = conjunto de casos/individuos sobre los que se tiene datos)
•  En particular, al analizar estadísticamente un conjuntos de datos se suelen buscar tendencias, patrones y
correlaciones entre variables de interés (y que sean aplicables de manera general, más allá de los casos dentro de la
muestra).

– Ejemplo: Un cierto estudio epidemiológico puede tener como objetivo investigar si existe una correlación entre una
dieta alta en sal y el desarrollo de hipertensión.

• La evidencia estadística recopilada en una investigación científica no siempre permite extraer conclusiones absolutas o
correlaciones perfectas (que se den en cada caso).
•  En muchas ocasiones solo se podrán inferir patrones/tendencias/correlaciones probabilísticos (más o menos
marcadas) a partir de los datos empíricos disponibles.
•  La evidencia estadística sirve de base para alcanzar conclusiones de naturaleza probabilística.

– Ejemplo: Aunque no toda persona con una dieta alta en sal acabe siendo hipertensa, la evidencia estadística disponible
permite concluir que es más probable desarrollar hipertensión si se sigue una dieta alta en sal.
¿Qué es una correlación estadística?

• Correlación estadística: Existe una correlación estadística entre dos variables cuando, analizando
estadísticamente un conjunto de datos, se observa una relación o dependencia entre los valores de las dos
variables (por ejemplo, los valores de una de las variables aumentan cuando lo hacen los valores de la otra
variable).

• Ejemplos:
– El peso y la altura de una persona están estadísticamente correlacionados: las personas altas tienden
a ser más pesadas que las bajas.
– La altura de los padres está estadísticamente correlacionada con la altura de sus hijos: los hijos de
padres altos tienden a ser más altos que los hijos de padres bajos.

• Es útil conocer la existencia de correlaciones entre variables porque permite predecir el valor de una
variable sabiendo el valor de la otra (por ejemplo, si sabemos que unos padres son muy altos, podremos
predecir que sus hijos probablemente también serán altos).
¿Qué es una correlación estadística?

• Correlación estadística: Existe una correlación estadística entre dos variables cuando, analizando
estadísticamente un conjunto de datos, se observa una relación o dependencia entre los valores de las dos
variables (por ejemplo, los valores de una de las variables aumentan cuando lo hacen los valores de la otra
variable).

• Ejemplos:
– El peso y la altura de una persona están estadísticamente correlacionados: las personas altas tienden
a ser más pesadas que las bajas.
– La altura de los padres está estadísticamente correlacionada con la altura de sus hijos: los hijos de
padres altos tienden a ser más altos que los hijos de padres bajos.

• Es útil conocer la existencia de correlaciones entre variables porque permite predecir el valor de una
variable sabiendo el valor de la otra (por ejemplo, si sabemos que unos padres son muy altos, podremos
predecir que sus hijos probablemente también serán altos).
• Un resultado extraído a partir de un conjunto de datos (e.g. una correlación) se dice que es
estadíticamente significativo si es suficientemente improbable que dicho resultado sea debido al
azar (e.g. una correlación fruto de una coincidencia casual en los casos observados).
• Cuando la muestra (conjunto de casos estudiados) es muy pequeña, es más fácil que se den
correlaciones debidas a coincidencias azarosas.

– Ejemplo:
• Si se observan solo las últimas 4 jugadas de una ruleta (no defectuosa), no es
demasiado improbable que, por azar, todos los ganadores sean pares (≈6%).
•  No obstante, la conclusión de que en esa ruleta los números ganadores son
en general pares no representará adecuadamente el funcionamiento normal de
la ruleta.
• Con una muestra más amplia, es casi imposible que todos los números
ganadores sean pares: si se observan muchas jugadas, lo normal es que haya
un número similar de ganadores pares e impares (si la ruleta es imparcial y no
tiene grandes defectos).

 Para obtener resultados estadísticamente significativos (es decir, que sea difícil que reflejen
coincidencias fortuitas), hay que analizar muestras suficientemente grandes y representativas.
• Un resultado extraído a partir de un conjunto de datos (e.g. una correlación) se dice que es
estadíticamente significativo si es suficientemente improbable que dicho resultado sea debido al
azar (e.g. una correlación fruto de una coincidencia casual en los casos observados).
• Cuando la muestra (conjunto de casos estudiados) es muy pequeña, es más fácil que se den
correlaciones debidas a coincidencias azarosas.

– Ejemplo:
• Si se observan solo las últimas 4 jugadas de una ruleta (no defectuosa), no es
demasiado improbable que, por azar, todos los ganadores sean pares (≈6%).
•  No obstante, la conclusión de que en esa ruleta los números ganadores son
en general pares no representará adecuadamente el funcionamiento normal de
la ruleta.
• Con una muestra más amplia, es casi imposible que todos los números
ganadores sean pares: si se observan muchas jugadas, lo normal es que haya
un número similar de ganadores pares e impares (si la ruleta es imparcial y no
tiene grandes defectos).

 Para obtener resultados estadísticamente significativos (es decir, que sea difícil que reflejen
coincidencias fortuitas), hay que analizar muestras suficientemente grandes y representativas.
• Un resultado extraído a partir de un conjunto de datos (e.g. una correlación) se dice que es
estadíticamente significativo si es suficientemente improbable que dicho resultado sea debido al
azar (e.g. una correlación fruto de una coincidencia casual en los casos observados).
• Cuando la muestra (conjunto de casos estudiados) es muy pequeña, es más fácil que se den
correlaciones debidas a coincidencias azarosas.

– Ejemplo:
• Si se observan solo las últimas 4 jugadas de una ruleta (no defectuosa), no es
demasiado improbable que, por azar, todos los ganadores sean pares (≈6%).
•  No obstante, la conclusión de que en esa ruleta los números ganadores son
en general pares no representará adecuadamente el funcionamiento normal de
la ruleta.
• Con una muestra más amplia, es casi imposible que todos los números
ganadores sean pares: si se observan muchas jugadas, lo normal es que haya
un número similar de ganadores pares e impares (si la ruleta es imparcial y no
tiene grandes defectos).

 Para obtener resultados estadísticamente significativos (es decir, que sea difícil que reflejen
coincidencias fortuitas), hay que analizar muestras suficientemente grandes y representativas.
• Un resultado extraído a partir de un conjunto de datos (e.g. una correlación) se dice que es
estadíticamente significativo si es suficientemente improbable que dicho resultado sea debido al
azar (e.g. una correlación fruto de una coincidencia casual en los casos observados).
• Cuando la muestra (conjunto de casos estudiados) es muy pequeña, es más fácil que se den
correlaciones debidas a coincidencias azarosas.

– Ejemplo:
• Si se observan solo las últimas 4 jugadas de una ruleta (no defectuosa), no es
demasiado improbable que, por azar, todos los ganadores sean pares (≈6%).
•  No obstante, la conclusión de que en esa ruleta los números ganadores son
en general pares no representará adecuadamente el funcionamiento normal de
la ruleta.
• Con una muestra más amplia, es casi imposible que todos los números
ganadores observados sean pares: si se observan muchas jugadas, lo normal es
que haya un número similar de ganadores pares e impares (si la ruleta es
imparcial y no tiene grandes defectos).

 Para obtener resultados estadísticamente significativos (es decir, que sea difícil que reflejen
coincidencias fortuitas), hay que analizar muestras suficientemente grandes y representativas.
• Un resultado extraído a partir de un conjunto de datos (e.g. una correlación) se dice que es
estadíticamente significativo si es suficientemente improbable que dicho resultado sea debido al
azar (e.g. una correlación fruto de una coincidencia casual en los casos observados).
• Cuando la muestra (conjunto de casos estudiados) es muy pequeña, es más fácil que se den
correlaciones debidas a coincidencias azarosas.

– Ejemplo:
• Si se observan solo las últimas 4 jugadas de una ruleta (no defectuosa), no es
demasiado improbable que, por azar, todos los ganadores sean pares (≈6%).
•  No obstante, la conclusión de que en esa ruleta los números ganadores son
en general pares no representará adecuadamente el funcionamiento normal de
la ruleta.
• Con una muestra más amplia, es casi imposible que todos los números
ganadores observados sean pares: si se observan muchas jugadas, lo normal es
que haya un número similar de ganadores pares e impares (si la ruleta es
imparcial y no tiene grandes defectos).

 Para obtener resultados estadísticamente significativos (es decir, que sea difícil que reflejen
coincidencias fortuitas), hay que analizar muestras suficientemente grandes y representativas.
Sesgos estadísticos
• Al analizar estadísticamente un conjunto de datos, es importante asegurarse de que las conclusiones extraídas (e.g.
que existe cierta correlación entre dos variables) reflejan correlaciones y tendencias realmente presentes en el
objeto de estudio, y no se deben más bien a distorsiones introducidas por deficiencias en los métodos de análisis
empleados o en la recolección de datos (es decir, distorsiones debidas a sesgos estadísticos).

• La muestra de datos usada como evidencia ha de ser representativa de la población/fenómeno que se quiere
estudiar.
• Una muestra sesgada puede introducir aparentes correlaciones que no se dan realmente.

– Ejemplo:
– Si estamos estudiando una población de individuos (e.g. la población española), la muestra de individuos que
utilicemos para hacer nuestro análisis estadístico ha de ser representativa de la población española en general (no
puede incluir solo hombres, o solo personas mayores de 60 años). Si las preferencias de voto de distintas zonas de
España, pero tomamos como muestra solo personas mayores de 60 años, obtendremos resultados sesgados y
distorsionados (ya que los votantes jóvenes no votan exactamente igual que los votantes mayores de 60 años).

isten técnicas para minimizar la presencia de sesgos, por ejemplo, escoger la muestra de manera aleatoria
(aleatorización), o utilizar muestras amplias.
Sesgos estadísticos
• Al analizar estadísticamente un conjunto de datos, es importante asegurarse de que las conclusiones extraídas (e.g.
que existe cierta correlación entre dos variables) reflejan correlaciones y tendencias realmente presentes en el
objeto de estudio, y no se deben más bien a distorsiones introducidas por deficiencias en los métodos de análisis
empleados o en la recolección de datos (es decir, distorsiones debidas a sesgos estadísticos).

• La muestra de datos usada como evidencia ha de ser representativa de la población/fenómeno que se quiere
estudiar.
• Una muestra sesgada (sesgo de selección) puede introducir aparentes correlaciones que no se dan realmente.

– Ejemplo:
– Si estamos estudiando una población de individuos (e.g. la población española), la muestra de individuos que
utilicemos para hacer nuestro análisis estadístico ha de ser representativa de la población española en general (no
puede incluir solo hombres, o solo personas mayores de 60 años). Si las preferencias de voto de distintas zonas de
España, pero tomamos como muestra solo personas mayores de 60 años, obtendremos resultados sesgados y
distorsionados (ya que los votantes jóvenes no votan exactamente igual que los votantes mayores de 60 años).

Existen técnicas para minimizar la presencia de sesgos, por ejemplo, escoger la muestra de manera aleatoria
(aleatorización), o utilizar muestras amplias.
Sesgos estadísticos
• Al analizar estadísticamente un conjunto de datos, es importante asegurarse de que las conclusiones extraídas (e.g.
que existe cierta correlación entre dos variables) reflejan correlaciones y tendencias realmente presentes en el
objeto de estudio, y no se deben más bien a distorsiones introducidas por deficiencias en los métodos de análisis
empleados o en la recolección de datos (es decir, distorsiones debidas a sesgos estadísticos).

• La muestra de datos usada como evidencia ha de ser representativa de la población/fenómeno que se quiere
estudiar.
• Una muestra sesgada (sesgo de selección) puede introducir aparentes correlaciones que no se dan realmente.

– Ejemplo:
– Si estamos estudiando una población de individuos (e.g. la población española), la muestra de individuos que
utilicemos para hacer nuestro análisis estadístico ha de ser representativa de dicha población en general (no puede
incluir solo hombres, o solo personas mayores de 60 años).
–  Si queremos estudiar las preferencias de voto de distintas zonas de España, pero tomamos como muestra solo
personas mayores de 60 años, obtendremos resultados sesgados y distorsionados (ya que los votantes jóvenes no
votan exactamente igual que los votantes mayores de 60 años).

Existen técnicas para minimizar la presencia de sesgos, por ejemplo, escoger la muestra de manera aleatoria
Sesgos estadísticos
• Al analizar estadísticamente un conjunto de datos, es importante asegurarse de que las conclusiones extraídas (e.g.
que existe cierta correlación entre dos variables) reflejan correlaciones y tendencias realmente presentes en el
objeto de estudio, y no se deben más bien a distorsiones introducidas por deficiencias en los métodos de análisis
empleados o en la recolección de datos (es decir, distorsiones debidas a sesgos estadísticos).

• La muestra de datos usada como evidencia ha de ser representativa de la población/fenómeno que se quiere
estudiar.
• Una muestra sesgada (sesgo de selección) puede introducir aparentes correlaciones que no se dan realmente.

– Ejemplo:
– Si estamos estudiando una población de individuos (e.g. la población española), la muestra de individuos que
utilicemos para hacer nuestro análisis estadístico ha de ser representativa de dicha población en general (no puede
incluir solo hombres, o solo personas mayores de 60 años).
–  Si queremos estudiar las preferencias de voto de distintas zonas de España, pero tomamos como muestra solo
personas mayores de 60 años, obtendremos resultados sesgados y distorsionados (ya que los votantes jóvenes no
votan exactamente igual que los votantes mayores de 60 años).

Existen técnicas para minimizar la presencia de sesgos, por ejemplo, escoger la muestra de manera aleatoria
Sesgos estadísticos
• Al analizar estadísticamente un conjunto de datos, es importante asegurarse de que las conclusiones extraídas (e.g.
que existe cierta correlación entre dos variables) reflejan correlaciones y tendencias realmente presentes en el objeto
de estudio, y no se deben más bien a distorsiones introducidas por deficiencias en los métodos de análisis empleados
o en la recolección de datos (es decir, distorsiones debidas a sesgos estadísticos).

• La muestra de datos usada como evidencia ha de ser representativa de la población/fenómeno que se quiere estudiar.
• Una muestra sesgada (sesgo de selección) puede introducir aparentes correlaciones que no se dan realmente.

– Ejemplo:
– Si estamos estudiando una población de individuos (e.g. la población española), la muestra de individuos que
utilicemos para hacer nuestro análisis estadístico ha de ser representativa de dicha población en general (no puede
incluir solo hombres, o solo personas mayores de 60 años).
–  Si queremos estudiar las preferencias de voto de distintas zonas de España, pero tomamos como muestra solo
personas mayores de 60 años, obtendremos resultados sesgados y distorsionados (ya que los votantes jóvenes no
votan exactamente igual que los votantes mayores de 60 años).

• Existen técnicas para minimizar la presencia de sesgos, por ejemplo, escoger la muestra de manera aleatoria entre
toda la población (para así evitar que la muestra se concentre en un sector particular de la población, e.g. hombres
mayores de 55 años), o utilizar muestras amplias.
Correlaciones y casusas
• La existencia de correlaciones estadísticas entre dos variables no siempre implica que haya una relación causa-efecto
entre ambas (es decir, no implica que los cambios en la primera variable sean la causa que explica los cambios en la
segunda).
• ¡Correlación ≠ Causación!
• Ejemplo:
• Imaginemos que encontramos una correlación estadística entre vivir en ciertos barrios y poseer más de un coche.
• Esta correlación no nos permite inferir directamente que vivir en dichos barrios sea la causa de que se posean varios
coches. Por ejemplo, puede ser que tener un alto nivel de renta sea lo que explica tanto que se viva en esos barrios como
que se posean varios coches.
•  El alto nivel de renta sería la causa tanto de vivir en barrios caros como de poseer coches de lujo.
• Para analizar posibles relaciones causales entre dos variables x e y, habrá que intentar examinar cómo se
correlacionan dichas variables controlando la posible influencia de otras variables z: habrá que ver si la correlación
entre cambios en x y cambios en y es independiente de variaciones en z, es decir, si la correlación persiste cuando z se
mantiene constante (por ejemplo, se puede realizar un experimento controlado en el que se manipule x manteniendo
z constante).
• Ejemplo:
• Para ver si la correlación entre vivir en ciertos barrios y poseer varios coches es independiente del nivel de renta, habrá que
analizar si sigue existiendo dicha correlación cuando controlamos el nivel de renta (es decir, cuando consideramos datos
sobre personas que vivan en distintos barrios pero tengan un mismo nivel renta).
Correlaciones y casusas
• La existencia de correlaciones estadísticas entre dos variables no siempre implica que haya una relación causa-efecto
entre ambas (es decir, no implica que los cambios en la primera variable sean la causa que explica los cambios en la
segunda).
• ¡Correlación ≠ Causación!
• Ejemplo:
• Imaginemos que encontramos una correlación estadística entre vivir en ciertos barrios y poseer más de un coche.
• Esta correlación no nos permite inferir directamente que vivir en dichos barrios sea la causa de que se posean varios
coches. Por ejemplo, puede ser que tener un alto nivel de renta sea lo que explica tanto que se viva en esos barrios como
que se posean varios coches.
•  El alto nivel de renta sería la causa tanto de vivir en barrios caros como de poseer coches de lujo.
• Para analizar posibles relaciones causales entre dos variables x e y, habrá que intentar examinar cómo se
correlacionan dichas variables controlando la posible influencia de otras variables z: habrá que ver si la correlación
entre cambios en x y cambios en y es independiente de variaciones en z, es decir, si la correlación persiste cuando z se
mantiene constante (por ejemplo, se puede realizar un experimento controlado en el que se manipule x manteniendo
z constante).
• Ejemplo:
• Para ver si la correlación entre vivir en ciertos barrios y poseer varios coches es independiente del nivel de renta, habrá que
analizar si sigue existiendo dicha correlación cuando controlamos el nivel de renta (es decir, cuando consideramos datos
sobre personas que vivan en distintos barrios pero tengan un mismo nivel renta).
Correlaciones y casusas
• La existencia de correlaciones estadísticas entre dos variables no siempre implica que haya una relación causa-efecto
entre ambas (es decir, no implica que los cambios en la primera variable sean la causa que explica los cambios en la
segunda).
• ¡Correlación ≠ Causación!
• Ejemplo:
• Imaginemos que encontramos una correlación estadística entre vivir en ciertos barrios y poseer más de un coche.
• Esta correlación no nos permite inferir directamente que vivir en dichos barrios ejerza una influencia causal sobre el
número de coches que se posee. Por ejemplo, puede que lo que explique tanto que se viva en esos barrios como que se
posean varios coches sea tener un nivel de renta elevado.
•  El alto nivel de renta sería la causa tanto de vivir en barrios caros como de poseer coches de lujo.
• Para analizar posibles relaciones causales entre dos variables x e y, habrá que intentar examinar cómo se
correlacionan dichas variables controlando la posible influencia de otras variables z: habrá que ver si la correlación
entre cambios en x y cambios en y es independiente de variaciones en z, es decir, si la correlación persiste cuando z se
mantiene constante (por ejemplo, se puede realizar un experimento controlado en el que se manipule x manteniendo
z constante).
• Ejemplo:
• Para ver si la correlación entre vivir en ciertos barrios y poseer varios coches es independiente del nivel de renta, habrá que
analizar si sigue existiendo dicha correlación cuando controlamos el nivel de renta (es decir, cuando consideramos datos
sobre personas que vivan en distintos barrios pero tengan un mismo nivel renta).
Correlaciones y casusas
• La existencia de correlaciones estadísticas entre dos variables no siempre implica que haya una relación causa-efecto
entre ambas (es decir, no implica que los cambios en la primera variable sean la causa que explica los cambios en la
segunda).
• ¡Correlación ≠ Causación!
• Ejemplo:
• Imaginemos que encontramos una correlación estadística entre vivir en ciertos barrios y poseer más de un coche.
• Esta correlación no nos permite inferir directamente que vivir en dichos barrios ejerza una influencia causal sobre el
número de coches que se posee. Por ejemplo, puede que lo que explique tanto que se viva en esos barrios como que se
posean varios coches sea tener un nivel de renta elevado.
•  El alto nivel de renta sería la causa tanto de vivir en barrios caros como de poseer coches de lujo.
• Para analizar posibles relaciones causales entre dos variables x e y, habrá que intentar examinar cómo se
correlacionan dichas variables controlando la posible influencia de otras variables z: habrá que investigar si la
correlación entre cambios en x y cambios en y es independiente de variaciones en z, es decir, si la correlación persiste
cuando z se mantiene constante (por ejemplo, se puede realizar un experimento controlado en el que se manipule x
manteniendo z constante).
• Ejemplo:
• Para ver si la correlación entre vivir en ciertos barrios y poseer varios coches es independiente del nivel de renta, habrá que
analizar si sigue existiendo dicha correlación cuando controlamos el nivel de renta (es decir, cuando consideramos datos
sobre personas que vivan en distintos barrios pero tengan un mismo nivel renta).
Correlaciones y casusas
• La existencia de correlaciones estadísticas entre dos variables no siempre implica que haya una relación causa-efecto
entre ambas (es decir, no implica que los cambios en la primera variable sean la causa que explica los cambios en la
segunda).
• ¡Correlación ≠ Causación!
• Ejemplo:
• Imaginemos que encontramos una correlación estadística entre vivir en ciertos barrios y poseer más de un coche.
• Esta correlación no nos permite inferir directamente que vivir en dichos barrios ejerza una influencia causal sobre el
número de coches que se posee. Por ejemplo, puede que lo que explique tanto que se viva en esos barrios como que se
posean varios coches sea tener un nivel de renta elevado.
•  El alto nivel de renta sería la causa tanto de vivir en barrios caros como de poseer coches de lujo.
• Para analizar posibles relaciones causales entre dos variables x e y, habrá que intentar examinar cómo se
correlacionan dichas variables controlando la posible influencia de otras variables z: habrá que investigar si la
correlación entre cambios en x y cambios en y es independiente de variaciones en z, es decir, si la correlación persiste
cuando z se mantiene constante (por ejemplo, se puede realizar un experimento controlado en el que se manipule x
manteniendo z constante).
• Ejemplo:
• Para ver si la correlación entre vivir en ciertos barrios y poseer varios coches es independiente del nivel de renta, habrá que
analizar si sigue existiendo dicha correlación cuando controlamos el nivel de renta (es decir, cuando consideramos datos
sobre personas que vivan en distintos barrios pero tengan un mismo nivel de renta).

También podría gustarte