Gmea Investigacion U5u6

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 38

Tecnológico Nacional de México

Instituto Tecnológico de Ciudad Madero

Probabilidad y Estadística

Unidad 5:

Regresión lineal

Unidad 6:

Estadística aplicada

Alumno:

Estrada Artezan Guillermo Manuel

No. control

21070309

Carrera:

Ingeniería en Sistemas Computacionales.

Junio 10, 2022


INDICE
UNIDAD 5.- Regresión lineal. ..................................................................................... 3
5.1 Regresión y correlación. ............................................................................... 3
5.1.1 Diagrama de dispersión. ............................................................................ 4
5.1.2 Regresión lineal simple. ..............................................................................................5
5.1.3 Correlación. ............................................................................................... 5
5.1.4 Determinación y análisis de los coeficientes de correlación y de
determinación. .................................................................................................... 6
5.1.5 Distribución normal bidimensional ............................................................. 7
5.1.6 Intervalos de confianza y pruebas para el coeficiente de correlación........ 8
5.1.7 Errores de medición. ............................................................................... 10
UNIDAD 6.- Estadística aplicada. ............................................................................. 12
6.1 Muestreo .................................................................................................... 12
6.1.1 Tipos de muestreo. .................................................................................. 13
6.1.2 Teorema de Límite central. ...................................................................... 17
6.1.3 Distribución muestral de la media............................................................ 18
6.1.4 Distribución muestral de una proporción. ................................................ 19
6.2 Estimación .................................................................................................. 20
6.2.1 Estimación puntual. ................................................................................. 22
6.2.2 Estimación por intervalo. ......................................................................... 23
6.2.3 Intervalo de confianza para una media. ................................................... 24
6.3 Prueba de hipótesis .................................................................................... 28
6.3.1 Errores tipo I y II. ..................................................................................... 29
6.3.2 Pasos para realizar una Prueba de Hipótesis.......................................... 30
6.3.3 Prueba de hipótesis para una media. ...................................................... 32
6.3.4 Prueba de hipótesis para una proporción. ............................................... 34
Bibliografía. ............................................................................................................... 37
UNIDAD 5.- Regresión lineal.

El análisis de la regresión lineal se utiliza para predecir el valor de una variable según
el valor de otra. La variable que desea predecir se denomina variable dependiente. La
variable que está utilizando para predecir el valor de la otra variable se denomina
variable independiente. Esta forma de análisis estima los coeficientes de la ecuación
lineal, involucrando una o a más variables independientes que mejor predicen el valor
de la variable dependiente.

La regresión lineal se ajusta a una línea recta o a una superficie que minimiza las
discrepancias entre los valores de salida previstos y reales. Hay calculadoras de
regresión lineal simple que utilizan el método de “mínimos cuadrados” para determinar
la línea que mejor se ajusta para un conjunto de datos pareados.

5.1 Regresión y correlación.


La correlación lineal y la regresión lineal simple son métodos estadísticos que
estudian la relación lineal existente entre dos variables. Antes de profundizar en cada
uno de ellos, conviene destacar algunas diferencias:
• La correlación cuantifica como de relacionadas están dos variables, mientras que
la regresión lineal consiste en generar una ecuación (modelo) que, basándose en
la relación existente entre ambas variables, permita predecir el valor de una a
partir de la otra.
• El cálculo de la correlación entre dos variables es independiente del orden o
asignación de cada variable a XX e YY, mide únicamente la relación entre ambas
sin considerar dependencias. En el caso de la regresión lineal, el modelo varía
según qué variable se considere dependiente de la otra (lo cual no implica causa-
efecto).
• A nivel experimental, la correlación se suele emplear cuando ninguna de las
variables se ha controlado, simplemente se han medido ambas y se desea saber
si están relacionadas. En el caso de estudios de regresión lineal, es más común
que una de las variables se controle (tiempo, concentración de reactivo,
temperatura…) y se mida la otra.
• Por norma general, los estudios de correlación lineal preceden a la generación de
modelos de regresión lineal. Primero se analiza si ambas variables están
correlacionadas y, en caso de estarlo, se procede a generar el modelo de
regresión.

3
5.1.1 Diagrama de dispersión.
El diagrama de dispersión permite analizar si existe algún tipo de relación entre
dos variables. Por ejemplo, puede ocurrir que dos variables estén relacionadas de
manera que al aumentar el valor de una, se incremente el de la otra. En este caso
hablaríamos de la existencia de una correlación positiva.
También puede ocurrir que al producirse una en un sentido, la otra derive en el
sentido contrario; por ejemplo, al aumentar el valor de la variable x, se reduzca el
de la variable y. Entonces, se estaría ante una correlación negativa. Si los valores
de ambas variables se revelan independientes entre sí, se afirmaría que no existe
correlación.
Si bien el diagrama de dispersión es fácil de usar, debe ser interpretado con
prudencia. Para construir un diagrama de dispersión, los pasos a seguir son:
1. Reunir los Datos
Seleccionadas las variables a estudiar, se reúne un mínimo de 50 parejas de
datos de las dos variables sobre las que se desea comprobar su posible
relación. En el caso que servirá de ejemplo al desarrollo de esta herramienta,
las variables a analizar son las puntuaciones medias obtenidas para los
distintos factores del servicio, tanto en percepción (X) como en expectativas
(Y), a partir de una muestra de usuarios de un servicio administrativo a los que
se les administró una encuesta de satisfacción.
2. Dibujar el Diagrama
Se prepara el diagrama trazando los ejes vertical y horizontal de modo que
tengan similar longitud. Así mismo, se etiquetan el diagrama y los ejes,
indicando en éstos los valores de las escalas de medida, que suelen ser en
ambos casos ascendentes.
3. Representar los Datos
Se representan en el diagrama los pares de datos como puntos del diagrama
de dispersión. Se recomienda que los puntos que coincidan entre sí, al tener
las mismas coordenadas, se rodeen tantas veces como se presente la
repetición. No obstante hay que puntualizar que el procedimiento descrito
puede ser llevado a cabo mediante una hoja de cálculo o cualquier aplicación
estadística, lo que simplifica considerablemente el procedimiento.
4. Interpretar el Diagrama
El resultado de un diagrama de dispersión puede ser de diversos tipos. Si los
puntos trazados en el diagrama están dispersos al azar, sin un patrón
discernible, significa que los dos conjuntos de mediciones no tienen relación
entre sí. Si los puntos forman algún patrón, se denota la existencia de relación
entre los dos grupos de mediciones.

4
5.1.2 Regresión lineal simple.
Uno de los aspectos más relevantes de la Estadística es el análisis de la relación
o dependencia entre variables. Frecuentemente resulta de interés conocer el
efecto que una o varias variables pueden causar sobre otra, e incluso predecir en
mayor o menor grado valores en una variable a partir de otra.
Se basa en modelos lineales con la fórmula general.

Yi = ( a + bXi ) + ϵi

donde:
a = punto de corte en el eje de ordenadas
b = pendiente o gradiente de la recta, que son los coeficientes de regresión
ϵi corresponde al término de residuos, que representa la diferencia entre el valor
observado y el estimado para el individuo i.
Los coeficientes de regresión los tenemos que estimar de los datos, usando el
método de mínimos cuadrados, basado en las siguientes fórmulas, y el criterio de
optimización de máxima verosimilitud.

5.1.3 Correlación.
La correlación es un tipo de asociación entre dos variables numéricas,
específicamente evalúa la tendencia (creciente o decreciente) en los datos. Dos
variables están asociadas cuando una variable nos da información acerca de la
otra. Por el contrario, cuando no existe asociación, el aumento o disminución de
una variable no nos dice nada sobre el comportamiento de la otra variable. Dos
variables se correlacionan cuando muestran una tendencia creciente o
decreciente.
La correlación nos permite medir el signo y magnitud de la tendencia entre dos
variables. En la figura 1 vemos diferentes valores del coeficiente de correlación y
sus diagramas de dispersión correspondientes. Podemos ver que:
1. El signo nos indica la dirección de la relación, como hemos visto en el diagrama
de dispersión.
• un valor positivo indica una relación directa o positiva,
• un valor negativo indica relación indirecta, inversa o negativa,

5
• un valor nulo indica que no existe una tendencia entre ambas variables (puede
ocurrir que no exista relación o que la relación sea más compleja que una
tendencia, por ejemplo, una relación en forma de U).

2. La magnitud nos indica la fuerza de la relación, y toma valores entre -1 a 1.


Cuanto más cercano sea el valor a los extremos del intervalo (1 o -1) más fuerte
será la tendencia de las variables, o será menor la dispersión que existe en los
puntos alrededor de dicha tendencia. Cuanto más cerca del cero esté el
coeficiente de correlación, más débil será la tendencia, es decir, habrá más
dispersión en la nube de puntos.
• si la correlación vale 1 o -1 diremos que la correlación es “perfecta”,
• si la correlación vale 0 diremos que las variables no están correlacionadas.

5.1.4 Determinación y análisis de los coeficientes de correlación y de


determinación.
El análisis de correlación consiste en un procedimiento estadístico para determinar
si dos variables están relacionadas o no. El resultado del análisis es un coeficiente
de correlación que puede tomar valores entre -1 y +1. El signo indica el tipo de
correlación entre las dos variables. Un signo positivo indica que existe una relación
positiva entre las dos variables; es decir, cuando la magnitud de una incrementa,
la otra también.
Un signo negativo indica que existe una relación negativa entre las dos variables.
Mientras los valores de una incrementan, los de la segunda variable disminuyen.
Si dos variables son independientes, el coeficiente de correlación es de magnitud
cero. La fuerza de la relación lineal incrementa a medida que el coeficiente de
correlación se aproxima a -1 o a +1. El coeficiente de correlación es la medida
específica que cuantifica la intensidad de la relación lineal entre dos variables en
un análisis de correlación. En los informes de correlación, este coeficiente se
simboliza con la r.
El coeficiente de determinación es la proporción de la varianza total de la variable
explicada por la regresión. Es también denominado R cuadrado y sirve para
reflejar la bondad del ajuste de un modelo a la variable que se pretende explicar.
Este se puede adquirir resultados que oscilan entre 0 y 1. Así, cuando adquiere
resultados más cercanos a 1, mayor resultará el ajuste del modelo a la variable
que se pretende aplicar para el caso en concreto. Por el contrario, cuando
adquiere resultados que se acercan al valor 0, menor será el ajuste del modelo a
la variable que se pretende aplicar y, justo por eso, resultará dicho modelo menos
fiable.

6
5.1.5 Distribución normal bidimensional.
La distribución normal "regular" tiene una variable aleatoria a lo cual una
distribución normal bidimensional se compone de dos variables aleatorias
independientes. Las dos variables en una normal bidimensional se distribuyen
normalmente y tienen una distribución normal cuando ambas se suman.
Visualmente, la distribución normal bidimensional es una curva de campana
tridimensional.
Francis Galton (1822-1911) fue uno de los primeros matemáticos en estudiar en
profundidad la distribución normal bidimensional, durante su estudio sobre la
altura de los padres y sus hijos adultos. Bravais, Gauss, Laplace, Plana también
estudiaron la distribución a principios del siglo XIX (Balakrishnan & Lai, 2009).
La distribución bidimensional se puede describir de muchas maneras diferentes y,
como tal, no existe un acuerdo unificado para una definición sucinta. Algunas de
las formas más comunes de caracterizarlo incluyen:

• Las variables aleatorias X & Y son normales bidimensional si aX + bY tiene una


distribución normal para todo a,b∈R.
• X e Y son conjuntamente normales si pueden expresarse como X = aU + bV, y
Y = cU + dV (Bertsekas & Tsitsiklis, 2002)
• Si a y b son constantes distintas de cero, aX + bY tiene una distribución normal
(Johnson & Kotz, 1972).
• Si X – aY e Y son independientes y si Y – bx y X son independientes para todo
a,b (tal que ab ≠ 0 o 1), entonces (X,Y) tiene una distribución normal (Rao,
1975).

Una distribución bidimensional es aquella en las que a cada individuo le


corresponden los valores de dos variables, las representamos por el par (xi, yi).
Si representamos cada par de valores como las coordenadas de un punto, el
conjunto de todos ellos se llama nube de puntos o diagrama de dispersión.
Sobre la nube de puntos puede trazarse una recta que se ajuste a ellos lo mejor
posible, llamada recta de regresión.
Distribución bidimensional, distribución estadística en la que intervienen dos
variables, x e y, y, por tanto, a cada individuo le corresponden dos valores, xi, yi.
Estos dos valores se pueden considerar como coordenadas de un punto (xi, yi)
representado en un diagrama cartesiano. Así, a cada individuo de la distribución
le corresponderá un punto, y toda la distribución se verá representada mediante
un conjunto de puntos.

7
Ejemplo:
Las notas de 12 alumnos de una clase en Matemáticas y Física son las siguientes:

Matemáticas Física

2 1

3 3

4 2

4 4

5 4

6 4

6 6

7 4

7 6

8 7

10 9

10 10

5.1.6 Intervalos de confianza y pruebas para el coeficiente de correlación.


Un intervalo de confianza es un rango de valores, derivado de los estadísticos de
la muestra, que posiblemente incluya el valor de un parámetro de población
desconocido. Debido a su naturaleza aleatoria, es poco probable que dos
muestras de una población en particular produzcan intervalos de confianza
idénticos. Sin embargo, si usted repitiera muchas veces su muestra, un
determinado porcentaje de los intervalos de confianza resultantes incluiría el
parámetro de población desconocido.

8
En este caso, la línea negra horizontal representa el valor fijo de la media
desconocida de la población, µ. Los intervalos de confianza azules verticales que
se sobreponen a la línea horizontal contienen el valor de la media de la población.
El intervalo de confianza rojo que está completamente por debajo de la línea
horizontal no lo contiene. Un intervalo de confianza de 95% indica que 19 de 20
muestras (95%) de la misma población producirán intervalos de confianza que
contendrán el parámetro de población.
El intervalo de confianza se determina calculando una estimación de punto y luego
determinando su margen de error.
Estimación de punto.

• Este valor individual estima un parámetro de población usando los datos de la


muestra.
Margen de error.

• Cuando usted utiliza estadísticos para estimar un valor, es importante recordar


que, sin importar lo bien que esté diseñado su estudio, su estimación está
sujeta a error de muestreo aleatorio. El margen de error cuantifica este error e
indica la precisión de la estimación.

Usted probablemente ya entiende el margen de error, porque está relacionado con


los resultados de las encuestas. Por ejemplo, una encuesta política podría indicar
que el nivel de popularidad de un candidato es de 55% con un margen de error de
5%. Esto significa que el nivel de popularidad real es +/- 5% y, por lo tanto, se
ubica entre 50% y 60%.
Mientras mayor sea el margen de error, más ancho será el intervalo y menos
seguro podrá estar usted del valor de la estimación de punto.
El coeficiente de correlación lineal, también denominado como coeficiente de
correlación de Pearson, es una medida de regresión que tiene por objetivo
cuantificar el grado de variación conjunta entre dos variables diferentes. Así, es
una medida ampliamente utilizada en la ciencia estadística cuyo objetivo es
cuantificar la dependencia lineal entre dos variables distintas. En palabras más
sencillas: el coeficiente de correlación lineal señala lo bien o lo mal que el conjunto
de variables representados en puntos se aproxima a una recta.

9
El coeficiente de correlación lineal tiene las siguientes propiedades:
1. El coeficiente de correlación no sufre ninguna variación al variar la escala de
medición, lo que quiere decir que dicho coeficiente no variará si expresamos la
altura, por ejemplo, en metros o en centímetros.
2. El coeficiente de correlación tiene el mismo signo que el del coeficiente de
covarianza. Así, si la covarianza es positiva, la correlación es directa; y si la
covarianza es negativa, la correlación es, por tanto, inversa. Por su parte,
cuando la covarianza es nula, la correlación no existe.
3. El coeficiente de correlación lineal es un número real entre el número -1 y el
número 1. Así, cuando el coeficiente de correlación lineal adquiere valores que
se acercan al -1, la correlación es inversa y fuerte, mientras que cuando dicho
coeficiente se acerca al número 1, la correlación es directa y también fuerte.
Por su parte, cuando la correlación adquiere valores cercanos a 0, la
correlación es débil.
El coeficiente de correlación se define como la covarianza que se da entre dos
variables tipificadas. Se calcula a través de la siguiente ecuación. Veámosla:

Pxy = Cov xy / Ox Oy

Donde:
1. Cov es la covarianza entre los valores de ‘’x’’ y de ‘’y’’.
2. Ox es la desviación típica de x.
3. Oy es la desviación típica de y.

5.1.7 Errores de medición.


Al medir y comparar el valor verdadero o exacto de una magnitud y el valor
obtenido siempre habrá una diferencia llamada error. Por lo tanto al no existir una
medición exacta debemos procurar reducir al mínimo el error, empleando técnicas
adecuadas y aparatos o instrumentos cuya precisión nos permitan obtener
resultados satisfactorios. Una forma de reducir la magnitud del error es repetir el
mayor número de veces posible la medición, pues el promedio de las mediciones
resultara más confiable que cualquiera de ellas.
Los errores de medición afectan a cualquier instrumento de medición y pueden
deberse a distintas causas. Las que se pueden de alguna manera prever, calcular,
eliminar mediante calibraciones y compensaciones, se denominan deterministas
o sistemáticos y se relacionan con la exactitud de las mediciones. Los que no se

10
pueden prever, pues dependen de causas desconocidas, o estocásticas se
denominan aleatorios y están relacionados con la precisión del instrumento.

• Error aleatorio. No se conocen las leyes o mecanismos que lo causan por su


excesiva complejidad o por su pequeña influencia en el resultado final.
Para conocer este tipo de errores primero debemos realizar un muestreo de
medidas. Con los datos de las sucesivas medidas podemos calcular su media y la
desviación típica muestra.

• Error sistemático. Permanecen constantes en valor absoluto y en el signo al


medir, una magnitud en las mismas condiciones, y se conocen las leyes que lo
causan.
Para determinar el error sistemático de la medición se deben de realizar una serie
de medidas sobre una magnitud X0, se debe de calcular la media aritmética de
estas medidas y después hallar la diferencia entre la media y la magnitud X0.
Error sistemático = | media - X0 |
Aunque es imposible conocer todas las causas del error es conveniente conocer
todas las causas importantes y tener una idea que permita evaluar los errores más
frecuentes. Las principales causas que producen errores se pueden clasificar en:

• Error debido al instrumento de medida.


• Error debido al operador.
• Error debido a los factores ambientales.
• Error debido a las tolerancias geométricas de la propia pieza.

11
UNIDAD 6.- Estadística aplicada.
Se denomina estadística aplicada al área de la estadística que se ocupa de inferir
resultados sobre una población a partir de una o varias muestras. Es la parte de
la estadística que se aplica en cualquier otra rama externa a ella, como la
psicología, la medicina, la sociología, la historia, la biología, la mercadotecnia,
etcétera.
Los parámetros poblacionales se estiman mediante funciones denominadas
estimadores o estadísticos. La estimación se hace con base en la estimación
estadística y puede ser puntual, por intervalos o de contraste de hipótesis. En una
estimación puntual, se obtiene un solo valor con una confianza nula, como cuando
se dice que la estatura media de tal población es de 1,72m. En la estimación por
intervalos, el nivel de confianza depende de la amplitud del intervalo, es cuando
se afirma que el 95% de tal población mide menos de 1,96m. El contraste de
hipótesis consiste en verificar estadísticamente si una suposición acerca de una
población es cierta o falsa.[cita requerida].
La estadística aplicada se apoya totalmente en la utilización de paquetes
estadísticos que ayudan a resolver problemas de índole estadística, acortando
dramáticamente los tiempos de resolución. Es por esto que en muchas
universidades se enseña a utilizar estos programas estadísticos sin que, a veces,
el alumno entienda ni tenga la necesidad de entender cómo funcionan. Cuando se
hace la comprobación matemáticamente, se hace la fórmula para sacar la
mediana, la media, la moda, etcétera.

6.1 Muestreo.
El muestreo, en otras palabras, es el procedimiento mediante el cual se toman a
ciertos individuos que pertenecen a una población que está siendo sujeto de un
análisis. El muestreo es necesario por el hecho de que las poblaciones pueden
ser demasiado grandes y no es factible (económica y materialmente hablando)
tomar datos de todos los individuos.
El objetivo es que la muestra sea representativa. Es decir, que sus indicadores
como la media de edad, el ingreso promedio, el porcentaje de hombres y de
mujeres, entre otros, sea el mismo, o muy similar al de la población.
Al elegir una muestra aleatoria se espera conseguir que sus propiedades sean
extrapolables a la población. Este proceso permite ahorrar recursos, y a la vez
obtener resultados parecidos a los que se alcanzarían si se realizase un estudio
de toda la población. En las investigaciones llevadas por empresarios y de la
medicina se usa muestreo extensivamente en recoger información sobre
poblaciones.

12
Cabe mencionar que para que el muestreo sea válido y se pueda realizar un
estudio adecuado (que consienta no solo hacer estimaciones de la población sino
estimar también los márgenes de error correspondientes a dichas estimaciones),
debe cumplir ciertos requisitos. Nunca podremos estar enteramente seguros de
que el resultado sea una muestra representativa, pero sí podemos actuar de
manera que esta condición se alcance con una probabilidad alta.

6.1.1 Tipos de muestreo.


Casi nunca es posible estudiar a toda la población que te interesa. Esta es la razón
por la que los investigadores utilizan diversos tipos de muestreo cuando pretenden
recopilar datos y responder las preguntas de investigación.
Una muestra es un subconjunto de la población que está siendo estudiada.
Representa la mayor población y se utiliza para sacar conclusiones de esa
población. Es una técnica de investigación ampliamente utilizada en las ciencias
sociales como una manera de recopilar información sin tener que medir a toda la
población.

Clasificación de los tipos de muestreo

• Tipos de muestreo no probabilístico


El muestreo no probabilístico es una técnica de muestreo donde las muestras se
recogen por medio de un proceso que no les brinda a todos los individuos de la
población las mismas oportunidades de ser seleccionados.
Aunque seleccionar algunos de estos métodos podría resultar en datos sesgados
o en una capacidad limitada para hacer conclusiones generales basadas en los
hallazgos, también existen algunas situaciones en las que seleccionar este tipo de
técnica de muestreo es la mejor opción para cierta pregunta de investigación o
para una etapa de la investigación. Existen 4 tipos de muestreo que puedes crear
de esta manera.

1. Muestreo por conveniencia


El muestreo por conveniencia es el que se basa en los sujetos disponibles, como
detener a las personas en la esquina de la calle mientras pasan por ahí, es un
método de muestreo, aunque es extremadamente riesgoso y debe realizarse con
cautela

13
Este método, también conocido como un método basado en los sujetos
disponibles, no le permite al investigador tener control sobre la representatividad
de la muestra.
Por esta razón, un muestreo de
conveniencia está entre los
tipos de muestreo que
comúnmente se utilizan en las
fases iniciales o fase piloto de
la investigación, antes de que
se lance un proyecto de
investigación más grande.

2. Muestreo deliberado, crítico o por juicio


El muestreo deliberado, crítico o por juicio es aquel que se selecciona con base
en el conocimiento de una población o propósito del estudio.
Por ejemplo, cuando sociólogos quieren estudiar los efectos emocionales y
psicológicos a largo plazo de la terminación de un embarazo, se puede crear una
muestra que incluya solamente a mujeres que se habían sometido a un aborto.
En este caso, los investigadores
pueden utilizar una muestra intencional
porque los entrevistados cumplen con
una descripción o propósito específico
que es necesario para realizar la
investigación.

3. Muestreo Bola de Nieve


Es adecuado utilizar un muestreo bola de nieve cuando los miembros de una
población son difíciles de localizar, como las personas sin hogar, trabajadores
migrantes o inmigrantes indocumentados.
Por ejemplo, si un investigador quiere
entrevistar a inmigrantes indocumentados
de México, podría entrevistar a algunos
indocumentados que conozca o pueda
localizar, y luego dependerá de esos
sujetos para que lo ayuden a localizar a
más individuos indocumentados.

14
Esta técnica es útil cuando se estudia un tema sensible en el que la gente podría
no hablar abiertamente, o si hablar sobre los temas investigados podría poner en
peligro su seguridad.

4. Muestreo por Cuotas


El muestreo por cuotas es aquel en la que las
unidades son seleccionadas en una muestra
partiendo de las características
predeterminadas, de modo que la muestra
total tenga la misma distribución de
características que se supone que existen en
la población que está siendo estudiada. Por
ejemplo, si eres un investigador que está realizando una muestra por cuota
nacional, podrías necesitar saber qué proporción de la población es masculina y
qué proporción es femenina.
Así como también qué proporciones de los miembros de cada género pertenecen
a las diferentes categorías de edad, raza o étnicas, educativas, entre otras.
Después, el investigador recogería una muestra con las mismas proporciones que
la población nacional.

• Tipos de muestreo probabilístico


El muestreo probabilístico es una técnica en la cual las muestras son recogidas
mediante un proceso que le brinda a todos los individuos de la población la misma
oportunidad de ser seleccionados.
Muchos consideran que este es metodológicamente el enfoque más riguroso para
el muestreo, ya que elimina los sesgos sociales que podrían moldear la muestra
de investigación. Sin embargo, en última instancia la técnica de muestreo que
elijas debe ser la que te permita responder mejor a tu pregunta de investigación.
Vamos a analizar los 4 tipos de muestreo probabilístico.

1. Muestreo aleatorio simple


El muestreo aleatorio simple es el método de muestreo básico utilizado en
métodos estadísticos y cálculos. Para recopilar una muestra aleatoria simple, a
cada unidad de la población objetivo se le asigna un número. Luego se genera un
conjunto de números aleatorios y las unidades que tiemen esos números son
incluidas en la muestra.
15
Por ejemplo, supongamos que tienes una población de 1,000 personas y quieres
seleccionar una muestra aleatoria simple de 50 personas. Primero, cada persona
está numerada del 1 al 1,000. Luego, generas una lista de 50 números aleatorios,
generalmente con un programa informático, y los individuos que tienen asignados
estos números son los que vas a incluir en la muestra.
Cuando se estudia a las personas, está técnica funciona mejor con una población
homogénea, que no sean muy
diferentes en edad, raza,
escolaridad o clase, ya que con
una población heterogénea se
corre el riesgo de crear una
muestra sesgada si no se toman
en cuenta las diferencias
demográficas.

2. Muestreo sistemático
El muestreo sistemático es aquel en el que los elementos de la población se ponen
en una lista y luego cada enésimo elemento de la lista se selecciona
sistemáticamente para su inclusión en la muestra. Por ejemplo, si la población de
estudio contenía 2,000 estudiantes de una secundaria y el investigador quería una
muestra de 100 estudiantes, los estudiantes se colocarían en forma de lista y luego
cada veinteavo estudiante sería seleccionado para ser incluido en la muestra.
Para garantizar que no haya ningún
sesgo humano en este método, el
investigador debe seleccionar
aleatoriamente al primer individuo. Esto
es técnicamente llamado una muestra
sistemática con un inicio aleatorio.

3. Muestreo estratificado
El muestreo estratificado es una técnica de muestreo en la que el investigador
divide a toda la población objetivo en diferentes subgrupos o estratos, y luego
selecciona aleatoriamente a los sujetos finales de los diferentes estratos de forma
proporcional. Este tipo de muestreo se utiliza cuando el investigador quiere
resaltar subgrupos específicos dentro de una población.

16
Por ejemplo, para obtener una muestra estratificada de estudiantes universitarios,
el investigador primero tendría que organizar a la población por grado universitario
y luego seleccionar el número
adecuado de estudiantes de
primer, segundo, tercer y último
año. Esto aseguraría que el
investigador tenga cantidades
adecuadas de sujetos de cada
grado en la muestra final.

4. Muestreo por conglomerados


El muestreo por conglomerados puede ser utilizado cuando es imposible o
impráctico elaborar una lista exhaustiva de los elementos que constituyen a la
población objetivo. Sin embargo, generalmente los elementos de la población ya
están agrupados en subpoblaciones y las listas de esas subpoblaciones ya existen
o pueden ser creadas.
Por ejemplo, supongamos que la población
objetivo de un estudio eran los miembros
de iglesias en Guatemala. No existe una
lista de los miembros de las iglesias en el
país. Sin embargo, el investigador podría
elaborar una lista de iglesias ubicadas en
Guatemala, seleccionar una muestra de
iglesias y luego conseguir listas de los
miembros de esas iglesias.

6.1.2 Teorema de Límite central.


El teorema central del límite (TCL) es una teoría estadística que establece que,
dada una muestra aleatoria suficientemente grande de la población, la distribución
de las medias muestrales seguirá una distribución normal.
El teorema central del límite tiene una serie de propiedades de gran utilidad en el
ámbito estadístico y probabilístico. Las principales son:

• Si el tamaño de la muestra es suficientemente grande, la distribución de las


medias muestrales seguirá aproximadamente una distribución normal. El TCL
considera una muestra como grande cuando el tamaño de la misma es superior
a 30. Por tanto, si la muestra es superior a 30, la media muestral tendrá una
función de distribución próxima a una normal. Y esto se cumple

17
independientemente de la forma de la distribución con la que estamos
trabajando.
• La media poblacional y la media muestral serán iguales. Es decir, la media de
la distribución de todas las medias muestrales será igual a la media del total
de la población.
• La varianza de la distribución de las medias muestrales será σ²/n. Que es la
varianza de la población dividido entre el tamaño de la muestra.
Que la distribución de las medias muestrales se parezca a una normal es
tremendamente útil. Porque la distribución normal es muy fácil de aplicar para
realizar contrastes de hipótesis y construcción de intervalos de confianza. En
estadística que una distribución sea normal es bastante importante, dado que
muchos estadísticos requieren este tipo de distribución. Además, el TCL nos
permitirá hacer inferencia sobre la media poblacional a través de la media
muestral. Y esto es de gran utilidad cuando por falta de medios no podemos
recolectar datos de toda una población.

6.1.3 Distribución muestral de la media.


Si tenemos una muestra aleatoria de una población N(m,s ), se sabe (Teorema
del límite central) que la fdp de la media muestral es también normal con media m
y varianza s2/n. Esto es exacto para poblaciones normales y aproximado (buena
aproximación con n>30) para poblaciones cualesquiera. Es decir es el error
típico, o error estándar de la media.
¿Cómo usamos esto en nuestro problema de estimación?
1º problema: No hay tablas para cualquier normal, sólo para la normal m=0 y s=1
(la llamada z); pero haciendo la transformación (llamada tipificación)

una normal de media m y desviación s se transforma en una z.

Llamando za al valor de una variable normal tipificada


que deja a su derecha un área bajo la curva de a, es
decir, que la probabilidad que la variable sea mayor que
ese valor es a (estos son los valores que ofrece la tabla
de la normal)

18
podremos construir intervalos de la forma

para los que la probabilidad es 1 - a.

Teniendo en cuenta la simetría de la normal y manipulando algebraicamente

que también se puede escribir

o, haciendo énfasis en que es el error estándar de la media,

Recuérdese que la probabilidad de que m esté en este intervalo es 1 - a. A un


intervalo de este tipo se le denomina intervalo de confianza con un nivel de
confianza del 100(1 - a)%, o nivel de significación de 100a%. El nivel de confianza
habitual es el 95%, en cuyo caso a=0,05 y z a /2=1,96.
Al valor se le denomina estimación puntual y se dice que es un estimador de m.

6.1.4 Distribución muestral de una proporción.


Cuando en una población procedemos a estudiar una característica con sólo dos
posibles valores (éxito/fracaso), entonces la población sigue una distribución
binomial.
Cada muestra de la población tiene un porcentaje de individuos que tiene esta
característica. p es la proporción de éxito de esta variable aleatoria de la
población. La proporción de fracaso es q = 1 – p
Sean todas las muestras de tamaño n de la población. Cada muestra tiene una
proporción de individuos con esa característica.
La distribución asociada a la variable aleatoria que une cada muestra con su
proporción se llama distribución muestral de proporciones.

19
Como, para poblaciones grandes, la binomial se aproxima a la normal, la
distribución muestral de proporciones también sigue una distribución normal:

si n es suficientemente grande, n ≥ 30, and np ≥ 5, nq ≥ 5


Como generalmente las proporciones de la población son desconocidas, las
aproximamos por las de la muestra.

Ejemplo. Una máquina fabrica piezas de precisión. En su producción habitual


fabrica un 3% de piezas defectuosas. Un cliente recibe una caja de 500 piezas
procedentes de la fábrica.
a) ¿Cuál es la probabilidad de que encuentre más del 5% de piezas defectuosas
en la caja?
b) ¿Cuál es la probabilidad de que encuentre menos de un 1% de piezas
defectuosas?

6.2 Estimación.
En otras palabras, la estimación es un cálculo que se realiza a partir de la
evaluación estadística. Dicho estudio suele efectuarse sobre una muestra y no
sobre toda la población objetivo. Para llevar a cabo una estimación, entonces, es
necesario primero contar con una serie de datos. Además, es común que los
investigadores se sustenten en un marco teórico.
Por ejemplo, podemos estimar la inflación definiéndola como la diferencia entre
los precios (de la economía) del periodo A y los precios del periodo B. Entonces,
se calcula una variación porcentual entre los datos registrados en ambos puntos
del tiempo.

20
Para estimar la línea de regresión poblacional a partir de la nube de puntos se utiliza
el método de los mínimos cuadrados ordinarios (MCO), que considera como recta
que mejor se ajusta a la que minimiza la suma de los cuadrados de los residuos. Si
la recta de mejor ajuste es los errores o residuos se definen
como: y los estimadores por MCO de la ordenada en el origen, , y de
la pendiente, , son:

Para evaluar la bondad del ajuste se calcula el coeficiente de determinación R2 y,


para medir la dispersión de los puntos alrededor de la recta estimada, el error
típico de la estimación Su. Estas medidas se definen como:

Donde SCT o suma total de cuadrados es la variación total de Y en la muestra y


SCR o suma de cuadrados de la regresión es la parte de la variación total
explicada por la recta ajustada. Un valor de R2 próximo a 1 indica que la recta
ajustada es un buen modelo para explicar el comportamiento de la variable Y, y
por lo tanto existe relación lineal entre X e Y. Por el contrario, un valor próximo a
0 indica que la recta ajustada no explica la variación observada en Y.
Para establecer el intervalo de confianza para la pendiente de la recta de regresión
y contrastar si el valor de este parámetro es o no significativamente diferente a
cero es necesario calcular el error típico de b que se define como:

El estadístico de prueba del contraste es que presenta una distribución de


probabilidad t de Student con n-2 grados de libertad. Se abre el cuadro de diálogo
Regresión lineal donde se seleccionan las variables Dependiente e
Independientes.

21
• La opción Método permite elegir el método de estimación. Si se trata de una
regresión lineal simple (con una sola variable independiente) se conserva la
definida por defecto (Introducir) siendo el resto de opciones para modelos con
más de una variable explicativa.
• Cuando se desee realizar un ajuste lineal basado únicamente en los casos que
pertenecen a un subgrupo determinado por un valor o conjunto de valores de
otra variable, ésta se deberá indicar en Variable de selección del cuadro de
diálogo Regresión lineal e introducir la Regla o condición que debe verificar un
caso para ser incluido en el análisis.
• Opcionalmente se puede seleccionar la variable que recoge las etiquetas de
los casos indicándola en Etiquetas de caso.
• El botón MCP hace referencia a la estimación por mínimos cuadrados
ponderados.

6.2.1 Estimación puntual.


Una estimación puntual de un parámetro poblacional es cuando se utiliza un único
valor para estimar ese parámetro, es decir, se usa un punto en concreto de la
muestra para estimar el valor deseado. Cuando estimamos un parámetro de forma
puntual, podemos saber con certeza, cual es ese valor. Imaginemos una población
de 30 personas de las que seleccionamos una muestra de 20 para las que
conocemos sus edades. Estimar de forma puntual la media de edad, sería tan
sencillo como sumar esos 20 datos y dividirlos entre el total de la muestra
estadística.
Las propiedades deseables de un estimador son las siguientes:

• Insesgadez: Un estimador es insesgado cuando la esperanza matemática del


este es igual al parámetro que se desea estimar. Por tanto, la diferencia entre
el parámetro a estimar y la esperanza de nuestro estimador tendría que ser 0.

22
• Eficiente: Un estimador es más eficiente o tiene la capacidad de estimar de
forma precisa cuando su varianza es reducida. Por lo tanto ante 2 estimadores,
siempre elegiremos el que tenga una varianza menor.
• Consistencia: Un estimador consistente es aquel que a medida que la medida
que la muestra crece se aproxima cada vez más al valor real del parámetro.
Por lo tanto, cuantos más y valores entran en la muestra, el parámetro
estimado será más preciso
Para obtener una estimación puntual se usa un estadístico que recibe el nombre de
estimador o función de decisión. Algunos ejemplos de estadísticos son:

• La media muestral que sirve como estimación puntual de la media poblacional.

• La desviación típica muestral que sirve de estimación para la desviación típica


de la población

6.2.2 Estimación por intervalo.

El intervalo dentro del cual se espera que se encuentre un parámetro poblacional


usualmente es conocido como intervalo de confianza. Se trata por lo tanto de una
variable aleatoria bidimensional, donde, por ejemplo, el intervalo de confianza para
la media poblacional es el intervalo de valores que tiene una alta probabilidad de
contener a la media de la población.

Por lo tanto, en una estimación por intervalo se establece el rango de valores


dentro del cual se espera que se encuentre un parámetro poblacional. Al ser el
estimador por intervalo una variable aleatoria, resulta adecuado hablar en
términos de probabilidad de que el estimador cubra el verdadero valor del
parámetro.

23
Por lo tanto, si se seleccionan 100 muestras de una población y se calcula la media
de las muestras para intervalos de confianza del 95% para cada muestra; se
observa que aproximadamente 95 de los 100 intervalos de confianza contienen la
media poblacional. El nivel de confianza es la probabilidad de que el parámetro
poblacional se encuentre dentro del intervalo; los niveles de confianza más
ampliamente usados son 0.95 y 0.99, sin embargo puede usarse cualquier
probabilidad cercana a 1.

Los casos que existen en el planteamiento de los estimadores por intervalos de


confianza para una distribución normal son los siguientes, en función del
conocimiento previo que se tenga de la población:

• Intervalo de confianza para la media de una distribución normal de varianza


conocida ⇒ test Z
• Intervalo de confianza para la media de una distribución normal de varianza
desconocida
1. Muestras superiores a 30 ⇒ test Z
2. Muestras pequeñas n< 30 ⇒ test t
• Intervalo de confianza para varianza de una distribución normal ⇒ test F

6.2.3 Intervalo de confianza para una media.

El intervalo de confianza representa una técnica de estimación que se utiliza en el


campo de la inferencia estadística. En él se permite acotar uno o diversos pares de
valores, entre los cuales está la estimación puntual indagada. Esto dentro de una
determinada probabilidad.

Un intervalo de confianza estadística en estadística permite calcular los valores que


existen alrededor de una media muestral. Dentro de la muestra, se encuentra un
rango superior y otro inferior. Dentro de dicho rango, se estima la probabilidad
determinada y se localiza el parámetro poblacional. De modo que esto permite
expresar con precisión si la estimación de la muestra coincide con el valor de toda
la población.

Para realizar el cálculo de un intervalo de confianza, deben considerarse los


siguientes elementos:

• El tamaño de la selección de la muestra: esto depende de la proporción de datos


que se utilicen para el cálculo del valor muestral. Se debe observar si se acerca
más o menos al parámetro poblacional.

24
• El nivel de confianza: este informa en qué porcentaje de casos la estimación es
certera. Frecuentemente, los niveles oscilan entre el 95 % y el 99 %.
• El margen de error de la estimación: se señala como alfa y marca la probabilidad
que existe para que el valor poblacional esté fuera del intervalo.
• Estimación de la muestra: se relaciona con los valores de la media, la varianza
y las diferencias de las medias. En dichos valores se fundamenta el cálculo del
intervalo.

Los intervalos de confianza en las empresas se aplican al control estadístico de los


procesos. Dado que el proceso de inferencia es el que estima el valor de un
parámetro a partir del valor estadístico, se puede utilizar de manera puntual o
también por intervalos.

El intervalo de confianza representa una técnica esencial en la empresa. Sobre


todo, en los diferentes procesos como la producción y la venta de bienes y/o
servicios. El tener un buen control estadístico permite conocer el intervalo que le
corresponde a cada proceso. Con él se puede determinar el verdadero valor del
parámetro, pero en los casos en que no se aplica este control, no ocurre de la misma
forma. Esto hace que el intervalo de confianza se utilice como un excelente
parámetro para la credibilidad estadística.

Por ejemplo, si partimos de una población que sigue una distribución Z ~ N(0,1)
bastará con encontrar el punto crítico zα/2 para tener un intervalo que contenga la
media poblacional con probabilidad c.

p(-zα/2 < Z < zα/2) = c

Si en el caso general tomamos:

bastará con hacer unas sencillas operaciones para llegar a que el intervalo de
confianza para la media μ de una población normal con desviación típica conocida
σ es:

25
En el caso de poblaciones que no son normales, o que simplemente no sabemos si
lo son o no, necesitamos que el tamaño de la muestra sea suficientemente grande
(n > 30) para poder aplicar el Teorema central del límite para obtener que el intervalo
de confianza para la media μ de una población con desviación típica conocida σ es:

Cuando se desconoce la desviación típica poblacional se usa como estimador la


desviación típica de la muestra con lo que el intervalo de confianza para la media μ
de una población con desviación típica desconocida es:

6.2.4 Intervalo de confianza para una proporción.

En la inferencia sobre una proporción el problema se concreta en estimar y


contrastar la proporción p de individuos de una población que presentan una
determinada característica A (proporción de votantes a un partido político,
proporción de parados, ...). El problema se modeliza mediante una variable
dicotómica que toma el valor 1 si se presenta la característica de interés y 0 en caso
contrario, esto es, una variable de Bernoulli, ,de la que se dispone de una
muestra de tamaño n. Entonces, la proporción poblacional p no es otra cosa que la
media poblacional de dicha variable, estimándose con la correspondiente
proporción muestral o media muestral, .

En el caso de dos poblaciones, se trata de comparar la proporción en la que se


presenta una cierta característica A en las mismas (comparar la proporción de voto
a un partido en dos regiones, comparar la proporción de parados entre hombres y
mujeres, ...). El problema se modeliza mediante dos variables de Bernoulli
independientes, de las que se dispone de sendas muestras aleatorias de
tamaño y , respectivamente.

26
Intervalo de confianza sobre la proporción poblacional

A partir del estadístico

se construye el intervalo

siendo el valor que en una distribución normal estándar deja a su derecha una
probabilidad de . Cuando se va a realizar una encuesta para estimar una
proporción, lo habitual es plantearse a priori obtener una cierta fiabilidad y precisión
en la estimación, buscando el tamaño muestral necesario para conseguirlas. La
longitud del intervalo de confianza para p resulta:

De aquí podremos calcular el valor de n en función de la longitud del intervalo, L, y


de su fiabilidad, 1- :

Adviértase que llegamos a un resultado en principio incongruente: queremos saber


cuántas observaciones tenemos que realizar para estimar p y para ello
necesitaremos conocer su estimación, valor que conoceremos una vez hayamos
realizado las observaciones. ¿Cómo solucionar este problema? Existen tres
posibles vías:

a) Si tuviésemos información (encuestas anteriores, opiniones de experto,...)


sobre el posible valor de la proporción a estimar, sustituiríamos este valor en
la anterior expresión.
b) Podríamos realizar una pequeña encuesta (encuesta piloto) que nos
proporcionase una primera evaluación de la proporción muestral. Además,
esta encuesta puede servir para probar y reformar el cuestionario, organizar
el trabajo de campo, etc.
c) Si no contásemos con información alguna ni tuviésemos la posibilidad de
realizar la encuesta piloto, nos pondríamos en la situación más desfavorable,

27
esto es, la que da lugar al tamaño muestral más grande para la fiabilidad y
precisión deseadas. Esa situación se produce cuando n alcanza su máximo,
lo cual ocurre cuando p=q=0.5.

En este caso, por otro lado el más habitual, resulta:

6.3 Prueba de hipótesis.

Una prueba de hipótesis es una regla que especifica si se puede aceptar o rechazar
una afirmación acerca de una población dependiendo de la evidencia proporcionada
por una muestra de datos.

Una prueba de hipótesis examina dos hipótesis opuestas sobre una población: la
hipótesis nula y la hipótesis alternativa. La hipótesis nula es el enunciado que se
probará. Por lo general, la hipótesis nula es un enunciado de que "no hay efecto" o
"no hay diferencia". La hipótesis alternativa es el enunciado que se desea poder
concluir que es verdadero de acuerdo con la evidencia proporcionada por los datos
de la muestra.

Con base en los datos de muestra, la prueba determina si se puede rechazar la


hipótesis nula. Usted utiliza el valor p para tomar esa decisión. Si el valor p es menor
que el nivel de significancia (denotado como α o alfa), entonces puede rechazar la
hipótesis nula.

Un error común de percepción es que las pruebas estadísticas de hipótesis están


diseñadas para seleccionar la más probable de dos hipótesis. Sin embargo, al
diseñar una prueba de hipótesis, establecemos la hipótesis nula como lo que
queremos desaprobar. Puesto que establecemos el nivel de significancia para que
sea pequeño antes del análisis (por lo general, un valor de 0.05 funciona
adecuadamente), cuando rechazamos la hipótesis nula, tenemos prueba
estadística de que la alternativa es verdadera.

En cambio, si no podemos rechazar la hipótesis nula, no tenemos prueba


estadística de que la hipótesis nula sea verdadera. Esto se debe a que no
establecimos la probabilidad de aceptar equivocadamente la hipótesis nula para
que fuera pequeña.

28
6.3.1 Errores tipo I y II.

El error que se comete cuando se rechaza una H0 verdadera se conoce como error
del tipo I (α). EI error del tipo II (β) se comete cuando no se rechaza una H0 falsa.
Siempre que se rechaza una H0 se tiene el riesgo de cometer un error del tipo I, al
rechazar una H0 verdadera; y siempre que no se rechaza, existe el riesgo de no
rechazar una H0 falsa. En general, aunque se dé un valor pequeño a α no se ejerce
control sobre β, aunque se sabe que en la mayoría de las situaciones practicas es
mayor que α. Es decir:

El error tipo I (error alfa) se comete cuando:

• Se concluye que hay diferencias cuando realmente no las hay.


• Se detecta significancia estadística p< 0.05 y se rechaza la H0 cuando en
realidad es verdadera.

La probabilidad de cometer este error es lo que mide el valor de p (P-Value)

El error tipo II (error beta) se comete cuando:

• Los resultados NO son significativos (p>0.05) y se concluye que no hay


diferencias, cuando realmente SI las hay y se acepta la H0 cuando en realidad
es falsa.

Nunca se sabe si se ha cometido o no uno de estos errores cuando se rechaza o


no una H0, ya que se desconoce el verdadero estado de las cosas. Si el
procedimiento de prueba conduce al rechazo de la H0, puede ser un consuelo el
hecho de que al dar un valor pequeño a α la probabilidad de cometer un error del
tipo I también lo es. Si no se rechaza la H0, no se conoce el riesgo concurrente de
cometer un error del tipo II, ya que por lo común se desconoce; pero como se ha
señalado, en la mayoría de situaciones prácticas se sabe que es mayor que α.

En resumen:

• Error Tipo I: es el nivel de significancia, denotado por la letra griega “a”, se define
como la probabilidad de “rechazar” la H0 cuando esta es
• Error Tipo II: es el valor predictivo, denotado por la letra griega “β”, se define
como probabilidad de “aceptar” la H0 cuando ésta es falsa. El procedimiento
29
busca fijar la probabilidad de cometer error Tipo I, α, y minimizar la probabilidad
de cometer error Tipo II, β.

6.3.2 Pasos para realizar una Prueba de Hipótesis.

Es un proceso en cinco pasos que siguen una secuencia lógica de acciones y


decisiones.

1. Plantear la hipótesis.

La prueba de hipótesis formula dos hipótesis estadísticas que deben anunciarse


explícitamente: hipótesis nula y alternativa. La primera, se designa por el símbolo
H0. Esta hipótesis se conoce también como la hipótesis de no diferencia, ya que es
una proposición de conformidad con (o sin diferencia respecto a) Características
que se suponen ciertas en la población de interés. Esta hipótesis siempre se opone
a la hipótesis del investigador. La segunda, identificada mediante el símbolo H1, es
una proposición que se creerá cierta si los datos de la muestra siguieren que llevan
al rechazo de la H0 es falsa. Por lo general, la H1 y la hipótesis de investigación
son la misma y, de hecho; se utilizan los dos términos indistintamente.

En general H0, esta se establece con el propósito expreso de ser rechazada. Si no


se rechaza, esto no necesariamente significa que es verdadera, se dirá que los
datos sobre los cuales se basa la prueba no proporcionan evidencia suficiente que
cause el rechazo. Por el contrario, si se rechaza se concluye que los datos
disponibles no son compatibles con la H0, pero sirven como apoyo a alguna otra
hipótesis. Rechazarla entonces, sugiere que la hipótesis alternativa puede ser
verdadera.

Aspectos importantes sobre H0 y H1

• H0 y H1 son mutuamente exclusivas y colectivamente exhaustivas, es decir; son


complementarias.
• H0 siempre se presume ser cierta y es la que debe ser comprobada.
• H1 es la conclusión a la que se desea o espera llegar como resultado de la En
consecuencia, el complemento de la conclusión se convierte en el enunciado de
la H0.
• Se utiliza una muestra aleatoria (n) para “rechazar H0”.
• Siempre, la igualdad es parte de H0 (“=”, “≥”, “≤”).
• Mientras que “≠” “<” y “>” siempre es parte de H1.

2. Establecer un nivel de significancia

30
Se ha señalado que la clave para la
inferencia estadística es la distribución
muestral. Es necesario recordar esto, en
los casos en que sea necesario
especificar la distribución de probabilidad
de la estadística de prueba. Por ejemplo,
la distribución de la estadística de prueba
por lo general; sigue una distribución
normal estándar (ver unidad anterior) si la H0 es verdadera y si satisface las
suposiciones. Todos los valores posibles que la estadística de prueba puede asumir
son puntos sobre el eje horizontal de la gráfica de la distribución para esta
estadística y se dividen en dos grupos: uno de ellos constituye lo que se conoce
como región de rechazo y el otro, forma la región de no rechazo.

La decisión en cuanto a que valores van hacia qué región se toma con base en el
nivel de significancia deseado, designado por α. Un valor calculado para la
estadística de prueba que cae dentro de la región de rechazo se dice que es
significativo.

Ejemplo, si tuviéramos un nivel o grado de confianza del 95% (0.95) entonces el


nivel de significancia sería del 5% (0.05) donde:

Nivel de confianza = (1- α)

Análogamente si se tiene un nivel de confianza del 90% entonces el nivel de


significancia sería del 10%. Dado que rechazar una H0 verdadera sería un error,
parece razonable que se deba hacer pequeña la probabilidad de cometerlo y, de
hecho; esto es lo que se hace. Se elige un valor pequeño de α para hacer que la
probabilidad de rechazo para una H0 sea pequeña. Los valores que se encuentran
con más frecuencia son: 0.01, 0.05 y 0.10.

La probabilidad de equivocarse al no
rechazar un H0 verdadera generalmente
es de 95%, puede ser 90 y 99%, esto se
conoce como el nivel de confianza. Por lo
tanto, la probabilidad de no equivocarse
al rechazar una H0 falsa generalmente es
de 80%, esto es el valor o grado predictivo
cuyo valor de β más comúnmente usado
es 0.2.

31
6.3.3 Prueba de hipótesis para una media.

Una prueba de hipótesis examina dos hipótesis opuestas sobre una población: la
hipótesis nula y la hipótesis alternativa. La hipótesis nula es la afirmación que se
está comprobando. Normalmente la hipótesis nula es una afirmación de "sin efecto"
o "sin diferencia".

La hipótesis alternativa es la afirmación que se desea ser capaz de concluir que es


verdadera basándose en la evidencia proporcionada por los datos de la muestra.
Sabe que prueba de hipótesis es un tema que requiere saber muchas cosas previas
(variable, parámetro, estadístico, estimador, distribuciones especiales cómo normal
y t de student, hipótesis estadísticas, etc).

Caso 1:

Si las condiciones son:

• La variable X tiene distribución normal


• Conocemos el desvío estándar poblacional σ

Entonces el estadístico que se usa es:

Caso 2:

Si las condiciones son (lo único que cambia es que no conocemos el desvío
poblacional):

• La variable X es normal
• No conocemos el desvío estándar poblacional σ, así que lo estimamos usando
el desvío estándar muestral S

Usamos:

La distribución es t de student con n-1 grados de libertad. Acá cuentan la anécdota


de por qué t de Student.

32
Caso 3:

Por último si las condiciones son:

• La variable X no sabemos que distribución tiene (puede ser cualquier


distribución)
• Conocemos el desvío estándar poblacional σ
• El tamaño de la muestra debe ser grande n ≥ 30

Usamos:

La distribución en este caso no es exactamente normal, sino APROXIMADAMENTE


normal.

¿Por qué? Porque tenemos que usar el teorema central del límite para conocer la
distribución de X. Y el teorema dice que X tiende a la distribución normal en la
medida en que n crece… pero no que tiene “exactamente” la distribución normal.

También se suele usar esta distribución aproximada si no se conoce σ

Entonces resumiendo:

33
6.3.4 Prueba de hipótesis para una proporción.

Las pruebas de proporciones son adecuadas cuando los datos que se están
analizando constan de cuentas o frecuencias de elementos de dos o más clases. El
objetivo de estas pruebas es evaluar las afirmaciones con respecto a una
proporción (o Porcentaje) de población.

Las pruebas se basan en la premisa de que una proporción muestral (es decir, x
ocurrencias en n observaciones, o x/n) será igual a la proporción verdadera de la
población si se toman márgenes o tolerancias para la variabilidad muestral.

En muchos aspectos, las pruebas de proporciones se parecen a las pruebas de


medias, excepto que, en el caso de las primeras, los datos muestrales se
consideran como cuentas en lugar de como mediciones. Por ejemplo, las pruebas
para medias y proporciones se pueden utilizar para evaluar afirmaciones con
respecto a:

1) Un parámetro de población único (prueba de una muestra)

2) La igualdad de parámetros de dos poblaciones (prueba de dos muestras)

3) La igualdad de parámetros de más de dos poblaciones (prueba de k muestras).

La metodología de prueba depende de si el número de observaciones de la muestra


es grande o pequeño. Como se habrá observado anteriormente, las pruebas de
grandes muestras de medias y proporciones son bastante semejantes. De este
modo, los valores estadísticos de prueba miden la desviación de un valor estadístico
de muestra a partir de un valor propuesto. Y ambas pruebas se basan en la
distribución normal estándar para valores críticos. Quizá la única diferencia real
entre las ambas radica en la forma corno se obtiene la desviación estándar de la
distribución de muestreo.

Esta prueba comprende el cálculo del valor estadístico de prueba Z

34
Posteriormente este valor es comparado con el valor de Z, obtenido a partir de una
tabla normal a un nivel de significación seleccionado. Como ocurrió con la prueba
de medias de una muestra, las pruebas de proporciones pueden ser de una o dos
colas.

La primera alternativa establece una prueba de cola derecha, la segunda, izquierda


y la tercera, una prueba de dos colas.

En otro ejemplo, en un estudio se afirma que 3 de 10 estudiantes universitarios


trabajan. Pruebe esta aseveración, a un nivel de significación de 0,025, respecto a
la alternativa de que la proporción real de los estudiantes universitarios trabajan es
mayor de lo que se afirma, si una muestra aleatoria de 600 estudiantes
universitarios revela que 200 de ellos trabajan. La muestra fue tomada de 10000
estudiantes.

35
Los datos son:

Como en los datos aparece el tamaño de la población, se debe verificar si el tamaño


de la nuestra es mayor que el 5%. Se remplaza valores en la siguiente fórmula:

36
Bibliografía.
https://www.ibm.com/mx-es/analytics/learn/linear-regression
https://www.cienciadedatos.net/documentos/24_correlacion_y_regresion_linea
https://www.aiteco.com/diagrama-de-
dispersion/#:~:text=El%20diagrama%20de%20dispersi%C3%B3n%20es,visualiz
ar%20e%20interpretar%20los%20datos.l
https://www.ccg.unam.mx/~vinuesa/R4biosciences/docs/Tema9_regresion.html
http://www4.ujaen.es/~dmontoro/Metodos/Tema%209.pdf
https://www.maximaformacion.es/blog-dat/que-es-la-correlacion-estadistica-y-
como-interpretarla/
https://www.jmp.com/es_mx/statistics-knowledge-portal/what-is-
correlation/correlation-coefficient.html
https://www.sdelsol.com/glosario/coeficiente-de-
determinacion/#:~:text=El%20coeficiente%20de%20determinaci%C3%B3n%20e
s,variable%20que%20se%20pretende%20explicar.
https://definicionesdepalabras.com/distribucion-bidimensional/
https://www.statisticshowto.com/bivariate-normal-
distribution/#:~:text=What%20is%20a%20Bivariate%20Normal,when%20both%2
0are%20added%20together.
https://www.superprof.es/diccionario/matematicas/estadistica/distribucion-
bidimensional.html#:~:text=Una%20distribuci%C3%B3n%20bidimensional%20es
%20aquella,puntos%20o%20diagrama%20de%20dispersi%C3%B3n.
https://support.minitab.com/es-mx/minitab/18/help-and-how-to/statistics/basic-
statistics/supporting-topics/basics/what-is-a-confidence-interval/
https://www.sdelsol.com/glosario/coeficiente-de-correlacion/
https://blogeducativope-t5.blogspot.com/2018/05/517-errores-de-medicion.html
https://www.studocu.com/es-mx/document/instituto-tecnologico-de-
tijuana/probabilidad/errores-en-la-medicion-probabilidad-y-estadistica-
estadistica-inferencial/20754221
https://es.wikipedia.org/wiki/Estad%C3%ADstica_aplicada
https://economipedia.com/definiciones/muestreo.html
https://www.questionpro.com/blog/es/tipos-de-muestreo-para-investigaciones-
sociales/

37
https://economipedia.com/definiciones/teorema-central-del-limite.html
http://www.hrc.es/bioest/esti_medias.html
https://www.victormat.es/mcs2/Tema12-
DistribucionesMuestrales/distribucin_muestral_de_proporciones.html#:~:text=La
%20distribuci%C3%B3n%20asociada%20a%20la,llama%20distribuci%C3%B3n
%20muestral%20de%20proporciones.&text=Como%20generalmente%20las%20
proporciones%20de,por%20las%20de%20la%20muestra.
https://economipedia.com/definiciones/estimacion.html
http://www.ub.edu/aplica_infor/spss/cap7-2.htm
http://www.rpsqualitas.es/documentacion/dowloads/quimiometria/estimacion_pun
tual_y_por_intervalos.pdf
https://www.bancofinandina.com/finanblog/noticias/2019/11/01/que-es-un-
intervalo-de-confianza-y-para-que-se-
utiliza#:~:text=Un%20intervalo%20de%20confianza%20estad%C3%ADstica,se%2
0localiza%20el%20par%C3%A1metro%20poblacional.
http://recursostic.educacion.es/descartes/web/materiales_didacticos/estimacion_p
or_intervalos/int_media.htm
http://www5.uva.es/estadmed/inferen/estima_inter/intervalos3.htm#dosproporcione
s
https://support.minitab.com/es-mx/minitab/18/help-and-how-to/statistics/basic-
statistics/supporting-topics/basics/what-is-a-hypothesis-test/
https://blogs.ugto.mx/enfermeriaenlinea/unidad-didactica-3-las-pruebas-de-
hipotesis/
https://www.addlink.es/noticias/minitab/2852-que-es-una-prueba-de-
hipotesis#:~:text=Una%20prueba%20de%20hip%C3%B3tesis%20es,nula%20y%
20la%20hip%C3%B3tesis%20alternativa.
https://probafacil.com/prueba-de-hipotesis-sobre-la-media-poblacional/
https://www.monografias.com/trabajos91/prueba-hipotesis-proporciones-z-y-ji-
cuadrado-empleando-excel-y-winstats/prueba-hipotesis-proporciones-z-y-ji-
cuadrado-empleando-excel-y-winstats

38

También podría gustarte