Ensayo 2

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 10

INSTITUTO TECNOLÓGICO SUPERIOR DE PANUCO VERACRUZ.

GESTIÓN EMPRESARIAL.

PROBABILIDAD Y ESTADÍSTICA.

DISTRIBUCION DE LAS PROBABILIDADES: CONTINUA Y DISCRETA

CURSO: 3 Er SEMESTRE GRUPO G303

ELABORADO POR:
Yajaira Milagros Rivera Cabrales.

DOCENTE Américo Ríos Morales.

ENSAYO
CAPÍTULO 1
Muestreo y distribuciones en el
muestreo

1.1. INTRODUCCIÓN
Anteriormente hemos estudiado conceptos fundamentales, como eran el concepto de variable
aleatoria y su distribución de probabilidades, estudiamos diferentes modelos de distribuciones
tanto de tipo discreto como de tipo continuo y analizábamos sus características básicas (media,
varianza, etc.). A partir de ahora estaremos interesados en saber qué modelo sigue la
población, y para ello nos basaremos en la información que se obtenga de un subconjunto o
parte de esa población que llamaremos muestra.

Cuando realizamos una introducción general de la estadística decimos que uno de los objeti-
vos fundamentales es el obtener conclusiones basándonos en los datos que se han observado, pro-
ceso que se conoce con el nombre de inferencia estadística, es decir utilizando la información
que nos proporciona una muestra de la población se obtienen conclusiones o se infieren valores
sobre características poblacionales.
En este capítulo daremos una serie de conceptos básicos que serán fundamentales para el
desarrollo posterior de la inferencia estadística.

1.2. MUesTRa aleaTORIa


Sabemos que hay diferentes métodos para investigar u observar una población (observación
exhaustiva o censo, subpoblación, muestra y observación mixta), aquí nos vamos a referir a la
observación parcial mediante una muestra y diremos que se ha investigado la población a partir
de una muestra cuando los elementos que componen la muestra no reúnen ninguna característica
esencial que los diferencie de los restantes, representando, por tanto, a toda la población. Las con-
clusiones sacadas de la muestra se pueden inferir o extender a la población total. Así por ejemplo,
supongamos que deseamos conocer el precio medio o valor medio de las viviendas en una zona
de Madrid en el año 2017. Para conocer la característica precio de la vivienda en esa zona, nece-
sitaríamos saber el precio de venta de cada una de las viviendas vendidas durante ese período
de tiempo y el precio por el cual cada propietario vendería la suya. Esta lista completa de
viviendas con sus precios, constituye la población en la que estamos interesados, cuya
característica, precio medio de la vivienda o media poblacional, deseamos conocer. Pero, en
ésta y en otras muchas situaciones prácticas no será posible o no será fácil, por diversas
razones el obtener la población entera en la cual estamos interesados. Sin embargo, sí
podemos obtener la información necesaria, precio de la vivienda, para una muestra
representativa de la población y a partir de la cual inferir y obtener conclusiones para toda la
población total.
La muestra debe de ser representativa de toda la población y, por tanto, tendrá características
similares a las que se observarían en la población entera, de tal manera que si observando los
precios de las viviendas que han sido incluidas en la muestra resulta que el precio medio de las
viviendas de la muestra, media muestral x̄ ¯, ha resultado ser 240.000 unidades monetarias podre-
mos inferir que la media poblacional precio medio de la vivienda en toda la población o zona que
estamos considerando está en torno a 240.000 unidades monetarias.
La razón principal para investigar una muestra en lugar de la población completa es que la
recogida de la información para toda la población daría lugar a un coste muy elevado tanto en
recursos económicos como en tiempo. Incluso en ciertos casos en que los recursos fueran sufi-
cientes para investigar la población completa, puede ser preferible el investigar sólo una muestra
muy representativa, concentrando sobre ella un mayor esfuerzo para obtener medidas más pre-
cisas de las características que nos interesen. De esta forma se puede evitar lo que algunas veces
ocurre en las grandes operaciones censales, por ejemplo, en el censo decenal de población de los
Estados Unidos, en donde se investigó toda la población, se observó que ciertas características
y grupos poblacionales estaban muy poco representados, lo cual era debido a la problemática
que lleva consigo una gran operación censal, tanto por el volumen de cuestionarios como por la
cantidad de información.
Cuando se selecciona una muestra de una población, un objetivo fundamental es el poder hacer
inferencias sobre características poblacionales u obtener conclusiones que sean válidas para toda
la población. Por tanto, es muy importante que la muestra sea representativa de la población; así
pues la calidad de la inferencia o conclusión obtenida a partir de la muestra, sobre las diferentes
características poblacionales estará directamente relacionada con la representatividad de la mues-
tra. Por ejemplo, supongamos que un director comercial desea conocer la opinión sobre un nuevo
producto de limpieza. No sería correcto que limitara la correspondiente encuesta a sus amigos
y a las personas que viven en su barrio, pues tales personas no reflejarían la opinión de toda la
población ya que la muestra no sería representativa de toda la población, ni aleatoria. Para evitar
estos problemas y poder realizar una inferencia correctamente sobre toda la población a partir de
una muestra es necesario que se verifique la representatividad y la aleatoriedad de la muestra.

Un objetivo básico en muestreo es seleccionar una muestra que garantice con un costo razo-
nable una buena representatividad de la población.
El procedimiento de selección de la muestra puede conducir a diferentes tipos de muestreo,
como veremos al estudiar el muestreo en poblaciones finitas. Aquí nos vamos a referir a un solo
tipo de muestreo, aunque inicialmente consideremos dos:
— muestreo con reemplazamiento, y
— muestreo sin reemplazamiento.
El muestreo con reemplazamiento consiste en seleccionar, por mercanismos aleatorios,
los elementos de la población que entran a formar parte de la muestra, pero de tal manera que
cuando se observa la característica, que estamos investigando, del primer elemento seleccio-
nado, se devuelve el elemento a la población, se selecciona el segundo elemento entre todos
los elementos de la población, se anota la característica que se está investigando y se devuelve
a la población, y así sucesivamente. Este procedimiento permite que un elemento de la pobla-
ción pueda ser seleccionado en más de una ocasión para formar parte de una muestra, pues la
selección se realiza con reemplazamiento, es decir, con devolución del elemento seleccionado
a la población.

En el muestreo sin reemplazamiento, los elementos de la población que entran a formar


parte de la muestra también se seleccionan aleatoriamente, pero después de observar la carac-
terística que estamos investigando no se devuelve el elemento de nuevo a la población, con lo
cual no pueden volver a ser seleccionados como ocurría en el muestreo con reemplazamiento.
Así pues, si tenemos una población de N elementos y queremos seleccionar una muestra de
tamaño n resulta que la probabilidad de que un elemento de la población sea seleccionado en
1 , en ambos tipos de muestreo.
la primera extracción para formar parte de la muestra será
N
Sin embargo, en la selección del segundo elemento las probabilidades son diferentes, pues en el

muestreo con reemplazamiento continúa siendo 1 , ya que el número de elementos de la pobla-


N
ción sigue siendo N, pero en el muestreo sin reemplazamiento el tamaño de la población es N – 1,
pues el primer elemento seleccionado no se devuelve a la población y entonces la probabilidad de

seleccionar un elemento concreto será: 1 . Vemos pues que en el muestreo con reempla-
N–1
zamiento la probabilidad de seleccionar uno a uno los n elementos de la muestra permanece
constante y en el muestreo sin reemplazamiento no sucede lo mismo ya que en cada extracción
no se devuelve el elemento a la población y ésta va disminuyendo a medida que se selecciona la
muestra, siendo los tamaños poblacionales N , N – 1, N – 2, …, N – (n – 1).

Luego, la probabilidad de seleccionar una muestra concreta de n elementos será:

1ª 2ª nª

extracción extracción extracción
1 1 1
Muestreo con reemplazamiento N … N
N 1
1
N N–1
1
Muestreo sin reemplazamiento …
N –n+1
Si el tamaño de la población es infinito o muy grande, entonces el tamaño de la muestra n en
comparación con ese tamaño N infinito o muy grande de la población es prácticamente
despreciable, y entonces no existe diferencia significativa entre ambos tipos de muestreo.
En consecuencia, a partir de ahora nos vamos a referir a poblaciones de tamaño infinito o
muy grandes, de tal manera que no haremos distinción ni referencia alguna a que el muestreo
sea con reemplazamiento o sin reemplazamiento pues la diferencia existente entre ambos será
irrelevante para nuestro estudio. No obstante hemos de tener en cuenta que si el tamaño N de la
población es finito y realizamos un muestreo con reemplazamiento entonces le daremos el mis-
mo tratamiento que si la población fuese de tamaño infinito, pues como hemos visto también
dan lugar a un conjunto de variables aleatorias independientes e idénticamente distribuidas,
es decir, a muestras aleatorias simples. Una muestra aleatoria simple de tamaño n de una
población X está constituida por un conjunto de n-variables aleatorias X,1 …, X independien-
n
tes e idénticamente distribuidas a la población X, es decir está constituida por un conjunto de
observaciones muestrales independientes e idénticamente distribuidas.
Definimos a continuación de manera formal el concepto de muestra aleatoria simple con el
que trabajamos en Inferencia estadística.

Definición 1.1.Muestra aleatoria simple.

Sea X la variable aleatoria correspondiente a una población con función de distribu-


ción F(x). Si las variables aleatorias X, 1X, …,
2 X sonnindependientes y tienen la misma
función de distribución, F(x), que la de la distribución de la población, entonces las varia-
bles aleatorias X,1 X, 2…, X forman
n un conjunto de variables aleatorias independientes
e idénticamente distribuidas que constituyen una muestra aleatoria simple de tamaño n
de la población F(x).1

Al ser las variables aleatorias X,


1 X,2 …, X independientes,
n resulta que la función de distribución
conjunta será igual al producto de las funciones de distribución marginales, es decir:

n
F ( x1, ...,xn ) = ∏ F(xi)
i =1

Si la población de partida es tipo discreto entonces la función de probabilidad de la muestra será:

n n
P(X1 = x1, ..., X n = xn ) = ∏ P ( X = xi ) =

Pi
i =1 i =1
Si la muestra aleatoria simple procede de una población de tipo continuo con función de den-
sidad f (x), entonces la función de densidad de la muestra será:

n
f ( x1, …, xn ) = ∏ f ( xi)
i =1

1.3. paRáMeTROs pOblaCIONales y


esTaDísTICOs MUesTRales
En general diremos que los parámetros poblacionales son las características numéricas
de la población. En concreto, un parámetro es una caracterización numérica de la distribu-
ción de la población. El conocimiento del parámetro permite describir parcial o totalmente la
función de probabilidad de la característica que estamos investigando. Así por ejemplo, si la
característica a investigar sabemos que sigue una distribución exponencial de parámetro a,
su función de densidad será:

{
– ax
ae x>0
f (x) =
0 x≤0

pero esta función de densidad no estará totalmente descrita hasta que no se dé el valor del pará-
metro a, y entonces será cuando podremos formular preguntas concretas sobre esa distribución,
es decir, podremos calcular las diferentes probabilidades.
Si la característica a investigar sigue una distribución normal, N(μ, σ), cuya función de
densidad es:

1 ( x–µ)2

1
f ( x) =
2 · σ2
e
σ 2

observamos que aparecen dos parámetros μ y σ, que no se han especificado, y para describir
totalmente la función de densidad tendremos que dar valores a los dos parámetros μ y σ,
pues si damos valor a un solo parámetro entonces diremos que está descrita parcialmente.
En la mayoría de los modelos probabilísticos nos encontraremos parámetros cuyos valores
tendremos que fijar para especificar completamente el modelo y poder calcular las probabilida-
des deseadas2. De manera más concreta podemos decir que uno de los problemas centrales en
estadística se nos presenta cuando deseamos estudiar una población con función de distribución
F(x, θ), donde la forma de la función de distribución es conocida pero depende de un parámetro θ
desconocido, ya que si θ fuese conocido tendríamos totalmente especificada la función de distri-
bución. Si el parámetro θ no se conoce, entonces se selecciona una muestra aleatoria simple1 (X,
…, X) nde tamaño n de la población, y se calcula para las observaciones de la muestra el valor
de alguna función g(x,1 …, x),nque representa o estima el parámetro desconocido θ. El problema
es determinar qué función será la mejor para estimar el parámetro θ, lo cual será resuelto en el
capítulo dedicado a la estimación.
A continuación exponemos el concepto de estadístico que es fundamental para estimar los
parámetros poblacionales, pues los estimaremos mediante estadísticos definidos a partir de las
observaciones de una muestra aleatoria.

Definición 1.2.Estadístico.

Un estadístico es cualquier función real de las variables aleatorias que integran la


muestra, es decir, es una función de las observaciones muestrales, la cual no contiene
ningún valor o parámetro desconocido.

Continuando con la población de función de distribución F(x, θ), en donde θ es un paráme-


tro desconocido, y considerando una muestra aleatoria simple, (X, 1 …, X),nconstituida por n
variables aleatorias independientes e idénticamente distribuidas, podemos definir algunos es-
tadísticos o funciones de esas variables aleatorias, como por ejemplo:

g(1X1,..., Xn)= X X
1+ ... + n

g(2X1,..., Xn)= X X
2 2
1
+ ... + n

+ ... +( –
g(3X1,..., Xn)= (X X ) n X X )
2 2
– 1 n

los cuales se determinan totalmente a partir de las observaciones muestrales.


En general un estadístico T lo representaremos como3:

T = g(X,1…, X) n

es decir, como una función g de las observaciones muestrales, que a su vez será también una va-
riable aleatoria, pues para cada muestra el estadístico T tomará una valor diferente, así pues para
una muestra concreta (x,1 …, x)n el estadístico tomará el valor:
T = g(x,1…, x) n

y a medida que vamos tomando muestras diferentes se obtienen distintos valores del estadístico,
resultando que efectivamente el estadístico T es también una variable aleatoria y por consiguiente
tendrá su correspondiente distribución, a la que llamaremos distribución muestral del estadís‑
tico, como veremos posteriormente.
Vemos pues que un parámetro y un estadístico son conceptos muy diferentes, pues el parámetro
es una constante y cuando se conoce determina completamente el modelo probabilístico, sin em-
bargo el estadístico es una variable aleatoria cuyo valor dependerá de las observaciones muestrales.
En diferentes ocasiones se han estudiado medidas numéricas correspondientes a conjuntos de
datos, así pues estudiamos, entre otras, la media y la desviación típica. Ahora vamos a distinguir
entre medidas numéricas calculadas con conjuntos de datos poblacionales y las calculadas con
datos muestrales. Así pues, si la medida numérica se calcula para el conjunto de datos poblacio-
nales le llamaremos valor del parámetro poblacional y si se calcula para el conjunto de datos
muestrales, le llamaremos valor del estadístico muestral.

Definición 1.3.Parámetros media, varianza y proporción poblacional.4

En una población finita de tamaño N los parámetros poblacionales media, varianza


y proporción poblacional vienen dados por:4

N
1
µ = ∑ Xi [1.1]
N i =1
N

1∑
2
σ =
N i=1
( X 1 – µ)2 [1.2]

X número de éxitos en N pruebas


p= =
N número de pruebas [1. 3]
Definición 1.4.Estadístico media, varianza y proporción muestral.

Para una muestra aleatoria simple de tamaño n, ( X 1, …, X n) los estadísticos media,


varianza y proporción muestral se definen como:
n
X =1
n Xi
∑ [1.4]
i=1

n
1
n – 1∑(
Xi – X )
2 2
S = [1.5]
i=1

X número de éxitos en n pruebas


Px = = [1. 6 ]
n número de pruebas

El estadístico varianza muestral, S2, se puede formular también mediante las siguientes
expresiones algebraicas:

( (∑ )
)
n 2
2i Xi
(∑ X )= n1– 1
n n
1 2
S2 = – nX ∑ X2i– i=1
n–1 i=1 i =1 n

En efecto para ver la equivalencia de la expresión [1.5] con la [1.7], consideramos el numera-
dor de la [1.5] y tendremos:

n n

∑ ( Xi – X ) = ∑ (Xi – 2X i X + X )
2 2 2

i=1 i=1
n

n n

= ∑ X2i– 2X ∑ X i + ∑ X 2
i=1 i=1 i=1
n

= ∑ X2i– 2X ( n X+)n X 2
i=1

(∑ X i)2
n

n n
i=1
= ∑ X2i– nX2 = ∑ X2i –
i =1 i =1 n

Si en lugar de considerar las n variables aleatorias, independientes e idénticamente distribui-


das (X,1 …, X), nque constituyen la muestra aleatoria simple, consideramos una muestra concreta
(x,1 …, x) entonces
n los valores de estos estadísticos muestrales son:
n
1
x = n ∑xi
i=1 [1.9]
1 2
s2=
n –1
( xi – x ) [1.10]
x
p= [1.11]
n

Luego vemos que efectivamente el estadístico es una función de las observaciones muestra-
les, y en estos casos asigna a cada muestra observada la media de los valores, la varianza o la
proporción, respectivamente5.

1.4. FUNCIÓN De DIsTRIbUCIÓN eMpíRICa


Sabemos que la función de distribución de una variable aleatoriaX estaba definida como:

F ( x )= P(X≤ x )
y puede representar la proporción de valores que son menores o iguales que x.
De manera similar podemos definir la función de distribución empírica para una muestra.

Definición 1.5.Función de distribución empírica de la muestra.

Consideremos una población con función de distribución F(x) y sean (x , … , x) los


valores observados correspondientes a una muestra aleatoria simple procedente de esa
po- blación, y designamos por N(x) el número de valores observados que son menores o
iguales que x. Entonces definimos la función de distribución empírica de la muestra, que
la notaremos porn F(x), como:

N(x)
Fn( x ) = [1.1 2]
n

También podría gustarte