Analisis de Datos
Analisis de Datos
Analisis de Datos
ANÁLISIS DE DATOS
OBJETIVO GENERAL
Comprender y manejar los conceptos fundamentales de la estadística descriptiva, así como sus
aplicaciones para la solución de problemas.
OBJETIVOS ESPECIFICOS
CONTENIDO PROGRAMATICO
La Estadística es una ciencia formal que estudia la recolección, análisis e interpretación de datos, ya
sea para ayudar en la toma de decisiones o para explicar condiciones regulares o irregulares de algún
fenómeno o estudio aplicado, de ocurrencia en forma aleatoria o condicional. Es pos sí misma auxiliar
de las otras ciencias, además de ser el vehículo que permite llevar a cabo el proceso relacionado con la
investigación científica.
Es transversal a una amplia variedad de disciplinas, desde la física hasta las ciencias sociales, desde
las ciencias de la salud hasta el control de calidad. Se usa para la toma de decisiones en áreas
de negocios o instituciones gubernamentales.
La estadística se divide en dos grandes áreas:
La Estadística descriptiva, se dedica a la descripción, visualización y resumen de datos
originados a partir de los fenómenos de estudio. Los datos pueden ser resumidos numérica o
gráficamente, esto es , presentar la información de manera accesible a la lectura y poder extraer
un significado
La Estadística Inferencial, se dedica a la generación de los modelos, inferencias y predicciones
asociadas a los fenómenos en cuestión teniendo en cuenta la aleatoriedad de las observaciones.
Permite hacer generalizaciones limitadas a un contexto específico Se usa para modelar patrones
en los datos y extraer inferencias acerca de la población bajo estudio. Estas inferencias pueden
tomar la forma prueba de hipótesis, estimaciones de una característica numéricas pronósticos de
futuras observaciones, descripciones de asociación (correlación) o modelamiento de relaciones
entre variables (análisis de regresión). Otras técnicas de modelamiento incluyen anova, series de
tiempo y minería de datos.
Conceptos básicos
Población
La población es el conjunto de total elementos con características comunes que están delimitados en
espacio, lugar y tiempo y que son de interés para un estudio dado
Muestra
La muestra es el subconjunto o parte representativa de la población. La palabra representativa es la
clave, una buena muestra es aquella que refleja todas y cada una de las característica presentes en la
población de la cual fue tomada.
Estadísticos
Los estadísticos son los valores que caracterizan a la muestra
Variable estadística
La variable estadística son las características que se desean estudiar de los elementos de la población
Datos estadísticos
Los datos estadísticos son las distintas observaciones de la variable realizadas a cada uno de los
elementos de la población o muestra
Según su naturaleza:
Variable cualitativa: son aquellas características no cuantificables, que no toman valores
numéricos. Ejemplo: índice socioeconómico, género, profesión, color de los ojos, grupo
sanguíneo, entre otras.
Variable cuantitativa: son aquellas características cuantificables, que toman valores
numéricos. A su vez las variables cuantitativas pueden clasificarse en:
Variable cuantitativa discreta: son aquellas características cuantificables que sus datos
sólo pueden tomar un conjunto finito o numerable de valores, es decir, sólo se
representan con números enteros.(número de hijos, número de materia que cursa, etc.)
Variable cuantitativa contínua: son aquellas características cuantificables que sus
datos pueden tomar cualquier valor en un intervalo numérico finito o infinito, es decir,
se representan con números enteros y decimales. (edad, peso, índice académico, etc.)
La medición incluye la evaluación, un proceso mediante el cual las cosas se diferencian. No está
limitada al uso de instrumentos altamente desarrollados y refinados. Desde luego, termómetros, metros
y cronómetros pueden utilizarse para medir de manera precisa temperatura, distancia y tiempo.
Las escalas o niveles de medición se utilizan para medir variables o atributos. Por lo general, se
distinguen cuatro escalas o niveles de medición: nominal, ordinal, intervalos y escalas de proporción,
cociente o razón. Las dos primeras (nominal y ordinal) se conocen como escalas categóricas, y las dos
últimas (intervalo y razón) como escalas numéricas. Las escalas categóricas se usan comúnmente para
variables cualitativas, mientras que las numéricas son adecuadas para la medición de variables
cuantitativas.
Nominal
Una variable cualitativa presenta una escala Nominal cuando a las categorías de la variable se les
asignan un nombre (de ahí lo de «nominal»). Es la escala más elemental de las escala de medida. En
esta escala los nombres que se emplean en la aplicación de la escala nominal de medida no necesitan
ser nombres (alfabéticos o alfanuméricos) en el sentido estricto de la palabra. También se pueden
utilizar números o numerales. Con las escalas nominales (categóricas), los números asignados es una
codificación (cuadro 1) que definen cada categoría distinta y sirven meramente como etiquetas o
códigos identificadores.
Ejemplo:
Las observaciones no pueden ser ordenadas de menor a mayor o de pequeño a grande, es decir,
ninguna de las categorías tiene mayor jerarquía que la otra, únicamente están reflejando diferencias en
la variable.
En esta escala se tienen dos o más categorías del ítem o variable medida. Las variables nominales
que incluyen dos categorías se denominan dicotómicas, como por ejemplo, el sexo (masculino o
femenino). Las variables con tres o más categorías se denominan policotómicas. Son ejemplos de estas
variables las siguientes: filiación política, carrera elegida, raza, canal de televisión preferido,
ocupación, etc.
Ordinal
Una variable cualitativa presenta una escala de medición ordinal cuando las observaciones pueden
colocarse en un orden relativo con respecto a la característica que se evalúa, es decir, las categorías de
datos están clasificadas u ordenadas de acuerdo con la característica especial que poseen. Aquí, las
etiquetas o símbolos de las categorías sí indican jerarquía. Si le asignamos números a cada categoría
estamos codificándolas y la magnitud de estos no es arbitraria sino que representa el orden del rango
del atributo observado. Se supone un continuo subyacente en los números de modo que las relaciones
típicas son, en este caso, «más alto que», «mayor que» o «preferible a».
Desde el punto de vista matemático se pueden establecer las relaciones «mayor que, >», «menor
que, <» e «igual a, =».
Como ejemplos de variables que presentan escala ordinal: índice socio-económico, categoría
académica del profesor, rango militar.
Intervalo
Las variables cuantitativas presentan escala de intervalo cuando sus valores numéricos establecen
intervalos iguales en la medición (las distancias entre categorías son las mismas a lo largo de toda la
escala). Además que presenta como propiedades:
el cero (0) es un valor arbitrario, no representa ausencia de la característica medida;
representa un punto conveniente del cual se marcan intervalos de igual magnitud para
construir la escala. Este punto podría colocarse en cualquier posición dentro del rango
posible de la variable que se mide. La medición de la temperatura en una escala de grados
Centígrados o Fahrenheit constituye una medición por intervalos típica. La elección del
origen (cero) es arbitraria, no implica que realmente haya cero (ninguna) temperatura
(incluso en ambas escalas el cero es diferente).
Toma valores numéricos positivos y/o negativos, esto es, toma valores en el conjunto de los
números reales.
Distancia iguales entre valores.
Desde el punto de vista matemático, las escalas de intervalo admiten el uso de cualquiera de las
operaciones básicas de la matemática, cálculo de proporciones, porcentajes y razones; además, permite
estimar estadísticos como: la media aritmética, mediana, moda, rangos y desviación estándar.
Las variables cuantitativas presentan escala de Razón cuando además de integrar las propiedades de
las ordinales y de intervalo (intervalos iguales entre categorías y aplicación de las operaciones
aritméticas básicas y sus derivaciones), presenta el carácter absoluto del cero, no es arbitrario. Es decir,
el cero representa la ausencia de la característica en cuestión; en consecuencia, los números pueden
compararse como proporciones y nos permite indicar cuántas veces es más grande un objeto que otro,
además de señalar la cantidad en que difieren.
Desde el punto de vista matemático, las variables con escala de razón admiten el cálculo de todo tipo
de operaciones aritméticas, obtener razones y proporciones, así como la estimación de un buen número
de estimadores estadísticos.
ORGANIZACIÓN DE DATOS
Distribuciones de frecuencias
Una vez recolectados toda la información relacionada con las variables en estudio, surge la
necesidad de presentar esa información de manera resumida, con la finalidad de describir el fenómeno
en estudio, comprender el comportamiento de las variables, establecer patrones y tendencias. Para ello
es necesario que conozcamos como organizar los datos cuando la variable es cualitativa o cuando la
variable es cuantitativa.
Es a esta organización de los datos lo que conoceremos como Distribución o Tabla de frecuencias,
y la definiremos como una representación conjunta y ordenada de los datos, en forma de tabla,
correspondiente a un fenómeno en estudio y su ordenamiento es con base al número de observaciones
que corresponden a cada dato. Además este ordenamiento se realizará según el tipo de variable (Cuadro
3).
Ahora bien, para comprender los aspectos relacionados con la construcción de las Tablas de
frecuencias, es necesario en primer lugar conocer algunos conceptos asociados a este objeto estadístico
(Tabla de frecuencias), como son: clase, frecuencia absoluta, frecuencia absoluta acumulada,
frecuencia relativa y frecuencia relativa acumulada.
Clase:
Representa los grupos alrededor de los cuales se van a ordenar los datos.
Frecuencia absoluta:
Representa el número de veces que se repite un dato o una clase, la denotaremos fi.
Frecuencia relativa:
Es la representación porcentual de la frecuencia absoluta de cada clase y se obtiene de multiplicar el
cociente entre la frecuencia absoluta y el tamaño de la muestra por cien. La denotaremos fr. Esta se
obtiene a través de una regla de tres, de la cual resulta la siguiente expresión:
fi
fr * 100
n
La Distribución o Tabla de Frecuencias pueden ser tanto para variables cualitativas como para
variables cuantitativas
En estas distribuciones cada dato de la variable mantiene su propia identidad. Veamos a través de un
ejemplo su construcción.
Ejemplo 1.
matemática, química, química, castellano, inglés, matemática, castellano, inglés, física, química,
física, matemática, matemática, química, castellano, química, matemática, física, inglés, física,
matemática, física, inglés, inglés, castellano, química, física, matemática, química, inglés,
Estadística aplicada a la Educación 2015 UPEL- Maracay 9
Ing.. Julia Elena Sanoja de Ramírez Dpto. de Matemática
matemática, inglés, matemática, castellano, inglés, química, física, matemática, inglés, física,
matemática, química, química, inglés, física, física, matemática, inglés, química, castellano,
química, química, matemática, química, inglés, física, matemática, física, inglés, matemática,
castellano, inglés, castellano, física.
1. Primero debemos identificar cuantos datos distintos tenemos, es decir de acuerdo a las datos que
presenta la variable, buscaremos cuantas materias distintas hay:
2. Una vez que identificamos los datos existentes, procederemos a empezar a construir la tabla de
frecuencias para la variable: MATERIA PREFERIDA:
2.1.Para ello comenzaremos por escribir en la columna de CLASE el nombre de las materias
identificadas.
2.2.Seguidamente contaremos cuantas veces se repite cada una de las materias en los datos. Esto es
buscar la frecuencia absoluta
Se repite
el valor
15
fr * 100 23,44
64
2.5. Por último se debe determinar la frecuencia relativa acumulada, tomando en cuenta su
conceptualización. Para ello se realiza un procedimiento similar al de la frecuencia absoluta
acumulada, con la diferencia que aquí estamos es acumulando (sumando) las frecuencias
relativas.
Ejemplo 2
Construir la distribución de frecuencias de la variable TIEMPO (en horas) que dedican los
estudiantes de una Universidad a actividades extra-curriculares. Para ello se les pregunto a 84
estudiantes y sus respuestas fueron:
23 13 18 16 15 19 20 25 22 38 16 22 26 33
29 10 12 31 16 13 24 22 20 21 10 14 21 17
14 11 16 22 24 26 25 20 15 16 43 15 22 37
11 12 25 33 24 35 25 31 21 12 35 16 22 26
15 22 34 30 15 24 38 30 25 23 24 38 36 29
18 15 32 34 25 21 20 35 14 36 17 26 32 23
10 10 11 11 12 12 12 13 13 14 14 14 15 15
15 15 15 15 16 16 16 16 16 16 17 17 18 18
19 20 20 20 20 21 21 21 21 22 22 22 22 22
22 22 22 23 23 24 24 24 24 24 25 25 25 25
25 25 26 26 26 26 29 29 30 30 31 31 32 32
33 33 34 34 35 35 35 36 36 37 38 38 38 43
Esto nos permite observar que la variable toma valores comprendidos entre 10 y 43, de los cuales se
tienen 84 datos. Entonces, para poder presentarlos de manera resumida a través de la tabla de
frecuencias, debemos conocer algunos conceptos los cuales los iremos presentando en la medida que
vamos desarrollando el ejercicio:
R V max V min UM
Ahora bien, la unidad de medida (UM) en una distribución de frecuencias se obtiene al realizar la
diferencia de dos datos consecutivos de la variable. No siempre la unidad de medida (UM) será uno (1).
En algunos casos, los valores de los datos de la variable pueden estar expresados en decimales, para
ello veremos los siguientes ejemplos
Vmax 43
Vmin 10
UM 1
Número de clases:
Es el número de grupos en los que se va a presentar a todos los datos de la variable. Lo denotaremos
NC.
Para calcular el número de clases (NC) emplearemos el método que Herbert Sturges propuso en
1926, conocido comúnmente como la regla de Sturges, en el que estableció:
1. 𝑁𝐶 = 1 + 3,3 log(𝑛)
2. En esta regla Sturges establece dos condiciones:
- El número de clases (NC) debe ser un número entero.
- El número entero obtenido da una aproximación del número de clases que deben formarse;
esto es, una clase más o una clase menos alrededor de ese número entero.
- El número de clases (NC) debe ser un número comprendido entre 5 y 15. Esto es, si hacemos
una distribución con menos de 5 clases estaríamos aglomerando los datos y se corre el riesgo
de perder características de la variable, y luego si se realiza una distribución de frecuencias
con más de 15 clases, ésta perdería su función básica como es la de resumir la información
pertinente a la variable y presentarla como para que se pueda analizar e interpretar, visualizar
su comportamiento.
NC 1 3.3 log84
NC 7,35
Por lo tanto el número de clases puede oscilar entre 5, 6 ó 7, de acuerdo a lo que estableció Sturges.
En vista de ello, para efectos de este ejemplo trabajaremos con:
NC 5
Pero al considerar lo que establece la teoría, el intervalo de clase para la distribución de frecuencias
de la variable TIEMPO:
A7
Límites de clase:
Son los valores mínimo y máximo que indican el recorrido de la clase, y estos se denominan Límite
Inferior (LI) y Límite Superior (LS).
Ahora bien, el límite superior de la clase se obtienen de la suma del límite inferior de la clase más el
intervalo de clase:
𝐿𝑆 = 𝐿𝐼 + 𝐴
Aquí es importante resaltar que se están construyendo clases abiertas por el límite superior, esto
quiere decir que cuando se vaya a buscar la frecuencia absoluta de la clase contaremos los datos desde
aquel dato igual al límite inferior hasta el datos inferior en una unidad de medida (UM) al límite
superior establecido.
Para la primera clase, siempre el límite inferior (LI) va a ser igual al Valor mínimo (Vmin) de la
variable. Así como se debe estar muy pendiente que el límite superior de la última clase debe ser
superior al Valor Máximo (Vmax) de la variable por lo menos en una Unidad de Medida (UM).
Ahora bien, retomando los datos ordenados y tomando en cuenta que para el resto de las columnas
procedemos de manera similar a como se hizo para la variable cualitativa.
Para determinar la frecuencia absoluta de cada clase, hemos identificado en los datos ordenados el
grupo de datos para cada una de las cinco (5) clases establecidas (para ello hemos jugado con los tipos
de letras, cursiva y negrilla, intercalándolas, así como para cada grupo se han eliminado las líneas
verticales y horizontales en las celdas para simular el grupo). Ya con esto podemos contar cuántos
datos tiene cada clase.
10 10 11 11 12 12 12 13 13 14 14 14
15 15 15 15 15 15 16 16 16 16 16 16
17 17 18 18 19 20 20 20 20 21 21 21
21 22 22 22 22 22 22 22 22 23 23 24
24 24 24 24 25 25 25 25 25 25 26 26
26 26 29 29 30 30 31 31 32 32 33 33
34 34 35 35 35 36 36 37 38 38 38 43