Interpretación Estadística Tatiana y Melisa

Descargar como docx, pdf o txt
Descargar como docx, pdf o txt
Está en la página 1de 21

Interpretación estadística acerca de los datos obtenidos

Melisa Giraldo Ospina

39086

Tatiana Ríos Cárdenas

39180

Estadística l

Yehidy Brand

Universidad de Caldas

Facultad de ciencias sociales y jurídicas

Programa de Administración Financiera

Manizales

2023
Índice

1. Introducción
2. Antecedentes
3. Justificación
4. Conceptos
 Moda
 Población
 Muestra
 Variable cuantitativa seleccionada
 Rango
 Medidas de tendencia central
 Varianza muestral
 Coeficientes de variación
 Tabla de Frecuencia
5. Gráficas y su respectiva interpretación
6. Comandos usados en R
7. Conclusiones
8. Referencias.
Introducción

La comprensión de conceptos estadísticos es fundamental para el análisis preciso y la


descripción de datos. Estos conceptos permiten realizar estudios confiables y obtener
conclusiones significativas. Para el desarrollo de este proyecto, se tomó una base de datos de
una fuente confiable de internet, en la que incluye algunos productos básicos del hogar, con
relación a su costo unitario, como también los países que los consumen, los canales de venta
de los usuarios, entre otras variables. También se tomaron algunos conceptos estadístico
fundamentales; la moda es una medida estadística que nos permite identificar los valores más
frecuentes en un conjunto de datos, la población, por su parte, engloba a todos los individuos o
elementos que deseamos estudiar, y para obtener conclusiones sobre ella, a menudo se utiliza
una muestra representativa seleccionada de manera adecuada.

En el análisis estadístico, las variables cuantitativas son características numéricas o


medibles que varían entre los elementos de la población o muestra. El rango, por otro lado, es
una medida de dispersión que nos proporciona una idea de la amplitud y variabilidad de los
datos al indicar la diferencia entre el valor máximo y mínimo de una variable cuantitativa. Las
medidas de tendencia central, como la media, mediana y moda, nos permiten resumir y
comprender la distribución de los datos. Por otro lado, la varianza muestral y la desviación
estándar son medidas que cuantifican la dispersión de los datos alrededor de la media.

Mientras que la varianza muestral mide la dispersión en sí misma, la desviación estándar


nos brinda una medida de dispersión en las mismas unidades de la variable. El coeficiente de
variación es una medida de dispersión relativa que resulta especialmente útil para comparar la
variabilidad entre diferentes conjuntos de datos. Por último, las representaciones gráficas son
herramientas visuales eficaces para resumir y comunicar información estadística de manera
clara. Estas gráficas nos permiten visualizar la distribución de los datos, identificar patrones y
tendencias, facilitando así la interpretación de los resultados obtenidos a partir del análisis
estadístico.

En este documento estadístico, se definirán estos conceptos y su aplicación práctica para


analizar conjuntos de datos y obtener conclusiones fundamentadas mediante el uso del
programa R, el cual fue quien nos brindó las herramientas para analizar las medidas
estadísticas y gráficas de forma concisa y clara para de esta manera poder obtener información
clara y significativa.

Antecedentes

La estadística descriptiva tiene sus orígenes en civilizaciones antiguas que realizaban


censos y recopilaban datos sobre poblaciones y eventos. Sin embargo, el desarrollo formal de
la estadística descriptiva como disciplina matemática comenzó en el siglo XVIII, con el
trabajo de estadísticos y matemáticos como Carl Friedrich Gauss y Adolphe Quetelet.

La interpretación de datos es esencial en la estadística descriptiva, ya que permite extraer


significado y comprender el contexto de los resultados. Esto nos ayuda a formular
conclusiones, tomar decisiones informadas y generar conocimiento sobre el fenómeno que se
está estudiando.

El concepto de moda, introducido por Adolphe Quetelet en el siglo XIX, permite


identificar los valores más frecuentes en un conjunto de datos, revelando patrones o
características dominantes en una distribución. La población, cuyo estudio se remonta a los
censos antiguos, fue desarrollada por estadísticos como Francis Galton y Karl Pearson,
reconociendo la importancia de comprender las características de un conjunto completo de
individuos para realizar inferencias sobre la población en general.

Por otro lado, el concepto de muestra surgió en el siglo XVIII, cuando matemáticos y
estadísticos desarrollaron métodos para seleccionar muestras representativas y obtener
estimaciones confiables sobre las características de una población. Las variables cuantitativas,
permiten una descripción numérica precisa de los fenómenos estudiados, facilitando su
interpretación.

El rango, como medida de dispersión, se reconoció como una forma sencilla pero útil de
cuantificar la variabilidad y dispersión de los datos. Las medidas de tendencia central, como la
media, mediana y moda, fueron desarrolladas en el siglo XIX y se han utilizado ampliamente
en diversos campos para identificar el centro o posición central de los datos.
La varianza muestral y la desviación estándar, preocupaciones centrales en la estadística,
cuantifican la variabilidad y dispersión de los datos en relación con la media. El coeficiente de
variación, una medida de dispersión relativa, permite comparar la variabilidad de diferentes
conjuntos de datos con diferentes unidades de medida.

Finalmente, las representaciones gráficas, como histogramas, gráficos de barras y


diagramas de dispersión, han sido herramientas visuales eficaces para resumir y comunicar
información estadística de manera clara y concisa, facilitando la visualización de la
distribución de los datos y la identificación de patrones, tendencias o valores atípicos. Estos
conceptos se han desarrollado y perfeccionado a lo largo del tiempo, permitiendo realizar
análisis estadísticos confiables y obtener conclusiones significativas.

Justificación

El presente proyecto estadístico, tiene como objetivo principal analizar, interpretar y


describir los datos brindados por R basado en la base de datos sobre las ventas a estudiar. A
razón de que, por medio del análisis estadístico, es posible identificar y comprender mejor las
relaciones existentes en los datos, lo que puede ser útil para tomar decisiones y plantear
estrategias efectivas.

La estadística proporciona herramientas y técnicas que permiten obtener conclusiones


basadas en evidencia. A través del análisis de datos y la aplicación de métodos estadísticos
adecuados, se podrá generar información confiable y fundamentada, lo cual es esencial para
respaldar cualquier afirmación o argumento. Al recopilar y analizar datos relevantes
Conceptos

Moda

En el contexto del presente proyecto estadístico relacionado con la variable "productos", la


moda nos proporcionaría información sobre qué productos son los más comunes o populares
en el conjunto de datos analizado. Esto puede ser útil para comprender las preferencias o
tendencias de los consumidores en relación con los productos. También podríamos identificar
si hay algún producto particularmente popular o si existen categorías de productos que son
más demandadas que otras.

Población

En el contexto de la estadística, la población estadística se refiere al conjunto completo de


elementos que estamos estudiando. En este caso, la población estadística serían todos los
países del mundo. Sin embargo, la muestra estadística seleccionada para este caso específico
consiste en una selección de países de los continentes Asia, América, África, Europa y
Oceanía. Esta muestra se ha elegido debido a que estos continentes albergan a los principales
compradores de productos para el hogar.

Muestra

La muestra estadística seleccionada para este caso consiste en los países de los continentes
Asia, América, África, Europa y Oceanía, que se destacan como los principales compradores
de productos para el hogar.

Variable cuantitativa en la que nos basamos

La variable cuantitativa elegida a trabajar es el “Costo Unitario”, el cual es definido como


una medida financiera que se utiliza para calcular el costo por unidad de un producto o
servicio. En nuestro proyecto estadístico el costo unitario es el valor promedio que se le da a
un volumen de producción en nuestro caso, a los productos del hogar y cuánto cuesta producir
una unidad de cada uno de los productos indicados en la variable.
Llevando la variable a un contexto real y aplicable, para ejemplificar de una mejor manera
estos datos, el costo unitario es importante en la gestión de costos y en la toma de decisiones
empresariales. Permite determinar el precio de venta de un producto, analizar la rentabilidad
de un proyecto o producto, evaluar la eficiencia de la producción y comparar diferentes
opciones de producción o proveedores.

Rango

El rango estadístico es una medida numérica que representa la amplitud o diferencia entre
el valor máximo y mínimo de una población o muestra estadística. En otras palabras, el rango
es la distancia entre el valor más alto y el más bajo en un conjunto de datos. Esta medida es
útil para comprender la dispersión o variabilidad de los datos, ya que proporciona información
sobre el alcance completo de los valores observados. Cuanto mayor sea el rango, mayor será
la variabilidad en los datos.

El rango estadístico de una variable cuantitativa se calcula restando el valor máximo de la


variable al valor mínimo. En este caso en particular, nos referimos al “Costo Unitario”

“> max (b, na.rm = TRUE ) - min (b, na.rm = TRUE )”

Medidas de tendencia central

Las medidas de tendencia central son utilizadas para resumir y describir el conjunto de
datos, y pueden proporcionar información sobre el valor central o típico de un conjunto de
datos. Las tres medidas de tendencia central más comunes son la media, la mediana y la moda.

Se hizo uso de los siguientes comandos para hallarlo:

#medidas de tendencia central

mean(b)#media

median(b)#mediana

mode <- function(b) {

return(as.numeric(names(which.max(table(z)))))#moda

Lo cual como resultado obtuvimos lo siguiente:


“Min. 1st Qu. Median Mean 3rd Qu. Max. NA's 6.92 35.84 97.44 184.77 364.69 524.96 1”

Valor mínimo (Min.): 6.92

Primer cuartil (1st Qu.): 35.84

Mediana (Median): 97.44

Media (Mean): 184.77

Tercer cuartil (3rd Qu.): 364.69

Valor máximo (Max.): 524.96

Estas medidas de tendencia central proporcionan información sobre la distribución y el


valor central de los datos. La media es más alta que la mediana, lo que indica la presencia de
valores atípicos o sesgo hacia los valores más altos.

Varianza muestral poblacional

La varianza muestral es una medida estadística que se utiliza para describir la dispersión de
un conjunto de datos respecto a su media muestral en un proyecto estadístico. Se calcula como
la suma de los cuadrados de las diferencias entre cada valor de la muestra y la media muestral,
dividida por el tamaño de la muestra menos uno.

Formula: s2=n−1∑i=1n(xi−xˉ)2

Desviación estándar

La desviación estándar se puede definir como otra medida estadística que se utiliza para
describir la dispersión de un conjunto de datos en un proyecto estadístico. Es una medida más
comúnmente utilizada que la varianza, ya que se expresa en las mismas unidades que los datos
originales, lo que facilita la interpretación.
Coeficientes de variación

Por último, el coeficiente de variación es una medida estadística que se utiliza para expresar la
variabilidad relativa de un conjunto de datos en relación con su media muestral y para
comparar la dispersión de diferentes conjuntos de datos que pueden tener escalas o unidades
de medida distintas.

El coeficiente de variación se calcula dividiendo la desviación estándar de los datos por la


media muestral y luego multiplicando el resultado por 100 para obtener un porcentaje.

CV=(xˉs)×100
Frecuencia absoluta

Frecuencia relativa

Aplicación de graficas.

El eje X muestra los nombres de los productos, que incluyen "alimento infantil",
"cárnicos", "cereales", "cosméticos", "doméstico", "frutas", "ropa", "snacks" y "verduras". El
eje Y representa la frecuencia absoluta, que va desde 0 hasta 35, con incrementos de 5.
Según la gráfica se puede interpretar lo siguiente: en la gráfica de barras muestra la
frecuencia absoluta de diferentes productos, donde los productos cárnicos, la ropa y las
verduras son los más representados en la muestra, seguidos de cerca por las frutas y los
cosméticos. Los productos de alimento infantil y cereales también tienen una presencia
significativa, mientras que los productos domésticos y los snacks tienen una presencia
relativamente menor.
La gráfica circular muestra los porcentajes de diferentes productos en la muestra. Los
cereales tienen el mayor porcentaje con un 10%, seguidos de los productos cárnicos,
domésticos, ropa y snacks, todos ellos con un 9% cada uno. Los productos de cuidado
personal, cosméticos, verduras y material de oficina representan el 8% cada uno. Las frutas
representan el 7% y las bebidas el 6%. Cabe destacar que no se registró ningún dato para el
alimento infantil en la muestra.

El gráfico de barras titulado "Canales" muestra que el canal offline es superior al canal
online en términos de su relevancia o frecuencia. Esto podría indicar que el canal offline es
más utilizado, preferido o tiene una mayor influencia en comparación con el canal online.
El diagrama circular muestra que el "offline" representa el 53% de la distribución, mientras
que el "online" representa el 47%. Esto sugiere que el "offline" tiene una mayor proporción
o presencia en comparación con el "online"
El diagrama circular de costos unitarios muestra los datos de esta variable expresados en
porcentajes. Cada fracción del diagrama representa los diferentes valores de "Costos
Unitarios" para cada producto de la muestra.
El gráfico de barras titulado "Costo Unitario" representa la magnitud de cada variable
definida a través de la frecuencia absoluta. La barra de color morado corresponde a la
frecuencia absoluta del histograma de productos, el color verde representa la frecuencia del
diagrama de caja, y el color rojo muestra la frecuencia acumulada, que es la más alta de todas.
El Histograma de producto nos representa gráficamente como podemos observar, la
distribución de frecuencias de un conjunto de datos continuos o discretos agrupados en
intervalos.

En el cual nos indica principalmente que la frecuencia absoluta es mayor en los valores
numéricos del 0 al 100
El grafico del diagrama de caja representa de manera resumida la distribución de un
conjunto de datos y proporciona información sobre su posición central, dispersión y presencia
de valores atípicos.

El diagrama de caja se construye a partir de algunas medidas como: mediana, cuartiles, etc.
El gráfico denominado Histograma B representa una variable única, en este caso, la
distribución de frecuencia de los datos de la variable "b", la cual corresponde al "Costo
unitario". Cada intervalo de la variable se representa mediante una barra en el gráfico."
La ojiva es un gráfico que representa visualmente la distribución acumulada de frecuencias de
una variable que estamos estudiando. De manera horizontal se encuentran los intervalos y de
manera vertical se muestra la frecuencia acumulada. Cada punto rojo en el gráfico representa
la frecuencia acumulada de la variable 'Costo Unitario' y también indica la mediana de estos
datos.
Conclusiones

 Al momento de realizar un estudio estadístico, es importante tener claro qué base de


datos utilizaremos, así como la población y muestra que vamos a estudiar. También es
crucial determinar cuáles variables son cuantitativas y cuáles son cualitativas, ya que
esto influirá en las variables que utilizaremos en el aplicativo estadístico "R".
 Es recomendable trabajar con una muestra de datos pequeña, ya que esto facilitará un
estudio estadístico más preciso y eficiente. Además, nos permitirá calcular medidas
como la moda, la mediana, la media y el rango de manera más precisa. Asimismo, las
gráficas resultantes serán más fáciles de interpretar y visualizar.
 El software R nos brinda la posibilidad de realizar diversos análisis estadísticos.
Mediante comandos, podemos tener un control completo del programa, convirtiéndolo
en un lenguaje estadístico.
Referencias

https://repositorio.unal.edu.co/bitstream/handle/unal/80064/1059705148.2021.pdf?
sequence=3&isAllowed=y

http://132.248.164.227/publicaciones/docs/apuntes_matematicas/34.%20Estadistica
%20Descriptiva.pdf

https://www.researchgate.net/publication/257443564_HISTORIA_DE_LA_ESTADISTICA

https://www.r-project.org/

También podría gustarte