DCDD

UNIVERSIDAD DOMINICANA O&M
INGENIERIA EN SISTEMAS Y COMPUTACION
Asignatura:
Diseño de centro de datos
Tema:
Octava tarea
Elaborado por:
Rafciely A. Martínez Díaz
Matricula:
20-SISN-8-005
Maestro:
WILLY ANTONIO RODRIGUEZ

DISEÑO DE CENTROS DE DATOS
ANÁLISIS CLUSTER (AGRUPACIÓN DE DATOS

PARA EFECTUAR LA SEGMENTACIÓN)
1. ¿Qué es el agrupamiento de datos o clustering?
El agrupamiento de datos, también conocido como clustering, es una técnica

de análisis de datos que divide un conjunto de datos en grupos o "clusters"
con características similares. El objetivo es organizar los datos de forma que
los elementos dentro de cada grupo sean lo más homogéneos posible,
mientras que los elementos entre diferentes grupos sean lo más heterogéneos
posible.
2. ¿Qué es un algoritmo de agrupamiento de datos?
Un algoritmo de agrupamiento de datos es un conjunto de instrucciones que se
utiliza para dividir un conjunto de datos en clusters. Existen diferentes
algoritmos con diferentes enfoques y estrategias para la agrupación. Algunos
algoritmos populares incluyen:
• K-means: Divide los datos en un número predefinido de clusters.
• Agrupamiento jerárquico: Crea una jerarquía de clusters,
combinando o dividiendo clusters de forma gradual.
• DBSCAN: Encuentra clusters basados en la densidad de puntos en el
espacio de datos.
3. ¿Cómo se caracterizan los algoritmos de agrupamiento de datos?

Pueden ser categorizados de varias maneras, por ejemplo, por suː
• Modelo de grupo
• Eficiencia computacional o velocidad de cómputo
• Eficacia en el problema específico
En adelante se listan solamente los algoritmos más prominentes, ya que
existen más de 100 publicados. No todos proporcionan modelos para sus
grupos y por esto pueden no ser fácil categorizarlos. No existe un algoritmo
de agrupamiento "correcto", como se pudo haber notado, "el agrupamiento
está en el ojo del observador".
4. En que ramas de la ciencia podemos aplicar el agrupamiento de datos
o clustering
El clustering se aplica en una amplia variedad de áreas, incluyendo:
• Marketing: Segmentar clientes para campañas personalizadas.
• Medicina: Identificar grupos de pacientes con características similares.
• Finanzas: Detectar patrones de fraude.
• Biología: Clasificar genes o proteínas.
• Ciencia de materiales: Identificar diferentes tipos de materiales.
5. ¿Qué es una frecuencia?

Frecuencia es un concepto fundamental en física que se refiere al número de
veces que se repite un evento o fenómeno en un intervalo de tiempo
determinado. Imagina que tienes un péndulo que se balancea hacia adelante y
hacia atrás. La frecuencia sería la cantidad de veces que el péndulo completa un
ciclo completo (ida y vuelta) en un segundo.
¿Cómo se mide la frecuencia?
La unidad de medida para la frecuencia es el Hertz (Hz). Un Hertz equivale a un

ciclo por segundo. Por ejemplo, si un péndulo se balancea 5 veces por segundo,
su frecuencia es de 5 Hz.
6. Que es una frecuencia acumulada
La frecuencia acumulada nos indica cuántas veces, como máximo, se ha
observado un determinado valor o uno menor a él en un conjunto de datos. Es
decir, vamos sumando las frecuencias a medida que avanzamos en los valores,
obteniendo así un valor acumulado.
La frecuencia acumulada es muy útil en estadística descriptiva, ya que nos

permite:
 Visualizar la distribución de los datos: Nos ayuda a entender cómo se

concentran los valores en un conjunto de datos.
 Calcular otros indicadores estadísticos: Como los percentiles, que nos
indican el valor por debajo del cual se encuentra un cierto porcentaje de
los datos.
 Construir gráficos: Como los polígonos de frecuencia acumulada o las
ojiva, que facilitan la interpretación visual de los datos.
7. ¿Qué es una frecuencia relativa acumulada?
La frecuencia relativa acumulada nos indica la proporción de datos que son
menores o iguales a un determinado valor dentro de un conjunto de datos. Es
decir, vamos sumando las frecuencias relativas (expresadas como porcentajes o
decimales) a medida que avanzamos en los valores, obteniendo así un
porcentaje acumulado.
8. ¿Que son los limites (Contexto datos)?
En el contexto de los datos, los límites se refieren a los valores extremos o
extremos de un conjunto de datos. Estos valores marcan el inicio y el final de
un rango numérico dentro del cual se encuentran todos los datos.
9. ¿Que son las fronteras (Contexto datos)?
En el contexto de datos, las "fronteras" se refieren a los valores que separan los
intervalos o clases en una distribución de frecuencias. Las fronteras aseguran
que cada valor de datos se asigne de manera única a una clase específica, sin
ambigüedades. Este concepto es especialmente importante cuando se trabaja
con datos continuos.
10. ¿Qué es la amplitud (Contexto datos)?
La amplitud, en el contexto de los datos, se refiere a la dispersión o variabilidad
de un conjunto de datos. Es una medida que nos indica cuán extendidos están
los valores de una variable dentro de un conjunto de datos. En otras palabras, la
amplitud nos da una idea de qué tan grandes son las diferencias entre el valor
más alto y el valor más bajo de un conjunto de datos.
11. Marca de clase (Contexto datos)
En estadística, especialmente cuando trabajamos con datos agrupados en
intervalos, la marca de clase representa el punto medio de cada intervalo. Es
decir, es el valor que se encuentra exactamente en el centro de ese rango de
valores.
Dato el siguiente cuadro de las alturas de estudiantes, hacer una
distribución de frecuencia
ALTURA
FRECUENCIA
FRECUENCI
(Pulg) A FRECUENCIA RELATIVA
HAST ESTUDIANTE
DESDE A S RELATIVA ACUMULADA ACUMULADA
60 62 5 0.05 6 0.06
63 65 18 0.18 24 0.24
66 68 42 0.42 66 0.66
69 71 27 0.27 93 0.93
72 74 8 0.08 101 1.01
100 1 0
Agrupar los siguientes datos sobre ventas contenido en el siguiente cuadro:
MES VENDE ARTIC VENTAS
DOR ULOS
LA VEGA Rafael 67 85,966.00
SANTIAGO Isabel 53 47,047.00
SAMANA Gloria 57 66,004.00
SALCEDO Arturo 72 78,120.00
DAJABON Silvia 49 82,142.00
COTUI David 25 32,951.00
BONAO Luisa 35 31,672.00
MONTE CRISTI Gerardo 46 65,135.00
SANTIAGO Isabel 83 59,289.00
LA VEGA Rafael 62 33,666.00
250000
200000
BONAO
COTUI
150000 DAJABO
N
LA
VEGA
100000
MONTE
CRISTI
SALCED
50000 O
0 SAMANA
SANTIA
GO

DCDD

Cargado por

DCDD

Cargado por

UNIVERSIDAD DOMINICANA O&M

INGENIERIA EN SISTEMAS Y COMPUTACION

WILLY ANTONIO RODRIGUEZ

ANÁLISIS CLUSTER (AGRUPACIÓN DE DATOS

El agrupamiento de datos, también conocido como clustering, es una técnica

3. ¿Cómo se caracterizan los algoritmos de agrupamiento de datos?

5. ¿Qué es una frecuencia?

La unidad de medida para la frecuencia es el Hertz (Hz). Un Hertz equivale a un

La frecuencia acumulada es muy útil en estadística descriptiva, ya que nos

 Visualizar la distribución de los datos: Nos ayuda a entender cómo se

También podría gustarte