Mpi PDF

DESARROLLO DE APLICACIONES PARALELAS PARA CLUSTERS
UTILIZANDO MPI (MESSAGE PASSING INTERFACE)
Bernal C. Iván, Mejía N. David y Fernández A. Diego
Escuela Politécnica Nacional

Quito-Ecuador
Resumen1 de un cluster es la compartición de recursos:

ciclos de CPU (Central Processing Unit),
En la actualidad, es factible disponer de alta memoria, datos y servicios.
capacidad computacional mediante clusters
de computadoras personales independientes, Los clusters están conformados por
de bajo costo, interconectadas con computadoras genéricas con uno o más
tecnologías de red de alta velocidad, y procesadores, denominados nodos. Dichos
empleando software de libre distribución. nodos pueden estar dedicados exclusivamente
a realizar tareas para el cluster, por lo que no
El aparecimiento de la computación paralela requieren de monitor, teclado o mouse; o
permitió que emerjan métodos de pueden estar dedicados a diferentes
programación que hagan posible la actividades y se utilizarán los ciclos libres del
implementación de algoritmos, utilizando procesador para realizar las tareas que
recursos compartidos: procesador, memoria, requiera el cluster.
datos y servicios.
La idea de los clusters tomó impulso en los
Este artículo presenta las ideas básicas 90s, cuando se dispuso de microprocesadores
involucradas en el desarrollo de aplicaciones de alto rendimiento, redes de alta velocidad, y
paralelas, presentando aspectos relacionados herramientas estándar para computación
a lenguajes de programación que proveen distribuida (Message Passing Interface, MPI,
soporte para desarrollo de aplicaciones Parallel Virtual Machine, PVM ([1], [2])) y a
paralelas a través de librerías de paso de costos razonables. Pero también el desarrollo
mensajes. Se presentan las diferentes de los clusters fue impulsado por deficiencias
alternativas de librerías de paso de mensajes, de los Sistemas Multiprocesador Simétricos
su arquitectura y algunas consideraciones de (Symmetric MultiProcessors, SMPs [3]). Las
diseño de aplicaciones. También se presenta grandes máquinas SMP son costosas,
una aplicación que permite resolver Cadenas propietarias, tienen un único punto de falla, no
de Markov y que fue ejecutada sobre un están ampliamente disponibles, y sufren de
cluster construido con la herramienta NPACI problemas de escalabilidad, en términos de
Rocks, y se presentan los resultados número de procesadores y capacidad de
obtenidos al ejecutar la aplicación. memoria. Según [4], los sistemas SMP más
grandes conocidos, escalan hasta alrededor
1. Introducción a los clusters de 128 CPUs.
Un cluster es una solución computacional En 1994, T. Sterling y D. Becker, trabajando

conformada por un conjunto de sistemas en CESDIS (Center of Excellence in Space
computacionales muy similares entre si (grupo Data and Information Sciences) bajo el
de computadoras), interconectados mediante patrocinio del Proyecto de la Tierra y Ciencias
alguna tecnología de red de alta velocidad, del Espacio (ESS), construyeron un cluster de
configurados de forma coordinada para dar la computadoras que consistía de 16
ilusión de un único recurso; cada sistema procesadores 486DX4, usando una red
estará proveyendo un mismo servicio o Ethernet a 10Mbps, con un costo de $40,000.
ejecutando una (o parte de una) misma El rendimiento del cluster era de 3.2 Gflops.
aplicación paralela. La característica inherente Ellos llamaron a su sistema Beowulf, un éxito
inmediato, y su idea de proporcionar sistemas
1
[email protected], en base a COTS (Components Of The Shelve)
[email protected], para satisfacer requisitos de cómputo
[email protected] específicos, se propagó rápidamente a través
de la NASA y en las comunidades académicas supercomputadoras hasta clusters de
y de investigación. En la actualidad, muchos estaciones de trabajo.
clusters todavía son diseñados, ensamblados
y configurados por sus propios operadores; sin MPI es una especificación de paso de
embargo, existe la opción de adquirir clusters mensajes, diseñada para ser el estándar de
prefabricados. computación paralela de memoria distribuida
usando paso de mensajes. Esta interfaz
Existen paquetes de software que automatizan intenta establecer un estándar práctico,
el proceso de instalación, de configuración y eficiente, portátil y flexible para el paso de
de administración de un cluster, denominados mensajes.
toolkits. Este conjunto de paquetes permite
configurar un cluster completo en una fracción 2. Clasificación de los clusters
del tiempo que tomaría el hacerlo de forma
manual. Estos toolkits, para instalación El término cluster tiene diferentes
automática de clusters, pueden incluir una connotaciones para diferentes grupos de
distribución de Linux; mientras que otros se personas. Los tipos de clusters, establecidos
instalan sobre una instalación existente de en base al uso que se de a los clusters y los
Linux. Sin embargo, incluso si primero se debe servicios que ofrecen, determinan el
instalar Linux, los toolkits realizan la significado del término para el grupo que lo
configuración e instalación de los paquetes utiliza.
requeridos por el cluster de forma automática.
Del conjunto de toolkits existentes se pueden 2.1 High Performance
mencionar a NPACI Rocks [5] y a OSCAR [6]. Para tareas que requieren gran poder
computacional, grandes cantidades de
NPACI (National Partnership for Advanced memoria, o ambos a la vez.
Computational Infrastructure) Rocks es una Las tareas podrían comprometer los
colección de software de código abierto para recursos por largos períodos de
crear un cluster sobre Red Hat Linux. Rocks tiempo.
instala tanto Linux como software para
clusters. La instalación toma unos pocos 2.2 High Availability
minutos. Máxima disponibilidad de servicios.
Rendimiento sostenido.
OSCAR es una colección de software de
código abierto que se instala sobre una 2.3 High Throughput
instalación existente de Linux (Red Hat, Independencia de datos entre las
Mandrake, Mandriva, Fedora). tareas individuales.
El retardo entre los nodos del cluster
Los programas desarrollados para clusters no es considerado un gran problema.
usualmente están escritos en C o en Fortran, y La meta es el completar el mayor
utilizan librerías de paso de mensajes para número de tareas en el tiempo más
realizar operaciones paralelas; también corto posible.
pueden hacer uso de librerías matemáticas
para resolución de problemas que involucren Los clusters se los puede también clasificar
matrices, derivación e integración compleja. como Clusters de IT Comerciales (High
Availability, High Throughput) y Clusters
Las librerías para paso de mensajes permiten Científicos (High Performance) [4]. A pesar de
escribir programas paralelos eficientes, las discrepancias a nivel de requerimientos de
proveen rutinas para inicializar y configurar el las aplicaciones, muchas de las características
ambiente de mensajes, así como para enviar y de las arquitecturas de hardware y software,
recibir paquetes de datos. Los sistemas más que están por debajo de las aplicaciones en
populares de paso de mensajes son: PVM todos estos clusters, son las mismas. Más
(Parallel Virtual Machine) del Laboratorio aun, un cluster de determinado tipo, puede
Nacional Oak Ridge y MPI (Message Passing también presentar características de los otros.
Interface) definido por el Foro MPI.
3. Herramientas de Desarrollo para
PVM es una librería de paso de mensajes. Aplicaciones
Puede usarse para desarrollar y ejecutar
aplicaciones paralelas en sistemas que están Mediante la implementación de tareas
dentro del rango que va desde paralelas es posible proveer solución a ciertos
problemas computacionales de cálculos maestro y los nuevos hilos ejecutan de forma
intensivos. concurrente la sección paralela (realizan
trabajo compartido). Unirse al grupo (join) es el
El paralelismo se puede implementar mediante procedimiento donde al finalizar la ejecución
una aproximación del modelo cliente–servidor, de la región de código paralelo los hilos
llamado maestro–esclavo (master–worker). En adicionales se suspenden o se liberan, y el hilo
el modelo maestro-esclavo se divide el maestro retoma el control de la ejecución. Este
problema computacional en tareas método se conoce como fork & join.
independientes, el maestro coordina la
solución del problema computacional, En la Figura 1 se indica como un hilo maestro
asignando tareas independientes al resto de encuentra una sección de código paralelo y
procesos (esclavos). crea hilos adicionales para ejecutar dicha
sección. Una vez realizadas las tareas de
El maestro realiza la asignación inicial de las ejecución, el hilo maestro retoma el control del
tareas a los esclavos, realiza sus tareas y programa.
espera por la finalización del procesamiento de
las tareas en los esclavos, para proceder a
recopilar los resultados desde los esclavos.
Para escribir programas paralelos, se puede

hacer uso del modelo de paso de mensajes,
con PVM o MPI, o se puede utilizar un modelo
de memoria compartida, con OpenMP.
La diferencia entre el modelo de paso de

mensajes y el modelo de memoria compartida
está en el número de procesos o hilos activos.
En un modelo de paso de mensajes, durante
la ejecución del programa, todos los procesos
se encuentran activos. Por el contrario, en un
modelo de memoria compartida, sólo existe un
hilo activo al iniciar y al finalizar el programa; Figura 1. Modelo de ejecución fork & join
sin embargo, durante la ejecución del
programa, la cantidad de hilos activos puede
variar de forma dinámica. 3.2. PVM
3.1. OpenMP PVM fue desarrollado a principios de los 90s,
por el Laboratorio Nacional Oak Ridge, en
OpenMP es un conjunto de librerías para C y Estados Unidos.
C++, regidas por las especificaciones ISO/IEC
(International Standard Organization - PVM se encuentra disponible para sistemas
International Engineering Consortium), basado Linux o Windows NT/XP. PVM está disponible
en el uso de directivas para ambientes para los lenguajes C, C++ y Fortran.
paralelos.
PVM es un conjunto de herramientas y
OpenMP tiene soporte para diferentes librerías. Está compuesto de dos partes: de un
sistemas operativos como UNIX, Linux, y proceso demonio y de librerías basadas en
Windows. rutinas. El proceso demonio se denomina
pvmd3.
Un programa escrito con OpenMP inicia su
ejecución, en un sólo hilo activo, llamado La interfaz de la librería PVM contiene las
maestro. El hilo maestro ejecuta una región de primitivas necesarias para la cooperación
código serial antes de que la primera entre las tareas de una aplicación. Define las
construcción paralela se ejecute. Bajo el API rutinas para paso de mensajes, sincronización
de OpenMP la construcción paralela se de tareas y creación de procesos.
obtiene mediante directivas paralelas. Cuando
se encuentra una región de código paralelo, el Las implementaciones de PVM para los
hilo maestro crea (fork) hilos adicionales, lenguajes de programación C y C++ utilizan
convirtiéndose en el líder del grupo. El hilo una interfaz con funciones basadas en las
convenciones del lenguaje C, que permiten En MPI se define un comunicator como una
acceder a sus diferentes librerías. En el colección de procesos, los cuales pueden
lenguaje Fortran, la funcionalidad de PVM se enviar mensajes el uno al otro; el comunicator
implementa como subrutinas en lugar de básico se denomina MPI_COMM_WORLD y
funciones. se define mediante un macro del lenguaje C.
MPI_COMM_WORLD agrupa a todos los
3.3. MPI procesos activos durante la ejecución de una
aplicación.
La primera versión del estándar MPI aparece
en Mayo de 1994. A mediados de 1995, Las llamadas de MPI se dividen en cuatro
aparece la Versión 1.1, en la cual se clases:
agregaron algunas aclaraciones y 1. Llamadas utilizadas para inicializar,
refinamientos. Las Versiones 1.0 y 1.1 fueron administrar y finalizar comunicaciones.
diseñadas para los lenguajes C y Fortran 77. 2. Llamadas utilizadas para transferir
datos entre un par de procesos.
En Marzo de 1995, se extendió la versión 3. Llamadas para transferir datos entre
original con la creación del estándar MPI varios procesos.
Versión 2. La Versión 2 incluye la 4. Llamadas utilizadas para crear tipos
implementación para C++ y Fortran 90. de datos definidos por el usuario.
MPI no es un lenguaje de programación, es un La primera clase de llamadas permiten

conjunto de funciones y macros que inicializar la librería de paso de mensajes,
conforman una librería estándar de C y C++, y identificar el número de procesos (size) y el
subrutinas en Fortran. rango de los procesos (rank). La segunda
clase de llamadas incluye operaciones de
MPI ofrece un API, junto con especificaciones comunicación punto a punto, para diferentes
de sintaxis y semántica que explican como sus tipos de actividades de envío y recepción. La
funcionalidades deben añadirse en cada tercera clase de llamadas son conocidas como
implementación que se realice (tal como operaciones grupales, que proveen
almacenamiento de mensajes o operaciones de comunicaciones entre grupos
requerimientos para entrega de mensajes). de procesos. La última clase de llamadas
MPI incluye operaciones punto a punto y provee flexibilidad en la construcción de
colectivas, todas destinadas a un grupo estructuras de datos complejos.
específico de procesos.
En MPI, un mensaje está conformado por el
MPI realiza la conversión de datos cuerpo del mensaje, el cual contiene los datos
heterogéneos como parte transparente de sus a ser enviados, y su envoltura, que indica el
servicios, por medio de la definición de tipos proceso fuente y el destino. En la Figura 2 se
de datos específicos para todas las muestra un mensaje típico de MPI.
operaciones de comunicación. Se pueden
tener tipos de datos definidos por el usuario o Envoltura Cuerpo
primitivos. Rango del Rango del

Etiqueta Comunicador Cuenta
Tipo
receptor transmisor de dato
4. Fundamentos de MPI Figura 2. Formato de un mensaje de MPI
Con MPI el número de procesos requeridos se El cuerpo del mensaje en MPI se conforma por
asigna antes de la ejecución del programa, y tres piezas de información: buffer, tipo de dato
no se crean procesos adicionales mientras la y count. El buffer, es la localidad de memoria
aplicación se ejecuta. donde se encuentran los datos de salida o
donde se almacenan los datos de entrada. El
A cada proceso se le asigna una variable que tipo de dato, indica el tipo de los datos que se
se denomina rank, la cual identifica a cada envían en el mensaje. En casos simples, éste
proceso, en el rango de 0 a p-1, donde p es el es un tipo básico o primitivo, por ejemplo, un
número total de procesos. número entero, y que en aplicaciones más
avanzadas puede ser un tipo de dato
El control de la ejecución del programa se construido a través de datos primitivos. Los
realiza mediante la variable rank; la variable tipos de datos derivados son análogos a las
rank permite determinar que proceso ejecuta estructuras de C. El count es un número de
determinada porción de código. secuencia que junto al tipo de datos permiten
al usuario agrupar ítems de datos de un mismo
tipo en un solo mensaje. MPI estandariza los 4.2. Llamadas utilizadas para transferir
tipos de datos primitivos, evitando que el datos entre dos procesos
programador se preocupe de las diferencias
que existen entre ellos, cuando se encuentran Ls transferencia de datos entre dos procesos
en distintas plataformas. se consigue mediante las llamadas MPI_Send
y MPI_Recv. Estas llamadas devuelven un
La envoltura de un mensaje en MPI código que indica su éxito o fracaso.
típicamente contiene la dirección destino, la
dirección de la fuente, y cualquier otra MPI_Send permite enviar información desde
información que se necesite para transmitir y un proceso a otro. MPI_Recv permite recibir
entregar el mensaje. La envoltura de un información desde otro proceso. Ambas
mensaje en MPI, consta de cuatro partes: la funciones son bloqueantes, es decir que el
fuente, el destino, el comunicator y una proceso que realiza la llamada se bloquea
etiqueta. La fuente identifica al proceso hasta que la operación de comunicación se
transmisor. El destino identifica al proceso complete.
receptor. El comunicator especifica el grupo de
procesos a los cuales pertenecen la fuente y el Las versiones no bloqueantes de MPI_Send y
destino. La etiqueta (tag) permite clasificar el MPI_Recv son MPI_Isend y MPI_Irecv,
mensaje. respectivamente. Estas llamadas inician la
operación de transferencia pero su finalización
El campo etiqueta es un entero definido por el debe ser realizada de forma explícita mediante
usuario que puede ser utilizado para distinguir llamadas como MPI_Test y MPI_Wait.
los mensajes que recibe un proceso. Por MPI_Wait es una llamada bloqueante y retorna
ejemplo, se tienen dos procesos A y B. El cuando la operación de envío o recepción se
proceso A envía dos mensajes al proceso B, completa. MPI_Test permite verificar si la
ambos mensajes contienen un dato. Uno de operación de envío o recepción ha finalizado,
los datos es utilizado para realizar un cálculo, esta función primero chequea el estado de la
mientras el otro es utilizado para imprimirlo en operación de envío o recepción y luego
pantalla. El proceso A utiliza diferentes retorna.
etiquetas para los mensajes. El proceso B
utiliza los valores de etiquetas definidos en el 4.3. Llamadas utilizadas para transferir
proceso A e identifica que operación deberá datos entre varios procesos
realizar con el dato de cada mensaje.
MPI posee llamadas para comunicaciones
4.1. Llamadas utilizadas para inicializar, grupales que incluyen operaciones tipo
administrar y finalizar difusión (broadcast), recolección (gather),
comunicaciones distribución (scatter) y reducción. Algunas de
las funciones que permiten realizar
MPI dispone de 4 funciones primordiales que transferencia entre varios procesos se
se utilizan en todo programa con MPI. Estas presentan a continuación.
funciones son MPI_Init, MPI_Comm_size,
MPI_Comm_rank y MPI_Finalize. MPI_Barrier permite realizar operaciones de
sincronización. En estas operaciones no existe
MPI_Init permite inicializar una sesión MPI. ninguna clase de intercambio de información.
Esta función debe ser utilizada antes de llamar Suele emplearse para dar por finalizada una
a cualquier otra función de MPI. etapa del programa, asegurándose de que
todos los procesos han terminado antes de dar
MPI_Finalize permite terminar una sesión MPI. comienzo a la siguiente.
Esta función debe ser la última llamada a MPI
que un programa realice. Permite liberar la MPI_Bcast permite a un proceso enviar una
memoria usada por MPI. copia de sus datos a otros procesos dentro de
un grupo definido por un comunicator. En la
MPI_Comm_size permite determinar el Figura 3 se muestra la transferencia de
número total de procesos que pertenecen a un información entre diferentes procesos usando
comunicator. la llamada MPI_Bcast.
MPI_Comm_rank permite determinar el

identificador (rank) del proceso actual.
Figura 6. Operación de MPI_Reduce
Figura 3. Operación de MPI_Bcast 5. Implementaciones de MPI
MPI_Scatter establece una operación de Se han creado varias implementaciones de

distribución, en la cual un dato (arreglo de MPI basadas en la publicación del estándar,
algún tipo de datos) se distribuye en diferentes muchas de ellas son de libre distribución y
procesos. En la Figura 4 se muestra esta algunas tienen limitaciones de portabilidad de
operación. código. Algunas implementaciones de MPI se
las puede encontrar en la página Web:
http://www-unix.mcs.anl.gov/mpi/implementations.html
LAM/MPI (Local Area Multicomputer), fue

diseñada en el Centro de Supercomputadoras
de la Universidad de Ohio. Puede ejecutarse
sobre redes heterogéneas de equipos SUN,
DEC, IBM, de estaciones de trabajo y
computadoras personales. Se puede
descargar una implementación gratuita de la
Figura 4. Operación de MPI_Scatter página Web:
http://www.lam-mpi.org/
MPI_Gather establece una operación de
recolección, en la cual los datos son MPICH fue desarrollado a la par del estándar
recolectados en un sólo proceso. En la Figura MPI. Se tienen varias implementaciones, y sus
5 se muestra la operación de recolección. primeras versiones difieren de las más
actuales, ya que fueron diseñadas para
estaciones de trabajo y de computadoras
personales, donde el desempeño de software
estaba limitado por la funcionalidad de sockets
de Unix. Se puede descargar una
implementación gratuita de la página Web:
http://www-unix.mcs.anl.gov/mpi/mpich/download.html
Unify, provisto por la Universidad Estatal de

Figura 5. Operación de MPI_Gather Mississippi, en ésta se recopilan capas de
software de MPI sobre una versión de PVM.
MPI_Reduce permite que el proceso raíz Unify permite incluir llamadas de MPI y PVM
recolecte datos desde otros procesos en un dentro de un mismo programa.
grupo, y los combine en un solo ítem de datos.
Por ejemplo, se podría utilizar una operación 6. Aplicación para resolución de Cadenas
reducción, para calcular la suma de los de Markov
elementos de un arreglo que se distribuyó en
algunos procesos. La Figura 6 muestra como Utilizando MPI se desarrolló una aplicación
los datos son colectados en un sólo proceso. que permite resolver las Cadenas de Markov.
Las Cadenas de Markov ([7], [8]) pueden
4.4. Llamadas utilizadas para crear tipos hacer uso de matrices de grandes
de datos definidos por el usuario dimensiones, por lo que su solución y las
operaciones asociadas pueden requerir una
Para definir nuevos tipos de datos se puede gran capacidad de procesamiento
utilizar la llamada MPI_Type_struct para crear computacional. Las operaciones más
un nuevo tipo o se puede utilizar la llamada relevantes utilizadas en la solución de
MPI_Pack para empaquetar los datos. Cadenas de Markov son:
• Potencia de matrices. Para probar la funcionalidad de la aplicación,
• Resolución de sistemas de se realizaron pruebas con matrices de orden 3,
ecuaciones lineales. 30, 60, 90, 120, 150, 210, 270, 330, 390, 450,
510 y 600. Se realizaron pruebas resolviendo
La aplicación desarrollada permite obtener la Cadenas de Markov a Tiempo Discreto y a
distribución al paso n y la distribución de Tiempo Continuo.
régimen de Cadenas de Markov de Tiempo
Discreto (CMTD) o la distribución al tiempo t y Para evaluar las Cadenas de Markov a Tiempo
la distribución de régimen de Cadenas de Discreto, se obtuvo la distribución en el paso
Markov de Tiempo Continuo (CMTC). 25 y la distribución de régimen. Se tomó el
tiempo de ejecución de la aplicación, el tiempo
En síntesis, la aplicación realiza las siguientes que tardó en obtener la distribución en el paso
funciones: 25 y el tiempo que tomó en calcular la
1. El proceso maestro lee los datos de distribución de régimen.
configuración y de la matriz P (CMTD)
o Q(t) (CMTC). En la Figura 7 se realiza una comparación de
2. El proceso maestro inicializa la librería los resultados obtenidos al calcular la
de MPI. distribución en el paso 25 con 1, 2 y 3
3. El proceso maestro envía el paso al procesadores.
que se va a evaluar la CMTD o el
tiempo al que se va a evaluar la CMTC 1,0E+2
y la dimensión de la matriz P o Q(t) a 9,0E+1
8,0E+1
los otros procesos. 7,0E+1
4. Se obtiene la distribución al paso n o 6,0E+1 1

Tiempo [s] 5,0E+1
2
al tiempo t. Para lo cual el proceso 4,0E+1
3
maestro calcula la porción de trabajo 3,0E+1
que le corresponde realizar a cada 2,0E+1
1,0E+1
proceso y envía la porción 0,0E+0
correspondiente de la matriz (P o Q(t)) 0,0E+0 1,0E+2 2,0E+2 3,0E+2 4,0E+2

Orden de la m atriz P
5,0E+2 6,0E+2
para que los otros procesos ayuden en

las operaciones requeridas. Luego de Figura 7. Comparación del tiempo requerido
realizar las operaciones, los procesos para obtener la distribución en el paso 25
envían sus resultados al proceso
maestro para que los presente en En la Figura 8 se realiza una comparación de
consola y los almacene en un archivo. los resultados obtenidos al calcular la
5. Se obtiene la distribución de régimen. distribución de régimen con 1, 2 y 3
Para lo cual el proceso maestro forma procesadores.
la matriz de conexión y el vector
conocido, envía las porciones 2,5E+0
correspondientes a cada proceso para 2,0E+0
su resolución y luego recupera los

resultados para presentarlos en 1,5E+0 1
Tiempo [s]
2
consola y almacenarlos en un archivo. 1,0E+0
3
6. Cada proceso libera la memoria
5,0E-1
utilizada y el proceso maestro se
encarga además de liberar las librerías 0,0E+0
0,0E+0 1,0E+2 2,0E+2 3,0E+2 4,0E+2 5,0E+2 6,0E+2
de MPI. Orden de la m atriz P
7. Resultados obtenidos Figura 8. Comparación del tiempo requerido

para obtener la distribución de régimen
A continuación se presentan los resultados
obtenidos al ejecutar la aplicación desarrollada En la Figura 10 se realiza una comparación de
usando un cluster construido con la los tiempos de ejecución que tomó la
herramienta Rocks. La aplicación fue resolución de la CMTD.
ejecutada utilizando una sola computadora (1
procesador), y sobre el cluster usando 2 Para evaluar las Cadenas de Markov a Tiempo
computadoras (2 procesadores) y 3 Continuo, se obtuvo la distribución en el
computadoras (3 procesadores). tiempo 0,25 y la distribución de régimen. Se
tomó el tiempo de ejecución de la aplicación,
el tiempo que tardó en obtener la distribución Markov a Tiempo Discreto, es un valor
en el tiempo 0,25 y el tiempo que tomó en cercano a la mitad del tiempo que toma el
calcular la distribución de régimen. hacerlo con un sólo procesador; y usando 3
procesadores, el tiempo que toma se reduce a
1,2E+2 un valor cercano al tercio del valor que toma
1,0E+2
sobre uno sólo.
8,0E+1
1
Tiempo [s]
1,2E+3
6,0E+1
2
1,0E+3
4,0E+1 3
8,0E+2
1
Tiempo [s]
2,0E+1
6,0E+2 2
0,0E+0
3
0,0E+0 1,0E+2 2,0E+2 3,0E+2 4,0E+2 5,0E+2 6,0E+2 4,0E+2
Orden de la m atriz P
2,0E+2
Figura 9. Comparación del tiempo requerido 0,0E+0
para resolver CMTD 0,0E+0 1,0E+2 2,0E+2 3,0E+2 4,0E+2 5,0E+2 6,0E+2
Orden de la m atriz Q(t )
En la Figura 10 se realiza una comparación de Figura 12. Comparación del tiempo requerido
los resultados obtenidos al calcular la para resolver CMTC
distribución en el tiempo 0,25 con 1, 2 y 3
procesadores. También, algo similar a lo descrito en la
obtención de la distribución en el paso 25,
1,2E+3 ocurre para la distribución en el tiempo 0,25 de
1,0E+3
Cadenas de Markov a Tiempo Continuo.
8,0E+2
1 Además, se puede apreciar que en el caso de
Tiempo [s]
6,0E+2 2 la distribución de régimen, tanto en CMTD

3
4,0E+2 como en CMTC, se tienen valores que no
2,0E+2 muestran una mejora al compararlos con
0,0E+0
respecto a los valores obtenidos en un
0,0E+0 1,0E+2 2,0E+2 3,0E+2 4,0E+2 5,0E+2 6,0E+2 procesador, para matrices de tamaño pequeño
(de orden 3 a 150), debido a que la cantidad
Figura 10. Comparación del tiempo requerido de operaciones es baja comparada con el
para obtener la distribución en el tiempo 0,25 tiempo requerido para el envío de datos entre
procesos. Pero se puede apreciar una mejora
En la Figura 11 se realiza una comparación de en las matrices de mayor tamaño (orden
los resultados obtenidos al calcular la superior a los 150), usando 2 procesadores el
distribución de régimen con 1, 2 y 3 tiempo que se tarda en obtener la solución del
procesadores. sistema de ecuaciones se reduce en un 50%
aproximadamente, y utilizando 3 procesadores
2,5E+0 el tiempo se reduce en promedio en un 60%.
2,0E+0
Finalmente, se puede mencionar que el tiempo
1,5E+0 1 de ejecución total se comporta de forma
Tiempo [s]
2
1,0E+0 3
similar a la descrita para la distribución en el
paso 25 o en el tiempo 0,25. Se puede
5,0E-1
apreciar también, que el tiempo en leer la
0,0E+0 matriz P o Q(t), y almacenar los resultados, es
0,0E+0 1,0E+2 2,0E+2 3,0E+2 4,0E+2 5,0E+2 6,0E+2
decir las operaciones no paralelizadas,
consumen poco tiempo comparado con las
Figura 11. Comparación del tiempo requerido operaciones realizadas en paralelo.
para obtener la distribución de régimen
En la Figura 14 se presenta el diagrama de
En la Figura 12 se realiza una comparación de Gantt generado mediante la herramienta de
los tiempos de ejecución que tomó la visualización Jumpshot-4 [9] que incluye
resolución de la CMTD. Rocks. En esta figura se pueden ver las
diferentes llamadas a MPI que realiza la
Se puede ver que en promedio, usando 2 aplicación para resolver la CMTD
procesadores, el tiempo que toma obtener la especificadas por la leyenda de la Figura 13.
distribución en el paso 25 de Cadenas de
Figura 13. Leyenda utilizada por Jumpshot
8. Comentarios
Gracias al financiamiento de La Escuela

Politécnica Nacional (EPN) y del FUNDACYT,
en el Departamento de Electrónica,
Telecomunicaciones y Redes de Información
de la EPN se construyó un cluster básico, que
se utilizó para ejecutar el programa
desarrollado y obtener los resultados
presentados. El cluster contaba originalmente
con tres nodos con procesadores con
tecnología Hyper Threading de 3 GHz,
utilizando tecnología Gigabit Ethernet, así
como discos duros SATA para las
computadoras. El rendimiento del cluster es de
aproximadamente 3,17 GFlops. Se espera que
antes de finalizar el año se amplíe el cluster a
siete nodos.
A futuro se espera desarrollar nuevas

aplicaciones usando MPI para poder
ejecutarlas sobre el cluster implementado
buscando promover el desarrollo del
procesamiento paralelo en beneficio del país.
9. Bibliografía
1. Quinn M, Parallel Programming in C with

MPI and OpenMP, McGraw-Hill, 2003.
2. Pacheco P, Parallel Programming with
MPI, Morgan Kaufmann, San Francisco,
1997.
3. Culler, D. y Singh J. Parallel Computer
Architectures: A hardware/Software
Approach, Morgan Kaufmann, San
Francisco, 1999.
4. Lucke R, Building Clustered Linux
Systems, Prentice Hall, Upper Saddle
River, New Jersey, 2005.
5. http://www.rocksclusters.org
6. http://oscar.openclustergroup.org/
7. Norris, J. Markov Chains. Universidad de
Cambridge, Inglaterra, 1998.
8. http://www.cms.wisc.edu/~cvg/course/491/
modules/Markov/Markov/node2.html
9. Chan A. y Gropp W. User’s Guide for Figura 14. Diagrama de Gantt para CMTD
Jumpshot-4, Laboratorio Nacional
Argonne, Estados Unidos.
10. Biografías Particular de Loja de la sede Quito.
Actualmente es administrador del área de
Iván Bernal Carrillo sistemas de la Universidad Técnica Particular
Ingeniero en Electrónica y de Loja de la sede Quito. Entre sus
Telecomunicaciones, Escuela pasatiempos, le gustaría hacer deporte, le
Politécnica Nacional (EPN) en gusta leer, y le gusta pintar, adora agitar el
Quito-Ecuador en 1992. pincel sobre el lienzo y dar las formas que su
Obtuvo los títulos de M.Sc. imaginación precise.
(1997) y Ph.D. (2002) en
Computer Engineering en
Syracuse University, NY, USA. Actualmente es
docente de la EPN, en el Departamento de
Electrónica, Telecomunicaciones y Redes de
Información.
David Mejía Navarrete

Nacido en Quito-Ecuador el 14
de enero de 1981. En el año de
1999 obtuvo su título de
Bachiller en Ciencias con
especialización Físico
Matemáticas. En el año 2004
egresó de la carrera de
Electrónica y Redes de Información de la
Escuela Politécnica Nacional. En ese mismo
año, cursó la certificación ACE Advance
Career de IBM. Actualmente es instructor de la
Academia Linux ACE de la Universidad
Técnica Particular de Loja de la sede Quito.
Diego Fernández Ayala

Nacido en Quito, Ecuador
(donde aún reside) el 21 de
Marzo de 1980. Hijo de
Eugenia Ayala y Luis
Fernández. En el año de
1985, realizó sus estudios
primarios en la Escuela
Borja Nº 3 de los padres
Cavannis. En el año de 1992 ingresó al
Colegio Técnico Aeronáutico COTAC, en
donde finalizó su educación media. En el año
de 1998 obtuvo su título de Bachiller en
“Humanidades Modernas” y en el año de 1999
ingresó como estudiante de pre-grado a la
Escuela Politécnica Nacional. Dedicaba su
tiempo a estudiar, y a pasarla con su familia y
amigos, sin embargo en el transcurso de los
años de estudio superior empezó a
apasionarle las ciencias de la computación y
decide seguir Ingeniería Electrónica con
mención en Redes de la Información (su
pasión es la programación con C y C++ y
ciertas áreas relacionadas a las
telecomunicaciones, es decir, las redes de
datos). En el año de 2004, cursó la
certificación ACE Advance Career de IBM.
Actualmente es instructor de la Academia
Linux ACE de la Universidad Técnica

Mpi PDF

Cargado por

Mpi PDF

Cargado por

DESARROLLO DE APLICACIONES PARALELAS PARA CLUSTERS

UTILIZANDO MPI (MESSAGE PASSING INTERFACE)

Bernal C. Iván, Mejía N. David y Fernández A. Diego

Escuela Politécnica Nacional

Resumen1 de un cluster es la compartición de recursos:

Un cluster es una solución computacional En 1994, T. Sterling y D. Becker, trabajando

Para escribir programas paralelos, se puede

La diferencia entre el modelo de paso de

MPI no es un lenguaje de programación, es un La primera clase de llamadas permiten

primitivos. Rango del Rango del

4. Fundamentos de MPI Figura 2. Formato de un mensaje de MPI

MPI_Comm_rank permite determinar el

Figura 3. Operación de MPI_Bcast 5. Implementaciones de MPI

MPI_Scatter establece una operación de Se han creado varias implementaciones de

LAM/MPI (Local Area Multicomputer), fue

Unify, provisto por la Universidad Estatal de

y la dimensión de la matriz P o Q(t) a 9,0E+1

4. Se obtiene la distribución al paso n o 6,0E+1 1

que le corresponde realizar a cada 2,0E+1

correspondiente de la matriz (P o Q(t)) 0,0E+0 1,0E+2 2,0E+2 3,0E+2 4,0E+2

para que los otros procesos ayuden en

correspondientes a cada proceso para 2,0E+0

su resolución y luego recupera los

7. Resultados obtenidos Figura 8. Comparación del tiempo requerido

Figura 9. Comparación del tiempo requerido 0,0E+0

6,0E+2 2 la distribución de régimen, tanto en CMTD

Gracias al financiamiento de La Escuela

A futuro se espera desarrollar nuevas

1. Quinn M, Parallel Programming in C with

David Mejía Navarrete

Diego Fernández Ayala

También podría gustarte