Libro
Libro
Libro
Este trabajo ha sido financiado por el proyecto No. 41756 titulado "Plataforma tecnológica para la gestión, aseguramiento,
intercambio y preservación de grandes volúmenes de datos en salud y construcción de un repositorio nacional de servicios
de análisis de datos de salud" del fondo PRONACES-CONACYT.
ESTA OBRA, PARA SER PUBLICADA, FUE ARBITRADA A DOBLE CIEGO Y AVALADA POR EL SISTEMA DE
PARES ACADÉMICOS.
Esta publicación no puede ser reproducida ni en todo ni en parte, ni registrada en, o transmitida por un sistema de
recuperación de información, en ninguna forma ni por ningún medio, sea este mecánico, fotoquímico, electrónico,
magnético, electro-óptico, por fotocopia o cualquier otro sin el permiso previo por escrito de los autores.
1. Introducción
𝐶𝑇 = 𝑃 (𝐷, 𝑘𝑐 ) (1)
𝐷 = 𝑃 −1 (𝐶𝑇, 𝑘𝑑 ) (2)
En este sentido, la premisa del cifrado es que, para cualquier entidad que des-
conozca 𝑘𝑑 resulta prácticamente imposible obtener los datos legibles a partir del
Seguridad y Privacidad de Datos en Sistemas de Ciencia de Datos en Salud 11
Política de búsqueda
Política de descifrado
Búsqueda cifrada
Definidos por
un conjunto
de atributos Búsqueda cifrada
Descifrado
Llave de usuario ABE
2. Antecedentes
2.1. Criptografı́a
Los algoritmos simétricos se caracterizan por hacer uso de una cantidad me-
nor de recursos computacionales que su contraparte asimétrica. Esto se debe a
que en el cifrado simétrico se utiliza una misma llave para realizar el cifrado
y descifrado de los datos, tal como se observa en la Figura 2. A esta llave se
le denomina clave secreta o previamente compartida, ya que el emisor y recep-
16 M. B. Hinojosa-Cabello et al.
tor deben conocerla antes de que inicie el proceso de cifrado [7], [12]. Dado un
mensaje, la clave secreta sirve como parámetro de entrada para el algoritmo de
cifrado que aplica las transformaciones necesarias para producir como salida un
texto cifrado. Cabe destacar que dicho mensaje se procesa a nivel de arreglos de
bytes, por lo que éste puede representar desde una cadena de caracteres hasta un
archivo de cualquier extensión. Por el contrario, el algoritmo de descifrado recibe
como entrada el texto cifrado, ası́ como la misma clave previamente compartida,
y produce como resultado el texto plano del mensaje original.
Los algoritmos simétricos pueden dividirse en cifradores por bloque o por
flujo en función de la cantidad de datos de entrada que manejan. Es decir, la
diferencia entre ambos recae en la forma de realizar el agrupamiento de bits
para los procesos de cifrado y descifrado. Los algoritmos de cifrado por bloque
dividen los datos de entrada en bloques de tamaño fijo, usualmente de 64 ó 128
bits, y posteriormente realizan el procesamiento de dichos bloques. En cambio,
los cifradores por flujo procesan los datos de entrada conforme éstos se van
recibiendo, esto es, un byte o un bit a la vez [7]. De acuerdo con Barker [2], el
estándar de cifrado avanzado (AES) es el algoritmo recomendado en la actualidad
por el Instituto Nacional de Estándares y Tecnologı́a (NIST) para el cifrado-
descifrado de datos. AES es un cifrador por bloque desarrollado para reemplazar
al ya obsoleto estándar de cifrado de datos (DES), por lo que constituye el
algoritmo más utilizado en la actualidad. Este algoritmo procesa datos en bloques
de 128 bits utilizando claves de 128, 192 ó 256 bits, con lo cual se considera que
es capaz de proveer niveles de seguridad válidos más allá del año 2030.
3. Sobres Digitales
Encapsulamiento de la Llave
Desencapsulamiento de la Llave
(doctor AND cardiólogo) OR
(doctor AND internista) OR doctor
enfermera
internista
nivel B
puedan acceder a dichos datos. Sin embargo, estos dos tipos de cifradores con-
llevan desventajas que dificultan su uso de forma aislada; por ello, éstos suelen
emplearse de forma conjunta en aplicaciones prácticas. La ventaja de los algorit-
mos simétricos sobre los asimétricos es la capacidad de cifrar una gran cantidad
de datos eficientemente en términos de tiempos de respuesta. No obstante, éstos
implican un problema de distribución y gestión de llaves debido a que la llave
usada para cifrar es la misma requerida por el proceso de descifrado. Ası́, es
necesario que los propietarios de datos compartan las claves de descifrado con
los destinatarios de dichos datos a través de canales de comunicación seguros,
algo que no es posible garantizar en todos los casos.
En este sentido, una forma de sortear el problema de compartición de claves es
mediante el uso de una técnica criptográfica denominada sobre digital. Un sobre
digital se define como un objeto criptográfico que consta de dos capas de cifrado
a partir de las cuales se transporta y distribuye una llave de sesión de forma
segura. Mediante éstos, es posible tomar ventaja simultáneamente tanto de la
criptografı́a de clave pública, como de la criptografı́a de clave privada. Como se
puede observar en la Figura 5a, los datos sensibles son cifrados mediante llaves
de sesión de cifradores simétricos, mientras que dichas llaves de sesión se cifran o
encapsulan a partir de criptografı́a de clave pública. Es decir, los datos se cifran
y descifran con una misma llave simétrica, que a su vez se cifra utilizando la clave
20 M. B. Hinojosa-Cabello et al.
pública del destinatario de los datos y éste los descifra usando su clave privada.
De esta forma es posible preservar la confidencialidad de una gran cantidad de
datos en un tiempo razonable, mientras que es posible compartir las llaves de
descifrado con destinatarios especı́ficos, aun utilizando canales de comunicación
inseguros.
Además de proporcionar mayor robustez contra ataques, los algoritmos asimé-
tricos eluden el problema de compartición de llaves al utilizar un par de claves
relacionadas matemáticamente. No obstante, dada dicha relación entre llaves,
es necesario conocer a priori a los potenciales usuarios de un mismo conjunto
de datos. Por ello, una forma de abordar esta problemática en el contexto de
los sobres digitales implica la remoción del algoritmo asimétrico empleado y la
incorporación en su lugar del cifrado basado en atributos, tal como se muestra
en la Figura 5b. De esta manera, ABE permite compartir datos de forma se-
gura con múltiples usuarios, incluidos aquellos no definidos a priori. Solamente
aquellos usuarios que posean un conjunto de atributos que satisfaga de forma
criptográfica la polı́tica de control de acceso definida previo al cifrado podrán
acceder a los datos en texto plano. Es decir, únicamente quienes cumplan con los
criterios establecidos en la polı́tica de acceso podrán acceder a la llave de sesión
y, con ella, a los datos sensibles.
De esta manera, al emplear sobres digitales en conjunto con ABE desaparece
la necesidad de implementar mecanismos adicionales de gestión de llaves. Lo
anterior, considerando que los atributos permiten describir las caracterı́sticas
de los usuarios, ası́ como sus inherentes derechos de acceso. De esta forma, se
evitan sobrecargas de cómputo, resulta poco significativo si la transmisión de
datos se realiza mediante canales de comunicación seguros o no, y se impone un
control de acceso de grano fino. Incluso si un sobre es filtrado pero su portador no
cuenta con los atributos que satisfacen la polı́tica utilizada en la creación de dicho
sobre, éste no será capaz de acceder al contenido legible del sobre digital. Cabe
destacar que, a partir de los atributos que posean los usuarios, una autoridad
de confianza (TA) se encarga de generarle a cada usuario su correspondiente
llave secreta, la cual permite corroborar si éste satisface la polı́tica utilizada
en el cifrado. Además, la TA tiene la facultad de implementar mecanismos de
revocación de acceso para el caso de aquellos usuarios que dejen de pertenecer a
la organización donde se gestionan los datos sensibles o aquellos que hagan uso
indebido de los mismos.
compleja que implica que los propietarios gestionen los mecanismos de control
de acceso hacia sus datos. Dicha problemática se puede abordar a través del uso
de ABE, el cual ofrece una gestión flexible mediante controles de acceso de grano
fino a la vez que garantiza la confidencialidad de los datos. En segundo lugar,
las capacidades de búsqueda del proveedor del servicio de almacenamiento no se
pueden aprovechar debido a que los datos se encuentran en formato ininteligible.
Si bien los usuarios podrı́an descargar todos los datos (cifrados), descifrarlos
y aplicar localmente algoritmos de búsqueda y recuperación tradicionales, este
enfoque es totalmente inviable en la práctica por varias razones. Por ejemplo,
se introducen sobrecargas de comunicación innecesarias al descargar todo un
conjunto de datos que, en el peor de los casos, pudiera no contener información
relevante. Además, se generan sobrecargas de procesamiento donde, al poseer
recursos heterogéneos, no todos los dispositivos pueden ejecutar procedimientos
exhaustivos de búsqueda. En este contexto, surge Searchable Encryption (SE),
una técnica criptográfica que permite realizar búsquedas sobre datos cifrados. Su
objetivo es mantener la confidencialidad de los datos mientras el proveedor del
servicio de almacenamiento es capaz de preservar sus capacidades de búsqueda
[5]. SE ha sido implementado mediante tres enfoques principales, siendo el cifrado
basado en atributos con capacidades de búsqueda (ABSE) el más adecuado para
escenarios de almacenamiento y compartición de datos cifrados.
ABSE se apoya en la creación de un ı́ndice seguro que contiene palabras
clave representativas del contenido o caracterı́sticas de los datos sensibles y, a
partir del cual, posteriormente se realizan las búsquedas [1]. Al ser un enfoque
basado en atributos, ABSE opera de forma muy similar a ABE: se emplean
polı́ticas para establecer reglas de acceso y atributos para describir a los usuarios
y, por ende, sus restricciones de acceso. Tras identificar las palabras clave que
describen el contenido de los datos, éstas se cifran una sola vez mediante una
polı́tica de acceso, definida sobre un conjunto de atributos y, a partir de ellas, se
construye el ı́ndice seguro. Una vez creado éste, tanto los datos sensibles como
su correspondiente llave de sesión son cifrados, produciendo el sobre digital que
habrá de enviarse en conjunto con el ı́ndice seguro para su almacenamiento en la
nube [9]. Cabe resaltar que la polı́tica de acceso utilizada para cifrar las palabras
clave puede ser la misma o una polı́tica diferente a la usada para cifrar la llave
de sesión, dependiendo de las necesidades de acceso que caractericen a los datos.
Este proceso se ilustra en la Figura 6a.
Para realizar las búsquedas, el ı́ndice seguro es consultado por el proveedor
del servicio de almacenamiento dado un token cifrado, denominado trampilla de
búsqueda o trapdoor, creado por el usuario que solicita una búsqueda. Al igual
que en ABE, cada usuario posee una llave secreta que se genera con base en el
conjunto de atributos que lo caracterizan. De este modo, solo los usuarios que
poseen el conjunto de atributos adecuados (dada una polı́tica) pueden buscar y
recuperar datos de interés [1], [13]. Derivado de una necesidad de información,
a partir de la clave secreta de usuario se genera una representación cifrada de
la consulta del usuario, la cual permite realizar la búsqueda en el ı́ndice seguro
[20]. Por ello, es importante señalar que el proveedor de servicio no es capaz de
22 M. B. Hinojosa-Cabello et al.
...
Palabras Clave radiólogo OR (doctor
AND reumatólogo)
presencia de osteofitos
inflamación sinovial
tejidos conjuntivos
posible osteoartritis
doctor
reumatólogo
nivel D
g
tejidos
conjuntivos
...
SDB1
SDB2
Datos
médicos
SDBq
SDBi
SDB1
Datos
médicos
SDBp
SDBi
Figura
Figura 8: Representación
2 Ejemplo conceptual
de un esquema de paralelismo de un esquema
“Overlapped” overlapped.
construido con Muyal‐Zamna.
SDB
Por tanto, en este capı́tulo los autores afirmamos que uno de los principales
retos para la seguridad de los datos en el sector salud es contar con mecanismos
de seguridad robustos, no solo bajo los modelos de ataque actuales, sino también
para aquellos modelos de ataque que se vislumbran en un futuro no muy lejano.
Por otro lado, si bien los SDBs son ahora eficientes y seguros, solamente cubren
los servicios de confidencialidad, integridad y control de acceso. Sin embargo, es
necesario tener en cuenta que existen otros requerimientos de seguridad en salud,
tales como la trazabilidad. Es muy deseable explorar el desarrollo de métodos
efectivos que pudieran garantizar estos servicios, como puede ser la incorporación
adecuada de tecnologı́as disruptivas como Blockchain [16].
8. Conclusiones
Agradecimientos
Este trabajo forma parte del Proyecto No. 41756 CONACYT - PRONAII
Ciencia de Datos en Salud “Plataforma tecnológica para la gestión, asegura-
miento, intercambio y preservación de grandes volúmenes de datos en salud y
construcción de un repositorio nacional de servicios de análisis de datos de sa-
lud”, financiado por FORDECYT-PRONACES.
Seguridad y Privacidad de Datos en Sistemas de Ciencia de Datos en Salud 29
Referencias
[1] Aubrey Alston. Attribute-Based Encryption for Attribute-based Authen-
tication, Authorization, Storage, and Transmission in Distributed Stora-
ge Systems. Inf. téc. arXiv:1705.06002v1. Cornell University, 2017. doi:
10.48550/arXiv.1705.06002.
[2] Elaine Barker. Recommendation for Key Management. Part 1: General.
Inf. téc. National Institute of Standards and Technology, 2020. doi: 10.
6028/NIST.SP.800-57pt1r5.
[3] Johannes Buchmann, Kristin Lauter y Michele Mosca. “Postquantum cry-
ptography—state of the art”. En: IEEE Security & Privacy 15.4 (2017),
págs. 12-13. doi: 10.1109/MSP.2017.3151326.
[4] Diana Elizabeth Carrizales-Espinoza, José Luis González-Compeán y Mi-
guel Morales-Sandoval. “Zamna: a tool for the secure and reliable stora-
ge, sharing, and usage of large data sets in data science applications”.
En: 2022 IEEE Mexican International Conference on Computer Science
(ENC). IEEE, 2022. isbn: 978-1-6654-7347-7. doi: 10.1109/ENC56672.
2022.9882938.
[5] Yunling Wang, Jianfeng Wang, Xiaofeng Chen. “Secure Searchable Encry-
ption: A Survey”. En: Communications and Information Networks Vol. 1.
No. 4 (2016), págs. 52-65. doi: 10.11959/j.issn.2096-1081.2016.043.
[6] Cisco Networking Academy. Introduction to Cybersecurity. Inf. téc. Cisco
Systems, Inc., 2016.
[7] Cisco Networking Academy. Cybersecurity Essentials. Inf. téc. Cisco Sys-
tems, Inc., 2017.
[8] Vikas Hassija et al. “Present landscape of quantum computing”. En: IET
Quantum Communication 1.2 (2020), págs. 42-48. doi: 10 . 1049 / iet -
qtc.2020.0027.
[9] Melissa Brigitthe Hinojosa-Cabello. “An Attribute-Based Encryption Sche-
me for Storage, Sharing and Retrieval of Digital Documents in the Cloud”.
Tesis de mtrı́a. Cinvestav, 2020.
[10] Richard Kuhn et al. Introduction to Public Key Technology and the Federal
PKI Infrastructure. Inf. téc. National Institute of Standards and Techno-
logy, 2001.
[11] Badrinarayanan Lakshmiraghavan. Pro ASP.NET Web API Security. Se-
curing ASP.NET Web API. Ed. por Apress Media, LLC. 1.a ed. Springer,
2013. 416 págs. isbn: 978-1-4302-5782-0. doi: 10 . 1007 / 978 - 1 - 4302 -
5783-7.
[12] Elaine Barker, William Barker, Annabelle Lee. Guideline for Implementing
Cryptography in the Federal Government. Inf. téc. National Institute of
Standards and Technology, 2005.
[13] Antonis Michalas. “The Lord of the Shares: Combining Attribute-Based
Encryption and Searchable Encryption for Flexible Data Sharing”. En:
SAC ’19: Proceedings of the 34th ACM/SIGAPP Symposium on Applied
Computing. Association for Computing Machinery, 2018. isbn: 978-1-4503-
5933-7. doi: 10.1145/3297280.3297297.
30 M. B. Hinojosa-Cabello et al.
1. Introducción
En nuestra sociedad actual, el tema de protección y privacidad de datos
ha ganado mucha atención en los últimos años debido a los frecuentes ataques
32 H. Marin-Castro et al.
Tabla 1: Ejemplo del segmento de una bitácora de eventos del dominio de salud.
Id Caso Estampa de Tiempo Actividad Costo Recurso Paciente
1 01-01-2018 15:20:15 Registro 100 Pedro Brenda
1 01-01-2018 15:22:02 Triaje 50 Ana Brenda
1 01-01-2018 15:25:43 Ex. sangre 800 Julio Brenda
2 01-01-2018 15:43:08 Registro 100 Jorge Isidro
2 01-01-2018 15:43:50 Rayos X 500 Pedro Isidro
3 01-01-2018 15:46:27 Registro 100 Pedro Marta
3 01-01-2018 15:48:14 Triaje 50 Ana Marta
ası́ como la falta de confianza entre los participantes que ejecutan un proceso,
inspira a la MP a desarrollar y utilizar métodos seguros de los datos de eventos
que garanticen la confidencialidad de éstos. Sin embargo, las investigaciones que
se han reportado en la literatura sobre tareas de MP pocas veces consideran
cuestiones de confidencialidad de los datos, siendo éste un problema de gran
relevancia, principalmente en dominios donde es necesario garantizar seguridad
y privacidad de los datos.
En MP, la confidencialidad de las bitácoras de eventos no se puede lograr
únicamente cifrando los datos; es necesario contar con mecanismos de seguridad
y privacidad adecuados, de forma que las tareas de descubrimiento, validación de
conformidad y mejora de procesos no sean afectadas y puedan seguir realizándo-
se. Uno de los problemas comunes al intentar únicamente de anonimizar algunos
atributos o registros de eventos es la posibilidad de vincular los eventos a un
caso especifico e identificar atributos iguales. Esta situación de vinculación pue-
de ocasionar que se descubra la identidad del registro. Por ejemplo, suponiendo
que se tiene una bitácora de eventos de pacientes de un hospital con algunos
atributos pseudo anonimizados (nombre del paciente, actividad, empleo) y un
atacante desea conocer la enfermedad de cierto paciente del cual únicamente
conoce su edad y algunas de las fechas en las que visitó el hospital en un perı́odo
de tiempo determinado. Al identificar esta información en la bitácora de eventos
puede inferir los eventos correspondientes de este paciente y, ası́, poder cono-
cer su enfermedad. En este escenario se presenta un problema de ataque a la
privacidad en los datos de los registros de eventos a partir de la vinculación de
información.
Muchas organizaciones en salud son conscientes de la necesidad de gestionar
y mejorar sus procesos, los cuales constantemente están evolucionando y cam-
biando dinámicamente. Algunos de los trabajos de investigación reportados en la
literatura [17], [4], [11], [20], [16], [12] sobre la MP en salud, han identificado que
aún no se cuenta con soluciones prácticas capaces de adaptarse a los diferentes
entornos de los procesos en salud, los cuales carecen de mecanismos que garanti-
cen la seguridad de las bitácoras de eventos construidas. En este sentido, resulta
importante desarrollar y mejorar los algoritmos de MP para trabajar con datos
sensibles de acuerdo con las normas internas o regulaciones externas establecidas
Minerı́a de Procesos en Salud 35
por instituciones médicas sin que exista algún riesgo de confidencialidad en los
datos.
realizada.
6. Conclusiones
Los procesos en salud representan un gran desafı́o debido a las diversas ca-
racterı́sticas que éstos presentan, como altos niveles de variación, diversidad en
la ejecución y flujo de las actividades de los procesos, trabajo colaborativo de
un equipo multidisciplinar (médicos, enfermeras, especialistas, asistentes, etc),
ası́ como el manejo de datos sensibles. Ésto hace necesario contar con algoritmos
de MP capaces de trabajar con temas de confidencialidad, privacidad, uso y al-
Minerı́a de Procesos en Salud 43
Referencias
[1] Wil M. P. van der Aalst. Process Mining: Data Science in Action. 2.a ed.
Heidelberg: Springer, 2016. isbn: 978-3-662-49850-7. doi: 10.1007/978-
3-662-49851-4.
[2] Wil M. P. van der Aalst y A. J. M. M. Weijters. “Process mining: a research
agenda”. En: Comput. Ind. 53.3 (2004), págs. 231-244. doi: 10.1016/j.
compind.2003.10.001. url: https://doi.org/10.1016/j.compind.
2003.10.001.
[3] Karim Abouelmehdi, Abderrahim Beni-Hessane y Hayat Khaloufi. “Big
healthcare data: preserving security and privacy”. En: Journal of Big Data
5 (ene. de 2018). doi: 10.1186/s40537-017-0110-7.
[4] Elisabetta Benevento et al. “Evaluating the Effectiveness of Interacti-
ve Process Discovery in Healthcare: A Case Study”. En: Business Pro-
cess Management Workshops. Ed. por Chiara Di Francescomarino, Rem-
co Dijkman y Uwe Zdun. Cham: Springer International Publishing, 2019,
págs. 508-519.
[5] Joan Daemen y Vincent Rijmen. “The Advanced Encryption Standard
Process”. En: The Design of Rijndael: AES — The Advanced Encryption
Standard. Berlin, Heidelberg: Springer Berlin Heidelberg, 2002, págs. 1-8.
isbn: 978-3-662-04722-4. doi: 10.1007/978-3-662-04722-4\_1.
[6] Boudewijn van Dongen. Real-life event logs - Hospital log. 2011. doi: 10.
4121/uuid:d9769f3d-0ab0-4fb8-803b-0d1120ffcf54.
[7] EU General Data Protection Regulation. 2016. Regulation (EU) 2016/679
of the European Parliament and of the Council of 27 April 2016 on the
protection of natural persons with regard to the processing of personal data
and on the free movement of such data, and repealing Directive 95/46/EC
44 H. Marin-Castro et al.
cess Mining”. En: Sensors 20.18 (2020). issn: 1424-8220. doi: 10.3390/
s20185330. url: https://www.mdpi.com/1424-8220/20/18/5330.
[21] Alan F. Westin. “Privacy And Freedom”. En: Washington and Lee Law
Review 25 (ene. de 1968), págs. 166-170.
[email protected], [email protected],
[email protected], [email protected]
Figura 3. Representación conceptual de un escenario real de salud crítico para la toma de deci-
sio
[10], [11];
[12];
[13];
[14],
[15].
Figura 5. Representación conceptual de un flujo de datos de un sistema de e-salud y/o un sis-
tema de analítica utilizando Muyal-Chimalli para proveer seguridad a los datos.
conceptual del flujo de datos de un sistema utilizando
los servicios de Muyal-Chimalli para proveer seguridad a los datos.
Figura 6
[22], [23]
[24] .
[25], [26]).
[27]
[28]
[31].
[32].
1 El nombre de Nez está inspirado en Nezahualcóyotl, ingeniero de la época precolombina en
México que introdujo diferentes técnicas tales como el uso de estructuras de pilares.
𝑛
𝑛
2 http://adaptivez.org.mx/e-SaludData/
[2] Carroll, N. (2016). Key success factors for smart and connected health software solu-
tions. Computer, 49(11), 22-28.
[17] Rasmussen, S. A., & Jamieson, D. J. (2020). Public health decision making during
Covid-19—Fulfilling the CDC pledge to the American people. New England Journal of
Medicine, 383(10), 901-903.
[18] Sobhy, D., El-Sonbaty, Y., & Abou Elnasr, M. (2012, December). MedCloud:
healthcare cloud computing system. In 2012 International Conference for Internet
Technology and Secured Transactions (pp. 161-166). IEEE.
[19] Abdelazeem, M., Elamin, A., Afifi, A., & El-Rabbany, A. (2021). Multi-sensor point
cloud data fusion for precise 3D mapping. The Egyptian Journal of Remote Sensing
and Space Science, 24(3), 835-844.
[20] Griebel, L., Prokosch, H. U., Köpcke, F., Toddenroth, D., Christoph, J., Leb, I., ... &
Sedlmayr, M. (2015). A scoping review of cloud computing in healthcare. BMC medi-
cal informatics and decision making, 15(1), 1-16.
[21] Zheng, C., & Thain, D. (2015, June). Integrating containers into workflows: A case
study using makeflow, work queue, and docker. In Proceedings of the 8th International
Workshop on Virtualization Technologies in Distributed Computing (pp. 31-38).
[22] Babuji, Y., Woodard, A., Li, Z., Katz, D. S., Clifford, B., Kumar, R., ... & Chard, K.
(2019, June). Parsl: Pervasive parallel programming in python. In Proceedings of the
28th International Symposium on High-Performance Parallel and Distributed Compu-
ting (pp. 25-36).
[23] Chard, R., Babuji, Y., Li, Z., Skluzacek, T., Woodard, A., Blaiszik, B., ... & Chard, K.
(2020, June). Funcx: A federated function serving fabric for science. In Proceedings of
the 29th International symposium on high-performance parallel and distributed compu-
ting (pp. 65-76).
[24] Sanchez-Gallegos, D. D., Gonzalez-Compean, J. L., Carretero, J., Marin, H., Tcher-
nykh, A., & Montella, R. (2022). PuzzleMesh: A puzzle model to build mesh of agnos-
tic services for edge-fog-cloud. IEEE Transactions on Services Computing.
[25] Sánchez-Gallegos, D. D., Galaviz-Mosqueda, A., Gonzalez-Compean, J. L., Villarreal-
Reyes, S., Perez-Ramos, A. E., Carrizales-Espinoza, D., & Carretero, J. (2020). On the
continuous processing of health data in edge-fog-cloud computing by using mi-
cro/nanoservice composition. IEEE Access, 8, 120255-120281.
[26] Das, J., Ghosh, S., Mukherjee, A., Ghosh, S. K., & Buyya, R. (2022). RESCUE: Ena-
bling green healthcare services using integrated IoT‐edge‐fog‐cloud computing envi-
ronments. Software: Practice and Experience.
[27] Mukherjee, A., Ghosh, S., Behere, A., Ghosh, S. K., & Buyya, R. (2021). Internet of
Health Things (IoHT) for personalized health care using integrated edge-fog-cloud
network. Journal of Ambient Intelligence and Humanized Computing, 12(1), 943-959.
[28] Chung, L., & Prado Leite, J. C. S. D. (2009). On non-functional requirements in soft-
ware engineering. In Conceptual modeling: Foundations and applications (pp. 363-
379). Springer, Berlin, Heidelberg.
[29] Zhang, X., Liu, S., Chen, X., Wang, L., Gao, B., & Zhu, Q. (2018). Health information
privacy concerns, antecedents, and information disclosure intention in online health
communities. Information & Management, 55(4), 482-493.
[30] Keshta, I., & Odeh, A. (2021). Security and privacy of electronic health records: Con-
cerns and challenges. Egyptian Informatics Journal, 22(2), 177-183.
[31] Mell, P., & Grance, T. (2011). The NIST definition of cloud computing.
[32] Ranabahu, A., Anderson, P., & Sheth, A. (2011). The cloud agnostic e-science analysis
platform. IEEE Internet Computing, 15(6), 85-89.
[33] Dragoni, N., Giallorenzo, S., Lafuente, A. L., Mazzara, M., Montesi, F., Mustafin, R.,
& Safina, L. (2017). Microservices: yesterday, today, and tomorrow. Present and ulteri-
or software engineering, 195-216.
[34] Sharma, P., Chaufournier, L., Shenoy, P., & Tay, Y. C. (2016, November). Containers
and virtual machines at scale: A comparative study. In Proceedings of the 17th interna-
tional middleware conference (pp. 1-13).
[35] Rad, B. B., Bhatti, H. J., & Ahmadi, M. (2017). An introduction to docker and analysis
of its performance. International Journal of Computer Science and Network Security
(IJCSNS), 17(3), 228.
Xelhua: una plataforma para la creación de
sistemas de ciencia de datos bajo demanda
1. Introducción
2. Antecedentes
ha ido en decremento en los últimos años. Los proveedores han ido migrando
poco a poco sus sistemas a contenedores virtuales. Esto último debido a todas
las ventajas que proporcionan sobre las máquinas virtuales. Una de las diferen-
cias destacables que es importante mencionar es el consumo energético [4], que
últimamente ha atraı́do mucho la atención por diversos aspectos, el más impor-
tante es el impacto que tiene en la reducción de CO2, lo que, a la par, impacta
en los costos de mantenimiento de la infraestructura y, en consecuencia en el
abaratamiento de los precios hacia el usuario final. Por un lado, los contenedores
virtuales tienen una mejor gestión en los recursos de cómputo que se utilizan en
una máquina fı́sica que su contraparte, las máquinas virtuales, además de que,
al contar con menos capas en la virtualización, tienen una menor cantidad de
procesos en ejecución.
Los contenedores virtuales tienen mucha aplicabilidad en la vida cotidiana;
muchas aplicaciones de software pueden ejecutarse sobre contenedores virtuales
sin que el usuario final lo note. De hecho, los contenedores virtuales están pensa-
dos para, a bajo nivel, realizar diversas tareas sin que el usuario, en el alto nivel,
note cambios en el desempeño de las aplicaciones. Los contenedores virtuales son
especialmente útiles en aplicaciones encadenadas (aplicaciones contenerizadas)
que se ejecutan en la nube. Éstas son aplicaciones “grandes”, cuyos componentes
(“pequeños”) se ejecutan en diferentes contenedores virtuales separados. Estas
aplicaciones se apegan a un flujo de trabajo con productos parciales y finales,
los cuales se pueden usar en otros procesos como productos parciales o como
producto final deseado. Ésto puede verse como un Modelo de procesamiento
𝐸𝑇 𝐿, Extraer, Transformar y Cargar (𝐸𝑇 𝐿 𝐸𝑥𝑡𝑟𝑎𝑐𝑡, 𝑇 𝑟𝑎𝑛𝑠𝑓 𝑜𝑟𝑚, 𝐿𝑜𝑎𝑑), el
cual realiza la adquisición de datos y su posterior transformación ejecutando
alguna operación o modificación a los datos y su transferencia a un repositorio
destino, el cual puede ser otro contenedor virtual [5]. Por ejemplo, aplicaciones
para la limpieza de valores nulos o vacı́os en un dataset, detección de outliers,
cálculos estadı́sticos, visualización de datos, etc. Un tipo de estas aplicaciones
son aquellas dedicadas al análisis de datos, también denominadas herramientas
de analı́tica de datos. Los procesos de análisis de datos en la nube se realizan
utilizando tecnologı́as de virtualización y herramientas de analı́tica, encapsulan-
do estas últimas en contenedores virtuales y otorgándole acceso a los usuarios
finales a éstas mediante una interfaz elegante.
para efectuar todo el trabajo de bajo nivel que conlleva configurar e instalar
aplicaciones de análisis de datos. Si bien estas plataformas facilitan y flexibi-
lizan la realización de tareas de análisis de datos, su utilización no está libre
de inconvenientes. El empleo continuo de estas plataformas puede generar una
dependencia a ellas (vendor lock-in), lo que conlleva a problemas a futuro para
las organizaciones [11]. Por ejemplo, si una organización tiene sus datos y sis-
temas en la nube de un proveedor y si este proveedor tiene algún fallo en su
dominio (p. ej. no se puede acceder desde su URL), la organización no podrá
acceder a sus datos. También, si la cantidad de datos que la organización tiene
en la plataforma de análisis es muy grande, los costos de trasladar los datos a
la plataforma de otro proveedor o a los servidores de la propia empresa podrı́an
resultar muy altos. Este tipo de escenarios deben ser tomados muy en cuenta
por las organizaciones, puesto que, si bien, en un inicio, la facilidad de proce-
samiento de datos en la nube es muy atractiva, en un futuro puede interrumpir
drásticamente la continuidad de la operación de una organización.
Xelhua permite manejar todas las etapas del ciclo de vida de los datos.
Preservación: Por último, Xelhua mantiene un control sobre todas las ver-
siones de los datos y resultados generados en cada una de las etapas, por lo
cual todos los resultados son almacenados.
H B R C
M X1 X2 Xn
XnY1 X Y X Y
n 2 n m
XnYmZw
XnYmZ1
X=causa_def Y=estado Z=Año
XnYmZ2
X1 Mama
NUEVO
C1 B1 H1
Y1 LEON C2 R1
X2 Pulmon 2000 Z1
Cn
B2 R2 H2
Y2 YUCATAN
2001 Z2 M1
M2 Bn*m Rn*m Hn*m*w
Prostata MÉXICO
Xn Ym 2022 Zw Mn
5. Conclusiones
Xelhua está pensada como una plataforma para el análisis de datos, pero
orientada al diseño de distintas formas de realizar las tareas de análisis, lo cual
permite probar distintas versiones de las tareas de análisis que son de interés
para el usuario; esta caracterı́stica es útil para la validación estadı́stica de mo-
delos en el diseño de experimentos. Xelhua tiene como caracterı́stica principal
el enfoque a la generación de estructuras complejas de procesamiento de datos
orientado al diseño, las cuales, de otro modo, serı́an agobiantes de diseñar y eje-
cutar para el usuario. Los flujos de procesamiento se forman y ejecutan siguiendo
la secuencia de nodos del grafo definido. A diferencia de otras plataformas en
la nube, Xelhua no depende de algún proveedor de servicios, por lo que es un
paquete de software que puede ser instalado y desplegado en diversas infraes-
tructuras sin llegar a depender de la infraestructura de un proveedor especı́fico.
Además, ofrece la posibilidad de escalar, tanto en la infraestructura de procesa-
miento (RAM, CPU, almacenamiento), como en el catálogo de aplicaciones para
análisis de datos. Cada aplicación en Xelhua es un contenedor virtual con una
aplicación y las librerı́as requeridas dentro. Por tal motivo, es posible añadir más
servicios a Xelhua simplemente encapsulando las nuevas aplicaciones en contene-
dores virtuales. Xelhua permite la unión, intersección y coordinación de procesos
de análisis de datos entre todos los posibles diseños de una tarea de análisis de
interés para el usuario, adaptándose a los recursos de cómputo disponibles en la
infraestructura sobre la que se esté usando. En resumen, la plataforma permite a
los desarrolladores convertir aplicaciones en servicios consumibles bajo demanda,
interconectables y altamente disponibles. Estos servicios pueden ser utilizados
por usuarios finales (sin grandes conocimientos en programación) para diseñar
sistemas de ciencia de datos, los cuales son desplegados bajo demanda de manera
automática en una infraestructura definida, manteniendo alta disponibilidad de
los servicios para el correcto procesamiento de los datos y con la capacidad de
realizar procesamiento en paralelo de manera semi-automatica para mejorar el
rendimiento.
Agradecimientos
Este trabajo fue parcialmente apoyado por el proyecto 41756 “Plataforma
tecnológica para la gestión, aseguramiento, intercambio y preservación de gran-
des volúmenes de datos en salud y construcción de un repositorio nacional de
servicios de análisis de datos de salud” por el FORDECYT-PRONACES de
Conacyt (México).
Referencias
[1] Sepideh Bazzaz Abkenar et al. “Big data analytics meets social media: A
systematic review of techniques, open issues, and future directions”. En:
Telematics and Informatics 57 (2021), pág. 101517. issn: 0736-5853. doi:
Xelhua 95
-
Reflexiones sobre el almacenamiento digital de
las organizaciones
1. Introducción
3
Para mayor referencia, un ZB son mil millones de Terabytes (TB).
Reflexiones sobre el almacenamiento digital de las organizaciones 141
En vista de que son las organizaciones las que custodian los mayores volúme-
nes de documentos digitales, deberı́amos entender los ciclos de vida que experi-
menta la información que tienen bajo su resguardo, si queremos abordar los retos
de la gestión de volúmenes masivos de información. A lo largo de su ciclo de vida,
el cual está determinado por los objetivos de la organización y sus compromisos,
la información puede moverse entre distintas colecciones que pueden alojarse
entre distintos repositorios. Se sabe, como en el caso de la imagenologı́a médica,
que los documentos pasan por diferentes épocas o momentos, que reflejan un
estatus [6], [7], por ejemplo, para reducir el tamaño requerido por su almace-
namiento y para brindar caracterı́sticas de seguridad como confidencialidad y
control de acceso (ver ejemplo en la Fig. 2). Al inicio de su vida se les consulta
con mayor frecuencia y en algún momento pueden desecharse o preservarse, si
se prevé alguna consulta de carácter histórico.
Compresión Cifrado
Almacenamiento
en la Nube
Simbología
Figura 2: Ejemplo del ciclo de vida de documentos médicos con etapas de com-
presión y cifrado.
Disco duro
Disco de Estado
Solido Servidor Almacenamiento
Usuario NAS en la Nube
Simbología
Interfaz de comunicación
sus metadatos. Por su parte, estos contemplan tanto los detalles de su uso, como
los detalles de su alojamiento. Con ello, queremos decir que los metadatos se or-
ganizan en un modelo lógico denominado sistema de archivos con una estructura
jerárquica o arborescente, en la que se definen carpetas y archivos y se describen
los derechos de acceso de aquellos usuarios que pueden trabajar con ellos. Por
ejemplo, en la Fig. 4 se muestra el explorador de archivos de Ubuntu, el cual está
basado en un sistema de almacenamiento por archivos. Además, también se in-
cluyen los detalles fı́sicos como (en el caso de los discos mecánicos) los cilindros,
sectores y pistas que contienen a los documentos digitales de la colección.
Por su parte, en el almacenamiento por bloques, los documentos y sus meta-
datos se alojan en dispositivos distintos, con la diferencia de que los documentos
se fragmentan y, posiblemente, se reparten entre varios dispositivos para aumen-
tar la posibilidad de acceder a ellos de manera concurrente y, con ello, ganar
en velocidad de escritura/lectura. Tanto los dispositivos de almacenamiento por
archivos como los de bloques se conocen como dispositivos transaccionales. Ello
quiere decir que los documentos que se almacenan pueden recuperarse con faci-
lidad para modificarse a lo largo del tiempo.
Finalmente, el almacenamiento por objetos está pensado para acomodar
volúmenes de información en la escala de los Petabytes (PB) o más, incluso.
La colección de documentos y sus metadatos se almacenan en dispositivos di-
ferentes. Cada documento de la colección pasa por algunas etapas de procesa-
miento antes de ser almacenado. Entre otras cosas, se le puede fragmentar y
luego se genera algún tipo de codificación de redundancia que da lugar a una o
varias secuencias de dı́gitos binarios llamadas objetos. Cada objeto se emplaza
dentro de un espacio lógico de almacenamiento que, a diferencia de los modelos
jerárquicos, puede entenderse como un espacio plano. Sobre este espacio lógico
se mapean las capacidades de los dispositivos fı́sicos que constituyen al sistema.
Hay que considerar que, en vista de su escala, la capacidad de almacenamiento
se consigue con la participación de un número de dispositivos fı́sicos que crece
en la medida en que aumenta la capacidad del sistema en su conjunto.
Un sistema de almacenamiento por objetos debe construirse como un sistema
distribuido, definido por software, que soporte una interfaz estándar y optimice
el manejo de la redundancia. Las organizaciones deben diseñar sus soluciones
de almacenamiento pensando en la disponibilidad en el corto, mediano y lar-
go plazo, lo cual implica una cuidadosa combinación de paradigmas. Esta idea
de incorporar diferentes tipos de almacenamiento es a lo que en este trabajo
llamamos “un ambiente de almacenamiento”.
Por lo que toca a los sistemas de almacenamiento definidos por software,
se trata de sistemas que utilizan mecanismos de software para proporcionar
dispositivos virtuales, sobre los que pueden efectuarse las operaciones de alma-
cenamiento y recuperación de información, con independencia de la tecnologı́a
que los sustenta. La principal ventaja de este tipo de soluciones es que otorga
a los administradores la libertad para elegir o cambiar proveedores, sin perder
continuidad en los servicios que se ofrecen o caer en dependencias tecnológicas.
144 Marcelı́n-Jiménez R. et al.
rente para el usuario final. Llamamos a esta nueva organización “el modelo de
biblioteca cerrada”, porque, como ocurre en algunas bibliotecas, los usuarios no
están autorizados para interactuar con todas las colecciones. En su lugar, existe
un bibliotecario que almacena y recupera cualquier documento que se almacena
en la gran estanterı́a. Hemos construido un bibliotecario automático que es el
único autorizado para interactuar con los documentos guardados en el Aleph.
Consideramos que este modelo propuesto ofrece algunas ventajas para el ma-
nejo de las colecciones: 1) soporta un servicio ágil para un número importante de
usuarios concurrentes con diferentes necesidades; 2) es posible manejar diferentes
tipos de colecciones y catálogos usando el mismo servidor; 3) la comunicación
entre el almacenamiento primario y secundario permite que el primero no se sa-
ture sin que se limite el tamaño de las colecciones que son ingresadas al sistema;
y 4) al mismo tiempo, el almacenamiento secundario ofrece un almacenamiento
de largo plazo.
5. Reflexiones finales
Estamos atestiguando la evolución de las tecnologı́as de almacenamiento.
Entre los implicados inmediatos en esta transformación podemos mencionar al
gobierno, los servicios financieros, el sector salud y todas las organizaciones cu-
yos procesos de negocio están fuertemente vinculados con las tecnologı́as de la
información y comunicaciones (TIC). En los próximos años, los administrado-
res de las TIC (CTO: Chief Technology Officers) deberán tomar importantes
decisiones concernientes a las capacidades de almacenamiento de sus organiza-
ciones: ya sea que estas capacidades se soporten basándose en recursos propios,
como un servicio provisto por un tercero, o una combinación de diferentes solu-
ciones dentro y fuera de casa, es decir, su infraestructura propia y de terceros.
Sin embargo, los cambios impulsados por esta transformación llegarán hasta las
pequeñas organizaciones y, aun, a los usuarios particulares.
Por otra parte, estamos observando la construcción de grandes sistemas pa-
ra el almacenamiento masivo de datos. Sin embargo, puestos en perspectiva,
tendrı́amos que preguntarnos si la información que en ellos hemos deposita-
do podrı́a sobrevivir la prueba del tiempo. La mayor dificultad que podemos
reconocer es que se trata de sistemas electrónicos que requieren de energı́a pa-
ra mantenerse en operación. Si queremos garantizar un registro de largo plazo
tendrı́amos que pensar en soluciones que no requieran de energı́a, o bien, que
sean capaces de proveerse a sı́ mismos de esta. Las mejores soluciones son aque-
llas que se volvieron invisibles y “siempre” han estado ahı́. Dicho de otro modo,
¿de qué manera se guarda información en la naturaleza? Al inicio de esta refle-
xión mencionamos que no existe una solución de almacenamiento que acomode
todas las necesidades asociadas al ciclo de vida de la información. Tal vez, en
algún momento, los ambientes de almacenamiento deberán incorporar compo-
nentes biológicos para la preservación de muy largo plazo, si es que queremos
apostar a que el mensaje en la botella nos sobreviva. Reconocemos, sin embargo,
que esta última reflexión entra en el terreno de lo especulativo.
Reflexiones sobre el almacenamiento digital de las organizaciones 147
6. Agradecimientos
Este trabajo ha sido parcialmente apoyado por el proyecto No. 41756 ti-
tulado “Plataforma tecnológica para la gestión, aseguramiento, intercambio y
preservación de grandes volúmenes de datos en salud y construcción de un repo-
sitorio nacional de servicios de análisis de datos de salud” del fondo PRONACES-
CONACYT.
Bibliografı́a
[1] Archimed. Archimed - Gestion de la connaissance. Available at: https :
//www.archimed.fr/, Last accessed: 2022-10-27. Oct. de 2022.
[2] Inc Atmire. Open Repository - premium DSpace hosting. Available at: http
s://www.openrepository.com/, Last accessed: 2022-10-27. Oct. de 2022.
[3] DOMO. Data never sleeps. https://www.domo.com/learn/infographic/
data-never-sleeps-8. 2019.
[4] University of Southampton Electronics & Computer Science. EPrints Ser-
vices. Available at: https://www.eprints.org/uk/, Last accessed: 2022-
10-27. Oct. de 2022.
[5] Lyrasis Fedora. Fedora is the flexible, modular, open source repository plat-
form with native linked data support. Available at: https://duraspace.
org/fedora/, Last accessed: 2022-10-27. Oct. de 2022.
[6] Josefina Gutiérrez-Martı́nez et al. “A software and hardware architecture
for a high-availability PACS”. En: Journal of digital imaging 25.4 (2012),
págs. 471-479.
[7] O.S Pianykh. Digital imaging and communications in medicine (DICOM)
Cap 11. DICOM Media and Security. Springer 2nd Edition, 2012.
[8] David Rydning et al. “The digitization of the world from edge to core”. En:
Framingham: International Data Corporation 16 (2018).
[9] Chris Wilper. DSpace 4. x Documentation. https://wiki.lyrasis.org/
display/DSDOC4x. 2016.
{victor.morales, alan.ponce}@uacj.mx, [email protected]
─
─
─
Almacenamiento Seguro
1. Introducción
1.1. Definiciones
Las DHT proporcionan una interfaz genérica, lo que facilita que una amplia
variedad de aplicaciones adopten las DHT para almacenamiento [7].
Modelo RESTFul: Refiere a un modelo de interacción entre sistemas de ma-
nera abierta y escalable, utilizando Interfaces de Programación de Aplica-
ciones (API, por sus siglas en inglés) que se ajusta a los lı́mites de una
arquitectura de ambientes distribuidos conocida como REST [10].
federación o a la nube, aplicando diferentes filtros que cumplan con los requisi-
tos no funcionales requeridos por una organización. Al combinar los catálogos de
servicios con la compartición de recursos y datos se obtiene una alta fiabilidad,
distribución de la carga, integridad de los datos, confidencialidad de los datos y
la independencia del proveedor de servicios de nube.
(3) (A)
(2) (B)
(C)
(1)
Aplicación Aplicación
Editor Usuario
final
Cat
Gestor de
ODA Painal
Acceso
Pub/Sub R1
Agente
Pub/Sub
PPA
Pub Gestor de Gestor de
Pub metadatos recursos
Motor de R2 Servicio y
Encubrimiento
flujo de servidor de
de fallas
trabajo pub/sub
Dy
Acceso
Tenencia Colocación de
Agente múltiple datos
UPA Manejador
Sub
Sub
Motor de R3
flujo de Sistema unidicado de
trabajo plataforma de almacenamiento
Retr
4
El streaming es un servicio que permite a los usuarios consumir un contenido en
lı́nea sin tener que esperar a que se descargue.
172 González-Compeán J. L. et al.
(2) Gestor de
Painal
Interfaz del usuario final (4)
|C|
(1) IDA D5
D1
D2
D4
Carpeta
Publicación (3) D3 (5)
Gestor de
Painal (2)
(1)
Interfaz del usuario final
D5 (5)
|C|
D1 IDA
D2
Carpeta
Publicación
D4
D3
(3) (4)
Esquema de entrega
Sistema de almacenamiento
Administrador de esferas
Colocación de datos
Balanceador de carga
Distribuidor Nodo
Simbología
Solución de
Nodo almacenamiento
Infraestructura
Rol de servicio (ser) - para atender las solicitudes realizadas por usuarios
finales;
Rol de gestor (mgr) - se encarga de ejecutar las tareas de almacenamiento
(asignación, localización y equilibrio de carga) y de añadir los requisitos no
funcionales a los datos;
Rol de nodo (node) - Se encarga de preservar datos.
Tenga en cuenta que al menos un servicio ser y un gestor mgr deben estar
asignados en la malla. La selección de los nodos de servicio y gestor son realizados
durante el diseño y construcción.
4. Conclusiones
El presente capı́tulo describió la herramienta “Muyal-Painal: Servicio para
el transporte y almacenamiento de datos médicos”, que forma parte del Proyecto
ProNacEs-Pronaii número 41756 titulado “Plataforma tecnológica para la ges-
tión, aseguramiento, intercambio y preservación de grandes volúmenes de datos
180 González-Compeán J. L. et al.
5. Agradecimientos
Este trabajo ha sido parcialmente financiado por el proyecto No. 41756 ti-
tulado “Plataforma tecnológica para la gestión, aseguramiento, intercambio y
preservación de grandes volúmenes de datos en salud y construcción de un repo-
sitorio nacional de servicios de análisis de datos de salud” del fondo PRONACES-
CONACYT.
Bibliografı́a
[1] Roberto Beraldi, Hussein Alnuweiri y Abderrahmen Mtibaa. “A power-of-
two choices based algorithm for fog computing”. En: IEEE Transactions
on Cloud Computing 8.3 (2018), págs. 698-709.
[2] Diana Carrizales-Espinoza, JL Gonzalez-Compean y Miguel Morales-Sandoval.
“Zamna: a tool for the secure and reliable storage, sharing, and usage of
large data sets in data science applications”. En: 2022 IEEE Mexican Inter-
national Conference on Computer Science (ENC). IEEE. 2022, págs. 1-8.
[3] Diana Carrizales-Espinoza et al. “A Federated Content Distribution Sys-
tem to Build Health Data Synchronization Services”. En: 2021 29th Eu-
romicro International Conference on Parallel, Distributed and Network-
Based Processing (PDP). 2021, págs. 1-8. doi: 10.1109/PDP52278.2021.
00011.
[4] Diana Carrizales-Espinoza et al. “SeRSS: a storage mesh architecture to
build serverless reliable storage services”. En: 2022 30th Euromicro Inter-
national Conference on Parallel, Distributed and Network-based Processing
(PDP). 2022, págs. 88-91. doi: 10.1109/PDP55904.2022.00022.
[5] Sanskriti Choubey y Astitwa Bhargava. “Significance of ISO/IEC 27001 in
the implementation of governance, risk and compliance”. En: International
Journal of Scientific Research in Network Security and Communication 6.2
(2018), págs. 30-33.
[6] Lawrence Chung et al. Non-functional requirements in software enginee-
ring. Vol. 5. Springer Science & Business Media, 2012.
Muyal-Painal: Servicio de transporte y almacenamiento de datos médicos 181
[7] Frank Frank Edward Dabek. “A distributed hash table”. Tesis doct. Mas-
sachusetts Institute of Technology, 2005.
[8] Chun-Ping Deng et al. “Organizational agility through outsourcing: Roles
of IT alignment, cloud computing and knowledge transfer”. En: Interna-
tional Journal of Information Management 60 (2021), pág. 102385.
[9] Yusuf Durachman et al. “IT security governance evaluation with use of
COBIT 5 framework: A case study on UIN Syarif Hidayatullah library
information system”. En: 2017 5th International Conference on Cyber and
IT Service Management (CITSM). IEEE. 2017, págs. 1-5.
[10] Roy T. Fielding et al. “Reflections on the REST architectural style and
”principled design of the modern web architecture”(impact paper award)”.
En: Proceedings of the 2017 11th Joint Meeting on Foundations of Softwa-
re Engineering, ESEC/FSE 2017, Paderborn, Germany, September 4-8,
2017. Ed. por Eric Bodden et al. ACM, 2017, págs. 4-14. doi: 10.1145/
3106237.3121282.
[11] José Luis González et al. “SkyCDS: A resilient content delivery service
based on diversified cloud storage”. En: Simulation Modelling Practice and
Theory 54 (2015), págs. 64-85.
[12] JL Gonzalez-Compean et al. “Fedids: a federated cloud storage architec-
ture and satellite image delivery service for building dependable geos-
patial platforms”. En: International journal of digital earth 11.7 (2018),
págs. 730-751.
[13] Haryadi S Gunawi et al. “Why does the cloud stop computing? lessons
from hundreds of service outages”. En: Proceedings of the Seventh ACM
Symposium on Cloud Computing. 2016, págs. 1-16.
[14] B Hayes. Cloud Computing (CC) Communications of the ACM, 51 (7).
2008.
[15] Daniel Higuero et al. “HIDDRA: a highly independent data distribution
and retrieval architecture for space observation missions”. En: Astrophysics
and Space Science 321.3 (2009), págs. 169-175.
[16] Ahmed Ibrahim et al. “A security review of local government using NIST
CSF: a case study”. En: The Journal of Supercomputing 74.10 (2018),
págs. 5171-5186.
[17] The multiprotocol file transfer library. libcurl - the multiprotocol file trans-
fer library. Available at: http://curl.haxx.se/libcurl, Last accessed:
2022-10-27. Sep. de 2022.
[18] SUBSECRETARÍA DE INTEGRACIÓN DEL SECTOR SALUD MA-
KI ESTHER ORTIZ DOMINGUEZ. “NORMA Oficial Mexicana NOM-
024-SSA3-2010, Que establece los objetivos funcionales y funcionalidades
que deberán observar los productos de S istemas de Expediente C lı́nico
Electrónico para garantizar la interoperabilidad, procesamiento, interpre-
tación, confidencialidad, seguridad y uso de estándares y catálogos de la
información de los registros electrónicos en salud. Al margen un sello con
el Escudo Nacional, que dice: Estados Unidos Mexicanos.-Secretarı́a de
Salud.” En: ().
182 González-Compeán J. L. et al.
●
●
●
●
Edwin Aldana-Bobadilla1[0000−0001−8315−1813]
Alejandro Molina-Villegas2[0000−0001−9398−8844]
Hiram Galeana-Zapién3[0000−0002−8449−9077]
Karina Gazca-Hernández3
1
Conacyt-Centro de Investigación y de Estudios Avanzados del I.P.N. (Cinvestav),
Victoria 87130, Mexico
[email protected]
2
Conacyt-Centro de Investigación en Ciencias de Información Geoespacial
(Centrogeo), Mérida 97302, Mexico
[email protected]
3
Centro de Investigación y de Estudios Avanzados del I.P.N. (Cinvestav), Victoria
87130, Mexico
{hgalena,karina.gazca}@cinvestav.mx
1. Introducción
2.1. Codificación
Una variable de escala nominal u ordinal induce 𝑘 categorı́as que pueden
ser transformadas en una secuencia de 𝑘 − 1 variables. Retomando el ejemplo
de la escolaridad del paciente, esta variable es codificada como una secuencia
de cuatro variables binarias, como se ilustra en la Tabla 1. Estas variables son
denominadas variables dummy y pueden ser usadas como variables predictoras
en modelos de regresión o clasificación [13]. Los valores de dichas variables (0,1)
inducen un espacio ortogonal en el que la suma, la resta y el cálculo de distancia
son posibles. Obsérvese que no es necesaria la variable primaria, ya que con las
cuatro variables restantes codificadas siempre será posible inferirla (cuando las
198 Aldana-Bobadilla et al.
3. Datos no estructurados
Hasta aquı́ hemos señalado las diferencias entre los datos numéricos y ca-
tegóricos, haciendo énfasis en las tareas de transformación de estos últimos para
hacer posible su análisis cuantitativo. Usualmente, tanto los datos numéricos
como los categóricos representan atributos de entidades u objetos de algún do-
minio que pueden ser organizados bajo las pautas de un modelo de datos [7]. Sin
embargo, existen otros tipos de datos que requieren de una transformación que
habilite su análisis desde el punto de vista cuantitativo. En muchos dominios,
entre ellos el dominio médico, se tienen datos en otros formatos, como texto
o imagen, que requieren ser procesados con el fin de extraer información en la
forma de propiedades cuantitativas o numéricas. Estos datos son tı́picamente
conocidos como no estructurados dado que no están enmarcados bajo ninguna
estructura o modelo. En la Tabla 2 se presentan algunas diferencias puntuales
entre datos estructurados y no estructurados.
200 Aldana-Bobadilla et al.
3.1. Texto
La información médica en formato textual tiene dos variantes que deben tra-
tarse de manera distinta para su correcto procesamiento. Por un lado, hay que
considerar que uno de los tipos de datos básicos de la mayorı́a de los lenguajes de
programación (y de las bases de datos) es el tipo de dato cadena (string o text en
documentación técnica) que, para efectos de procesamiento, debe ser utilizado
como datos categóricos. Ejemplos de este tipo de información médica los pode-
mos encontrar en los resultados de un análisis clı́nicos para medir el ácido úrico.
La información de este examen podrı́a contener la leyenda “Valores normales”,
indicando que se encontró un rango de 3.5-7.2 (en varón). En este caso, la in-
formación de la leyenda es ciertamente de tipo textual, pero su procesamiento
mediante algoritmos debe hacerse de acuerdo con lo señalado en la Sección 2
Datos Categóricos. Esto es debido a que los datos textuales no corresponden a
una narrativa o una descripción, lo cual nos lleva al segundo caso, que se discute
a continuación.
Las notas médicas, al ser descripciones de información destinadas a ser leı́das,
comprendidas e interpretadas por médicos, deben ser tratadas mediante algo-
ritmos de inteligencia artificial (IA) para extraer conocimiento. En particular,
toda información textual que represente una narrativa puede ser insumo de al-
goritmos de procesamiento de lenguaje natural (PLN). La información textual
proveniente de notas médicas, descripciones, valoraciones, artı́culos cientı́ficos,
reportes técnicos, entre otras, representa una fuente vasta en conocimiento, pe-
ro su correcto aprovechamiento representa también grandes e interesantes retos
tecnológicos que han motivado el estado del arte en el procesamiento de este
Datos Médicos No Estructurados 201
Una buena alternativa para extender las bondades del método REGEX en
textos médicos se puede encontrar en el proyecto covidminer7 , el cual utiliza
ontologı́as para detectar conceptos relacionados al COVID-19, sı́ntomas, men-
ciones de muestreos, comorbilidades, a partir de información obtenida de exper-
tos y de Wikidata. El software se usó para analizar notas médicas que fueron
proporcionadas por autoridades médicas durante el transcurso de la pandemia
de COVID-19 y que requerı́an soluciones precisas y rápidas de implementar. A
partir de un primer léxico médico especializado durante el desarrollo de la pan-
demia en México, se establecieron las entidades de interés a encontrar en las
notas médicas. Usando este recurso, se elaboró una ontologı́a ad hoc, en la cual
los términos a encontrar fueron relacionados con nuevos términos y unificados
mediante un identificador único. Por ejemplo, entre el léxico de los sı́ntomas de
interés, el término disnea, de la Figura 1, puede ocurrir de esta manera, pero
también puede ser referido como dificultad respiratoria. Ası́, para poder llevar a
cabo una detección y conteos efectivos de las menciones de este sı́ntoma, existe
un ID 𝑄188008, el cual refiere al sı́ntoma como un concepto, independientemente
de la manera en que es mencionado en los textos, tal y como se muestra en el
siguiente extracto. Usando esta metodologı́a, se puede contar el número de veces
que los pacientes refirieron haber tenido algún sı́ntoma de COVID-19 y contras-
7
El repositorio covidminer proporciona un módulo completo para NER en Español
basado en REGEX y ontologı́as. https://github.com/alemol/covidminer
204 Aldana-Bobadilla et al.
tar con las menciones en los diagnósticos médicos, pues ambos se relacionan a
través del concepto con un ID como se muestra en la Figura 1.
Para finalizar esta sección, mencionaremos que, hoy en dı́a, los métodos de
NER más utilizados están basados en modelos matemáticos. Por su relevancia,
en la sección siguiente nos centraremos en modelos neuronales de aprendizaje
profundo, a partir de los cuales no solamente es posible caracterizar entidades
nombradas en el contexto médico, sino que también son, por sı́ mismos, modelos
del lenguaje que permiten una gran variedad de aplicaciones en el procesamiento
de textos.
3.2. Imágenes
puede observar en la Figura 2, los pı́xeles A, B, C, D son solo una pequeña parte
de una imagen mucho más grande.
Tiempo discreto. Las muestras del signo vital son obtenidas en intervalos de
tiempo regulares, expresadas en segundos, minutos, etc.
Orden natural. Representa el orden cronológico de las muestras, el cual debe
preservarse durante el análisis y procesamiento debido a que éste establece
una relación entre las muestras recabadas durante un intervalo determinado.
80
Episodio
●
(AHE)
70 ●
●
●●●●
●
● ●
●
● ● ●
●
●
● ●●●●●●●●
● ●
● ● ●●
● ● ●● ●●
● ● ●
●● ●
● ● ●●● ●● ●●
●●●
●
● ● ● ●● ●
● ● ● ●●
● ●● ● ●
●●● ● ●
● ● ●●●
● ● ●●
60 ● ● ●
●
●
●●●
●●
●●
●●●●●●
●●
●●●
Umbral ● ●
●● ●
● ●
●●●●●
●●
●
●●●
episodio ● ●
hipotensivo
50
0
10
20
30
40
50
60
70
80
90
100
110
120
130
Tiempo t (min)
4. Conclusiones
Los procesos de atención médica son generadores de datos que registran di-
ferentes escenarios y estados de salud de los pacientes, tı́picamente en la forma
de variables fisiológicas y socio-económicas supeditadas a estructuras tabulares
y relacionales propias de la institución médica que las genera. A partir de estas
variables es posible realizar análisis numéricos y estadı́sticos en aras de encontrar
modelos que apoyen el proceso de toma de decisión. En este escenario, son de
especial atención aquellas variables en las que, por su naturaleza, es imposible
realizar dicho análisis de forma directa y que requieren, por lo tanto, un proce-
so de transformación. En las secciones previas se presentaron algunos enfoques
ampliamente usados para lograr dicha transformación.
Alrededor del proceso de atención también se generan datos en otros forma-
tos provenientes, por ejemplo, de estudios de laboratorio, imagenologı́a, notas
médicas, entre otros. La variedad de formatos y la naturaleza no estructurada
de éstos hacen necesaria la ejecución de tareas de procesamiento que permitan
212 Aldana-Bobadilla et al.
80
●
70 ●
●
●
●
● ● ●
● ●
MAP
● ●
0N
● ● ● ● ●
● ● ● ● ● ● ●
● ●
● ● ● ● ●
● ● ● ●
● ● ● ● ● ● ●
60 Umbral
● ● ● ● ● ● ● ● ●
● ● ●
● ● ● ● ●
● ● ● ● ● ● ● ● ● ● ● ●
● ● ● ● ● ● ● ● ●
●
●
● ● ● ●
● ● ● ●
episodio
50
hipotensivo ●
10
20
30
40
50
60
70
80
90
Tiempo t (min)
Transformación
Tranformaciónbinaria
binaria
1 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
B
BN
0 ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ● ●
0
10
20
30
40
50
60
70
80
90
Tiempo t (min)
Referencias
[1] Amir Ahmad y Lipika Dey. “A k-mean clustering algorithm for mixed
numeric and categorical data”. En: Data & Knowledge Engineering 63.2
(2007), págs. 503-527.
[2] Edwin Aldana-Bobadilla et al. “Adaptive Geoparsing Method for Toponym
Recognition and Resolution in Unstructured Text”. En: Remote Sensing
12.18 (2020), pág. 3041.
[3] Edwin Aldana-Bobadilla et al. “A language model for misogyny detection
in Latin American Spanish driven by multisource feature extraction and
transformers”. En: Applied Sciences 11.21 (2021), pág. 10467.
[4] Emily Alsentzer et al. “Publicly available clinical BERT embeddings”. En:
arXiv preprint arXiv:1904.03323 (2019).
Datos Médicos No Estructurados 213
[21] Teuvo Kohonen. “The self-organizing map”. En: Proceedings of the IEEE
78.9 (1990), págs. 1464-1480.
[22] Jinhyuk Lee et al. “BioBERT: a pre-trained biomedical language represen-
tation model for biomedical text mining”. En: Bioinformatics 36.4 (2020),
págs. 1234-1240.
[23] Cen Li y Gautam Biswas. “Unsupervised learning with mixed numeric and
nominal data”. En: IEEE Transactions on knowledge and data engineering
14.4 (2002), págs. 673-690.
[24] Ivan Lopez-Arevalo et al. “A Memory-Efficient Encoding Method for Pro-
cessing Mixed-Type Data on Machine Learning”. En: Entropy 22.12 (2020).
issn: 1099-4300. doi: 10.3390/e22121391. url: https://www.mdpi.com/
1099-4300/22/12/1391.
[25] Huilan Luo, Fansheng Kong y Yixiao Li. “Clustering mixed data based on
evidence accumulation”. En: International Conference on Advanced Data
Mining and Applications. Springer. 2006, págs. 348-355.
[26] Naresh K Malhotra. Investigación de mercados: un enfoque aplicado. Pear-
son educación, 2004, págs. 65-66.
[27] Richard McElreath. Statistical rethinking: A Bayesian course with exam-
ples in R and Stan. Chapman y Hall/CRC, 2020.
[28] Daniele Micci-Barreca. “A preprocessing scheme for high-cardinality ca-
tegorical attributes in classification and prediction problems”. En: ACM
SIGKDD Explorations Newsletter 3.1 (2001), págs. 27-32.
[29] Tomas Mikolov et al. “Efficient Estimation of Word Representations in
Vector Space”. En: 1st International Conference on Learning Representa-
tions, ICLR 2013, Scottsdale, Arizona, USA, May 2-4, 2013, Workshop
Track Proceedings. Ed. por Yoshua Bengio y Yann LeCun. 2013. url:
http://arxiv.org/abs/1301.3781.
[30] Alejandro Molina-Villegas. “La incidencia de las voces misóginas sobre el
espacio digital en México”. En: Jóvenes, Plataformas Digitales y Lengua-
jes: Diversidad Lingüı́stica, Discursos e Identidades. Página Seis, 2022,
págs. 39-61.
[31] Alejandro Molina-Villegas et al. “Geographic named entity recognition
and disambiguation in Mexican news using word embeddings”. En: Expert
Systems with Applications 176 (2021), pág. 114855.
[32] Alejandro Molina-Villegas et al. “Incorporating Natural Language Proces-
sing models in Mexico City’s 311 Locatel”. En: LatinX in Natural Language
Processing Research Workshop at NAACL 2022. Seattle: North American
Chapter of the Association for Computational Linguistics (NAACL), 2022.
[33] Hernán Guillermo Dulcey Morán. Modelo de aprendizaje multimodal apli-
cado al diagnóstico de padecimientos clı́nicos. 2021.
[34] Mohammad Naghi Namakforoosh. Metodologı́a de la investigación. Edito-
rial Limusa, 2000, pág. 223.
[35] Nhung TH Nguyen, Roselyn S Gabud y Sophia Ananiadou. “COPIOUS:
A gold standard corpus of named entities towards extracting species occu-
rrence from biodiversity literature”. En: Biodiversity data journal 7 (2019).
Datos Médicos No Estructurados 215
[36] Charlene Jennifer Ong et al. “Machine learning and natural language pro-
cessing methods to identify ischemic stroke, acuity and location from ra-
diology reports”. En: PloS one 15.6 (2020), e0234908.
[37] Jeffrey Pennington, Richard Socher y Christopher D Manning. “Glove:
Global vectors for word representation”. En: Proceedings of the 2014 con-
ference on empirical methods in natural language processing (EMNLP).
2014, págs. 1532-1543.
[38] Matthew E Peters et al. “Deep contextualized word representations”. En:
arXiv preprint arXiv:1802.05365 (2018).
[39] Tim Rocktäschel, Michael Weidlich y Ulf Leser. “ChemSpot: a hybrid
system for chemical named entity recognition”. En: Bioinformatics 28.12
(2012), págs. 1633-1640.
[40] Satoshi Sekine y Chikashi Nobata. “Definition, Dictionaries and Tagger for
Extended Named Entity Hierarchy.” En: LREC. Lisbon, Portugal. 2004.
[41] Joan Serrà y Alexandros Karatzoglou. “Getting Deep Recommenders Fit:
Bloom Embeddings for Sparse Binary Input/Output Networks”. En: Pro-
ceedings of the Eleventh ACM Conference on Recommender Systems. RecSys
’17. Como, Italy: Association for Computing Machinery, 2017, 279–287.
isbn: 9781450346528.
[42] David A Smith y Gregory Crane. “Disambiguating geographic names in
a historical digital library”. En: Research and Advanced Technology for
Digital Libraries. Springer, 2001, págs. 127-136.
[43] NV Sobhana, Pabitra Mitra y SK Ghosh. “Conditional random field based
named entity recognition in geological text”. En: International Journal of
Computer Applications 1.3 (2010), págs. 143-147.
[44] Ali Hassan Sodhro et al. “An energy-efficient algorithm for wearable elec-
trocardiogram signal processing in ubiquitous healthcare applications”.
En: Sensors 18.3 (2018), pág. 923.
[45] Lorraine Tanabe et al. “GENETAG: a tagged corpus for gene/protein na-
med entity recognition”. En: BMC bioinformatics 6.1 (2005), pág. 1.
[46] Kilian Weinberger et al. “Feature hashing for large scale multitask lear-
ning”. En: Proceedings of the 26th annual international conference on ma-
chine learning. 2009, págs. 1113-1120.
[47] Kyi Pyar Win et al. “Computer-assisted screening for cervical cancer using
digital image processing of pap smear images”. En: Applied Sciences 10.5
(2020), pág. 1800.
[48] Nina Zumel y John Mount. “vtreat: a data. frame Processor for Predictive
Modeling”. En: arXiv preprint arXiv:1611.09477 (2016).
El cuidado de la obra estuvo a
cargo de Montiel & Soriano
Editores S.A. de C. V. El tamaño
del archivo es de 51.7 MB