Articulo 2 Electiva Es
Articulo 2 Electiva Es
Articulo 2 Electiva Es
BMC Salud
Ryu et al. BMC Oral Health (2022) 22:454
https://doi.org/10.1186/s12903-022-02466-x
Bucodental
INVESTIGACIÓN Acceso
abierto
Resumen
Antecedentes La toma de fotografías clínicas faciales e intraorales es una de las partes esenciales del diagnóstico
ortodóncico y la planificación del tratamiento. Entre los procedimientos de diagnóstico, la clasificación de las fotos
clínicas barajadas con sus orientaciones será el paso inicial, mientras que no fue fácil para una máquina clasificar fotos
con una variedad de situaciones faciales y dentales. Este artículo presenta una técnica de aprendizaje profundo de
redes neuronales convolucionales (CNN) para clasificar fotos clínicas de ortodoncia según sus orientaciones.
Métodos Para construir un sistema de clasificación automatizado, se construyeron modelos CNNs de categorías
faciales e intraorales, y se utilizaron las fotos clínicas que se toman rutinariamente para el diagnóstico ortodóncico para
entrenar los modelos con aumento de datos. Los procedimientos de predicción se evaluaron con fotos separadas cuya
finalidad era únicamente la predicción.
Resultados En general, se obtuvo una tasa de predicción válida del 98,0% para la clasificación de fotos faciales e
intraorales. La tasa de predicción más alta fue del 100% para el perfil lateral facial y las fotos intraorales superior e
inferior.
Conclusión Un sistema de inteligencia artificial que utiliza el aprendizaje profundo con modelos de entrenamiento
adecuados puede clasificar con éxito fotos faciales e intraorales de ortodoncia de forma automática. Esta técnica puede
utilizarse para el primer paso de un sistema de diagnóstico de ortodoncia totalmente automatizado en el futuro.
Palabras clave Fotografías clínicas, Inteligencia artificial, Deep learning, Ortodoncia
Fondo
La preparación básica de un plan de tratamiento
ortodóncico consiste en la toma de radiografías
cefalométricas y posteroanteriores, impresiones de un
modelo de estudio del paciente y una serie de fotografías
clínicas. Las fotografías clínicas intraorales y faciales son
*Correspondencia:
Seok-Ki Jung útiles para los ortodoncistas y son esenciales [1, 2] en el
[email protected] procedimiento de diagnóstico inicial. Las fotografías
Tae-Woo Kim intraorales proporcionan información variada sobre la
[email protected]
1
Departamento de Ortodoncia, Facultad de Odontología, Instituto forma de los dientes, la alineación y el estado gingival.
de Investigación Odontológica, Universidad Nacional de Seúl, 101 Las fotografías faciales proporcionan características
Daehakro, Jongro-gu, 03080 Seúl, Corea. estéticas de la forma facial y la relación con los dientes.
2
Departamento de Ortodoncia, Hospital Guro de la Universidad
de Corea, 148 Gurodong-ro, Guro-gu, 08308 Seúl, Corea.
Las fotografías clínicas pueden utilizarse de forma
independiente para comprobar las características
clínicas que transmiten, o pueden utilizarse con una
combinación de otros métodos.
© El autor(es) 2022. Acceso abierto Este artículo está bajo una Licencia Creative Commons Atribución 4.0 Internacional, que permite su uso,
compartición, adaptación, distribución y reproducción en cualquier medio o formato, siempre que se cite debidamente al autor o autores originales y
la fuente, se facilite un enlace a la licencia Creative Commons y se indique si se han realizado cambios. Las imágenes u otro material de terceros en
este artículo están incluidos en la licencia Creative Commons del artículo, a menos que se indique lo contrario en una línea de crédito al material.
Si el material no está incluido en la licencia Creative Commons del artículo y su uso previsto no está permitido por la normativa legal o excede el uso
permitido, deberá obtener permiso directamente del titular de los derechos de autor. Para ver una copia de esta licencia, visite
http://creativecommons.org/licenses/by/4.0/. La renuncia a la Dedicación de Dominio Público de Creative Commons
(http://creativecommons.org/publicdomain/zero/1.0/) se aplica a los datos disponibles en este artículo, a menos que se indique lo contrario en
una línea de crédito a los datos.
Ryu et al. BMC Oral Health (2022) 22:454 Página 2
de 12
Procedimiento fotográfico
Varios médicos diferentes tomaron las fotos digitales y
no existe ninguna referencia sobre qué médico tomó
cada conjunto de fotos; en otras palabras, distintos
médicos podrían haber tomado fotos del mismo
paciente. Esto puede dar un poder aleatorio de
diversidad en la calidad de las fotos. Las fotos faciales
de un solo conjunto constan de frente, sonrisa frontal,
perfil derecho y perfil de tres cuartos. Los juegos de fotos
intraorales contienen vistas frontales, bucales
izquierdas, bucales derechas, oclusales maxilares y
oclusales mandibulares. Todas estas fotografías
constituyen el conjunto básico de fotografías clínicas
tomadas en el Departamento de Ortodoncia del
Hospital Dental de la Universidad Nacional de Seúl e
incluyen el conjunto recomendado de fotografías de
diagnóstico de ortodoncia [20]. Para abarcar una
variedad de situaciones clínicas reales, no se excluyeron
condiciones dentales como dientes ausentes, aparatos
de ortodoncia, aparatos removibles o cualquier tipo de
prótesis (Fig. 1).
Conjuntos de datos
El conjunto de aprendizaje recopilado consta de 1.396
fotos faciales y 2.152 fotos intraorales, y el conjunto de
predicción consta de 400 fotos faciales y 500 fotos
intraorales (Tabla 1). El etiquetado de los datos fue
realizado inicialmente por J.R., y después K.L. confirmó
manualmente los activos etiquetados. No hubo ningún
conflicto. Las fotos originales se transformaron
aleatoriamente para ampliar numéricamente el número
de fotos de modo que se generara un máximo de seis
fotos procesadas aleatoriamente a partir de cada foto
original. Las transformaciones implicaban uno o más
procesos de traslación, desenfoque, ampliación y
rotación, aunque los rangos eran limitados para no
dificultar su distinción por parte de los clínicos. En
concreto, se aplicó un rango del 0% a un máximo del
8% de cizallamiento, ampliación, desplazamiento
horizontal, desplazamiento vertical y desenfoque
Ryu et al. BMC Oral Health (2022) 22:454 Página 4
de 12
Fig. 1 Ejemplos de fotos de entrada. Se muestran las diferentes disposiciones, alineaciones, aparatos y estados de los dientes
Fig. 2 La estructura básica de un modelo de red consta de capas convolucionales, de agrupamiento, densas y de abandono.
utilizando funciones internas del paquete Keras y Arquitectura del modelo CNN
Python Scikit-learn. Esta división se realizó por cada La figura 2 muestra la arquitectura general del modelo
objeto fotográfico. La proporción de los conjuntos de CNN para el reconocimiento facial e intraoral de
entrenamiento y validación fue de 75 a 25, con lo que se fotografías. El modelo de entrenamiento se creó
obtuvieron 8.355 imágenes faciales y 12.902 intraorales originalmente sin implementar ningún modelo
de entrenamiento. preexistente. En la arquitectura de las CNNs para
fotografía facial, después de las capas de entrada, hay
cuatro capas de entrada.
Ryu et al. BMC Oral Health (2022) 22:454 Página 5
de 12
Fig. 3 Curva de aprendizaje del proceso de entrenamiento. (A) Clasificación de fotos faciales. (B) Clasificación de fotos intraorales
Formación y validación
El entrenamiento de los conjuntos de datos brutos se
procesó por separado según el grupo facial e intraoral.
Se utilizó el método de optimización de Adam [22] y la
función de pérdida de entropía cruzada categórica [18].
Los datos de las imágenes de entrenamiento se
introdujeron en el modelo con un tamaño de lote de 32
y una época de 50 ciclos. Una vez completado el proceso
de entrenamiento, el proceso de valoración se llevó a
cabo con el resto de los datos de imágenes de
aprendizaje, que eran diferentes de los datos de
entrenamiento.
Predicción
El procedimiento de predicción se llevó a cabo con 100
fotografías clínicas de cada categoría, que no eran
duplicados ni del conjunto de entrenamiento ni del de
validación. El conjunto de datos de predicción contiene
Ryu et al. BMC Oral Health (2022) 22:454 Página 6
grupo de predicción. Las fotos de las pruebas se de 12
analizaron una a una como un único objeto, no como
un conjunto de casos de pacientes. Las fotos
alimentadas no se voltearon ni rotaron arbitrariamente.
Los resultados de la predicción se imprimieron como
texto sin formato con la etiqueta de la categoría de foto
más probable.
Resultados
Procedimiento de formación y validación
Al final del procedimiento de entrenamiento, la
precisión de éste alcanzó el 99,3% para las fotos faciales
y el 99,9% para las intraorales (Fig. 3). El número de
fotos del conjunto total de validación fue de 2.786 para
las fotos faciales y de 4.301 para las intraorales, que se
dividieron aleatoriamente del conjunto mixto original.
Los valores de precisión de la validación fueron del
99,8% tanto para la clasificación de fotos faciales como
intraorales.
Procedimiento de predicción
El procedimiento de predicción se realizó
independientemente del procedimiento de aprendizaje,
lo que significa que no hubo fotos duplicadas para las
pruebas de aprendizaje y predicción. Por lo tanto, es
posible evaluar la situación real de la clasificación de
nuevas fotos clínicas nunca entrenadas. Cada conjunto
de pruebas de predicción estaba formado por fotos de
cien casos de pacientes elegidos al azar que ningún caso
de paciente superaba en el conjunto de datos de
entrenamiento. La selección se hizo por caso de
paciente, no por objeto fotográfico; por tanto, las
imágenes procedían de cien pacientes diferentes.
Las tasas medias de las fotos faciales e intraorales
clasificadas con éxito fueron ambas del 98,0%. En la
tabla 2 se resumen los porcentajes de clasificación. En
la clasificación de las fotos faciales, la tasa de éxito más
alta fue del 100,0% en la detección de las fotos de perfil
derecho, y la tasa de éxito más baja fue del 97,0% en el
reconocimiento de las fotos de frente y de sonrisa. En el
caso de las fotos intraorales, los porcentajes de
detección de las fotos superior e inferior fueron del
100,0%, los más altos, mientras que la foto frontal
intraoral tuvo un porcentaje de detección del 94,0%, el
más bajo.
Ryu et al. BMC Oral Health (2022) 22:454 Página 7
de 12
Tabla 2 Porcentaje de éxito de las pruebas de predicción. Media índices de análisis cefalométrico previamente calculados
total 98,0% que se utilizan habitualmente para decidir las
Categoría Fotos de Recuen Tasa
prueba
extracciones, como el ángulo entre el punto A y el punto
to de de
éxitos éxit B ("ANB"), el ángulo entre la incisura central maxilar y
o la línea Sella-Nasion ("SN"), y entre el labio superior y la
(%) línea E, etc. [23]. Sin embargo, la técnica de aprendizaje
Facial Frente 100 97 97 profundo trabaja con fotos cromáticas bidimensionales
Sonrisa frontal 100 97 97 compuestas por multitud de píxeles reunidos para
Tres cuartos 100 98 98 formar una única foto que procesar.
Perfil derecho 100 100 100 Siempre habrá problemas de sobreajuste en el enfoque
Media 98.0
de aprendizaje profundo. La sobreadaptación se
Intraoral Superior 100 100 100
e x p r e s a generalmente como buenos resultados en
Baja 100 100 100
los conjuntos de entrenamiento y validación, pero con
Derecha 100 99 99
índices significativamente inferiores en el conjunto de
Frente 100 94 94
predicción. Esto ocurre cuando el modelo aprende
Izquierda 100 97 97
características idiosincrásicas y memoriza parámetros
Media 98.0
en patrones más complicados, que se ajustan bien a los
datos de entrenamiento, pero falla al gen- eralizar los
Debate
patrones de características [12]. Para minimizar este
Ha habido intentos de utilizar la metodología del
problema a la vez que se mejora la tasa de éxito, este
aprendizaje automático para ayudar a resolver
modelo de entrenamiento utiliza la técnica del abandono
problemas ortodóncicos como la marcación
para reducir intencionadamente las características de
cefalométrica automática y la determinación de cirugía
conexión que mejor se ajustan, así como el aumento de
frente a no cirugía [8]. Sin embargo, hasta donde
los datos de entrada [24]. Para el aumento,
sabemos, sólo se ha realizado un estudio [9] para
implementamos cierto grado de transformación
reconocer y clasificar fotografías clínicas de ortodoncia.
aleatoria para aumentar el número de fotos de muestra
En este estudio, utilizamos una técnica de aumento de
de 1.396 a 11.141 para las fotos faciales y de 2.152 a
datos con un menor número de fotos originales en
17.203 para las fotos intraorales.
comparación con el estudio anterior, manteniendo al
La razón de la tasa de éxito relativamente baja a la
mismo tiempo una estructura de modelo ligera. Dado
hora de distinguir las fotos faciales frontales y de sonrisa
que etiquetar y anotar un gran número de objetos es una
entre las demás fotos faciales puede atribuirse a la escasa
tarea laboriosa, sería una estrategia razonable tomar un
diferencia entre sonreír y no sonreír, especialmente
pequeño número de muestras para una futura
porque pedimos a los pacientes que posaran con una
aplicación práctica. Este procedimiento de aumento era
ligera sonrisa (Fig. 4A). Aunque el mecanismo
adecuado para la clasificación de la orientación de las
subyacente exacto de cómo el modelo de aprendizaje
fotos, ya que éstas están bien estandarizadas en general.
profundo toma sus decisiones apenas se conoce debido
Además, la composición de las fotografías de los
a su naturaleza [25], suponemos que el modelo reconoce
pacientes también es diferente de la del artículo
al menos diferencias morfológicas como un contorno de
anterior, ya que nuestro conjunto de datos incluye
objetos o diferencias de color, contorno de labios o
diversas condiciones, como aparatos de ortodoncia,
exposición de dientes blancos al sonreír, lo que podría
tornillos, aparatos personalizados y combinaciones de
no entender realmente lo que significa "sonreír".
ellos en cualquier momento del tratamiento.
Además, aunque sigue siendo superior a nueve de
A diferencia de un problema de aprendizaje
cada diez, la tasa de detección resultante relativamente
automático que calcula datos numéricos, los problemas
más baja para las fotos intraorales frontales puede
relativos a fotos planas requieren un enfoque diferente.
deberse a la predisposición de la clasificación hacia el
Para entrenar un modelo sencillo de aprendizaje
lado izquierdo o derecho, y al hecho de que el modelo
automático que diagnostique si un paciente necesita o
puede no distinguir explícitamente los incisivos
no una extracción dental, por ejemplo, el operador
centrales, que pueden utilizarse para una línea vertical
puede poner
de referencia. Por ejemplo, en la Fig. 4B, la inusual
disposición de las imágenes de los dientes anteriores
Ryu et al. BMC Oral Health (2022) 22:454 Página 8
de 12
Fig. 4 Ejemplos de predicciones erróneas. (A) Foto de sonrisa facial que se clasificó como foto frontal (recortada de la imagen sin procesar). (B) Foto
frontal intraoral clasificada como foto derecha intraoral. (C) Foto intraoral izquierda clasificada como foto intraoral frontal.
Ryu et al. BMC Oral Health (2022) 22:454 Página 9
de 12
Conclusiones
Utilizando un sistema de aprendizaje profundo con un
modelo de inteligencia artificial CNNs, se clasificaron
automáticamente las fotos clínicas faciales e intraorales
que se toman habitualmente con fines de diagnóstico
ortodóncico, con una tasa de éxito global del 98%. Este
estudio sugiere que la inteligencia artificial puede
aplicarse a las fotos digitales en color para ayudar en la
automatización del proceso de diagnóstico de
ortodoncia.
Abreviaturas
CNNRedes neuronales
evolutivas . ReLUR algoritmos de unidades
lineales rectificadas.
Agradecimientos
Este trabajo ha contado con el apoyo de la Fundación Nacional de
Investigación de Corea (NRF), b e c a financiada por el gobierno de Corea
(MSIT) (nº 2022R1F1A1066543).
Financiación
Esta investigación no ha recibido financiación externa.
Ryu et al. BMC Oral Health (2022) 22:454 Página 11
de 12
Declaraciones 13. Esteva A, Kuprel B, Novoa RA, Ko J, Swetter SM, Blau HM, Thrun S. Dermatol-
ogist-level classification of skin cancer with deep neural networks. Nature.
Aprobación ética y consentimiento para participar 2017;542(7639):115–8.
Este estudio se realizó de acuerdo con las directrices de la Declaración de 14. Lee H, Tajmir S, Lee J, Zissen M, Yeshiwas BA, Alkasab TK, Choy G, Do S.
Helsinki y fue aprobado por la Junta de Revisión Institucional del Hospital Sistema de aprendizaje profundo totalmente automatizado para la
Odontológico de la Universidad Nacional de Seúl (ERI19036). La Junta de evaluación de la edad ósea. J Digit Imaging. 2017;30(4):427-41.
Revisión Institucional del Hospital Odontológico de la Universidad Nacional 15. You W, Hao A, Li S, Wang Y, Xia B. Deep learning-based dental plaque detec-
de Seúl no exigió el consentimiento informado porque las fotografías clínicas tion on primary teeth: a comparison with clinical assessments. BMC
se tomaron para el tratamiento y no hay información identificable del Oral Health. 2020;20(1):141.
paciente. 16. Park JH, Hwang HW, Moon JH, Yu Y, Kim H, Her SB, Srinivasan G, Aljanabi MNA,
Donatelli RE, Lee SJ. Automated identification of cephalometric landmarks:
Consentimiento para la publicación Parte 1-Comparaciones entre los últimos métodos de aprendizaje profundo
No se aplica. YOLOV3 y SSD. Angle Orthod 2019.
17. Schwendicke F, Golla T, Dreher M, Krois J. Convolutional neural networks for
Intereses contrapuestos dental image diagnostics: A scoping review. J Dent. 2019;91:103226.
Los autores declaran no tener intereses contrapuestos. 18. Litjens G, Kooi T, Bejnordi BE, Setio AAA, Ciompi F, Ghafoorian M, van der Laak
J, van Ginneken B, Sanchez CI. A survey on deep learning in medical
image analysis. Med Image Anal. 2017;42:60-88.
Recibido: 6 de mayo de 2022 / Aceptado: 19 de septiembre de 2022
19. LeCun Y, Bengio Y, Hinton G. Aprendizaje profundo. Nature. 2015;521(7553):436–
44.
20. Sandler J, Murray A. Fotografía clínica en ortodoncia. J Clin Orthod.
1997;31(11):729-39.
21. Schmidhuber J. Aprendizaje profundo en redes neuronales: una visión
Referencias general. Neural Netw. 2015;61:85-117.
1. Sandler J, Murray A. Fotografía digital en ortodoncia. J Orthod. 22. Kingma DP, Ba J: Adam: Un método para la optimización estocástica.
2001;28(3):197-202. arXiv 2014 arXiv:14126980.
2. Sandler J, Dwyer J, Kokich V, McKeown F, Murray A, McLaughlin R, O'Brien C, 23. Xie X, Wang L, Wang A. Artificial neural network modeling for deciding if
O'Malley P. Calidad de las fotografías clínicas tomadas por ortodoncistas, extractions are necessary prior to orthodontic treatment. Angle Orthod.
fotógrafos profesionales y auxiliares de ortodoncia. Am J Orthod Dentofacial 2010;80(2):262-6.
Orthop. 2009;135(5):657-62. 24. Pérez L, Wang J: The effectiveness of data augmentation in image classifica-
3. Spampinato C, Palazzo S, Giordano D, Aldinucci M, Leonardi R. Deep learning tion using deep learning. arXiv 2017 arXiv:171204621.
for automated skeletal bone age assessment in X-ray images. Med Image 25. Yamashita R, Nishio M, Do RKG, Togashi K. Convolutional neural networks: an
Anal. 2017;36:41-51. overview and application in radiology. Insights Imaging. 2018;9(4):611-29.
4. Hwang HW, Park JH, Moon JH, Yu Y, Kim H, Her SB, Srinivasan G, Aljanabi MNA, 26. Sandler J, Gutierrez RJ, Murray A. Clinical photographs: the gold standard, an
Donatelli RE, Lee SJ. Automated identification of cephalometric landmarks: update. Prog Orthod. 2012;13(3):296-303.
Part 2- Might it be better than human? Angle Orthod. 2020;90(1):69-76. 27. Paredes V, Gandia Franco J, Cibrian R. Registros digitales de diagnóstico en
5. Lee JH, Kim DH, Jeong SN, Choi SH. Detection and diagnosis of dental ortodon- cia. An overview. Med Oral Patol Oral Cir Bucal. 2006;11:88-93.
caries using a deep learning-based convolutional neural network algorithm. J 28. Miki Y, Muramatsu C, Hayashi T, Zhou X, Hara T, Katsumata A, Fujita H.
Dent. 2018;77:106-11. Classi- fication of teeth in cone-beam CT using deep convolutional neural
6. Lee D, Park C, Lim Y, Cho H. A Metal Artifact Reduction Method Using a Fully network. Comput Biol Med. 2017;80:24-9.
Convolutional Network in the Sinogram and Image Domains for Dental 29. Xu X, Liu C, Zheng Y. 3D Tooth Segmentation and Labeling
Computed Tomography. J Digit Imaging. 2020;33(2):538-46. Using Deep Convolutional Neural Networks. IEEE Trans Vis Comput
7. Jung SK, Kim TW. New approach for the diagnosis of extractions with Graph. 2019;25(7):2336-48.
neural network machine learning. Am J Orthod Dentofacial Orthop. 30. Collins GS, Reitsma JB, Altman DG, Moons KG. Transparent reporting of a mul-
2016;149(1):127-33. tivariable prediction model for individual prognosis or diagnosis
8. Choi HI, Jung SK, Baek SH, Lim WH, Ahn SJ, Yang IH, Kim TW. Artificial Intel- (TRIPOD): the TRIPOD Statement. BMC Med. 2015;13:1.
ligent Model With Neural Network Machine Learning for the Diagnosis 31. Hwang JJ, Jung YH, Cho BH, Heo MS. Una visión general del aprendizaje
of Cirugía ortognática. J Craniofac Surg 2019. profundo en el campo de la odontología . Imaging Sci Dent.
9. Li S, Guo Z, Lin J, Ying S: Artificial Intelligence for Classifying and Archiving 2019;49(1):1-7.
Orthodontic Images. Biomed Res Int 2022, 2022:1473977. 32. Kang TS, Lee W, Park SH, Han YS. Asymmetry between right and left optical
10. Lee JG, Jun S, Cho YW, Lee H, Kim GB, Seo JB, Kim N. Deep Learning in Medi- coherence tomography images identified using convolutional neural net-
cal Imaging: General Overview. Korean J Radiol. 2017;18(4):570-84. w o r k s . Sci Rep. 2022;12(1):9925.
11. Wan J, Wang D, Hoi SCH, Wu P, Zhu J, Zhang Y, Li J: Deep Learning for
Content-Based Image Retrieval: A Comprehensive Study. En: Proceedings
of the 22nd ACM international conference on Multimedia. Orlando, Florida,
USA: Association for Computing Machinery; 2014: 157-166. Nota del editor
12. Chartrand G, Cheng PM, Vorontsov E, Drozdzal M, Turcotte S, Pal CJ, Springer Nature se mantiene neutral con respecto a las reclamaciones
Kadoury S, Tang A. Deep Learning: A Primer for Radiologists. Radiographics. jurisdiccionales en los mapas publicados y las afiliaciones institucionales.
2017;37(7):2113-31.