Articulo 2 Electiva Es

Descargar como pdf o txt
Descargar como pdf o txt
Está en la página 1de 12

Suscríbete a DeepL Pro para poder traducir archivos de mayor tamaño.

Más información disponible en www.DeepL.com/pro.

BMC Salud
Ryu et al. BMC Oral Health (2022) 22:454
https://doi.org/10.1186/s12903-022-02466-x
Bucodental

INVESTIGACIÓN Acceso
abierto

Aplicación de la técnica de inteligencia artificial


deep learning a la
clasificación de las fotos clínicas de ortodoncia
Jiho Ryu1 , Yoo-Sun Lee1 , Seong-Pil Mo1 , Keunoh Lim1 , Seok-Ki Jung2* y Tae-Woo Kim1*

Resumen
Antecedentes La toma de fotografías clínicas faciales e intraorales es una de las partes esenciales del diagnóstico
ortodóncico y la planificación del tratamiento. Entre los procedimientos de diagnóstico, la clasificación de las fotos
clínicas barajadas con sus orientaciones será el paso inicial, mientras que no fue fácil para una máquina clasificar fotos
con una variedad de situaciones faciales y dentales. Este artículo presenta una técnica de aprendizaje profundo de
redes neuronales convolucionales (CNN) para clasificar fotos clínicas de ortodoncia según sus orientaciones.
Métodos Para construir un sistema de clasificación automatizado, se construyeron modelos CNNs de categorías
faciales e intraorales, y se utilizaron las fotos clínicas que se toman rutinariamente para el diagnóstico ortodóncico para
entrenar los modelos con aumento de datos. Los procedimientos de predicción se evaluaron con fotos separadas cuya
finalidad era únicamente la predicción.
Resultados En general, se obtuvo una tasa de predicción válida del 98,0% para la clasificación de fotos faciales e
intraorales. La tasa de predicción más alta fue del 100% para el perfil lateral facial y las fotos intraorales superior e
inferior.
Conclusión Un sistema de inteligencia artificial que utiliza el aprendizaje profundo con modelos de entrenamiento
adecuados puede clasificar con éxito fotos faciales e intraorales de ortodoncia de forma automática. Esta técnica puede
utilizarse para el primer paso de un sistema de diagnóstico de ortodoncia totalmente automatizado en el futuro.
Palabras clave Fotografías clínicas, Inteligencia artificial, Deep learning, Ortodoncia

Fondo
La preparación básica de un plan de tratamiento
ortodóncico consiste en la toma de radiografías
cefalométricas y posteroanteriores, impresiones de un
modelo de estudio del paciente y una serie de fotografías
clínicas. Las fotografías clínicas intraorales y faciales son
*Correspondencia:
Seok-Ki Jung útiles para los ortodoncistas y son esenciales [1, 2] en el
[email protected] procedimiento de diagnóstico inicial. Las fotografías
Tae-Woo Kim intraorales proporcionan información variada sobre la
[email protected]
1
Departamento de Ortodoncia, Facultad de Odontología, Instituto forma de los dientes, la alineación y el estado gingival.
de Investigación Odontológica, Universidad Nacional de Seúl, 101 Las fotografías faciales proporcionan características
Daehakro, Jongro-gu, 03080 Seúl, Corea. estéticas de la forma facial y la relación con los dientes.
2
Departamento de Ortodoncia, Hospital Guro de la Universidad
de Corea, 148 Gurodong-ro, Guro-gu, 08308 Seúl, Corea.
Las fotografías clínicas pueden utilizarse de forma
independiente para comprobar las características
clínicas que transmiten, o pueden utilizarse con una
combinación de otros métodos.
© El autor(es) 2022. Acceso abierto Este artículo está bajo una Licencia Creative Commons Atribución 4.0 Internacional, que permite su uso,
compartición, adaptación, distribución y reproducción en cualquier medio o formato, siempre que se cite debidamente al autor o autores originales y
la fuente, se facilite un enlace a la licencia Creative Commons y se indique si se han realizado cambios. Las imágenes u otro material de terceros en
este artículo están incluidos en la licencia Creative Commons del artículo, a menos que se indique lo contrario en una línea de crédito al material.
Si el material no está incluido en la licencia Creative Commons del artículo y su uso previsto no está permitido por la normativa legal o excede el uso
permitido, deberá obtener permiso directamente del titular de los derechos de autor. Para ver una copia de esta licencia, visite
http://creativecommons.org/licenses/by/4.0/. La renuncia a la Dedicación de Dominio Público de Creative Commons
(http://creativecommons.org/publicdomain/zero/1.0/) se aplica a los datos disponibles en este artículo, a menos que se indique lo contrario en
una línea de crédito a los datos.
Ryu et al. BMC Oral Health (2022) 22:454 Página 2
de 12

materiales de diagnóstico como modelos de piedra y


Métodos
mediciones de imágenes radiográficas.
Temas
La mayoría de los estudios sobre inteligencia artificial
En este estudio se incluyeron un total de 4.448 fotografías
relacionados con la ortodoncia se han centrado en dos
clínicas de 491 pacientes que acudieron al Hospital
[3-5] o tres dimensiones.
Dental de la Universidad Nacional de Seúl para recibir
[6] radiografías digitales o análisis numéricos con
tratamiento ortodóncico. Había
números ya generados por humanos [7, 8]. Sin embargo,
por lo que sabemos, hasta la fecha sólo unos pocos
estudios [9] se han centrado en las radiografías digitales
de ortodoncia. Por lo tanto, este estudio podría situarse
en el primer grupo relativo a la inteligencia artificial
para clasificar fotos clínicas digitales de ortodoncia.
Entre los futuros pasos diagnósticos automatizados, la
clasificación automática de la orientación de las fotos
faciales e intraorales alimentadas en un orden aleatorio
será el primer paso para aplicar la inteligencia artificial a
la ortodoncia digital.
A medida que la inteligencia artificial ha surgido para
proporcionar un nuevo paradigma en los campos dental
y médico, la técnica de aprendizaje profundo, un
subconjunto de la inteligencia artificial que utiliza el
sistema de redes neuronales con- volucionales (CNN),
ha ganado popularidad en el área del análisis de
imágenes gráficas. El aprendizaje profundo es una parte
del aprendizaje automático que está diseñada para
imitar el sistema de reconocimiento del cerebro
humano al tiempo que aprovecha la potencia
informática de las unidades de procesamiento gráfico
[10, 11]. Utiliza neuronas artificiales que calculan
entradas ponderadas para generar un único valor de
salida integrado mediante un modelo clasificador simple
que es similar al reconocimiento de patrones humanos
[12]. Hasta la fecha, ya se han publicado numerosos
estudios sobre aprendizaje profundo con imágenes
médicas, y se afirma que algunas técnicas (por ejemplo,
la clasificación simple de cánceres de piel mediante
fotos) son tan precisas como los expertos humanos [13,
14]. En el campo de la odontología, se han publicado
estudios sobre la detección automatizada de la placa
dental [15] y los puntos de referencia cefalométricos
radiográficos, incluso hasta 80 puntos de referencia [16].
Entre los algoritmos de aprendizaje profundo, las CNN
se utilizan con frecuencia [12] y son muy adecuadas para
el procesamiento de imágenes, incluidas las médicas [17,
18]. En particular, las CNN utilizan una estructura
jerárquica para pasar información sobre características
destacadas a las capas siguientes, al tiempo que explotan
las correlaciones espaciales locales entre ellas [19].
El objetivo de este estudio fue construir un modelo
CNNs para la clasificación del tipo de imagen de las
fotos clínicas de ortodoncia, incluyendo cuatro fotos
faciales (frontal, sonrisa, tres cuartos y perfil derecho) y
cinco fotos intraorales (frontal, superior, inferior, bucal
izquierda y bucal derecha). Se llevó a cabo un
entrenamiento y validación informatizados del modelo
y, a continuación, se comprobó la precisión de la
predicción.
Ryu et al. BMC Oral Health (2022) 22:454 Página 3de
gaussiano con un radio de cinco píxeles. El conjunto
213 sujetos de sexo masculino y 278 de sexo femenino, de 12 se
validación, formado por datos de fotos individuales,
y la edad media era de 21,3 años, con un rango de 5 a
dividió de forma automática y aleatoria del conjunto
51 años. Las fotos se extrajeron de la base de datos
total de datos de aprendizaje sin intervención humana
según sus categorías. De los metadatos sólo se
mediante
obtuvieron la edad y el sexo del paciente. Los archivos
sin procesar se guardaron en un almacenamiento
separado en una única estación de trabajo sin ningún
tipo de información personal identificable. En el caso
de las fotos faciales, se recortó la parte superior,
incluida la región ocular, para proteger la intimidad del
sujeto.

Procedimiento fotográfico
Varios médicos diferentes tomaron las fotos digitales y
no existe ninguna referencia sobre qué médico tomó
cada conjunto de fotos; en otras palabras, distintos
médicos podrían haber tomado fotos del mismo
paciente. Esto puede dar un poder aleatorio de
diversidad en la calidad de las fotos. Las fotos faciales
de un solo conjunto constan de frente, sonrisa frontal,
perfil derecho y perfil de tres cuartos. Los juegos de fotos
intraorales contienen vistas frontales, bucales
izquierdas, bucales derechas, oclusales maxilares y
oclusales mandibulares. Todas estas fotografías
constituyen el conjunto básico de fotografías clínicas
tomadas en el Departamento de Ortodoncia del
Hospital Dental de la Universidad Nacional de Seúl e
incluyen el conjunto recomendado de fotografías de
diagnóstico de ortodoncia [20]. Para abarcar una
variedad de situaciones clínicas reales, no se excluyeron
condiciones dentales como dientes ausentes, aparatos
de ortodoncia, aparatos removibles o cualquier tipo de
prótesis (Fig. 1).

Configuración del sistema de aprendizaje profundo


Para el procesamiento computacional, se utilizó el
lenguaje de programación Python 3.6.4 en el sistema
operativo Microsoft Windows. El modelo de
aprendizaje profundo se construyó con Keras 2.2.2, que
utiliza Tensorflow-GPU 1.6.0 como backend. Se utilizó
una estación de trabajo NVIDIA GeForce GTX1080 (8
GB RAM) con 16 GB de RAM de sistema.

Conjuntos de datos
El conjunto de aprendizaje recopilado consta de 1.396
fotos faciales y 2.152 fotos intraorales, y el conjunto de
predicción consta de 400 fotos faciales y 500 fotos
intraorales (Tabla 1). El etiquetado de los datos fue
realizado inicialmente por J.R., y después K.L. confirmó
manualmente los activos etiquetados. No hubo ningún
conflicto. Las fotos originales se transformaron
aleatoriamente para ampliar numéricamente el número
de fotos de modo que se generara un máximo de seis
fotos procesadas aleatoriamente a partir de cada foto
original. Las transformaciones implicaban uno o más
procesos de traslación, desenfoque, ampliación y
rotación, aunque los rangos eran limitados para no
dificultar su distinción por parte de los clínicos. En
concreto, se aplicó un rango del 0% a un máximo del
8% de cizallamiento, ampliación, desplazamiento
horizontal, desplazamiento vertical y desenfoque
Ryu et al. BMC Oral Health (2022) 22:454 Página 4
de 12

Fig. 1 Ejemplos de fotos de entrada. Se muestran las diferentes disposiciones, alineaciones, aparatos y estados de los dientes

Cuadro 1 Número de fotos de cada categoría


Categoría Original Aumentado Conjunto de Predicción Conjunto
aprendizaje de pruebas
Facial Frente 322 2244 2566 100
Sonrisa frontal 349 2435 2784 100
Tres cuartos 358 2497 2855 100
Perfil derecho 367 2569 2936 100
Media 349 2436 2785 100
Total 1396 9745 11,141 400
Intraoral Superior 458 3206 3664 100
Baja 451 3157 3608 100
Derecha 415 2903 3318 100
Frente 371 2588 2959 100
Izquierda 457 3197 3654 100
Media 430 3010 3441 100
Total 2152 15,051 17,203 500

Fig. 2 La estructura básica de un modelo de red consta de capas convolucionales, de agrupamiento, densas y de abandono.

utilizando funciones internas del paquete Keras y Arquitectura del modelo CNN
Python Scikit-learn. Esta división se realizó por cada La figura 2 muestra la arquitectura general del modelo
objeto fotográfico. La proporción de los conjuntos de CNN para el reconocimiento facial e intraoral de
entrenamiento y validación fue de 75 a 25, con lo que se fotografías. El modelo de entrenamiento se creó
obtuvieron 8.355 imágenes faciales y 12.902 intraorales originalmente sin implementar ningún modelo
de entrenamiento. preexistente. En la arquitectura de las CNNs para
fotografía facial, después de las capas de entrada, hay
cuatro capas de entrada.
Ryu et al. BMC Oral Health (2022) 22:454 Página 5
de 12

Fig. 3 Curva de aprendizaje del proceso de entrenamiento. (A) Clasificación de fotos faciales. (B) Clasificación de fotos intraorales

fotos intraorales con aparatos de ortodoncia como


capas de convolución. Todas las capas de convolución
frenillos, tornillos y arcos transpalatinos. De un total de
van seguidas de las capas de agrupamiento máximo y de
100 pacientes, 24 tenían algún aparato de ortodoncia
abandono. Las capas flatten, dense, dropout y dense
intraoral en el conjunto de datos de predicción.
están presentes en secuencia en el penúltimo grupo de
capas de convolución. En la arquitectura de las CNN
fotográficas intraorales, las capas se conectan en el
siguiente orden: convolución simple, agrupación
máxima, abandono, aplanamiento, densidad, abandono
y otra capa densa. Los datos originales se hacen pasar
por una serie de capas de convolución bidimensionales
con un parámetro de paso de tres. Todos los métodos de
activación son algoritmos de unidades lineales
rectificadas (ReLU) [21]. A continuación, se utiliza la
capa de agrupación máxima para reducir las
dimensiones de la capa de entrada, lo que reduce el
tamaño de los datos que fluyen. Los datos de entrada
bidimensionales de 128 por 128 píxeles se reducen a 64
por 64 píxeles y luego se transforman a través de una
capa de aplanamiento y se categorizan en cuatro o cinco
clasificaciones con una capa de activación Softmax
según el tipo de datos de entrada faciales o intraorales.

Formación y validación
El entrenamiento de los conjuntos de datos brutos se
procesó por separado según el grupo facial e intraoral.
Se utilizó el método de optimización de Adam [22] y la
función de pérdida de entropía cruzada categórica [18].
Los datos de las imágenes de entrenamiento se
introdujeron en el modelo con un tamaño de lote de 32
y una época de 50 ciclos. Una vez completado el proceso
de entrenamiento, el proceso de valoración se llevó a
cabo con el resto de los datos de imágenes de
aprendizaje, que eran diferentes de los datos de
entrenamiento.

Predicción
El procedimiento de predicción se llevó a cabo con 100
fotografías clínicas de cada categoría, que no eran
duplicados ni del conjunto de entrenamiento ni del de
validación. El conjunto de datos de predicción contiene
Ryu et al. BMC Oral Health (2022) 22:454 Página 6
grupo de predicción. Las fotos de las pruebas se de 12
analizaron una a una como un único objeto, no como
un conjunto de casos de pacientes. Las fotos
alimentadas no se voltearon ni rotaron arbitrariamente.
Los resultados de la predicción se imprimieron como
texto sin formato con la etiqueta de la categoría de foto
más probable.

Resultados
Procedimiento de formación y validación
Al final del procedimiento de entrenamiento, la
precisión de éste alcanzó el 99,3% para las fotos faciales
y el 99,9% para las intraorales (Fig. 3). El número de
fotos del conjunto total de validación fue de 2.786 para
las fotos faciales y de 4.301 para las intraorales, que se
dividieron aleatoriamente del conjunto mixto original.
Los valores de precisión de la validación fueron del
99,8% tanto para la clasificación de fotos faciales como
intraorales.

Procedimiento de predicción
El procedimiento de predicción se realizó
independientemente del procedimiento de aprendizaje,
lo que significa que no hubo fotos duplicadas para las
pruebas de aprendizaje y predicción. Por lo tanto, es
posible evaluar la situación real de la clasificación de
nuevas fotos clínicas nunca entrenadas. Cada conjunto
de pruebas de predicción estaba formado por fotos de
cien casos de pacientes elegidos al azar que ningún caso
de paciente superaba en el conjunto de datos de
entrenamiento. La selección se hizo por caso de
paciente, no por objeto fotográfico; por tanto, las
imágenes procedían de cien pacientes diferentes.
Las tasas medias de las fotos faciales e intraorales
clasificadas con éxito fueron ambas del 98,0%. En la
tabla 2 se resumen los porcentajes de clasificación. En
la clasificación de las fotos faciales, la tasa de éxito más
alta fue del 100,0% en la detección de las fotos de perfil
derecho, y la tasa de éxito más baja fue del 97,0% en el
reconocimiento de las fotos de frente y de sonrisa. En el
caso de las fotos intraorales, los porcentajes de
detección de las fotos superior e inferior fueron del
100,0%, los más altos, mientras que la foto frontal
intraoral tuvo un porcentaje de detección del 94,0%, el
más bajo.
Ryu et al. BMC Oral Health (2022) 22:454 Página 7
de 12

Tabla 2 Porcentaje de éxito de las pruebas de predicción. Media índices de análisis cefalométrico previamente calculados
total 98,0% que se utilizan habitualmente para decidir las
Categoría Fotos de Recuen Tasa
prueba
extracciones, como el ángulo entre el punto A y el punto
to de de
éxitos éxit B ("ANB"), el ángulo entre la incisura central maxilar y
o la línea Sella-Nasion ("SN"), y entre el labio superior y la
(%) línea E, etc. [23]. Sin embargo, la técnica de aprendizaje
Facial Frente 100 97 97 profundo trabaja con fotos cromáticas bidimensionales
Sonrisa frontal 100 97 97 compuestas por multitud de píxeles reunidos para
Tres cuartos 100 98 98 formar una única foto que procesar.
Perfil derecho 100 100 100 Siempre habrá problemas de sobreajuste en el enfoque
Media 98.0
de aprendizaje profundo. La sobreadaptación se
Intraoral Superior 100 100 100
e x p r e s a generalmente como buenos resultados en
Baja 100 100 100
los conjuntos de entrenamiento y validación, pero con
Derecha 100 99 99
índices significativamente inferiores en el conjunto de
Frente 100 94 94
predicción. Esto ocurre cuando el modelo aprende
Izquierda 100 97 97
características idiosincrásicas y memoriza parámetros
Media 98.0
en patrones más complicados, que se ajustan bien a los
datos de entrenamiento, pero falla al gen- eralizar los
Debate
patrones de características [12]. Para minimizar este
Ha habido intentos de utilizar la metodología del
problema a la vez que se mejora la tasa de éxito, este
aprendizaje automático para ayudar a resolver
modelo de entrenamiento utiliza la técnica del abandono
problemas ortodóncicos como la marcación
para reducir intencionadamente las características de
cefalométrica automática y la determinación de cirugía
conexión que mejor se ajustan, así como el aumento de
frente a no cirugía [8]. Sin embargo, hasta donde
los datos de entrada [24]. Para el aumento,
sabemos, sólo se ha realizado un estudio [9] para
implementamos cierto grado de transformación
reconocer y clasificar fotografías clínicas de ortodoncia.
aleatoria para aumentar el número de fotos de muestra
En este estudio, utilizamos una técnica de aumento de
de 1.396 a 11.141 para las fotos faciales y de 2.152 a
datos con un menor número de fotos originales en
17.203 para las fotos intraorales.
comparación con el estudio anterior, manteniendo al
La razón de la tasa de éxito relativamente baja a la
mismo tiempo una estructura de modelo ligera. Dado
hora de distinguir las fotos faciales frontales y de sonrisa
que etiquetar y anotar un gran número de objetos es una
entre las demás fotos faciales puede atribuirse a la escasa
tarea laboriosa, sería una estrategia razonable tomar un
diferencia entre sonreír y no sonreír, especialmente
pequeño número de muestras para una futura
porque pedimos a los pacientes que posaran con una
aplicación práctica. Este procedimiento de aumento era
ligera sonrisa (Fig. 4A). Aunque el mecanismo
adecuado para la clasificación de la orientación de las
subyacente exacto de cómo el modelo de aprendizaje
fotos, ya que éstas están bien estandarizadas en general.
profundo toma sus decisiones apenas se conoce debido
Además, la composición de las fotografías de los
a su naturaleza [25], suponemos que el modelo reconoce
pacientes también es diferente de la del artículo
al menos diferencias morfológicas como un contorno de
anterior, ya que nuestro conjunto de datos incluye
objetos o diferencias de color, contorno de labios o
diversas condiciones, como aparatos de ortodoncia,
exposición de dientes blancos al sonreír, lo que podría
tornillos, aparatos personalizados y combinaciones de
no entender realmente lo que significa "sonreír".
ellos en cualquier momento del tratamiento.
Además, aunque sigue siendo superior a nueve de
A diferencia de un problema de aprendizaje
cada diez, la tasa de detección resultante relativamente
automático que calcula datos numéricos, los problemas
más baja para las fotos intraorales frontales puede
relativos a fotos planas requieren un enfoque diferente.
deberse a la predisposición de la clasificación hacia el
Para entrenar un modelo sencillo de aprendizaje
lado izquierdo o derecho, y al hecho de que el modelo
automático que diagnostique si un paciente necesita o
puede no distinguir explícitamente los incisivos
no una extracción dental, por ejemplo, el operador
centrales, que pueden utilizarse para una línea vertical
puede poner
de referencia. Por ejemplo, en la Fig. 4B, la inusual
disposición de las imágenes de los dientes anteriores
Ryu et al. BMC Oral Health (2022) 22:454 Página 8
de 12

Fig. 4 Ejemplos de predicciones erróneas. (A) Foto de sonrisa facial que se clasificó como foto frontal (recortada de la imagen sin procesar). (B) Foto
frontal intraoral clasificada como foto derecha intraoral. (C) Foto intraoral izquierda clasificada como foto intraoral frontal.
Ryu et al. BMC Oral Health (2022) 22:454 Página 9
de 12

diagnóstico reales que pueden influir en la tasa de éxito


se alimenta escasamente, por lo que puede reducir la
[31]. Sin embargo, esta modificación no es extraña para
probabilidad de que la predicción sea correcta. Una foto
los ortodoncistas y puede no ser un factor limitante para
clínica mal tomada también podría ser uno de los
los datos de entrenamiento. Además, para superar la
factores del fracaso de la predicción (Fig. 4C). Sin
variabilidad de la interferencia humana, las fotos se
embargo, las fotos mal predichas no mostraron una
aumentaron con un preprocesamiento aleatorio. En el
disposición significativa de errores.
mismo c o n t e x t o ,
La mayoría de los pacientes que acuden a las clínicas
de ortodoncia se hacen fotos clínicas al menos una vez
[26]. Sin duda, las fotos clínicas son clave en el
diagnóstico de los pacientes, junto con las radiografías y
los modelos de estudio [27], y en esta década, estos
procedimientos de diagnóstico se están sustituyendo
por procesos digitales. Por ejemplo, utilizar un escáner
intraoral para adquirir datos tridimensionales con un
modelo de estudio de ortodoncia digital generado
automáticamente equivale a tomar impresiones. Tomar
tomografías computarizadas tridimensionales de haz
cónico para extraer automáticamente cefalogramas
laterales, posteroanteriores e incluso panorámicas
equivale a tomar cada modalidad específica de
radiografía. Segmentación y etiquetado automatizados
de cada diente en imágenes radiográficas [28] y moldes
de estudio.
[29] se están investigando y aplicando en la industria. Ya
se prestan servicios en línea de trazado y señalización
automáticos mediante inteligencia artificial, como
WebCeph (AssembleCircle; Gyeonggi-do, Corea del
Sur) y CephX (ORCA Den- tal AI; Herzliya, Israel). El
objetivo de estos servicios no es sólo ahorrar tiempo en
procedimientos que tradicionalmente llevan mucho
tiempo, sino también ayudar a mejorar el diagnóstico
humano aprovechando la inteligencia artificial.
Algunas de las limitaciones de este estudio son que
todas las fotografías estaban compuestas por sujetos de
una única institución de Corea del Sur, y que las
muestras fueron preprocesadas manualmente,
incluyendo el recorte, el cambio de tamaño y el ajuste
del brillo y el contraste por parte de los clínicos. Para
garantizar una mayor generalización del modelo de
predicción, es necesaria una validación externa con
distintas instituciones [30]. Dado que las CNN procesan
datos en color, los colores del pelo y la piel y la
morfología general de la cara podrían afectar al modelo.
Sin embargo, esto puede superarse fácilmente más
adelante añadiendo fotos de otras razas étnicas, ya que
este modelo de aprendizaje profundo tiene la capacidad
de aprender independientemente de la variedad de
entradas. En este estudio, por ejemplo, el modelo de
aprendizaje detectó con éxito fotos con o sin ortodoncia,
con dientes anteriores extraídos, malformaciones
dentales, apli- caciones extraíbles, etc. Esto pudo
hacerse porque el modelo aprendió los patrones de los
datos con características clave que también se generaron
en el proceso de entrenamiento. En segundo lugar, para
evitar tanto la complejidad como la divergencia, y para
obtener coherencia y mejores explicaciones, utilizamos
las fotos editadas manualmente para situaciones de
Ryu et al. BMC Oral Health (2022) 22:454 Página 10
los conjuntos de datos comprenden fotografías clínicas Disponibilidad de datos de 12
tomadas en el departamento de ortodoncia, lo que Los conjuntos de datos utilizados y/o analizados durante el presente estudio
están a disposición del autor correspondiente previa solicitud razonable.
significa que existen formatos bastante estandarizados
como orientaciones y tipos, por ejemplo, tomar
sistemáticamente el perfil derecho de un paciente sin
un perfil izquierdo. Esto puede considerarse una
característica de las fotografías de ortodoncia. Como
las imágenes asimétricas volteadas introducidas en el
modelo CNNs pueden dar lugar a resultados diferentes
[32], se necesita una estructura de modelo, un conjunto
de datos y una estrategia de entrenamiento diferentes
para crear modelos más generalizados que puedan
distinguir esas imágenes especulares. Sin embargo, en
este estudio hemos limitado los tipos de fotos a las no
invertidas, tanto en el proceso de entrenamiento como
en el de predicción, como en circunstancias clínicas
ordinarias.
Este tipo de estudio de clasificación de aprendizaje
profundo bidimensional es solo el primer paso en el
campo de la odontología ortodóncica automatizada. En
el futuro, los sistemas de inteligencia artifi- cial de
aprendizaje profundo podrían utilizarse para aspectos
más diversos de diagnósticos mediante la
parametrización de fotos clínicas, incluyendo la
detección de claves de molares y caninos, la estimación
del overjet y la sobremordida, etc. Además, al igual que
el análisis automático tridimensional de la tomografía
computerizada, parece que algún día será posible el
análisis automático de las exploraciones faciales
tridimensionales, incluida la planificación del
tratamiento y la predicción del tejido blando. En
conjunto, es posible mejorar el diagnóstico y la
planificación del tratamiento de forma más eficaz y
precisa para los pacientes.

Conclusiones
Utilizando un sistema de aprendizaje profundo con un
modelo de inteligencia artificial CNNs, se clasificaron
automáticamente las fotos clínicas faciales e intraorales
que se toman habitualmente con fines de diagnóstico
ortodóncico, con una tasa de éxito global del 98%. Este
estudio sugiere que la inteligencia artificial puede
aplicarse a las fotos digitales en color para ayudar en la
automatización del proceso de diagnóstico de
ortodoncia.
Abreviaturas
CNNRedes neuronales
evolutivas . ReLUR algoritmos de unidades
lineales rectificadas.

Agradecimientos
Este trabajo ha contado con el apoyo de la Fundación Nacional de
Investigación de Corea (NRF), b e c a financiada por el gobierno de Corea
(MSIT) (nº 2022R1F1A1066543).

Contribuciones de los autores


Conceptualización: J.R., T.-W.K., S.-K.J.; Metodología: J.R., T.-W.K.; Software,
J .R., S.-K.J.; Validación, Y.-S.L., K.L., S.-P.M.; Análisis formal, J.R., Y.-S.L., S.-K.J.;
Investigación: J.R., Y.-S.L.; Recursos: K.L., S.-P.M.; Conservación de datos: J.R.,
S.-P.M., K.L.; Redacción del borrador original: J.R.; Revisión de la redacción y
edición: T.-W.K., S.-K.J., K.L., Y.-S.L., S.-P.M.; Visualización: K.L., S.-P.M., S.-K.J.;
Supervisión: T.-W.K., S.-K.J.; Administración del proyecto: J.R., T.-W.K., S.-K.J.
Todos los autores han leído y aprobado el manuscrito final.

Financiación
Esta investigación no ha recibido financiación externa.
Ryu et al. BMC Oral Health (2022) 22:454 Página 11
de 12

Declaraciones 13. Esteva A, Kuprel B, Novoa RA, Ko J, Swetter SM, Blau HM, Thrun S. Dermatol-
ogist-level classification of skin cancer with deep neural networks. Nature.
Aprobación ética y consentimiento para participar 2017;542(7639):115–8.
Este estudio se realizó de acuerdo con las directrices de la Declaración de 14. Lee H, Tajmir S, Lee J, Zissen M, Yeshiwas BA, Alkasab TK, Choy G, Do S.
Helsinki y fue aprobado por la Junta de Revisión Institucional del Hospital Sistema de aprendizaje profundo totalmente automatizado para la
Odontológico de la Universidad Nacional de Seúl (ERI19036). La Junta de evaluación de la edad ósea. J Digit Imaging. 2017;30(4):427-41.
Revisión Institucional del Hospital Odontológico de la Universidad Nacional 15. You W, Hao A, Li S, Wang Y, Xia B. Deep learning-based dental plaque detec-
de Seúl no exigió el consentimiento informado porque las fotografías clínicas tion on primary teeth: a comparison with clinical assessments. BMC
se tomaron para el tratamiento y no hay información identificable del Oral Health. 2020;20(1):141.
paciente. 16. Park JH, Hwang HW, Moon JH, Yu Y, Kim H, Her SB, Srinivasan G, Aljanabi MNA,
Donatelli RE, Lee SJ. Automated identification of cephalometric landmarks:
Consentimiento para la publicación Parte 1-Comparaciones entre los últimos métodos de aprendizaje profundo
No se aplica. YOLOV3 y SSD. Angle Orthod 2019.
17. Schwendicke F, Golla T, Dreher M, Krois J. Convolutional neural networks for
Intereses contrapuestos dental image diagnostics: A scoping review. J Dent. 2019;91:103226.
Los autores declaran no tener intereses contrapuestos. 18. Litjens G, Kooi T, Bejnordi BE, Setio AAA, Ciompi F, Ghafoorian M, van der Laak
J, van Ginneken B, Sanchez CI. A survey on deep learning in medical
image analysis. Med Image Anal. 2017;42:60-88.
Recibido: 6 de mayo de 2022 / Aceptado: 19 de septiembre de 2022
19. LeCun Y, Bengio Y, Hinton G. Aprendizaje profundo. Nature. 2015;521(7553):436–
44.
20. Sandler J, Murray A. Fotografía clínica en ortodoncia. J Clin Orthod.
1997;31(11):729-39.
21. Schmidhuber J. Aprendizaje profundo en redes neuronales: una visión
Referencias general. Neural Netw. 2015;61:85-117.
1. Sandler J, Murray A. Fotografía digital en ortodoncia. J Orthod. 22. Kingma DP, Ba J: Adam: Un método para la optimización estocástica.
2001;28(3):197-202. arXiv 2014 arXiv:14126980.
2. Sandler J, Dwyer J, Kokich V, McKeown F, Murray A, McLaughlin R, O'Brien C, 23. Xie X, Wang L, Wang A. Artificial neural network modeling for deciding if
O'Malley P. Calidad de las fotografías clínicas tomadas por ortodoncistas, extractions are necessary prior to orthodontic treatment. Angle Orthod.
fotógrafos profesionales y auxiliares de ortodoncia. Am J Orthod Dentofacial 2010;80(2):262-6.
Orthop. 2009;135(5):657-62. 24. Pérez L, Wang J: The effectiveness of data augmentation in image classifica-
3. Spampinato C, Palazzo S, Giordano D, Aldinucci M, Leonardi R. Deep learning tion using deep learning. arXiv 2017 arXiv:171204621.
for automated skeletal bone age assessment in X-ray images. Med Image 25. Yamashita R, Nishio M, Do RKG, Togashi K. Convolutional neural networks: an
Anal. 2017;36:41-51. overview and application in radiology. Insights Imaging. 2018;9(4):611-29.
4. Hwang HW, Park JH, Moon JH, Yu Y, Kim H, Her SB, Srinivasan G, Aljanabi MNA, 26. Sandler J, Gutierrez RJ, Murray A. Clinical photographs: the gold standard, an
Donatelli RE, Lee SJ. Automated identification of cephalometric landmarks: update. Prog Orthod. 2012;13(3):296-303.
Part 2- Might it be better than human? Angle Orthod. 2020;90(1):69-76. 27. Paredes V, Gandia Franco J, Cibrian R. Registros digitales de diagnóstico en
5. Lee JH, Kim DH, Jeong SN, Choi SH. Detection and diagnosis of dental ortodon- cia. An overview. Med Oral Patol Oral Cir Bucal. 2006;11:88-93.
caries using a deep learning-based convolutional neural network algorithm. J 28. Miki Y, Muramatsu C, Hayashi T, Zhou X, Hara T, Katsumata A, Fujita H.
Dent. 2018;77:106-11. Classi- fication of teeth in cone-beam CT using deep convolutional neural
6. Lee D, Park C, Lim Y, Cho H. A Metal Artifact Reduction Method Using a Fully network. Comput Biol Med. 2017;80:24-9.
Convolutional Network in the Sinogram and Image Domains for Dental 29. Xu X, Liu C, Zheng Y. 3D Tooth Segmentation and Labeling
Computed Tomography. J Digit Imaging. 2020;33(2):538-46. Using Deep Convolutional Neural Networks. IEEE Trans Vis Comput
7. Jung SK, Kim TW. New approach for the diagnosis of extractions with Graph. 2019;25(7):2336-48.
neural network machine learning. Am J Orthod Dentofacial Orthop. 30. Collins GS, Reitsma JB, Altman DG, Moons KG. Transparent reporting of a mul-
2016;149(1):127-33. tivariable prediction model for individual prognosis or diagnosis
8. Choi HI, Jung SK, Baek SH, Lim WH, Ahn SJ, Yang IH, Kim TW. Artificial Intel- (TRIPOD): the TRIPOD Statement. BMC Med. 2015;13:1.
ligent Model With Neural Network Machine Learning for the Diagnosis 31. Hwang JJ, Jung YH, Cho BH, Heo MS. Una visión general del aprendizaje
of Cirugía ortognática. J Craniofac Surg 2019. profundo en el campo de la odontología . Imaging Sci Dent.
9. Li S, Guo Z, Lin J, Ying S: Artificial Intelligence for Classifying and Archiving 2019;49(1):1-7.
Orthodontic Images. Biomed Res Int 2022, 2022:1473977. 32. Kang TS, Lee W, Park SH, Han YS. Asymmetry between right and left optical
10. Lee JG, Jun S, Cho YW, Lee H, Kim GB, Seo JB, Kim N. Deep Learning in Medi- coherence tomography images identified using convolutional neural net-
cal Imaging: General Overview. Korean J Radiol. 2017;18(4):570-84. w o r k s . Sci Rep. 2022;12(1):9925.
11. Wan J, Wang D, Hoi SCH, Wu P, Zhu J, Zhang Y, Li J: Deep Learning for
Content-Based Image Retrieval: A Comprehensive Study. En: Proceedings
of the 22nd ACM international conference on Multimedia. Orlando, Florida,
USA: Association for Computing Machinery; 2014: 157-166. Nota del editor
12. Chartrand G, Cheng PM, Vorontsov E, Drozdzal M, Turcotte S, Pal CJ, Springer Nature se mantiene neutral con respecto a las reclamaciones
Kadoury S, Tang A. Deep Learning: A Primer for Radiologists. Radiographics. jurisdiccionales en los mapas publicados y las afiliaciones institucionales.
2017;37(7):2113-31.

También podría gustarte