Modelo de Deteccion de Agresiones Verbales Por Medio de Algoritmos de Machine Learning
Modelo de Deteccion de Agresiones Verbales Por Medio de Algoritmos de Machine Learning
Modelo de Deteccion de Agresiones Verbales Por Medio de Algoritmos de Machine Learning
PROFESOR GUIA:
MIEMBROS DE LA COMISIÓN:
SANTIAGO DE CHILE
2017
RESUMEN DE LA MEMORIA
PARA OPTAR AL TITULO DE
INGENIERO CIVIL INDUSTRIAL
Resumen ejecutivo POR: VICTOR BUGUEÑO SAEZ
FECHA: 28/08/2017
PROF. GUÍA: SR. ÁNGEL JIMÉNEZ
El presente trabajo tiene como objetivo detectar evidencias de agresiones
verbales en archivos de audio. Al respecto se identifican dos clases: Conversaciones
normales y Agresión verbal. Para lograr el objetivo, se aplican 4 métodos. El modelo
utilizado por Vincenzo Carletti et.al [7], en donde se propone un enfoque para la
detección de eventos de audio basados en el paradigma de "bolsa de palabras" (del
inglés, Bag of Words), una variación de este modelo utilizando features de la
herramienta openSMILE, Support vector machine alimentado por ambas clases y
finalmente regresión lineal alimentada por ambas clases.
Al no tener bases de datos abiertas con las clases que se desean analizar, se
procedió a construir una base de datos propia recolectando archivos de audio de
películas y de internet. De esta manera se obtuvo 809 archivos de audio de 3 segundos
de ambas clases de interés y 145 archivos de audio de pocos milisegundos para
alimentar la primera etapa del modelo de Vincenzo Carletti.
Se utilizó el software Audacity para transformar los archivos de audio y para
extraer el audio de registros audiovisuales de películas. Se utilizó el software Rstudio
para el procesamiento general.
En este trabajo se utilizaron 11 features para realizar la clasificación en el modelo
original de Vincenzo Carletti. El modelo de Vincenzo, se repitió usando 148 features
provenientes de la herramienta openSMILE. Estas mismas features fueron utilizadas
para ejecutar los algoritmos de Support vector machine y Regresión lineal.
Los resultados obtenidos fueron de 86.27% de exactitud para el modelo con
features originales de Vincenzo Carletti, 79.32% de exactitud para el modelo de
Vincenzo utilizando 148 features de openSMILE, 98.19% para algoritmo Support vector
machine y 97.74% de exactitud para el algoritmo de regresión lineal.
Los resultados arrojaron resultados prometedores, respecto a la identificación de
agresiones verbales, lo que puede permitir el desarrollo de aplicaciones que las puedan
identificar monitoreando en tiempo real y que permitan detectar alguna situación de
peligro de una persona en condición de vulnerabilidad.
i
A mi familia, los quiero mucho
ii
Agradecimientos
Quiero agradecer a mi familia, a mis hermanos y a mis padres por toda la vida
feliz que he compartido junto a ellos.
Gracias al laboratorio de WeSST Lab y a todos sus integrantes por su constante
camaradería y buena onda.
A mi profesor guía Ángel Jiménez por su constante apoyo y soluciones que me
permitieron seguir avanzando en la memoria a pesar de los obstáculos.
A mis compañeros de bachillerato especialmente al Sr. Felipe Zúñiga por las
múltiples peripecias que sufrimos cuando fuimos compañeros y sus epifanías que eran
un rayo de esperanza al momento de realizar las complejas tareas que eran asignadas.
A mis primos por tantos momentos de alegría.
A Dios por todo lo bueno que he recibido, en la vida.
iii
Tabla de contenido
Resumen ejecutivo ....................................................................................................................................... i
Tabla de contenido ..................................................................................................................................... iv
1. Introducción..............................................................................................................................................1
1.1 Antecedentes Generales .................................................................................................................1
1.2 Contexto institucional .......................................................................................................................2
1.3 Descripción del proyecto .................................................................................................................2
1.3.1 Consideraciones preliminares .................................................................................................2
1.3.2 Proyecto ......................................................................................................................................2
1.4 Objetivos ............................................................................................................................................3
1.4.1 Objetivo general .........................................................................................................................3
1.4.2 Objetivos específicos ................................................................................................................3
1.5 Hipótesis de investigación ...............................................................................................................3
1.6 Resultados esperados y alcances .................................................................................................3
1.7 Metodología .......................................................................................................................................4
2. Marco Teórico ..........................................................................................................................................5
2.1 El clasificador de palabras auditivas (del inglés “aural words”)[7] ............................................5
2.1.1 El metodo BoW (Bag of words) ...............................................................................................5
2.1.2 Descripción del método de clasificación mediante palabras auditivas .............................6
2.2 Definiciones fisiológicas ...................................................................................................................8
2.2.1 La voz humana...........................................................................................................................8
2.2.2 El sistema auditivo.....................................................................................................................9
2.2.3 El estado emocional de ira .....................................................................................................11
2.3 Análisis de señales de audio.........................................................................................................12
2.3.1 Modulación por impulsos codificados...................................................................................12
2.3.2 Códecs ......................................................................................................................................13
2.3.3 Formato WAVE ........................................................................................................................13
2.3.4 Formato AAC............................................................................................................................13
2.4 Trabajos anteriores .........................................................................................................................15
2.4.1 Estado del arte .........................................................................................................................15
2.4.2 Descriptores de bajo nivel en audio......................................................................................18
iv
2.5 Knowledge Discovery in Databases ............................................................................................21
2.5.1 Algoritmos de minería de datos.............................................................................................22
3. Adquisición de datos ............................................................................................................................25
3.1 Antecedentes...................................................................................................................................25
3.2 Software a utilizar ...........................................................................................................................26
2.13.1 MediaInfo ................................................................................................................................26
2.13.2 Audacity ..................................................................................................................................27
2.13.3 RStudio ...................................................................................................................................28
3.3 Extracción de datos ........................................................................................................................29
3.2.1 Datos originales .......................................................................................................................29
3.2.2 Transformación de datos ........................................................................................................33
4 Aplicación de la metodología ...............................................................................................................39
4.1 Consideraciones preliminares.......................................................................................................39
4.2 Modelo de Carletti, Vincenzo con features originales ...............................................................40
4.2.1 Features ....................................................................................................................................40
4.2.2 Primera etapa – Clústeres .....................................................................................................40
4.2.3 Etapa intermedia......................................................................................................................41
4.2.4 Segunda etapa – SVM............................................................................................................43
4.3 Modelo de Carletti, Vincenzo con features de openSMILE......................................................43
4.3.1 Features ....................................................................................................................................44
4.4 SVM aplicado a las clases “agresión verbal” y “conversaciones normales” .........................45
4.5 Regresión lineal aplicada a las clases “agresión verbal” y “conversaciones normales”......45
5. Análisis y resultados .............................................................................................................................46
5.1 Análisis estadístico .........................................................................................................................46
5.2 Resultados modelo de Carletti, Vincenzo con features originales ..........................................47
5.3 Resultados modelo de Carletti, Vincenzo con features de openSMILE.................................48
5.4 Resultados SVM aplicado a las clases “agresión verbal” y “conversaciones normales” ....49
5.5 Resultados regresión lineal aplicada a las clases “agresión verbal” y “conversaciones
normales” ................................................................................................................................................50
6. Discusión ................................................................................................................................................51
7. Conclusiones y trabajo futuro..............................................................................................................53
8 Glosario....................................................................................................................................................55
9. Bibliografía .............................................................................................................................................57
v
10 Anexos ...................................................................................................................................................60
vi
Índice de Tablas
Tabla 1: Películas finalmente seleccionadas .................................................................. 31
Tabla 2: Ejemplo de estructura de datos de fragmento de 3 segundos, después de
aplicar el algoritmo del clúster más cercano a cada una de sus 372 unidades. Esta fila
de información corresponde a sólo 1 archivo de audio de 3 segundos .......................... 42
Tabla 3: Ejemplo de formato de datos de entrada para SVM. Esta fila de información
corresponde a solo 1 archivo de audio de 3 segundos .................................................. 42
Tabla 4: Matriz de confusión del modelo de Carletti, Vincenzo con features originales.
Se iteró 100 veces.......................................................................................................... 47
Tabla 5: Resultados a partir de la matriz de confusión de la tabla 4 .............................. 47
Tabla 6: Matriz de confusión del modelo de Carletti, Vincenzo con features extraídas
con openSMILE. Se iteró 100 veces .............................................................................. 48
Tabla 7: Resultados a partir de la matriz de confusión de la tabla 9 .............................. 48
Tabla 8: Matriz de confusión del algoritmo SVM aplicado en las dos clases “Agresión
verbal” y “Conversaciones normales”. Se iteró 100 veces ............................................. 49
Tabla 9: Resultados a partir de la matriz de confusión de la tabla 11 ............................ 49
Tabla 10: Matriz de confusión del algoritmo regresión lineal aplicado en las dos clases
“Agresión verbal” y “Conversaciones normales. Se itero 100 veces .............................. 50
Tabla 11: Resultados a partir de la matriz de confusión de la tabla 13 .......................... 50
Tabla 12: Datos originales previo procesamiento. Los archivos audiovisuales se
encontraban en formato mp4. Esta información se obtuvo con el software MediaInfo y el
sitio web IMDb [39]. ........................................................................................................ 60
Tabla 13: Duración de fragmentos de audio según cada película para entrenar los
clústeres en la primera etapa del método de Carletti, Vincenzo. Datos en milisegundos
....................................................................................................................................... 61
vii
Tabla de Figuras
Figura 1: La arquitectura de sistema del método propuesto. Los módulos usados en fase de
entrenamiento y operativa están en verde, mientras que el modulo azul es usado solo durante la
fase de entrenamiento. Los valores de Fs , N , L, K , también son reportados [7]. ........................ 8
Figura 2: Anatomía del aparato vocal. Imagen extraída de [19] .................................................. 9
Figura 3: Esquema del oído humano. Imagen extraída de [21] ................................................. 10
Figura 4: Frecuencias específicas, causan vibraciones de máxima amplitud en diferentes puntos
a lo largo de la cóclea. Los números en el diagrama representan frecuencia en Hertz. Imagen
extraída de [8]. .......................................................................................................................... 10
Figura 5: Diagrama de bloques del sistema de codificación/decodificación perceptual. Imagen
extraída de [31] ......................................................................................................................... 14
Figura 6: Etapas generales del proceso KDD ........................................................................... 21
Figura 7: Algoritmo de K-medias [18] ........................................................................................ 23
Figura 8: Ejemplo de clústering por K-Means (K=2). El centro de cada clúster está marcado por
"x". (a) Iniciación. (b) Relocalización. [18] ................................................................................. 24
Ilustración 9: Estructura de la base de datos ............................................................................ 26
Figura 10: Interfaz MediaInfo .................................................................................................... 27
Figura 11: Interfaz Audacity. Fuente software Audacity ............................................................ 27
Figura 12: Interfaz RStudio. Fuente software RStudio .............................................................. 28
Figura 13: Rating de una película según la MPAA (Motion Picture Association of America).
Extraida de [38]......................................................................................................................... 29
Ilustración 14: Interfaz del sitio web QuoDB y su interfaz tras realizar una búsqueda [44] ........ 30
Figura 15 : Selección de un intervalo muy corto de audio para ser utilizado en la primera etapa
del modelo de Carletti, Vincenzo. Fuente: Software Audacity ................................................... 32
Ilustración 16: Interfaz de “OnlineVideoConverter”, herramienta para extraer audio de variadas
fuentes de registros audiovisuales de internet [45]. .................................................................. 33
Figura 17: Diagrama de las acciones para procesar los datos .................................................. 34
Figura 18: Pantalla al importar película en formato mp4 a Audacity .......................................... 35
Figura 19: Pantalla para exportar fragmentos de audio. En 1 se puede seleccionar el audio con
el cursos. En 2 se puede seleccionar el audio con el tablero. En 3 se selecciona el nombre y
destino del archivo .................................................................................................................... 35
Ilustración 20: Diagrama de las acciones para procesar los datos ............................................ 36
Figura 21: Opción para agregar etiquetas en software Audacity. Fuente: Software Audacity .... 37
Figura 22: Exportar múltiples archivos de acuerdo a etiquetas en software Audacity. Los
números 1 y 2 muestran las opciones seleccionadas en el presente trabajo. Fuente Software
Audacity. ................................................................................................................................... 38
Figura 23 Pasos generales para el entrenamiento del primer nivel del algoritmo ...................... 41
Figura 24: Histograma de un archivo de 3 segundos. En general cada sonido tiene un
histograma particular en base al “codebook” construido y el SVM de la segunda etapa debe
encargarse de la clasificación. Se espera que las dos clases tengan histogramas característicos
para que el SVM pueda discriminar correctamente ................................................................... 42
Figura 25: Ejecución de OpenSmile para obtener features del audio “Alarm01.wav” dadas
ciertas opciones. ....................................................................................................................... 43
viii
1. Introducción
En este capítulo se desarrolla la presentación del tema del estudio propuesto.
Este estudio comienza con la entrega de antecedentes generales y el contexto
institucional del trabajo para entender el ambiente en que se desarrolla. Continúa con la
explicación del proyecto a nivel general, se entrega el contexto en el cual se origina la
necesidad de realizar este trabajo, luego se indica los objetivos específicos que hará
que se cumpla el objetivo general, luego se plantea la hipótesis de investigación. Se
plantea los resultados esperados, el alcance del proyecto y al final se detalla la
metodología del trabajo en donde se muestran las condiciones de satisfacción de cada
etapa.
1
1.2 Contexto institucional
Este trabajo de título se desarrolla en el marco del proyecto Fondecyt otorgado
en elaño 2013 titulado A Cognitive Resource-Aware Mobile Service Framework to
Support Human-Computer-Interactions in Ubiquitous Computing Environments a cargo
delprofesor del Departamento de Ingeniería Industrial Ángel Jiménez Molina. En este
proyecto se pretende desarrollar un mecanismo de ingeniería cognitiva que seleccione,
componga y desarrolle funcionalidades, durante el tiempo en que se ejecute, tomando
enconsideración el contexto situacional y los recursos cognitivos empleados por el
usuario deacuerdo a las tareas HCI realizadas.
1.3.2 Proyecto
Dos o más personas discuten en forma vociferante, con fuertes e hirientes
palabras llegando a una situación en que la agresión física parece inminente. Sus
volúmenes de voz se elevan y cambian repetidamente. Externamente se observa que
sus rostros se contraen, la presión arterial sube cada vez que responde, sus músculos
están hinchados. Esta es una situación repetitiva que inquieta a los presentes que no
participan de la discusión. Esta situación puede llegar a la agresión física.
Dado el nivel de desarrollo de la tecnología que hoy se dispone, lo que propone
esta tesis es detectar por medio de sonido la existencia de agresión verbal entre
personas y diferenciarla de conversaciones normales.
Trabajos futuros podrían mejorar el modelo y entregar predicciones más certeras
de lo que entregará el presente trabajo para, a futuro, detectar y poder inclusive
prevenir agresiones cuando los tonos alcancen.
2
1.4 Objetivos
1.4.1 Objetivo general
Desarrollar un modelo de clasificación de agresiones verbales a través de
algoritmos de machine learning.
1.7 Metodología
1) Estudio del estado del arte: Se revisará la literatura para descubrir las
metodologías y técnicas que se han utilizado recientemente en el ámbito de la
detección de eventos de audio, en particular en agresiones verbales
2) Extraer datos de audio de agresiones verbales de manera correcta para ser
incorporados al proceso KDD
3) Aplicación del Proceso KDD, aplicando las etapas de pre procesamiento y
culminando con conocimiento nuevo
4) Resultados: Medidas estadísticas del desempeño del modelo para la detección
correcta de agresión verbal con vociferaciones
5) Construcción de prototipo de la aplicación con el modelo desarrollado
incorporado
6) Evaluación del prototipo con data de testeo generada previamente.
7) Discusión: Comparación con los diferentes métodos utilizados y sus resultados y
posible trabajo futuro
8) Conclusiones
4
2. Marco Teórico
En este capítulo se profundiza en conceptos vistos en el capítulo anterior y en
otros que se verán en capítulos siguientes. Se comienza describiendo el modelo, “Aural
words” que utiliza Vincenzo Carletti et al. [7] para detectar eventos de interés en datos
de audio, que será utilizado en este trabajo. Posteriormente definiciones fisiológicas,
conceptos de análisis de señales, trabajos anteriores y finalmente el proceso KDD.
5
2.1.2 Descripción del método de clasificación mediante palabras
auditivas
Este modelo fue usado por Vincenzo Carletti et al., para la detección de eventos
basados en audio en donde se propone un enfoque para la detección de eventos de
audio basados en el paradigma de "bolsa de palabras" (del inglés, Bag of Words),
comúnmente usado para la categorización de documentos de texto y recientemente
aplicado con éxito para detección de objetos basados en video y otros problemas
similares [11]. El modelo está enfocado a la detección de eventos de audio de la
siguiente forma:
CB w1 ,..., wk (1)
7
Figura 1: La arquitectura de sistema del método propuesto. Los módulos usados en
fase de entrenamiento y operativa están en verde, mientras que el modulo azul es
usado solo durante la fase de entrenamiento. Los valores de Fs , N , L, K , también son
reportados [7].
8
Figura 2: Anatomía del aparato vocal. Imagen extraída de [19]
Comparado con el rango completo de audición humana, la voz humana cubre un
ancho de banda relativamente estrecho, aproximadamente desde 100 Hz a 6 kHz.
Dentro de ese rango, la distribución de potencia el habla es fuertemente ponderado en
frecuencias por debajo de aproximadamente 1 kHz con cerca de un 80% de la energía
concentrada en el rango debajo de 500 Hz [20].
Mientras el habla tiene muy poco contenido de alta frecuencia, casi toda la
energía de consonantes ocurre sobre 1 kHz [20].
Como un mínimo practico, el ancho de banda de un sistema de reproducción del
habla, debe extenderse desde los 300 Hz hasta los 3.5 kHz (frecuencia de respuesta de
un receptor telefónico), el cual puede mejorarse aumentando los decibeles entre los 2
kHz y 5 kHz [20].
9
El oído interno: Contiene los órganos del equilibrio y de la audición (cóclea). En
la cóclea se encuentran los receptores auditivos que se estimulan por el movimiento del
líquido que existe en el interior de la cóclea. Los estímulos nerviosos van a través del
nervio acústico hasta la corteza auditiva en el lóbulo temporal [21].
11
se deja sin control y se intensifica, los resultados a menudo conducen a formas
negativas de agresión o violencia. La actuación de la ira puede satisfacer necesidades
inmediatas, pero a expensas de causar daño emocional o físico a nosotros mismos o a
otros [23].
La expresión de ira puede ser a través de comportamientos activos o pasivos. En
el caso de la emoción "activa", la persona enojada "ataca" verbalmente o físicamente a
un objetivo deseado. Cuando el enojo es una emoción "pasiva", se caracteriza por el
silencio, el comportamiento pasivo-agresivo (hostilidad) y la tensión [24].
El enojo puede estar correlacionado con un F0 (frecuencia fundamental, ver
glosario en anexos) de alta media (i.e., un aumento en el tono de la voz), un aumento
de la energía (i.e., alta presión del habla) de la vocalización, un aumento de la energía
formante de alta frecuencia, un aumento en la tasa de articulación de la emisión y es
caracterizada por una calidad de la articulación “tensa” y una calidad de voz
entrecortada. La "ira caliente" también se caracteriza por un aumento en la variabilidad
de F0 y un aumento en el rango de F0, mientras que la "ira fría" también se caracteriza
por un contorno de entonación dirigido hacia abajo (i.e., es decir, el tono de la voz
disminuye a lo largo del enunciado) [52].
2.3.2 Códecs
Un códec comprime o descomprime archivos multimedia como canciones o
videos. Aplicaciones como Windows Media Player utilizan códec para reproducir y crear
archivos multimedia [26].
Un códec puede consistir de dos partes: un codificador que comprime el archivo
multimedia (codificación), y un decodificador que descomprime el archivo
(decodificación). Algunos códec incluyen ambas partes, y otros códecs sólo incluyen
uno de ellos [26].
En palabras simples traducen señales de audio analógicas a patrones digitales
para almacenamiento, y patrones digitales a señales de audio analógicas para
reproducción [27].
13
El sonido reconstruido (decodificado) suena exactamente (o lo más cerca
posible) al audio original antes de la compresión
La técnica para hacer esto se llama codificación perceptual y utiliza el
conocimiento de la psicoacústica para alcanzar el objetivo de la compresión eficiente
pero inaudible. La codificación perceptual es una técnica de compresión con pérdidas
(“lossy compression” en inglés), es decir, el archivo decodificado no es una réplica de
bits exactos de los datos de audio digitales originales [31].
La siguiente figura muestra un diagrama de bloques básico del sistema de
codificación perceptual:
14
Al utilizar archivos con formatos AAC que solo eliminan bandas de frecuencia y
datos que una persona en promedio no escucha basados en técnicas de audio
perceptuales, se puede tener cierta confianza en que no se eliminan frecuencias
importantes para detectar eventos de agresión verbal, ya que éstas ocurren dentro del
rango de frecuencias que si escucha el ser humano.
Descriptores de bajo Spectral centroid (SC), Spectral spread (SS), Spectral rolloff,
nivel Spectral flux, Energy ratios in sub-bands (ERSB), Volume,
Energy, Zero crossing rate (ZCR)
van Hengel, Peter WJ, and Tjeerd C. Andringa [9]. Publicado en IEEE, año 2007, 22
citas en Google Scholar.
15
Objetivos Detectar evidencia de agresión por medio de análisis de
audio en ambientes no controlados
Foggia, Pasquale, et al. [10]. Publicado en IEEE, año 2014, 8 citas en Google Scholar.
Algoritmos/Métodos AdaBoost
Banco de filtros audibles gamma-tono (Derivado de
distribución gamma, tono sinusoidal y Anchos de Banda
Rectangulares Equivalentes (del inglés Equivalent
Rectangular Bandwith))
16
Lecomte, Sébastien, et al. [11]. Publicado en IEEE, año 2011, 26 citas en Google
Scholar.
Resultados 0.2% < EER < 12.5% (según SNR) para cada clase
Valenzise, Giuseppe, et al. [12]. Publicado en IEEE, Año 2007, 201 citas en Google
Scholar.
17
Algoritmos/Métodos GMM
Selección de features
Algoritmos/Métodos GMM
Fs
X i
LF
i 1
i
LF
SC (4)
X i
LF
i 1
SS F (5)
i 1
LF
X i
P
X i X i (6)
f ro Fmax
i 1 i 1
100
SF i F1 X n i X n 1 i
L 2
(7)
19
X i
kn 2 2
i kn1
ERSBn
X i
Fmax 2
i 1
1, 630 , n 1
631,1720 , n 2
kn1 , kn 2 (8)
1721, 4400 , n 3
4401, 22000 , n 4
2.4.2.6 Volumen
El volumen se calcula como el valor cuadrático medio RMS (del inglés Root
Mean Square), de la amplitud de los valores de las muestras en los fragmentos de
audio.
1 L
V x i (9)
2
i 1
L
2.4.2.7 Energía
La energía se calcula como la suma cuadrática de los valores de las muestras de
audio.
E i 1 x i (10)
L 2
20
2.5 Knowledge Discovery in Databases
x y
n
Considerando el set de entrenamiento i, i donde xi p
es el vector de
i 1
w, xi b 1 para yi 1
w, xi b 1 para yi 1
maximize min w, xi b
w, xi b 0 si yi 1
, s.t. i
w ,b l ii w, xi b 0 si yi 1
p
w
2.5.1.2 K-Medias
También se utiliza K-Medias en este modelo ya que los sonidos propios de
agresiones verbales son tan variados y pueden ocurrir de tantas formas diferentes que
sería difícil asignarle una clase a un pequeño fragmento de audio del orden de pocos
milisegundos. Por lo tanto se libera la labor humana de realizar este etiquetado
realizando el algoritmo de clústering que realiza la tarea de clasificar segmentos de
audio característicos (“aural words”) asociados a agresiones verbales.
Respecto al algoritmo, la idea básica es que dado un agrupamiento inicial no
optimo, se traslada cada punto a su nuevo centroide más cercano, se actualiza los
centroides de los clústeres calculando el promedio de los puntos de cada miembro y se
repite el proceso de traslado y actualización hasta que se cumple un criterio de
convergencia definido previamente [18].
23
Figura 8: Ejemplo de clústering por K-Means (K=2). El centro de cada clúster está
marcado por "x". (a) Iniciación. (b) Relocalización. [18]
24
3. Adquisición de datos
3.1 Antecedentes
Este es un capítulo importante de abordar ya que es la base para permitir
desarrollar el trabajo propuesto y por lo tanto se explicará precavidamente lo trabajado.
Los datos requeridos son de agresiones verbales u conversaciones normales sin
agresiones verbales manifestadas de manera audible. Como hay asuntos legales y
éticos de por medio, esto dificulta tener voces reales de personas que en situaciones en
que realmente experimentan emociones intensas como el llanto y la ira [34]. Se buscó
sistemáticamente alguna fuente de datos abierta para acceder a estos datos, pero la
búsqueda no fue fértil, no se encontraron fuentes de datos de audio de agresiones
verbales. El resultado infructuoso de esta tarea se ve en parte justificado en el estudio
de El Ayadi et al. [34], en cuyo segundo capítulo, dispone una tabla con las
características de bases de datos comúnmente utilizadas en reconocimiento de
emoción por voz (17 en total), en donde solo dos de las presentadas contaban con
mediciones de ira intensa, que podrían haber servido para construir la base de datos, a
saber, “Pereira” y “LDC Emotional Prosody Speech and Transcripts”, siendo aquellas de
naturaleza privada y comercialmente disponible, respectivamente, pero a un costo
elevado respecto al contexto en que se desarrolla este trabajo.
Además puede notarse que en todas las bases de datos mostradas en la tabla
anteriormente citada, las emociones fueron articuladas artificialmente, excepto en las
bases de datos “Natural” y “SUSAS” en que los datos fueron obtenidos de call centers y
de estrés real respectivamente.
Por lo tanto al no poder contar con bases de datos preexistentes, se procedió a
construir una base de datos propia. Al igual que varios trabajos anteriores como por
ejemplo el de A Pikrakis et al. [35], De Santo, Massimo, et al. [36], Schuller, Björn, et al.
[37] y Valenzise, Giuseppe, et al. [12], se procedió a construir la base de datos a partir
de películas americanas y registros audiovisuales de internet.
La estructura de la base de datos construida puede ser vista con la clasificación
que se muestra en la siguiente figura:
25
Base de datos
Agresiones verbales
Conversaciones sin Agresión Verbal
en un momento de
agresión verbal (809) (809)
alta intensidad (145)
26
Figura 10: Interfaz MediaInfo
2.13.2 Audacity
Audacity es un software de audio de código abierto gratuito y multiplataforma
para la grabación y edición múltiples pistas [15]. Este programa será utilizado para
extraer el audio de un formato audiovisual, para transformar desde el formato AAC a
WAVE (sin perdidas) y para exportar segmentos de audio.
27
2.13.3 RStudio
RStudio desarrolla un software para el entorno de computación estadística R. R
es un entorno de software libre para la informática estadística y gráficos. Compila y se
ejecuta en una amplia variedad de plataformas UNIX, Windows y MacOS [16][51]. Este
software que utiliza el lenguaje estadístico R, será fundamental para transformar y
procesar todo el análisis de los archivos de audio. Lo único que se requiere es que los
archivos de entrada se encuentren en formato WAVE.
28
3.3 Extracción de datos
3.2.1 Datos originales
.
Figura 13: Rating de una película según la MPAA (Motion Picture Association of
America). Extraida de [38]
29
Ilustración 14: Interfaz del sitio web QuoDB y su interfaz tras realizar una búsqueda [44]
Además, junto con desplegar los resultados, el sitio web también muestra el
tiempo en que ocurre dicho dialogo en las películas, lo cual permitió acelerar en cierta
manera, el proceso de búsqueda de fragmentos de agresiones verbales.
Cabe hacer notar que no necesariamente los fragmentos de películas asociados
a los diálogos, encontrados por este método, fueron útiles para ser incluidos a la base
de datos, puesto que la escena podía contener excesivo ruido, o la agresión podía
decirse en una voz muy baja, entre otras cosas. En definitiva los fragmentos siempre
debieron ser vistos y filtrados manualmente para poder ser finalmente agregados a la
base de datos
A pesar de la utilidad, el motor de búsqueda del sitio web, no funcionaba de una
manera ideal y el tiempo en que mostraba la ocurrencia del dialogo, no calzaba con lo
que realmente ocurría en una película. Esto probablemente se debe a la diferente
cantidad de formatos de una misma película, o escenas censuradas en algunos países,
entre otras causas. En definitiva, la regla general fue que el dialogo a menudo ocurría
unos minutos antes o después de lo señalado, por lo cual fue necesario buscar
manualmente entre esos intervalos.
Para acelerar algo más el proceso, se recurrió a los archivos de subtítulos de las
películas, en donde se encuentran los diálogos con su marca temporal específicos para
esa película. Por lo cual se buscaba el dialogo en el archivo de los subtítulos, se
obtenía la marca temporal y se veía y escuchaba directamente el fragmento de audio
Dicho todo lo anterior, cabe hacer notar, que en una película que en general
varía entre una hora y media y tres horas, en general, solo fueron encontrados
pequeños fragmentos de agresión verbal, los cuales eran identificados manualmente, y
30
extraídos por el software Audacity, por lo que la recolección de datos fue un proceso
muy lento y agotador.
En la Tabla 12, en anexos, se muestran algunas de las películas que fueron
analizadas y sus características generales. Las que tienen sufijo “S” en primera
instancia fueron pensadas para entrenar el SVM del segundo nivel del modelo de
Vincenzo, pero finalmente fueron descartadas porque la expresión de agresiones
verbales fueron muy sutiles según el criterio del autor. Por otro lado las películas con
sufijo “E” fueron descartadas por dos razones: poseer una calificación MPAA G y PG
que no cuentan con escenas de violencia ya que son aptas para ser vistas por niños o
por no poseer el formato AAC.
De dicho conjunto de películas, solo 7 de las 8 con sufijo “C” fueron utilizadas
para entrenar los clústeres en el primer nivel del modelo de Vincenzo
31
Figura 15 : Selección de un intervalo muy corto de audio para ser utilizado en la primera
etapa del modelo de Carletti, Vincenzo. Fuente: Software Audacity
Con estos 145 fragmentos de audio son entrenados los clústeres de la primera
etapa del modelo de Carletti, Vincenzo.
Debido a los problemas para extraer datos de la fuente películas donde un factor
relevante era el gran gasto de tiempo, se optó por buscar registros audiovisuales en
internet. Como estos registros en general duran pocos minutos y tienen un nombre que
hace referencia al contenido, es más fácil encontrar y descartar registros. Se buscaron
videos en diferentes motores de búsqueda usando palabras clave que se reflejan en la
definición de agresión verbal establecida en el punto 1.3.1 de este trabajo.
Al encontrar un registro útil para cualquiera de las dos clases de la base de
datos, se procedía a extraer el audio del video. Para esto se usó la herramienta
OnlineVideoConverter [45], que permite extraer audio de registros audiovisuales de
diversas fuentes.
32
Ilustración 16: Interfaz de “OnlineVideoConverter”, herramienta para extraer audio de
variadas fuentes de registros audiovisuales de internet [45].
33
3.2.2.1 Datos para la primera etapa del modelo de Vincenzo Carletti
Importar
Leer
películas a Seleccion
Señal en Exportar en archivos
Seleccion Audacity Librería de
formato formato WAVE
de peliculas con audio FFmpeg fragmentos
WAVE WAVE desde
en formato de audio
RStudio
AAC
El primer paso consiste en seleccionar las películas. Entre los criterios descritos
anteriormente, primero, se obtiene la información sobre la calificación según la MPAA
de las películas y solo se consideran aquellas que estén calificadas con R o PG-13.
Además se seleccionaron aquellas que estaban codificadas en formato AAC para
mantener el mismo formato entre los datos. Se procesaron 6 películas en total.
El segundo paso consiste en importar las películas en el software Audacity, en
donde se transforma el archivo audiovisual de formato mp4 a formato de audio WAVE a
través de la librería FFmpeg.
34
Figura 18: Pantalla al importar película en formato mp4 a Audacity
35
Finalmente se leen los archivos del cuarto paso desde el software RStudio con la
librería “TuneR” con la función “readWave()” para comenzar el análisis de las señales
de audio. También son leídos a través del archivo ejecutable “SMILExtract_release.exe”
de openSMILE que se revisará posteriormente.
Todos los archivos contaban con dos canales, en este trabajo solo se utilizó el
canal izquierdo para simplificar el procesamiento.
Descargar
Leer
mediante Señal en Seleccion de Exportacion
Seleccion de archivos
"online formato fragmentos en formato
videos WAVE desde
video WAVE de audio WAVE
RStudio
converter"
Figura 21: Opción para agregar etiquetas en software Audacity. Fuente: Software
Audacity
37
Figura 22: Exportar múltiples archivos de acuerdo a etiquetas en software Audacity. Los
números 1 y 2 muestran las opciones seleccionadas en el presente trabajo. Fuente
Software Audacity.
38
4 Aplicación de la metodología
En el presente trabajo se utilizaron 4 modelos, los cuales se enumeran a
continuación
Modelo de Carletti, Vincenzo con features originales. Primera etapa con
clustering y segunda etapa con SVM aplicado a las clases “agresión verbal” y
“conversaciones normales”
Modelo de Carletti, Vincenzo con features de openSMILE. Primera etapa con
clustering y segunda etapa con SVM aplicado a las clases “agresión verbal” y
“conversaciones normales”
SVM aplicado a las clases “agresión verbal” y “conversaciones normales”
Regresión lineal aplicado a las clases “agresión verbal” y “conversaciones
normales”
44000
31.25 x 1408
x
1536 1408
0.032[s]
48000 44000
39
Si se considera que cada fragmento de audio dura 0.032[s] y que como hay
0.75% de traslape cada fragmento adicional, añadirá 0.032/4=0.008 segundos. Se
tiene:
0.032
0.032 x 3 x 372
4
40
Obtener Se extraen las
Leer cada Estos nucleos
nombres de features de Se aplica K-
Depositar todos archivo wav (6 son
archivos de los todos los Means a la
los archivos de peliculas, 145 considerados la
fragmentos archivos y se matriz anterior
audio violentos fragmentos de "bola de
wav en todas unen en una con 100
en una carpeta audio muy palabras
las subcarpetas misma matriz nucleos
cortos) aurales"
mediante script fila a fila
Figura 23 Pasos generales para el entrenamiento del primer nivel del algoritmo
En primer lugar se deben entrenar los 100 clústeres del primer nivel del modelo
con archivos de audio muy cortos provenientes de la fuente de datos “películas”, los
cuales contienen agresión verbal a lo largo de toda su corta duración. El resultado de
esta proceso es una matriz de 100 filas y 11 columnas (las 11 features) a la cual se le
llama “codebook” que es la llamada “bolsa de palabras aurales” y que contiene en cada
fila las features de cada núcleo.
Estos clústeres servirán para generar nuevas features en el segundo nivel del
modelo para el clasificador SVM.
41
Unidad Unidad Unidad … … … Unidad Etiqueta
1 2 3 372
Clúster Clúster Clúster Clúster “Violencia”
1 30 90 40
Tabla 2: Ejemplo de estructura de datos de fragmento de 3 segundos, después de
aplicar el algoritmo del clúster más cercano a cada una de sus 372 unidades. Esta fila
de información corresponde a sólo 1 archivo de audio de 3 segundos
42
4.2.4 Segunda etapa – SVM
Fue utilizada la librería “e1071” de Rstudio aplicando la función svm() del
paquete
El resultado del SVM se redondeó a 0 o a 1, según el caso y en base a aquello
se le asignó la clase de violencia o conversación normal.
Figura 25: Ejecución de OpenSmile para obtener features del audio “Alarm01.wav”
dadas ciertas opciones.
Con la línea de código de la imagen anterior se ejecuta SMILExtract_release.exe.
La opción –C especifica la configuración que se utilizará, -I especifica el archivo de
audio para el input, -csvoutput indica el nombre del archivo de salida en formato csv, -
start indica desde que segundo del audio comienza la extracción de features y –end
indica hasta qué segundo se desea aplicar la extracción de features
4.3.1 Features
Se modificó la configuración original de “MediaEval2012 TUM”, dejando solo los
funcionales “Media Aritmética” y “Media aritmética de valores absolutos”. Además de
aplicar los dos funcionales descritos anteriormente, también se le aplica la derivada a
cada uno de los 37 descriptores de bajo nivel, obteniendo 148 features ( 37 4 features).
Estos descriptores consideran:
Las features usadas fueron las extraidas a través del software Opensmile
descritas en la sección 4.3.1.
Se tienen dos grandes grupos de 809 audio de cada clase, están etiquetados y
con las 148 features descritas anteriormente extraídas con openSMILE
Es utilizada la librería “e1071” de Rstudio aplicando la función svm() del paquete.
El resultado del SVM se redondeó a 0 o a 1, según el caso y en base a aquello se le
asignó la clase de violencia o conversación normal.
45
5. Análisis y resultados
5.1 Análisis estadístico
Con el objetivo de determinar si las features extraídas desde las señales de
audio son capaces de discriminar entre la clase de agresión verbal y no agresión se
pretende realizar un test de hipótesis entre las dos clases independientes.
Para realizar esto se crea un conjunto de datos adicional para contrastar la
agresión verbal proveniente de películas. Es decir, se extraen 145 nuevos fragmentos
de audio sin agresión verbal, para poder comparar.
En primer lugar, se realiza la prueba de Shapiro cuya hipótesis nula asume que
las clases comparadas poseen distribución independiente con el fin de determinar la
normalidad de cada set de datos. Se tiene un set de datos, el que se determinan los
clústeres.
Para recordar las 11 features se numeran de la siguiente manera: 1) Centroide
espectral, 2) Desviación estándar, 3) Flujo espectral, 4) Ratio de energía en sub-bandas
[1-630]Hz, 5) Ratio de energía en sub-bandas [631-1720]Hz, 6) Ratio de energía en
sub-bandas [1721-4400]Hz, 7) Ratio de energía en sub-bandas [4401-22000]Hz, 8)
Volumen, 9) Energía y 10) Tasa de cruces por cero.
Los resultados de la prueba Shapiro son los siguientes:
Features Clústeres
Feature 1 2 3 4 5 6 7 8 9 10 11
W 0.956 0.966 0.971 0.912 0.865 0.945 0.951 0.938 0.969 0.921 0.964
p-value <2e- <2e- <2e- <2e- <2e- <2e- <2e- <2e- <2e- <2e- <2e-
16 16 16 16 16 16 16 16 16 16 16
46
Featur 1 2 3 4 5 6 7 8 9 10 11
e
1
W 15222 20577 19534 2477 28822 4779 8622 16659 2142 2047 12200
0 0 0 6 0 3 9 0 2 7 0
p-value 1.3e- <2e- <2e- <2e- <2e- <2e- <2e- 0.018 <2e- <2e- <2.2e-
10 16 16 16 16 16 16 16 16 16
Referencia
0 1
Prediccion 0 226.5 47.03
1 16.5 195,97
Tabla 4: Matriz de confusión del modelo de Carletti, Vincenzo con features originales.
Se iteró 100 veces
McnemarPVa 37.04%
lue
1
Cada valor fue dividido por 100
47
5.3 Resultados modelo de Carletti, Vincenzo con
features de openSMILE
Se aplicó la regla 70/30 para el entrenamiento y el testeo. Los resultados son los
siguientes:
Referencia
0 1
Prediccion 0 190.53 48.59
1 51.47 193,41
Tabla 6: Matriz de confusión del modelo de Carletti, Vincenzo con features extraídas
con openSMILE. Se iteró 100 veces
McnemarPVa 54.25%
lue
48
5.4 Resultados SVM aplicado a las clases “agresión
verbal” y “conversaciones normales”
Se aplicó la regla 70/30 para el entrenamiento y el testeo. Los resultados son los
siguientes:
Referencia
McnemarPVa 68.85%
lue
49
5.5 Resultados regresión lineal aplicada a las clases
“agresión verbal” y “conversaciones normales”
Se aplicó la regla 70/30 para el entrenamiento y el testeo. Los resultados son los
siguientes:
Referencia
0 1
Prediccion 0 238.72 6.69
1 4.28 236.31
Tabla 10: Matriz de confusión del algoritmo regresión lineal aplicado en las dos clases
“Agresión verbal” y “Conversaciones normales. Se itero 100 veces
McnemarPVa 52.78%
lue
50
6. Discusión
Lo primero que se puede apreciar fue la alta exactitud de los modelos
construidos: Especificamente: Modelo de Carletti con features originales 86.27%,
Modelo de Carletti con features de openSMILE 79.32%, SVM 98.19% y Regresión lineal
97.74%
El modelo presenta una buena sensibilidad lo que es muy favorable ya que en el
marco de este trabajo en que la salud está en juego, es deseable que no se pasen por
alto verdaderos positivos.
Vincenzo tuvo datos suficientes en su trabajo como para poder calcular 1024
clústeres que simbolizaban su bolsa de palabras. En este trabajo solo se usaron 100
por la poca cantidad de datos. El modelo eventualmente tendría mejores resultados si
se aumentara el número de clústeres, pero se necesitaría entrenarlo con mayor
cantidad de archivos de audio.
La hipótesis de investigación se considera cumplida con los datos usados en
este trabajo, dado que se obtienen exactitudes superiores al 79% con cada uno de los 4
algoritmos.
Una razón de las exactitudes altas puede ser la fuente de datos original, una
clase (“la de conversaciones normales”) fue extraída de un solo matinal
estadounidense. En cambio, los audios de la clase “agresiones verbales” fueron
extraídos de multiples fuentes. Esta diferencia puede haber ayudado al model a
clasificar mejor las clases
Los resultados de SVM y Regresión Lineal aplicado a ambas clases producen
una exactitud, similar a las que otros autores han logrado con otras clases de interés
por ejemplo Vincenzo logro una exactitud de 95.8% al diferenciar 4 clases. Por otro lado
van Hengel, Peter WJ, y Tjeerd C. Andringa lograron una sensibilidad de 100% de
detección de gritos en ambientes no controlados. Tambien Foggia, Pasquale, et al.,
logró una exactitud de 95.89% al detectar 4 clases. Por lo tanto el resultado obtenido en
este trabajo puede ser genuinamente alto, dado que en la literatura se han logrado altas
exactitudes.
Sin embargo el modelo de Carletti, obtuvo una menor exactitud al ser replicado
en este trabajo, la exactitud es buena (86.27%), pero dista del 95.8% de exactitud
reportado en su trabajo. Una de las razones de esta baja en la exactitud es muy posible
que sea la reducción de clústeres en la primera etapa de su modelo, ya que él ocupo
más de 1000 clústeres, sin embargo dada la escasez de datos, en el caso de este
trabajo, solo se establecieron 100.
Respecto a la gran cantidad de features que se usa con la herramienta
openSMILE, es posible que haya un sobreajuste, por lo cual es necesario implementar
algoritmos que lo controlen para asegurar una cifra mas cercana a la real.
51
Por otra parte, el análisis estadístico realizado permite afirmar que el trabajo
posterior realizado en base a los datos crudos tiene validez ya que es posible
discriminar las clases analizadas en base a las 11 features utilizadas.
Al realizar el estado del arte en este trabajo, se navegó en motores de búsqueda
de artículos académicos, usando palabras claves asociados a detección de agresión
verbal y por lo que respecta al autor, no se encontró algún estudio que aborde el
problema con el enfoque que se dio en este trabajo, es decir detectar agresiones
verbales sin poner el foco en el estado emocional de quienes participan en el dialogo.
Sí se pudo evidenciar una vasta literatura de detección en cuanto emociones por medio
de audio, pero pocas contaban con la emoción “hot anger” o ira caliente dentro de sus
estudios, que se relaciona muy de cerca con lo que siente una persona al momento de
agredir verbalmente.
El trabajo ocupó conversaciones comunes que fueron en su totalidad tranquilas
para realizar las comparaciones. Se podría subir el nivel de exigencia del modelo
comparándolo con conversaciones más intensas y con otros ruidos humanos y no
humanos que puedan tener features similares a los audios de agresión verbal.
52
7. Conclusiones y trabajo futuro
En este trabajo se propuso como objetivo encontrar algún método para poder
detectar la violencia verbal que en este caso se contrasto con la clase conversaciones
normales. Para esto se tuvo que realizar un estado del arte usando motores de
búsqueda de artículos académicos como Google Scholar para examinar los diversos
trabajos de diferentes autores. En esta búsqueda se pudo apreciar los avances en el
ámbito de la vigilancia, en donde el problema común es detectar correctamente la
ocurrencia de un evento de peligro respecto a otros sonidos a través de audio y también
de video. En estos trabajos se usaron diversos métodos y modelos y también diferentes
clases de interés en donde detectar percusiones de disparos y vidrios quebrándose
eran los más recurrentes. Por lo tanto se pensó que uno de esos modelos podría ser útil
para aplicar en la problemática que se estaba intentando resolver en este trabajo. El
modelo de Carletti, Vincenzo, et al. fue elegido por ser considerado por el autor como
un modelo intuitivo y práctico que puede ser entrenado fácilmente para propósitos
similares, teniendo como principal beneficio la construcción de la bolsa de palabras
(“aural words”), que permite considerar variadas formas de la clase que se desea
detectar, en este caso se computaron las diversas formas de cada actor de manifestar
su violencia verbal, teniendo una bolsa de palabras bastante variada. Además su autor
indica que permite detectar sonidos cortos y largos durante los 3 segundos de cada
ventana, lo cual es muy favorable dado que la violencia verbal se puede comportar de
esa forma.
Además de esto se extrajeron los audios de internet correspondientes a las
clases de “violencia verbal” y “conversaciones normales”. En total se contó con 1618
fragmentos de audio de 3 segundos, lo que es bastante, aunque para el ámbito del
machine learning puede resultar muy escaso.
Por otro lado se considera cumplida la hipótesis de investigación sujeto al set de
datos extraído ya que se logra diferenciar una agresión verbal de variadas
conversaciones con una buena exactitud. Además se computaron archivos con
agresión verbal de diferente duración en el segundo nivel del modelo (en la fase de
SVM), pudiendo existir agresión verbal en los 3 segundos completos de los archivos o
en pequeñas fracciones de segundo. Por lo tanto lo que decía Carletti, Vincenzo en su
trabajo, se corroboró en cierta forma en este trabajo.
Como trabajo futuro se pueden realizar 3 acciones principales:
Incrementar la base de datos procesando mayor cantidad de archivos variados
de audio de violencia verbal en cuanto a diferentes personas, intensidad,
contexto, etc.
Se deben evaluar las features que están siendo consideradas ya que se usaron
las mismas que uso Carletti, Vincenzo, que estaban pensadas para detectar
otras clases. En este trabajo sirvieron las originales, pero quizás es posible
incrementar el desempeño del algoritmo agregando o reemplazando por otras
features, por ejemplo agregando la feature F0 que se modifica cuando una
persona presenta la emoción de ira según lo explicado en el marco teórico.
53
Optimizar los scripts utilizados, pudiendo de esta manera acercar lo máximo
posible el procesamiento a monitoreo en tiempo real, para detectar si hay algún
episodio de violencia en presencia de personas que no tienen facilidades de
defenderse como los niños
Introducir más clases en la base de datos permitir que el modelo se adapte a
otros ruidos que suceden en la vida cotidiana y que podrían ser eventualmente
confundidos con agresiones verbales.
Controlar el sobreajuste de los modelos.
Probar una mayor variedad de algoritmos de machine learning (e.g. redes
neuronales, markov oculto, etc.)
Se espera que este trabajo pueda dar el pie para que futuros avances logren
desarrollar productos que incluyan este tipo de algoritmos para detectar violencia verbal
en tiempo real en donde existen situaciones de riesgo que puedan ser evitadas
oportunamente, permitiendo intervenir a tiempo para que no se perpetúe un mal mayor,
teniendo en consideración que es muy frecuente que en los casos en que existió
violencia física, esta fue generalmente precedida por violencia verbal. Algunas
situaciones en donde los descubrimientos de este trabajo pueden ser útiles son, por
ejemplo, ambientes en donde se convive con niños, en situaciones de violencia
doméstica, como seguridad en el hogar, entre otras aplicaciones.
54
8 Glosario
Canales: Un camino para una señal. Por ejemplo, un micrófono mono conectado
a una entrada mono tiene un canal de entrada. Una señal estéreo conectada a dos
altavoces tiene dos canales de reproducción [32].
Codificación con pérdida (“Lossy coding”): Usa un modelo perceptual para
codificar niveles y arroja información basada en la incapacidad del oído para oír sonidos
de bajo nivel en presencia de otros ruidos en el mismo rango de frecuencia [33].
Codificación sin pérdida (“Loseless coding”): Un método de codificación de audio
que reduce su bitrate y tamaño de archivo sin perder información audible [33].
Frecuencia de muestreo: El número de veces por segundo del convertidor
analógico a digital muestrea la señal analógica. La frecuencia de muestreo determina el
rango de frecuencia de la grabación. Teóricamente, es posible una representación
digital perfecta de una señal de audio analógica cuando la frecuencia de muestreo es
por lo menos dos veces la frecuencia más alta de la señal. El mejor oído humano puede
escuchar hasta 20-24 kHz, por lo que una tasa de muestreo de 40-48hz puede
(teóricamente) reproducir toda la gama de la audiencia humana [32].
Frecuencia Fundamental (F0): Se relaciona con el tono de voz que se percibe.
Es el reflejo de las características biomecánicas de las cuerdas vocales en tanto
interaccionan con las presiones su glóticas y en tanto se modifican por la estructura
laríngea y la fuerza muscular aplicada.
Profundidad de bits (Bit depth): Controla el rango dinámico, la relación señal-
ruido y fidelidad y precisión general. Un rango dinámico más amplio da como resultado
una mayor relación señal-ruido. Una mayor profundidad de bits resulta en una
conversión más exacta y fiel desde una fuente analógica [32].
Resolución de frecuencia: El tamaño de la FFT (Fast Fourier transform) define el
número de compartimientos utilizados para dividir la ventana. Por lo tanto, un
compartimento es una rango de espectro, y define la resolución de frecuencia de la
ventana.
SampleFreq
frecuencybinrange (12)
num( DFTpoints)
55
Tasa de bits variable (VBR por sus siglas en inglés): Es un método para
comprimir audio que no siempre usa el mismo número de bits para grabar la misma
duración de sonido [28].
56
9. Bibliografía
[1] http://www.24horas.cl/nacional/menor-de-solo-10-anos-denuncia-multiples-
agresiones-propinadas-por-su-padre-1568570. visitada en Mayo de 2017.
[2] http://impresa.elmercurio.com/Pages/NewsDetail.aspx?dt=2017-03-01&dtB=01-03-
2017%200:00:00&PaginaId=10&bodyid=3.visitada en Mayo de 2017.
[3] https://www.publimetro.cl/cl/nacional/2016/10/27/80-chilenos-viven-alto-nivel-
estres.html. visitada en Mayo de 2017.
[4] http://edition.cnn.com/2016/10/11/health/reducing-stress-in-the-city-can-improve-
mental-health/. visitada en Mayo de 2017.
[5] Marion K Underwood, “Social Aggresion Among Girls”, 2003.
[6] McCabe, Allyssa, and Thomas J. Lipscomb. "Sex differences in children's verbal
aggression." Merrill-Palmer Quarterly (1982-) (1988): 389-401.
[7] Carletti, Vincenzo, et al. "Audio surveillance using a bag of aural words classifier."
Advanced Video and Signal Based Surveillance (AVSS), 2013 10th IEEE International
Conference on. IEEE, 2013.
[8] Study, Biological Sciences Curriculum, and National Institutes of Health. "Information
about Hearing, Communication, and Understanding." (2007).
[9] van Hengel, Peter WJ, and Tjeerd C. Andringa. "Verbal aggression detection in
complex social environments." Advanced Video and Signal Based Surveillance, 2007.
AVSS 2007. IEEE Conference on. IEEE, 2007.
[10] Foggia, Pasquale, et al. "Cascade classifiers trained on gammatonegrams for
reliably detecting audio events." Advanced Video and Signal Based Surveillance
(AVSS), 2014 11th IEEE International Conference on. IEEE, 2014.
[11] Lecomte, Sébastien, et al. "Abnormal events detection using unsupervised One-
Class SVM-Application to audio surveillance and evaluation." Advanced Video and
Signal-Based Surveillance (AVSS), 2011 8th IEEE International Conference on. IEEE,
2011.
[12] Valenzise, Giuseppe, et al. "Scream and gunshot detection and localization for
audio-surveillance systems." Advanced Video and Signal Based Surveillance, 2007.
AVSS 2007. IEEE Conference on. IEEE, 2007.
[13] Atrey, Pradeep K., Namunu C. Maddage, and Mohan S. Kankanhalli. "Audio based
event detection for multimedia surveillance." Acoustics, Speech and Signal Processing,
2006. ICASSP 2006 Proceedings. 2006 IEEE International Conference on. Vol. 5. IEEE,
2006.
[14] https://mediaarea.net/en/MediaInfo. Visitado Julio 2017.
[15] http://www.audacityteam.org/. Visitado Julio 2017.
57
[16] https://www.RStudio.com/products/. Visitado Julio 2017.
[17] Usama Fayyad, Gregory Piatetsky-Shapiro, and Padhraic Smyth. From Data Mining
to Knowledge Discovery in Databases [Internet]. 1996.
[18] Sammut, Claude, and Geoffrey I. Webb, eds. Encyclopedia of machine learning and
data mining. Springer, 2016.
[19] Ghazanfar, Asif A., and Drew Rendall. "Evolution of human vocal production."
Current Biology 18.11 (2008): R457-R460.
[20] Davis, Gary, and Gary D. Davis. The sound reinforcement handbook. Hal Leonard
Corporation, 1989.
[21] Concepción Fernandez Gonzalez. Auxiliar Cuidador. Temario Y Test. E-book. MAD-
Eduforma. 1997.
[22] Richard Pak, Anne McLaughlin. Designing Displays for Older Adults. CRC Press,
2010.
[22.3] https://www.cdc.gov/ncbddd/hearingloss/sound.html visitada en Julio 2017.
[23] Elizabeth M. Varcarolis. Essentials of Psychiatric Mental Health Nursing: A
Communication Approach to Evidence-Based Care. Elsevier Health Sciences. 2012.
[24] Elana I. Clausen. Psychology of Anger. Nova Science Publishers. 2007.
[25] Shashi Banzal. Data and Computer Network Communication. Firewall Media. 2007.
[26] https://support.microsoft.com/en-us/help/15070/windows-media-player-codecs-
frequently-asked-questions visitada en Julio de 2017.
[27] Ed Tittel, Chris Minnick. Beginning HTML5 and CSS3 For Dummies. John Wiley &
Sons,2013.
[29] Cliff Truesdell. Mastering Digital Audio Production: The Professional Music
Workflow with Mac OS X. John Wiley & Sons, 2007.
[28] http://manual.audacityteam.org/man/glossary.html visitada en Julio 2017.
[30] Tony Bove. iPod & iTunes For Dummies. John Wiley & Sons, 2010.
[31] Brandenburg, Karlheinz. "MP3 and AAC explained." Audio Engineering Society
Conference: 17th International Conference: High-Quality Audio Coding. Audio
Engineering Society, 1999.
[32] Carla Schroder. The Book of Audacity: Record, Edit, Mix, and Master with the Free
Audio Editor. No Starch Press, 2011.
[33] Bob Katz. ITunes Music: Mastering High Resolution Audio Delivery: Produce Great
Sounding Music with Mastered for ITunes. CRC Press, 2013.
58
[34] El Ayadi, Moataz, Mohamed S. Kamel, and Fakhri Karray. "Survey on speech
emotion recognition: Features, classification schemes, and databases." Pattern
Recognition 44.3 (2011): 572-587.
[35] Pikrakis, Aggelos, Theodoros Giannakopoulos, and Sergios Theodoridis. "Gunshot
detection in audio streams from movies by means of dynamic programming and
bayesian networks." Acoustics, Speech and Signal Processing, 2008. ICASSP 2008.
IEEE International Conference on. IEEE, 2008.
[36] De Santo, Massimo, et al. "Classifying audio of movies by a multi-expert system."
Image Analysis and Processing, 2001. Proceedings. 11th International Conference on.
IEEE, 2001.
[37] Schuller, Björn, et al. "Speaker independent speech emotion recognition by
ensemble classification." Multimedia and Expo, 2005. ICME 2005. IEEE International
Conference on. IEEE, 2005.
[38] http://filmratings.com/RatingsGuide visitada en Julio 2017.
[39] http://www.imdb.com/ visitada en Julio 2017.
[40] Begault, Durand R. "Forensic analysis of the audibility of female screams." Audio
Engineering Society Conference: 33rd International Conference: Audio Forensics-
Theory and Practice. Audio Engineering Society, 2008.
[41] Faustino Núñez Batalla, Carlos Suárez Nieto. “Manual de evaluación y diagnóstico
de la voz.” Universidad de Oviedo, 1998.
[42] Charles Stephen Lessard. “Signal Processing of Random Physiological Signals.”.
Morgan & Claypool Publishers, 2006.
[43] https://scholar.google.es/intl/es/scholar/about.html visitada en Julio 2017
[44] http://www.quodb.com/ visitada en Julio 2017.
[45] https://www.onlinevideoconverter.com/video-converter visitada en Julio 2017
[46] https://www.videolan.org/vlc/index.es.html visitada en Julio 2017
[47] http://audeering.com/technology/opensmile/ visitada en Julio 2017
[48] Eyben, F., M. Woellmer, and B. Schuller. "The openSMILE book-openSMILE: The
Munich Versatile and Fast Open-Source Audio Feature Extractor.",2010.
[50] Sjöberg, Mats, et al. "The MediaEval 2014 Affect Task: Violent Scenes Detection."
MediaEval. 2014.
59
10 Anexos
Nombre Año de Calificación Tasa Frecuencia Canales Formato
estreno MPAA de bits (kHz) Audio
(kb/s)
Pelicula1C 2012 R 96 48 2 AAC(LC)
Pelicula2C 2008 PG-13 93.9 48 2 AAC(LC)
Pelicula3C 1994 R 64 22.05 2 AAC(HE-
AAC/LC)
Pelicula4C 2002 PG-13 96 48 2 AAC(LC)
Pelicula5C 2006 R 94 44.1 2 AAC
Pelicula6C 2013 R 93.8 48 2 AAC(LC)
Pelicula7C 1997 PG-13 64 48 2 AAC(HE-
AAC/LC)
Pelicula1S 2005 R 93.8 48 2 AAC(LC)
Pelicula2S 2012 R 96 48 2 AAC(LC)
Pelicula3S 2008 R 113 48 2 AAC(LC)
Pelicula4S 2014 R 93.8 48 2 AAC(LC)
Pelicula5S 2008 R 94 44,1 2 AAC(LC)
Pelicula6S 2006 R 160 48 2 AAC(LC)
Pelicula7S 2005 R 96 48 2 AAC(LC)
Pelicula8S 2003 R 93.8 48 2 AAC(LC)
Pelicula9S 2000 R 93.7 48 2 AAC(LC)
Pelicula10S 1991 R 93.7 48 2 AAC(LC)
Pelicula1E 2006 G 32 48 2 AAC(HE-
AAC/LC)
Pelicula2E 2001 G 96 48 2 AAC(LC)
Pelicula3E 2001 PG 64 48 2 AAC(LC)
Pelicula4E 1995 G 96 48 2 AAC(LC)
Pelicula5E 2009 PG 93.7 48 2 AAC(LC)
Pelicula6E 1980 R 32 48 2 MP3
Tabla 12: Datos originales previo procesamiento. Los archivos audiovisuales se
encontraban en formato mp4. Esta información se obtuvo con el software MediaInfo y el
sitio web IMDb [39].
60
Película Película Pelicula3C Pelicula5C Pelicula5C Pelicula6C Pelicula6C
2C 3C (1/2) (2/2) Pelicula4C (1/2) (2/2) (1/2) (1/2) Pelicula7C
198 226 147 202 159 315 225 415 123
216 438 155 260 61 301 108 144 154
244 287 204 144 125 356 108 171 100
190 166 200 144 142 106 189 207 154
263 204 132 219 90 246 189 162 651
192 264 196 143 346 182 243 207 296
212 1428 143 130 116 180 234 332
228 204 105 132 149 180 171 186
268 188 98 187 142 153 216 227
238 143 196 287 61 135 207
157 151 665 180 19 153 216
238 257 166 83 126 234
152 143 204 159 424 108
623 136 166 59 180 171
265 234 317 80 225 433
531 302 272 394 180 126
109 317 197 288 207
215 120 230 135 261
211 204 341 189 216
102 189 1317 830
298 135 126 204
Tabla 13: Duración de fragmentos de audio según cada película para entrenar los
clústeres en la primera etapa del método de Carletti, Vincenzo. Datos en milisegundos
61