Aplicación de Espacios Vectoriales en La Computación

UNIVERSIDAD NACIONAL DE SAN ANTONIO
ABAD DE CUSCO
Ingenieria Informatica y de sistemas
ÁLGEBRA LINEAL
Docente: Vaidya Ines Carrillo Segura
Aplicaciones de Espacios Vectoriales en

la Informática
Estudiante: Código :
Osbaldo Dan Callhua Aldazabal 174838
Denis Omar Cuyo Ttito 182906
Yerson Salinas Atausinchi 171605
Accent Bladimir Ortega Sullcaccori 182926
Juan Manuel Zuniga Auccahuaqui 182942
Elvis Jorge Huaman Mendoza 182914
Hayder Auccaise Ronco 182896
Aplicaciones de Espacios Vectoriales en la Informática Álgebra Lineal
Índice
Introdución 3
Resumen 4
1. Recuperación de Información: Modelo Vectorial 5

1.1. Marco teórico . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 5
1.2. Componentes de los sistemas de recuperación de información . . . . . . 6
1.2.1. Base de datos documental . . . . . . . . . . . . . . . . . . . . 6
1.2.2. Modelo Espacio Vectorial . . . . . . . . . . . . . . . . . . . . . 7
1.2.3. Proceso de equiparación mediante el producto escalar . . . . . 9
1.2.4. Modalidad de pesos binarios . . . . . . . . . . . . . . . . . . . 10
1.2.5. Modalidad de pesos TF-IDF . . . . . . . . . . . . . . . . . . . 11
1.2.6. Proceso de Equiparación mediante la fórmula del coseno . . . . 13
1.2.7. Proceso de equipación mediante el coficiente de Jaccard(Tanimoto) 14
2. Generación de la llave de cifrado a partir de los patrones biométricos 16

2.1. Cómo se lee las imágenes vectoriales . . . . . . . . . . . . . . . . . . . 17
2.2. ¿Cuál es la diferencia de una imagen vectorial de otra imagen común? . 17
3. Conclusiones 19
4. Bibliografía 19
Índice de figuras
1. Operaciones para la recuperación de documentos . . . . . . . . . . . . . 5
2. Componentes básicos de un sistema de recuperación de Información . . . 6
3. Similaridad de un documento d y la consulta q mediante producto escalar 10
4. El ángulo del coseno . . . . . . . . . . . . . . . . . . . . . . . . . . . . 13
5. Fórmula para el cálculo del coeficiente de similaridad de Dice . . . . . 13
6. Fórmula para el cálculo del coeficiente de similaridad de Jaccard . . . . 15
7. Imagen binaria obtenida después del filtrado Canny en zona de patrones
biométricos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 16
8. Imagen que contiene el rostro humano procedente de un estudio fotográfico 16
9. Patrones biométricos identificados sobre estudio fotográfico (Figura 8)
implementado filtros Canny . . . . . . . . . . . . . . . . . . . . . . . . 17
10. Ejemplo de pixelación . . . . . . . . . . . . . . . . . . . . . . . . . . . 18
11. Ejemplo de imagen vectorial . . . . . . . . . . . . . . . . . . . . . . . . 18
1
Índice de cuadros
1. Representación del vector de un documento . . . . . . . . . . . . . . . . 8
2. Obsérvese el documento1 y una consulta q dada por el usuario con sus
pesos . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . . 9
3. Producto Escalar de pesos binarios . . . . . . . . . . . . . . . . . . . . 11
4. Producto escalar de pesos TF-IDF . . . . . . . . . . . . . . . . . . . . 12
5. Cálculo del coeficiente de similaridad de Dice . . . . . . . . . . . . . . 14
6. Cálculo del coeficiente de similaridad de Jaccard . . . . . . . . . . . . . 15
2
Introducción
Para la realización del presente trabajo se ha realizado una recopilación de distintos

medios y fuentes, mediante la investigación de conceptos de cada uno de los miembros
logramos poner en claro las aplicaciones del álgebra lineal en la Ingeniería Informática,
dando un enfoque más práctico para el estudiante.
Al comenzar el trabajo se presenta una introducción a la Recuperación de la Información
usando espacios y sub espacios vectoriales, que nos explica, de cómo hoy nos hallamos
inmersos en la revolución de la información, el proceso de digitalización de los documentos,
así como el desarrollo de nuevas tecnologías de la información tanto en su creación,
como en su distribución, acceso,...; estos son dos claros ejemplos de la revolución de la
información, lo cual ha permitido su acceso y uso por un número ilimitado de usuarios.
Esto nos sitúa dentro de un entorno en desarrollo de información electrónica a la que
se puede acceder por medios automáticos. Otro aspecto que tenemos que considerar es
la diversificación de los medios, que trae consigo una mayor cantidad de información no
normalizada, sonido, texto, etc.
Por otro lado tenemos a la Generación de la llave de cifrado a partir de los patrones
biométricos, que nos explica de cómo una imagen luego de aplicar los filtros, es una
matriz binaria en donde el color negro es la representación de un cero lógico (False) y el
blanco de un uno lógico (True), además nos da a conocer más acerca de las Ciencias de
la Computación. Luego de ello se dá un desarrollo, a lo que aplica para qué nos ayuda, y
qué operaciones que se pueden realizar sobre ellos. También tenemos las distintas formas
en las que nos sirven como herramienta además de aplicaciones que son de gran ayuda
para estudiante informático.
3
Resumen
Para recuperar información es necesario elaborar o contar con una base de datos com-
puestas por documentos.
En el sistema SRI se procesa una serie de operaciones básicas sobre los documentos
almacenados, como son: un método de localización, introducción de nuevos documentos,
modificación de los documentos que ya estén almacenados y eliminación de los mismos.
Los documentos se almacenan como vectores de términos y podrán encontrarse en un

espacio vectorial de n dimensiones en grupos que están formados de acuerdo a la
relevancia para una misma clase de necesidad de información. Es decir, el modelo de
espacio vectorial se basa en el grado de similaridad.
Todos los documentos se representan por un conjunto de elementos llamados descriptores.
Cuando queremos acceder a información en una base de datos se consulta, esa consulta
llega a ser comparado con cada elemento de la colección mediante sus pesos TF-IDF,
si se tiene un alto grado de coincidencia y por ende tiene más probabilidades de ser
relevante: nos devuelve lo que buscamos.
Palabras clave: TF-IDF (representación matematica), Similaridad, Espacio vectorial,

Sistema SRI, Base de datos.
4
1. Recuperación de Información: Modelo Vectorial
1.1. Marco teórico

Los sistemas de recuperación de información son una clase de sistemas de información
que tratan con bases de datos compuestas por documentos y procesan las consultas de
los usuarios permitiéndoles acceder a la información relevante en un intervalo de tiempo
apropiado. Las consultas hechas por los usuarios las podemos considerar como un conjunto
de sentencias formales y representa sus necesidades de información, estas sentencias se
encuentran en un lenguaje de consulta. La historia de este sistema se remonta a la década
de los 40 con la idea de ayudar a los gestores encargados de la documentación científica.
Un SRI debe soportar una serie de operaciones básicas sobre los documentos almace-
nados, como son: introducción de nuevos documentos, modificación de los que ya estén
almacenados y eliminación de los mismos. Debemos también contar con algún método de
localización de los documentos (o con varios, generalmente) para presentárselos poste-
riormente al usuario. Los componentes de un SRI se presentan a continuación de manera
gráfica.
Figura 1: Operaciones para la recuperación de documentos
5
1.2. Componentes de los sistemas de recuperación de información

1.2.1. Base de datos documental
Un DOCUMENTO es un conjunto de datos al principio de naturaleza textual aunque

hoy en la actualidad existen también documentos multimedia, incorporándose al inicial
las fotografías, ilustraciones gráficas, videos animados, audio, etc. He aquí un gráfico que
representa los componentes básicos de los sistemas de recuperación de la información.
Figura 2: Componentes básicos de un sistema de recuperación de Información
Aunque la variedad en cuanto a documentos se refiere, está aumentando tanto en soportes

como en el carácter de su contenido, nosotros nos vamos a centrar en los que tienen
naturaleza únicamente textual.
Estos documentos no se almacenan directamente en el SRI, sino que se pre procesan y se
representan por un conjunto de elementos llamados descriptores. Por tanto, un documento
se compondrá de una serie de descriptores.
Desde un punto de vista matemático la base de datos es una tabla o matriz en la que cada
fila representa a un documento y cada columna indica la presencia, o no, de un determinado
descriptor en el documento correspondiente. En principio en cada fila aparecen “unos” en
las columnas asignadas a los descriptores del documento y “ceros” en las restantes. De
esta forma podemos representar un documento: por un vector de unos y ceros. Existen
algunos modelos para representar los SRI como el probabilístico o el booleano, sin embargo
consideraremos el modelo de Espacio Vectorial.
6
1.2.2. Modelo Espacio Vectorial
Salton fue el primero en proponer los SRI basados en Espacio Vectorial SRI-EV a finales
de los 60, dentro del marco del proyecto SMART. Como bien sabemos podemos representar
los documentos como vectores de términos, siguiendo esa línea los documentos podrán
encontrarse en un espacio vectorial de n dimensiones, es decir, con tantas dimensiones
como elementos tenga el vector. Situado en ese espacio vectorial, cada documento cae
entonces en un lugar determinado por sus coordenadas.
Al igual que en un espacio de tres dimensiones cada objeto queda bien ubicado si se
especifican sus tres coordenadas espaciales. Se crean así grupos de documentos que
quedan próximos entre sí a causa de las características de sus vectores. Estos grupos
o clusters están formados, en teoría, por documentos similares, es decir, por grupos de
documentos que serían relevantes para la misma clase de necesidades de información. En
una base de datos documental organizada de esta manera, resulta muy rápido calcular la
relevancia de un documento a una pregunta (su RSV), y siendo muy rápida también la
ordenación por relevancia, ya que, de forma natural, los documentos ya están agrupados
por su grado de semejanza.
En la fase de la consulta, cuando se formula una pregunta, también se la deja caer en
este espacio vectorial y, así, aquellos documentos que queden más próximos a ella serán,
en teoría, los más relevantes para la misma. La representación de los documentos y las
consultas se realiza mediante la asociación de un vector de pesos no binarios (un peso
por cada término de índice). Por ejemplo, di = (ti1 , ti2 , ti3 , . . . , tin ).
El hecho de que tanto los documentos como las consultas tengan la misma representación
dota al sistema de una gran potencialidad. Y facilita la búsqueda y recuperación de
archivos.
En resumen el modelo de espacio vectorial se basa en el grado de similaridad de una
consulta dada por el usuario con respecto a los documentos de la colección cuyos términos
fueron ponderados mediante TF-IDF. Se basa en tres principios esenciales:
La equiparación parcial, esto es, la capacidad del sistema para ordenar los resultados
de una búsqueda, basado en el grado de similaridad entre cada documento de la
colección y la consulta.
La ponderación de los términos en los documentos, no limitándose a señalar la pre-
sencia o ausencia de los mismos, sino adscribiendo a cada término en cada documento
un número real que refleje su importancia en el documento.
La ponderación de los términos en la consulta, de manera que el usuario puede
asignar pesos a los términos de la consulta que reflejen la importancia de los mismos
en relación a su necesidad informativa.
7
Si bien en el modelo booleano un documento de la colección puede ser representado por

la presencia o ausencia de los términos indexados en el fichero diccionario de la siguiente
forma...
Documento1 { 1,0,1,1,1,0,0,1,0,0,0,1,1,0,1,1 }
...en el modelo de espacio vectorial se emplea el peso de los términos para cada documento,
que refleja la relevancia de los términos del documento de cara a su representatividad en
la colección, adquiriendo una forma como la que sigue...
Documento1 { 1‘452, 0, 2‘122, 3‘564, 4‘123, 0, 0, 2‘342, 0, 0, 0, 1‘975, 4‘543, 0,
6‘134, 2‘234 }
A este conjunto de números reales, que son los pesos, que representan al documento, se
les denomina Vector del documento, permitiendo su representación en el espacio
vectorial y en consecuencia, su tratamiento matemático. Por ello la formulación del vector
se representa de la siguiente forma, véase Cuadro 1.
Cuadro 1: Representación del vector de un documento
8
Posteriormente, la colección sigue lo que se denomina un Proceso de Vectorización por

el que todos los documentos son representados mediante pesos TF-IDF, la consulta del
usuario también requiere de dicho tratamiento. Ello significa que se tiene que ponderar
la importancia de los términos de la consulta para poder generar el Vector de la consulta
del usuario. Este paso es imprescindible para poder efectuar el Proceso de Equiparación
de la consulta con los documentos de la colección y determinar cuáles de ellos con más
relevantes véase Cuadro 2.
Cuadro 2: Obsérvese el documento1 y una consulta q dada por el usuario con sus pesos
1.2.3. Proceso de equiparación mediante el producto escalar
Los procesos de equiparación de los documentos de la colección con respecto a la consulta

del usuario, en el modelo booleano, se efectúan mediante cálculos de similaridad. Existen
muchas modalidades de comparación o equiparación mediante similaridad, en este caso
se presenta una de las más sencillas por su simplicidad y sistematización inmediata. Se
trata del producto escalar de los pesos, véase Figura 3.
De esta forma, la similaridad de un documento y una consulta, es igual a la suma de los
productos de sus pesos. (Y no se debe olvidar que cada peso representa a un término).
Este método puede aplicarse tanto a pesos binarios como a pesos TF-IDF.
9
Figura 3: Similaridad de un documento d y la consulta q mediante producto escalar
1.2.4. Modalidad de pesos binarios
En el caso de la modalidad binaria, la similaridad de un documento con respecto a la

consulta es equivalente a la presencia de los términos de la consulta en el documento,
véase tabla3. Esto quiere decir que la ausencia de un término de la consulta o del
documento implica un producto igual a 0 y por lo tanto no tienen incidencia en el cálculo.
Por el contrario la presencia de un término dado tanto en la consulta como en el documento
siempre tendrá el valor de 1. Por ello sólo basta con contabilizar el número de términos.
Como se puede analizar en el Cuadro 3, el número de términos coincidentes de la consulta
10
Cuadro 3: Producto Escalar de pesos binarios
con el documento1 es 4 que corresponde a los términos Universidad, Alcalá, Unamuno

y Literatura. Por lo tanto, en una escala de 6 (Por ser todos los términos empleados
en la consulta original depurada del usuario), el documento1, tiene un alto grado de
coincidencia y por ende tiene más probabilidades de ser relevante.
1.2.5. Modalidad de pesos TF-IDF
En el caso de la modalidad de pesos binarios, las limitaciones en la definición de la

representatividad de los términos de cada documento quedan patentes. Resulta por tanto
un resultado bastante limitado y parcial. Por ello el método de la similaridad mediante el
producto escalar se aplica habitualmente con pesos TF-IDF, mucho más precisos, véase
tabla4. Tabla4. Producto escalar de pesos TF-IDF
11
Cuadro 4: Producto escalar de pesos TF-IDF
El cálculo de la similaridad se aplica a cada uno de los documentos de la colección

siguiendo el patrón expuesto en el Cuadro 4. Para el documento1 la similaridad con
respecto a la consulta del usuario q, será diferente que para el documento2. Obsérvese
que al igual que ocurría con los pesos binarios, sólo tienen incidencia aquellos términos
presentes tanto en la consulta como en el documento, pues sus pesos se multiplican y se
suman sucesivamente al resto. En este caso, la similaridad del documento1 (35,306) es
superior a la del documento2 (27,450), siendo éstas unas cifras mucho más precisas que
un simple número entero.
12
1.2.6. Proceso de Equiparación mediante la fórmula del coseno
Figura 4: El ángulo del coseno
Es posible medir cuál es la desviación de un documento con respecto a una consulta, por
el número de grados del ángulo que forman. Esto es posible porque crean una estructura
triangular a la que se aplica el cálculo del ángulo que forma la hipotenusa (en este
caso el vector del documento1) y el adyacente (el vector q de la consulta dada por el
usuario) que resulta ser el coseno del triángulo. En el caso de la Figura 4, se comprueba
visualmente cierta distancia del vector de la consulta con respecto al documento1; cuando
ambos vectores se muestran tan próximos como para superponerse, implicará que el ángulo
que forman será menor y que su nivel de coincidencia será superior. De hecho, un coseno
de 0o implicaría una similaridad máxima.
Figura 5: Fórmula para el cálculo del coeficiente de similaridad de Dice
13
Cuadro 5: Cálculo del coeficiente de similaridad de Dice
1.2.7. Proceso de equipación mediante el coficiente de Jaccard(Tanimoto)
El cálculo del coeficiente de similaridad de Jaccard* al igual que el de Dice, resul-

tan deudores del coeficiente de similaridad del coseno. Su aplicación, centrada en usos
estadísticos, también se aplica a recuperación de información y mide la similitud entre
conjuntos. Se puede definir como el tamaño de la intersección (numerador) dividido por
el tamaño de la unión de la muestra, en este caso la suma de los pesos al cuadrado del
documento y la consulta menos la intersección, véase Figura 6 y Cuadro 6.
14
Figura 6: Fórmula para el cálculo del coeficiente de similaridad de Jaccard
Cuadro 6: Cálculo del coeficiente de similaridad de Jaccard
15
2. Generación de la llave de cifrado a partir de los patrones

biométricos
La imagen resultante luego de aplicar lo filtros Canny es una matriz binaria en donde el
color negro es la representación de un cero lógico y el blanco por un uno, tal como se
muestra en la figura:
Figura 7: Imagen binaria obtenida después del filtrado Canny en zona de patrones bio-
métricos
De acuerdo a lo anterior, los bordes de los patrones biométricos de los rasgos locales
y del contorno de las estructuras adicionales de la fotografía se referencian con un uno
lógico, dato que es de interés dado que se asocia con la estructura singular del patrón
biométrico.
Figura 8: Imagen que contiene el rostro humano procedente de un estudio fotográfico
16
Figura 9: Patrones biométricos identificados sobre estudio fotográfico (Figura 8) imple-

mentado filtros Canny
De acuerdo a la premisa anteriormente contextualizada, el algoritmo que se propone

(Figura 9) extrae la posición que un “uno” ocupa en la matriz, almacenando estos datos
en un vector de tamaño variable de tal forma que sirve como un contenedor de valores
posibles a usar en la llave de cifrado. La figura 10, muestra la secuencia de pasos de
cómo el algoritmo extrae los datos sustentados desde la biometría facial.
2.1. Cómo se lee las imágenes vectoriales

Para la lectura de la llave de cifrado se hace uso de las imágenes vectoriales que son
formados por vectores o curvas definidas matemáticamente. El registro de la huella digital,
reconocimiento ocular, etc. Están en formato (SVG, AI, CRD, EPS, WMF, . . . ).
2.2. ¿Cuál es la diferencia de una imagen vectorial de otra imagen

común?
Imagen Común:
Pues las imágenes comunes (fotografías, imágenes de internet formadas por un mapa
de bits) están formadas por pixeles, que son pequeños recuadros que al unirlos forman
una imagen, pero al acercar la imagen se distingue los recuadros.
17
Figura 10: Ejemplo de pixelación
Imagen vectorial:
La imagen vectorial se almacena como una lista que describe cada uno de sus vectores
componentes, su posición y sus propiedades. En cuanto a la resolución, los gráficos
vectoriales son independientes de la resolución ya que no dependen de una retícula
de pixeles dada.
Figura 11: Ejemplo de imagen vectorial
18
3. Conclusiones
Los sub espacios vectoriales en relación a la identificación de personas (llave de cifrado) es
hasta hoy el mejor método para distinguir a las personas, unas de otras. El reconocimiento
facial al igual que el reconocimiento ocular no es tan efectivo ya que hay casos, donde
dos personas puedan tener las mismas características (los mismos subespacios vectoriales).
Por el contrario, el reconocimiento por huella digital es el mas efectivo hasta ahora por
que hasta el momento no existe un caso excepcional. “La conjugación de los nucleótidos
de cada persona es única” y la mejor forma de representarlo es mediante una imagen
vectorial. Y es por eso que es grandioso el uso de espacios y subespacios vectoriales en
este tipo de imágenes.
4. Bibliografía
Referencias
[1] Holger Billhardt. Fusión de modelos vectoriales y contextuales para la recuperación
de información. PhD thesis, Informatica, 2003.
[2] Lluís Codina. Teoría de recuperación de información: modelos fundamentales y aplica-
ciones a la gestión documental. Information World en español, 38:18–22, 1995.
[3] José Antonio Moreiro González. Aplicaciones al análisis automático del contenido
provenientes de la teoría matemática de la información. In Anales de documentación,
volume 5, pages 273–286. Facultad de Comunicación y Documentación y Servicio de
Publicaciones de la . . . , 2002.
[4] María Dolores Olvera Lobo et al. Métodos y técnicas para la indización y la recupe-
ración de los recursos de la world wide web. 1999.
19

Aplicación de Espacios Vectoriales en La Computación

Cargado por

Copyright:

Formatos disponibles

Aplicación de Espacios Vectoriales en La Computación

Cargado por

Información del documento

Descripción original:

Título original

Derechos de autor

Formatos disponibles

Compartir este documento

Compartir o incrustar documentos

Opciones para compartir

¿Le pareció útil este documento?

¿Este contenido es inapropiado?

Copyright:

Formatos disponibles

Aplicación de Espacios Vectoriales en La Computación

Cargado por

Copyright:

Formatos disponibles

UNIVERSIDAD NACIONAL DE SAN ANTONIO

Aplicaciones de Espacios Vectoriales en

1. Recuperación de Información: Modelo Vectorial 5

2. Generación de la llave de cifrado a partir de los patrones biométricos 16

Para la realización del presente trabajo se ha realizado una recopilación de distintos

Los documentos se almacenan como vectores de términos y podrán encontrarse en un

Todos los documentos se representan por un conjunto de elementos llamados descriptores.

Palabras clave: TF-IDF (representación matematica), Similaridad, Espacio vectorial,

1. Recuperación de Información: Modelo Vectorial

1.1. Marco teórico

Figura 1: Operaciones para la recuperación de documentos

1.2. Componentes de los sistemas de recuperación de información

Un DOCUMENTO es un conjunto de datos al principio de naturaleza textual aunque

Figura 2: Componentes básicos de un sistema de recuperación de Información

Aunque la variedad en cuanto a documentos se refiere, está aumentando tanto en soportes

1.2.2. Modelo Espacio Vectorial

Si bien en el modelo booleano un documento de la colección puede ser representado por

Cuadro 1: Representación del vector de un documento

Posteriormente, la colección sigue lo que se denomina un Proceso de Vectorización por

1.2.3. Proceso de equiparación mediante el producto escalar

Los procesos de equiparación de los documentos de la colección con respecto a la consulta

Figura 3: Similaridad de un documento d y la consulta q mediante producto escalar

1.2.4. Modalidad de pesos binarios

En el caso de la modalidad binaria, la similaridad de un documento con respecto a la

Como se puede analizar en el Cuadro 3, el número de términos coincidentes de la consulta

Cuadro 3: Producto Escalar de pesos binarios

con el documento1 es 4 que corresponde a los términos Universidad, Alcalá, Unamuno

1.2.5. Modalidad de pesos TF-IDF

En el caso de la modalidad de pesos binarios, las limitaciones en la definición de la

Cuadro 4: Producto escalar de pesos TF-IDF

El cálculo de la similaridad se aplica a cada uno de los documentos de la colección

1.2.6. Proceso de Equiparación mediante la fórmula del coseno

Figura 4: El ángulo del coseno

Figura 5: Fórmula para el cálculo del coeficiente de similaridad de Dice

Cuadro 5: Cálculo del coeficiente de similaridad de Dice

1.2.7. Proceso de equipación mediante el coficiente de Jaccard(Tanimoto)

El cálculo del coeficiente de similaridad de Jaccard* al igual que el de Dice, resul-

Figura 6: Fórmula para el cálculo del coeficiente de similaridad de Jaccard

Cuadro 6: Cálculo del coeficiente de similaridad de Jaccard

2. Generación de la llave de cifrado a partir de los patrones

Figura 8: Imagen que contiene el rostro humano procedente de un estudio fotográfico

Figura 9: Patrones biométricos identificados sobre estudio fotográfico (Figura 8) imple-

De acuerdo a la premisa anteriormente contextualizada, el algoritmo que se propone

2.1. Cómo se lee las imágenes vectoriales

2.2. ¿Cuál es la diferencia de una imagen vectorial de otra imagen

Figura 10: Ejemplo de pixelación

Figura 11: Ejemplo de imagen vectorial

También podría gustarte