Histograma de gradientes orientados: Revelando el ámbito visual: explorando el histograma de gradientes orientados en visión por computadora
Por Fouad Sabry
()
Información de este libro electrónico
¿Qué es el histograma de gradientes orientados?
En los campos de la visión por computadora y el procesamiento de imágenes, el histograma de gradientes orientados (HOG) es un descriptor de características que se utiliza para este propósito. de detección de objetos. Esta técnica se utiliza para contar el número de casos de orientación de degradado que ocurren en regiones específicas de una imagen. Esta técnica es comparable a los histogramas de orientación de bordes, los descriptores de transformación de características invariantes de escala y los contextos de formas; sin embargo, difiere de esos métodos en que se calcula en una cuadrícula densa de celdas espaciadas uniformemente y emplea una normalización de contraste local superpuesta con el fin de lograr un mayor nivel de precisión.
Cómo lo harás beneficio
(I) Insights y validaciones sobre los siguientes temas:
Capítulo 1: Histograma de gradientes orientados
Capítulo 2: Detección de bordes
Capítulo 3: Transformación de características invariantes de escala
Capítulo 4: Funciones robustas aceleradas
Capítulo 5: GLOH
Capítulo 6: Patrones binarios locales
Capítulo 7: Orientado RÁPIDO y rotado BRIEF
Capítulo 8: Impulsar (aprendizaje automático)
Capítulo 9: Segmentación de imágenes
Capítulo 10: Detección de objetos
(II) Respondiendo a las principales preguntas del público sobre el histograma de gradientes orientados.
(III) Ejemplos del mundo real para el uso del histograma de gradientes orientados en muchos campos .
Para quién es este libro
Profesionales, estudiantes de pregrado y posgrado, entusiastas, aficionados y aquellos que quieran ir más allá del conocimiento o la información básica para cualquier tipo de histograma de gradientes orientados.
Autores relacionados
Relacionado con Histograma de gradientes orientados
Títulos en esta serie (100)
Visión por computadora submarina: Explorando las profundidades de la visión por computadora debajo de las olas Calificación: 0 de 5 estrellas0 calificacionesHistograma de imagen: Revelando conocimientos visuales, explorando las profundidades de los histogramas de imágenes en visión por computadora Calificación: 0 de 5 estrellas0 calificacionesMapeo de tonos: Mapeo de tonos: perspectivas iluminadoras en visión por computadora Calificación: 0 de 5 estrellas0 calificacionesCorrección gamma: Mejora de la claridad visual en la visión por computadora: la técnica de corrección gamma Calificación: 0 de 5 estrellas0 calificacionesDifusión anisotrópica: Mejora del análisis de imágenes mediante difusión anisotrópica Calificación: 0 de 5 estrellas0 calificacionesReducción de ruido: Mejora de la claridad, técnicas avanzadas para la reducción del ruido en la visión por computadora Calificación: 0 de 5 estrellas0 calificacionesVisión por computador: Explorando las profundidades de la visión por computadora Calificación: 0 de 5 estrellas0 calificacionesBanco de filtros: Información sobre las técnicas del banco de filtros de Computer Vision Calificación: 0 de 5 estrellas0 calificacionesHomografía: Homografía: Transformaciones en Visión por Computador Calificación: 0 de 5 estrellas0 calificacionesTransformación dura: Revelando la magia de Hough Transform en visión por computadora Calificación: 0 de 5 estrellas0 calificacionesCompresión de imagen: Técnicas eficientes para la optimización de datos visuales Calificación: 0 de 5 estrellas0 calificacionesFiltro adaptativo: Mejora de la visión por computadora mediante filtrado adaptativo Calificación: 0 de 5 estrellas0 calificacionesTransformacion afin: Desbloqueo de perspectivas visuales: exploración de la transformación afín en visión por computadora Calificación: 0 de 5 estrellas0 calificacionesRetinax: Revelando los secretos de la visión computacional con Retinex Calificación: 0 de 5 estrellas0 calificacionesAjuste del paquete: Optimización de datos visuales para una reconstrucción precisa Calificación: 0 de 5 estrellas0 calificacionesVisión estéreo por computadora: Explorando la percepción de profundidad en la visión por computadora Calificación: 0 de 5 estrellas0 calificacionesEn Pintura: Cerrar brechas en la visión por computadora Calificación: 0 de 5 estrellas0 calificacionesMapeo de colores: Explorando la percepción y el análisis visual en visión por computadora Calificación: 0 de 5 estrellas0 calificacionesConsenso de muestra aleatoria: Estimación robusta en visión por computadora Calificación: 0 de 5 estrellas0 calificacionesEcualización de histograma: Mejora del contraste de la imagen para mejorar la percepción visual Calificación: 0 de 5 estrellas0 calificacionesJoint Photographic Experts Group: Liberando el poder de los datos visuales con el estándar JPEG Calificación: 0 de 5 estrellas0 calificacionesRobot automatizado de inspección por rayos X: Mejora del control de calidad mediante la visión por computadora Calificación: 0 de 5 estrellas0 calificacionesModelo de apariencia activa: Liberando el poder de los modelos de apariencia activa en visión por computadora Calificación: 0 de 5 estrellas0 calificacionesTransformación de Hadamard: Revelando el poder de la transformación de Hadamard en visión por computadora Calificación: 0 de 5 estrellas0 calificacionesDetector de esquinas Harris: Revelando la magia de la detección de características de imagen Calificación: 0 de 5 estrellas0 calificacionesPerfil de color: Explorando la percepción y el análisis visual en visión por computadora Calificación: 0 de 5 estrellas0 calificacionesModelo de color: Comprensión del espectro de la visión por computadora: exploración de modelos de color Calificación: 0 de 5 estrellas0 calificacionesPercepción visual: Información sobre el procesamiento visual computacional Calificación: 0 de 5 estrellas0 calificacionesContorno activo: Avances en la visión por computadora con técnicas de contorno activo Calificación: 0 de 5 estrellas0 calificacionesTransformación de radón: Revelando patrones ocultos en datos visuales Calificación: 0 de 5 estrellas0 calificaciones
Libros electrónicos relacionados
Gráficos por computadora de vértice: Explorando la intersección de los gráficos por computadora Vertex y la visión por computadora Calificación: 0 de 5 estrellas0 calificacionesProcesamiento de imágenes piramidales: Explorando las profundidades del análisis visual Calificación: 0 de 5 estrellas0 calificacionesDetección de manchas: Revelando patrones en datos visuales Calificación: 0 de 5 estrellas0 calificacionesEcualización de histograma: Mejora del contraste de la imagen para mejorar la percepción visual Calificación: 0 de 5 estrellas0 calificacionesTransformación de característica invariante de escala: Revelando el poder de la transformación de características invariantes de escala en visión por computadora Calificación: 0 de 5 estrellas0 calificacionesCortes de gráficos de visión por computadora: Explorando cortes de gráficos en visión por computadora Calificación: 0 de 5 estrellas0 calificacionesMétodo de ajuste de nivel: Avances en la visión por computadora, exploración del método de conjunto de niveles Calificación: 0 de 5 estrellas0 calificacionesEspacio de escala: Explorando las dimensiones en visión por computadora Calificación: 0 de 5 estrellas0 calificacionesSegmentación de imagen: Desbloqueo de información a través de Pixel Precision Calificación: 0 de 5 estrellas0 calificacionesReconstrucción tridimensional multivista: Técnicas avanzadas de percepción espacial en visión por computadora Calificación: 0 de 5 estrellas0 calificacionesCampo de movimiento: Explorando la dinámica de la visión por computadora: campo de movimiento revelado Calificación: 0 de 5 estrellas0 calificacionesFlujo óptico: Explorando patrones visuales dinámicos en visión por computadora Calificación: 0 de 5 estrellas0 calificacionesDeterminación de superficies ocultas: Revelando los secretos de la visión por computadora Calificación: 0 de 5 estrellas0 calificacionesAjuste del paquete: Optimización de datos visuales para una reconstrucción precisa Calificación: 0 de 5 estrellas0 calificacionesModelo de apariencia activa: Liberando el poder de los modelos de apariencia activa en visión por computadora Calificación: 0 de 5 estrellas0 calificacionesEstimación de movimiento: Avances y aplicaciones en visión por computadora Calificación: 0 de 5 estrellas0 calificacionesMapeo de tonos: Mapeo de tonos: perspectivas iluminadoras en visión por computadora Calificación: 0 de 5 estrellas0 calificacionesMapeo de colores: Explorando la percepción y el análisis visual en visión por computadora Calificación: 0 de 5 estrellas0 calificacionesDetector de bordes astuto: Revelando el arte de la percepción visual Calificación: 0 de 5 estrellas0 calificacionesClasificación de imágenes contextuales: Comprensión de los datos visuales para una clasificación eficaz Calificación: 0 de 5 estrellas0 calificacionesEditora de gráficos ráster: Transformando realidades visuales: dominio de los editores de gráficos rasterizados en visión por computadora Calificación: 0 de 5 estrellas0 calificacionesDetección de bordes: Explorando los límites en la visión por computadora Calificación: 0 de 5 estrellas0 calificacionesEstimación de la postura del cuerpo articulado: Desbloqueando el movimiento humano en la visión por computadora Calificación: 0 de 5 estrellas0 calificacionesGráfico de trama digital: Revelando el poder de los gráficos rasterizados digitales en la visión por computadora Calificación: 0 de 5 estrellas0 calificacionesRepresentación de volumen: Explorando el realismo visual en la visión por computadora Calificación: 0 de 5 estrellas0 calificacionesSuperficie procesal: Explorando la generación y el análisis de texturas en visión por computadora Calificación: 0 de 5 estrellas0 calificacionesDetector de esquinas Harris: Revelando la magia de la detección de características de imagen Calificación: 0 de 5 estrellas0 calificacionesBolsa de palabras modelo: Desbloqueando la inteligencia visual con Bag of Words Calificación: 0 de 5 estrellas0 calificaciones
Inteligencia (IA) y semántica para usted
Inteligencia artificial: Guía para seres pensantes Calificación: 0 de 5 estrellas0 calificacionesANDROID: Aprende desde cero a crear aplicaciones Calificación: 0 de 5 estrellas0 calificacionesInteligencia artificial: chatgpt práctico para empresas Calificación: 0 de 5 estrellas0 calificacionesMonetización de ChatGPT: aproveche el poder de AI: Spanish Calificación: 1 de 5 estrellas1/5Mecatrónica Calificación: 0 de 5 estrellas0 calificacionesDominando ChatGPT: Desbloquea el poder de la IA para mejorar la comunicación y las relaciones: Spanish Calificación: 3 de 5 estrellas3/5Klara y el Sol Calificación: 5 de 5 estrellas5/5ChatGPT El Millonario del 2024 Trabajos secundarios impulsados por bots, secretos para acelerar la ingeniería de indicaciones y flujos de ingresos automatizados. Calificación: 0 de 5 estrellas0 calificacionesChatGPT La Máquina de Dinero del 2024 De Novato a Prodigio en el Uso de Indicaciones de manera Rápida. Un Curso Completo para Principiantes en Inteligencia Artificial. Calificación: 0 de 5 estrellas0 calificacionesProgramación de Inteligencia Artificial. Curso Práctico Calificación: 0 de 5 estrellas0 calificacionesAprendizaje automático y profundo en python: Una mirada hacia la inteligencia artificial Calificación: 0 de 5 estrellas0 calificacionesChat GPT-4 para Principiantes: Chat GPT, #1 Calificación: 0 de 5 estrellas0 calificacionesMáquinas predictivas: La sencilla economía de la inteligencia artificial Calificación: 5 de 5 estrellas5/5Cómo triunfar en Instagram usando ChatGPT: La guía definitiva para crear contenido impactante con ChatGPT Calificación: 0 de 5 estrellas0 calificacionesIntroducción a la programación: Algoritmos y su implementación en vb.net, c#, java y c++ Calificación: 0 de 5 estrellas0 calificacionesDesarrollo de aplicaciones C#: con Visual Studio .NET Curso práctico Calificación: 0 de 5 estrellas0 calificacionesDiseño de algoritmos y su programación en C Calificación: 0 de 5 estrellas0 calificacionesArquitectura de computadoras Calificación: 0 de 5 estrellas0 calificacionesFundamentos de Programación: Diagramas de flujo, Diagramas N-S, Pseudocódigo y Java Calificación: 0 de 5 estrellas0 calificacionesBusiness Intelligence: Técnicas herramientas y aplicaciones Calificación: 0 de 5 estrellas0 calificacionesIntroducción a la ingeniería Calificación: 0 de 5 estrellas0 calificacionesMetodología de la programación Calificación: 0 de 5 estrellas0 calificacionesCiencias de la Computación en la escuela: Guía para enseñar mucho más que a programar Calificación: 5 de 5 estrellas5/5Agile Calificación: 5 de 5 estrellas5/5Libertad Financiera con ChatGPT y Prompt Engineering Aprende Cómo Hacer Dinero Online sin Trabajar Gracias a la Inteligencia Artificial Generativa con Prompts en Español Calificación: 0 de 5 estrellas0 calificacionesIntroducción a la Ingeniería Industrial Calificación: 0 de 5 estrellas0 calificacionesEl modelo para ganar dinero de ChatGPT para emprendedores Calificación: 0 de 5 estrellas0 calificaciones¿Cómo piensan las máquinas?: Inteligencia artificial para humanos Calificación: 5 de 5 estrellas5/5
Comentarios para Histograma de gradientes orientados
0 clasificaciones0 comentarios
Vista previa del libro
Histograma de gradientes orientados - Fouad Sabry
Capítulo 1: Histograma de gradientes orientados
En la visión artificial y el procesamiento de imágenes, el histograma de gradientes orientados (HOG) es un descriptor de características que se utiliza para la detección de objetos. Este método utiliza la dirección de los degradados en regiones discretas de una imagen para contar sus apariciones. En comparación con los histogramas de orientación de bordes, los descriptores de transformación de características invariantes a escala y los contextos de forma, esta técnica es más precisa porque se calcula en una cuadrícula densa de celdas espaciadas uniformemente y hace uso de la normalización de contraste local superpuesta.
Las ideas de HOG fueron esbozadas por primera vez en 1986 por Robert K. McConnell de Wayland Research Inc. sin el apodo de HOG. Sin embargo, no fue hasta 2005, cuando los investigadores Navneet Dalal y Bill Triggs del Instituto Nacional de Investigación en Ciencias de la Computación y Automatización de Francia (INRIA) presentaron su trabajo adicional sobre los descriptores HOG en la Conferencia sobre Visión por Computadora y Reconocimiento de Patrones que fueron ampliamente adoptados (CVPR). Inicialmente se concentraron en la detección de peatones en fotos fijas, pero posteriormente ampliaron sus pruebas para incluir la detección de personas en video, así como la detección de una amplia gama de animales y vehículos comunes en fotografías fijas.
El descriptor de histograma de gradientes dirigidos se basa en la idea de que la apariencia y la forma de los objetos a nivel local dentro de una imagen se pueden representar mediante la distribución de gradientes de intensidad o direcciones de borde. Se crea un histograma de direcciones de gradiente para cada píxel de la imagen dividiéndolo en pequeñas secciones conectadas llamadas celdas. La combinación de estos histogramas en una sola métrica sirve como descripción. Los histogramas locales se pueden normalizar por contraste para aumentar la precisión calculando primero una medida de intensidad en una parte más grande de la imagen (un bloque) y luego usando este valor para normalizar todas las celdas dentro del bloque. El resultado de esta estandarización es una mayor resistencia a las manchas claras y oscuras.
Varios beneficios significativos diferencian a la descripción de HOG de sus competidores. Dado que solo afecta a las células cercanas, permanece inalterado por los cambios de escala o iluminación, con la excepción de la rotación. Solo en áreas geográficas más grandes veríamos este tipo de cambios. Además, Dalal y Triggs descubrieron que mientras los peatones mantengan sus cuerpos casi erguidos, su movimiento puede ser ignorado gracias al muestreo espacial grueso, el muestreo de orientación fina y la fuerte normalización fotométrica local. Es por eso que el descriptor HOG sobresale en la búsqueda de personas en imágenes.
En muchos detectores de características, la normalización de los valores de color y gamma es el paso inicial del cálculo en el preprocesamiento de imágenes. Sin embargo, en el cálculo del descriptor HOG, Dalal y Triggs argumentan que este paso es innecesario porque la normalización posterior del descriptor logra el mismo objetivo. Como resultado, el preprocesamiento de imágenes tiene un efecto insignificante en el rendimiento. En su lugar, el cálculo de los valores de gradiente es lo primero. La aplicación de la máscara derivada discreta de punto centrada de 1 dimensión en la dirección horizontal o vertical es la forma más típica. Para que esta técnica funcione, los datos de color o intensidad de la imagen deben filtrarse utilizando los siguientes núcleos:
{\displaystyle [-1,0,1]{\text{ and }}[-1,0,1]^{\top }.\,}Si bien Dalal y Triggs usaron máscaras más sofisticadas como la máscara Sobel 3x3 y las máscaras diagonales, descubrieron que eran menos efectivas para identificar a las personas en las fotos. También intentaron usar un suavizador gaussiano antes de aplicar la máscara derivada, pero descubrieron que ningún suavizado en realidad producía mejores resultados.
Los histogramas celulares se generan como la segunda etapa del proceso.
Cada píxel dentro de la celda utiliza los valores de degradado para emitir un voto ponderado para un bin en el histograma que se basa en la orientación.
Las celdas en sí pueden adoptar una configuración cuadrada o circular, y los canales del histograma abarcan un uniforme de 0 a 180 o de 0 a 360 grados, dependiendo de si el gradiente es sin signo
o con signo
.
Los mejores resultados en los ensayos de detección humana realizados por Dalal y Triggs se lograron cuando se combinaron gradientes sin signo con 9 canales de histograma, al tiempo que se señaló que los gradientes con signo mejoran en gran medida el reconocimiento de objetos para otras categorías, de la misma manera que lo hacen los automóviles y las motocicletas.
En términos de la importancia de cada voto, los píxeles pueden contribuir a la magnitud del gradiente, o a una escala o función del tamaño.
En las pruebas, los mejores resultados generalmente se logran centrándose solo en la magnitud del gradiente.
La raíz cuadrada o el cuadrado del tamaño del gradiente son dos medidas potenciales más del peso del voto, o una medida truncada de la misma.
Las intensidades del gradiente deben normalizarse localmente para tener en cuenta las variaciones en la iluminación y el contraste, lo que requiere agrupar las celdas en bloques más grandes y conectados geográficamente. Por último, el descriptor HOG es la suma vectorial de los componentes de los histogramas celulares normalizados para cada bloque. Cada celda a menudo contribuye a la descripción final de más de una manera debido a la naturaleza superpuesta de estos bloques. Las formas más comunes para los bloques son cuadradas o rectangulares para los bloques R-HOG y circulares para los bloques C-HOG. Los bloques R-HOG suelen ser cuadrículas cuadradas, donde el recuento de celdas, el recuento de píxeles y el recuento de canales del histograma son las características definitorias. Cuatro celdas de 8x8 píxeles por bloque (bloque de 16x16 píxeles) con 9 canales de histograma demostraron ser las mejores en el experimento de detección humana realizado por Dalal y Triggs. Además, descubrieron que el rendimiento puede mejorarse ligeramente mediante el uso de un marco espacial gaussiano dentro de cada bloque antes de contar los votos del histograma para proporcionar menos peso a los píxeles cerca de los bordes del bloque. Aunque los bloques R-HOG y los descriptores de transformación de características invariantes de escala (SIFT) pueden parecer similares a primera vista, se forman de manera diferente. Por lo general, los descriptores SIFT se calculan en puntos clave de imagen dispersos e invariantes a escala y se rotan para alinear la orientación, mientras que los bloques R-HOG se calculan en cuadrículas densas a una sola escala sin alineación de orientación. Además, a diferencia de los descriptores SIFT, que se utilizan solos, los bloques R-HOG se utilizan juntos para representar información de formas espaciales.
Hay dos tipos distintos de bloques circulares de HOG (C-HOG): los que tienen una sola celda central y los que tienen celdas divididas angularmente. Los cuatro factores que caracterizan a estos bloques C-HOG son el número de bins angulares y radiales, el radio del bins central y el factor de expansión para el radio de los bins radiales adicionales. Dalal y Triggs no descubrieron ninguna diferencia de rendimiento entre las dos variaciones primarias,