Saltar ao contido

Minaría de datos: Diferenzas entre revisións

Na Galipedia, a Wikipedia en galego.
Contido eliminado Contido engadido
Recuperando 2 fontes e etiquetando 0 como mortas.) #IABot (v2.0.9.5
Sen resumo de edición
Liña 12: Liña 12:


O termo é frecuentemente mal utilizado para referirse a calquera forma de datos a gran escala ou procesamiento da información (recolección, extracción, almacenamento, análise e estatísticas). Tamén se emprega con calquera tipo de sistema informático de apoio a decisións, incluíndo a intelixencia artificial, aprendizaxe automática e intelixencia empresarial.
O termo é frecuentemente mal utilizado para referirse a calquera forma de datos a gran escala ou procesamiento da información (recolección, extracción, almacenamento, análise e estatísticas). Tamén se emprega con calquera tipo de sistema informático de apoio a decisións, incluíndo a intelixencia artificial, aprendizaxe automática e intelixencia empresarial.
[[Ficheiro:The general relationship between the categories of Web Mining and objectives of Data Mining(English version).png|miniatura|276x276px|Relación xeral entre os procesos de minado web (''web mining'') e a minaría de datos.]]
[[Ficheiro:The general relationship between the categories of Web Mining and objectives of Data Mining(English version).png|miniatura|Relación xeral entre os procesos de minado web (''web mining'') e a minaría de datos.]]
No uso da palabra, o termo clave é o descubrimento (KDD). Defínese como «detección de algo novo». A miúdo, os termos máis xerais «análises de datos», «análises»; ou, cando se refiren aos métodos actuais, «intelixencia artificial» e «aprendizaxe automática», son máis apropiados para moitos casos que simplemente «minaría de datos».
No uso da palabra, o termo clave é o descubrimento (KDD). Defínese como «detección de algo novo». A miúdo, os termos máis xerais «análises de datos», «análises»; ou, cando se refiren aos métodos actuais, «intelixencia artificial» e «aprendizaxe automática», son máis apropiados para moitos casos que simplemente «minaría de datos».


Liña 22: Liña 22:


Empréganse técnicas de bases de datos como os '''índices espaciais'''. Estes patróns poden ser vistos como unha especie de resumo dos datos de entrada que xogan un papel importante na análise adicional ou, por exemplo, na aprendizaxe automática e análise predictivo.
Empréganse técnicas de bases de datos como os '''índices espaciais'''. Estes patróns poden ser vistos como unha especie de resumo dos datos de entrada que xogan un papel importante na análise adicional ou, por exemplo, na aprendizaxe automática e análise predictivo.
[[Ficheiro:Data Wrangling From Messy To Clean Data Management.jpg|miniatura|276x276px|Ordenación dos datos desordenados para obter coñecemento útil (KDD).]]
[[Ficheiro:Data Wrangling From Messy To Clean Data Management.jpg|miniatura|Ordenación dos datos desordenados para obter coñecemento útil (KDD).]]
Por exemplo, o procedemento de minaría de datos podería identificar varios grupos nos datos, que logo serían utilizados para obter resultados máis precisos de predición por un sistema de soporte de decisións. Nin a recolección de datos, a preparación de datos, nin a interpretación dos resultados e a información son parte da etapa de minaría de datos, pero é común considerar que pertencen a todo o proceso KDD como pasos adicionais.<ref>{{Cita web|url=http://openaccess.uoc.edu/webapps/o2/bitstream/10609/59565/6/caresptimTFG0117mem%C3%B2ria.pdf|título=Análisis predictivo: técnicas y modelos utilizados y aplicaciones del mismo}}</ref>
Por exemplo, o procedemento de minaría de datos podería identificar varios grupos nos datos, que logo serían utilizados para obter resultados máis precisos de predición por un sistema de soporte de decisións. Nin a recolección de datos, a preparación de datos, nin a interpretación dos resultados e a información son parte da etapa de minaría de datos, pero é común considerar que pertencen a todo o proceso KDD como pasos adicionais.<ref>{{Cita web|url=http://openaccess.uoc.edu/webapps/o2/bitstream/10609/59565/6/caresptimTFG0117mem%C3%B2ria.pdf|título=Análisis predictivo: técnicas y modelos utilizados y aplicaciones del mismo}}</ref>


Liña 42: Liña 42:


O modelo final pode non superar a avaliación descrita. Nese caso, o proceso poderíase repetirse desde o principio ou a partir de calquera dos pasos anteriores. Esta [[retroalimentación]] («feedback») poderase repetir cantas veces sexa necesario até obter un modelo válido.
O modelo final pode non superar a avaliación descrita. Nese caso, o proceso poderíase repetirse desde o principio ou a partir de calquera dos pasos anteriores. Esta [[retroalimentación]] («feedback») poderase repetir cantas veces sexa necesario até obter un modelo válido.
Unha vez validado o modelo, se resulta aceptable (proporciona saídas axeitadas e/ou con marxes de erro admisibles) este está listo para a súa explotación por parte da organización. Os modelos obtidos por técnicas de minaría de datos aplícanse incorporándoos nos sistemas de análises de información, e mesmo nos sistemas transaccionais. Neste sentido cabe destacar os esforzos do [http://www.dmg.org/ Data Mining Group], que se ocupa de estandarizar a linguaxe '''PMML''' ([[Predictive Model Markup Language]]), de maneira que os modelos de minaría de datos sexan interoperables en distintas plataformas (datos intercambiados de forma segura e sen perda), con independencia do sistema co que foron construídos. Os principais fabricantes de sistemas de bases de datos e programas de análises da información fan uso do estándar PMML.[[Ficheiro:Data Warehouse & Data-Marts overview.svg|miniatura|258x258px|Esquema dun almacén de datos (''Data Warehouse'').]]
Unha vez validado o modelo, se resulta aceptable (proporciona saídas axeitadas e/ou con marxes de erro admisibles) este está listo para a súa explotación por parte da organización. Os modelos obtidos por técnicas de minaría de datos aplícanse incorporándoos nos sistemas de análises de información, e mesmo nos sistemas transaccionais. Neste sentido cabe destacar os esforzos do [http://www.dmg.org/ Data Mining Group], que se ocupa de estandarizar a linguaxe '''PMML''' ([[Predictive Model Markup Language]]), de maneira que os modelos de minaría de datos sexan interoperables en distintas plataformas (datos intercambiados de forma segura e sen perda), con independencia do sistema co que foron construídos. Os principais fabricantes de sistemas de bases de datos e programas de análises da información fan uso do estándar PMML.[[Ficheiro:Data Warehouse & Data-Marts overview.svg|miniatura|Esquema dun almacén de datos (''Data Warehouse'').]]
* '''Minaría de datos en almacén''', cando as técnicas se aplican sobre información contida en [[Almacén de datos|almacéns de datos]] (''Data Warehouse''). Grandes organizacións crean e alimentan bases de datos especialmente deseñadas para proxectos de minaría de datos nas que centralizan información potencialmente útil de todas as súas áreas de negocio.
* '''Minaría de datos en almacén''', cando as técnicas se aplican sobre información contida en [[Almacén de datos|almacéns de datos]] (''Data Warehouse''). Grandes organizacións crean e alimentan bases de datos especialmente deseñadas para proxectos de minaría de datos nas que centralizan información potencialmente útil de todas as súas áreas de negocio.
* '''Minaría de datos desestructurados''', como información contida en ficheiros de texto dispoñibles en [[Internet]] e fontes dispersas.
* '''Minaría de datos desestructurados''', como información contida en ficheiros de texto dispoñibles en [[Internet]] e fontes dispersas.
Liña 48: Liña 48:
== Protocolo de proxecto ==
== Protocolo de proxecto ==
As '''cinco fases necesarias''' dun proxecto de minado de datos son, esencialmente:
As '''cinco fases necesarias''' dun proxecto de minado de datos son, esencialmente:
[[Ficheiro:Data Mining (30208) - The Noun Project.svg|miniatura|132x132px|Data Mining - [https://thenounproject.com/#:~:text=Noun%20Project%20has%20the%20most%20diverse The Noun Project].]]
[[Ficheiro:Data Mining (30208) - The Noun Project.svg|miniatura|Data Mining - The Noun Project.]]


* '''Comprensión''' '''do negocio''' e do problema que se quere resolver.
* '''Comprensión''' '''do negocio''' e do problema que se quere resolver.
Liña 73: Liña 73:
** [[Algoritmo ID3]].
** [[Algoritmo ID3]].
** [[C4.5|Algoritmo C4.5]]
** [[C4.5|Algoritmo C4.5]]
[[Ficheiro:Exponential distribution cdf - public domain.svg|miniatura|Distribución exponencial.]]

* [[Ficheiro:Exponential distribution cdf - public domain.svg|miniatura|168x168px|Distribución exponencial.]]'''Modelos estadísticos'''. Indican os factores que modifican a variable resposta. Empregados en regresión e outras técnicas de [[aprendizaxe estatística]].
* '''Modelos estadísticos'''. Indican os factores que modifican a variable resposta. Empregados en regresión e outras técnicas de [[aprendizaxe estatística]].
[[Ficheiro:ClusterAnalysis Mouse.svg|miniatura|Análise ''clúster'' ou agrupamento.]]

* [[Ficheiro:ClusterAnalysis Mouse.svg|miniatura|245x245px|Análise ''clúster'' ou agrupamento.]]'''[[Algoritmo de agrupamiento|Agrupamento ou ''Clustering'']]'''. Procedemento de agrupación dunha serie de vectores segundo criterios habitualmente de distancia: os vectores de entrada máis próximos terán características comúns. Exemplos:
* '''[[Algoritmo de agrupamiento|Agrupamento ou ''Clustering'']]'''. Procedemento de agrupación dunha serie de vectores segundo criterios habitualmente de distancia: os vectores de entrada máis próximos terán características comúns. Exemplos:
** [[K-means|Algoritmo K-means]]
** [[K-means|Algoritmo K-means]]
** [[K-medoids|Algoritmo K-medoids]]
** [[K-medoids|Algoritmo K-medoids]]
Liña 104: Liña 104:


A automatización dos procesos de minaría é un aspecto fundamental para xestionar todas as versións dun mesmo modelo.
A automatización dos procesos de minaría é un aspecto fundamental para xestionar todas as versións dun mesmo modelo.
[[Ficheiro:Seguimiento Dinámico de Ventas de la Solución Past2Future Business Intelligence.jpg|miniatura|261x261px|Software de análise interactiva de ventas con Power BI.]]
[[Ficheiro:Seguimiento Dinámico de Ventas de la Solución Past2Future Business Intelligence.jpg|miniatura|Software de análise interactiva de ventas con Power BI.]]
Nunha contorna tan cambiante onde os volumes de datos medibles crece exponencialmente grazas á mercadotecnia dixital, «as esperas producidas pola dependencia entre departamentos técnicos e os expertos estadistas conseguen que ao final os resultados das análises sexan inservibles» aos responsables de negocio e toma de decisións.<ref> {{Cita web|título=Everything Is Measurable|url=https://www.cio.com/article/272044/it-organization-everything-is-measurable.html|páxina-web=CIO|data-acceso=2024-09-04|lingua=en}}</ref><ref>The Driving Need for Analytics in a Big Data World | http://www.datamashup.info/the-driving-need-for-analytics-in-a-big-data-world/ {{Webarchive|url=https://web.archive.org/web/20150724203245/http://www.datamashup.info/the-driving-need-for-analytics-in-a-big-data-world/ |date=24 de xullo de 2015 }}</ref> Por isto, os provedores de ferramentas de minaría de datos traballan en aplicacións máis fáciles de utilizar no que se coñece como '''minaría de datos visual'''. O software Power BI de [[Microsoft]] cumpre a función de aplicación de visualización de datos e análise interactiva dos mesos. A demanda de emprego de analista de negocio disparouse a partir do 2010, e as previsión continúan sendo favorables para este tipo de postos de traballo.<ref>Visual Data Mining: Allowing business users to mine and gain insight into the data | http://birtanalytics.actuate.com/visual-data-mining {{Webarchive|url=https://web.archive.org/web/20150711124338/http://birtanalytics.actuate.com/visual-data-mining |date=11 de xullo de 2015 }}</ref><ref>Data Scientist: Evolution of the Business Analyst | http://www.predictiveanalyticsworld.com/patimes/data-scientist-evolution-of-the-business-analyst/</ref>
Nunha contorna tan cambiante onde os volumes de datos medibles crece exponencialmente grazas á mercadotecnia dixital, «as esperas producidas pola dependencia entre departamentos técnicos e os expertos estadistas conseguen que ao final os resultados das análises sexan inservibles» aos responsables de negocio e toma de decisións.<ref> {{Cita web|título=Everything Is Measurable|url=https://www.cio.com/article/272044/it-organization-everything-is-measurable.html|páxina-web=CIO|data-acceso=2024-09-04|lingua=en}}</ref><ref>The Driving Need for Analytics in a Big Data World | http://www.datamashup.info/the-driving-need-for-analytics-in-a-big-data-world/ {{Webarchive|url=https://web.archive.org/web/20150724203245/http://www.datamashup.info/the-driving-need-for-analytics-in-a-big-data-world/ |date=24 de xullo de 2015 }}</ref> Por isto, os provedores de ferramentas de minaría de datos traballan en aplicacións máis fáciles de utilizar no que se coñece como '''minaría de datos visual'''. O software Power BI de [[Microsoft]] cumpre a función de aplicación de visualización de datos e análise interactiva dos mesos. A demanda de emprego de analista de negocio disparouse a partir do 2010, e as previsión continúan sendo favorables para este tipo de postos de traballo.<ref>Visual Data Mining: Allowing business users to mine and gain insight into the data | http://birtanalytics.actuate.com/visual-data-mining {{Webarchive|url=https://web.archive.org/web/20150711124338/http://birtanalytics.actuate.com/visual-data-mining |date=11 de xullo de 2015 }}</ref><ref>Data Scientist: Evolution of the Business Analyst | http://www.predictiveanalyticsworld.com/patimes/data-scientist-evolution-of-the-business-analyst/</ref>


Liña 227: Liña 227:


== Ferramentas de software ==
== Ferramentas de software ==
Entre as ferramentas de software para o desenvolvemento de modelos de minaría de datos '''libres''' ou '''comerciais''' se contan:
Entre as ferramentas de software para o desenvolvemento de modelos de minaría de datos libres ou comerciais se contan:


* [[RapidMiner]]
* [[RapidMiner]]
Liña 239: Liña 239:
* [[STATISTICA]]
* [[STATISTICA]]
* [[Weka (aprendizaxe automática)|Weka]]
* [[Weka (aprendizaxe automática)|Weka]]

== Notas ==
{{Listaref|30em}}


== Véxase tamén ==
== Véxase tamén ==
=== Outros artigos ===

* Almacén operacional dos datos
* Análise predictiva
* [[Aprendizaxe automática]]
* [[Aprendizaxe automática]]
* [[Almacén de datos]]
* [[Almacén de datos]]
* Delito informático
* [[Estatística]]
* [[Estatística]]
=== Ligazóns externas ===
* Facts and authorities
* Intelixencia Empresarial
* Iconografía das correlacións
* minaría de datos espacial
* minaría de grafos
* minaría de procesos
* minaría de textos
* Regras de asociación
* Sistemas de información executiva
* Sistemas de soporte a decisións
* Web mining
* Weka (aprendizaxe automática)

== Referencias ==
{{Listaref}}

== Enlaces externos ==

* [http://dms.stat.ucf.edu Programa de minaría de Datos, University of Central Florida]
* [http://dms.stat.ucf.edu Programa de minaría de Datos, University of Central Florida]
* [http://www.medicalminer.org Proxecto Medical Miner. Integración de minaría de texto e de datos en biomedicina]
* [http://www.medicalminer.org Proxecto Medical Miner. Integración de minaría de texto e de datos en biomedicina]
{{Control de autoridades}}
[[Categoría:Bases de datos]]
[[Categoría:Bases de datos]]
[[Categoría:Minería de datos]]
[[Categoría:Minería de datos]]

Revisión como estaba o 5 de outubro de 2024 ás 09:21

Minaría de datos ou datamining.

A minaría de datos ou exploración de datos (a etapa de análise de «knowledge discovery in databases» ou KDD) é un campo da estatística e das ciencias da computación referido aos procesos que tentan descubrir patróns en grandes volumes de conxuntos de datos.[1][2] Emprega métodos de intelixencia artificial, aprendizaxe automática, estatística e sistemas xestores de bases de datos. O obxectivo xeral do proceso de minaría é a extracción de información dun conxunto de datos para a súa transformación posterior nunha estrutura adecuada para analizar e sacar conclusións dos grandes volumes de información.

Ademais da etapa de análise en bruto, a minaría supón xestionar:

  • Bases de datos.
  • Consideracións do modelo e de inferencia.
  • Métricas de intereses.
  • Consideracións da teoría da complexidade computacional.
  • Post-procesamento de estruturas descubertas.
  • Visualización e actualización en liña da información.

O termo é frecuentemente mal utilizado para referirse a calquera forma de datos a gran escala ou procesamiento da información (recolección, extracción, almacenamento, análise e estatísticas). Tamén se emprega con calquera tipo de sistema informático de apoio a decisións, incluíndo a intelixencia artificial, aprendizaxe automática e intelixencia empresarial.

Relación xeral entre os procesos de minado web (web mining) e a minaría de datos.

No uso da palabra, o termo clave é o descubrimento (KDD). Defínese como «detección de algo novo». A miúdo, os termos máis xerais «análises de datos», «análises»; ou, cando se refiren aos métodos actuais, «intelixencia artificial» e «aprendizaxe automática», son máis apropiados para moitos casos que simplemente «minaría de datos».

A tarefa da minaría de datos real é a análise automática ou semiautomática de grandes cantidades de datos coa intención de extraer patróns de interese (descoñecidos en primeira instancia) como:

  • Grupos de rexistros de datos (análises clúster)
  • Rexistros pouco usuais (detección de anomalías)
  • Dependencias (minaría por regras de asociación).

Empréganse técnicas de bases de datos como os índices espaciais. Estes patróns poden ser vistos como unha especie de resumo dos datos de entrada que xogan un papel importante na análise adicional ou, por exemplo, na aprendizaxe automática e análise predictivo.

Ordenación dos datos desordenados para obter coñecemento útil (KDD).

Por exemplo, o procedemento de minaría de datos podería identificar varios grupos nos datos, que logo serían utilizados para obter resultados máis precisos de predición por un sistema de soporte de decisións. Nin a recolección de datos, a preparación de datos, nin a interpretación dos resultados e a información son parte da etapa de minaría de datos, pero é común considerar que pertencen a todo o proceso KDD como pasos adicionais.[3]

Os termos relacionados coa obtención de datos, a pesca de datos e espionaxe dos datos refírense á utilización de métodos de minaría de datos sobre partes pequenas dun conxunto poboacional de grandes dimensións. As inferencias estatísticas destes métodos téñense que mirar con escepticismo, pois están tratando con mostras pequenas. Estes métodos poden, con todo, ser utilizados na creación de novas hipóteses que se proban contra poboacións de datos máis grandes.

  • As vantaxes da minaría de datos están relacionadas coa capacidade de compartir información e aprender patróns descoñecidos sobre datos "opacos" a primeira vista.
  • As desvantaxes teñen que ver coa privacidade do minado de datos. Ao facer que a información estea dispoñible, as empresas poden promover problemas de privacidade e seguridade dos seus usuarios. Algunhas solucións suxeridas polos investigadores implican limitar o acceso aos datos, eliminar agrupacións que non son esenciais ou o aumentar o tamaño do dataset para que sexa moito máis difícil extraer conclusións específicas de individuos.[4]

Proceso de minaría

Un proceso típico de minaría de datos consta dos seguintes pasos xerais:

  1. Selección do conxunto de datos (dataset), tanto no que se refire ás variables obxectivo (aquelas coas que se quere traballar: predicir, calcular ou inferir), como ás variables independentes (empregadas para facer o cálculo ou proceso), como posiblemente á mostraxe dos rexistros dispoñibles.
  2. Análise das propiedades dos datos, en especial os histogramas, diagramas de dispersión, presenza de valores atípicos e ausencia de datos (valores nulos NULL).
  3. Transformación do conxunto de datos de entrada, tamén coñecido como preprocesamento dos datos, co obxectivo de preparalos para aplicar técnicas de minaría de datos que se adapten correctamente ao problema. Un problema substancial asociado ao desenvolvemento deste tipo de sistemas cando conteñen texto en inglés é o tamaño do seu vocabulario, que é máis grande que o de calquera outra lingua. Un método que se aplica nestes casos é o de simplificación, previo ao proceso en si, por medio de converter devandito texto a inglés básico; mesmo que contén só 1.000 palabras que tamén se utilizan para describir en notas ao pé o sentido das máis de 30.000 palabras definidas no «Dicionario Básico de Ciencias».[5]
    Workflow dun proceso de minaría de datos.
  4. Selección e aplicación da técnica de minaría de datos, constrúese o modelo predictivo, de clasificación ou segmentación.
  5. Extracción de coñecemento (Knowledge Discovery), mediante unha técnica de minaría de datos, obtense un modelo de coñecemento, que representa patróns de comportamento observados nos valores das variables do problema ou relacións de asociación entre devanditas variables. Tamén poden usarse varias técnicas á vez para xerar distintos modelos, aínda que xeralmente cada técnica obriga a un preprocesado diferente dos datos.
  6. Interpretación e avaliación de datos. Unha vez obtido o modelo, procédese á súa validación comprobando que as conclusións que lanza son válidas e suficientemente satisfactorias. No caso de obter varios modelos mediante o uso de distintas técnicas, débense comparar os modelos en busca daquel que se axuste mellor ao problema. Se ningún dos modelos alcanza os resultados esperados, debe alterarse algún dos pasos anteriores para xerar novos modelos.

O modelo final pode non superar a avaliación descrita. Nese caso, o proceso poderíase repetirse desde o principio ou a partir de calquera dos pasos anteriores. Esta retroalimentación («feedback») poderase repetir cantas veces sexa necesario até obter un modelo válido.

Unha vez validado o modelo, se resulta aceptable (proporciona saídas axeitadas e/ou con marxes de erro admisibles) este está listo para a súa explotación por parte da organización. Os modelos obtidos por técnicas de minaría de datos aplícanse incorporándoos nos sistemas de análises de información, e mesmo nos sistemas transaccionais. Neste sentido cabe destacar os esforzos do Data Mining Group, que se ocupa de estandarizar a linguaxe PMML (Predictive Model Markup Language), de maneira que os modelos de minaría de datos sexan interoperables en distintas plataformas (datos intercambiados de forma segura e sen perda), con independencia do sistema co que foron construídos. Os principais fabricantes de sistemas de bases de datos e programas de análises da información fan uso do estándar PMML.

Esquema dun almacén de datos (Data Warehouse).
  • Minaría de datos en almacén, cando as técnicas se aplican sobre información contida en almacéns de datos (Data Warehouse). Grandes organizacións crean e alimentan bases de datos especialmente deseñadas para proxectos de minaría de datos nas que centralizan información potencialmente útil de todas as súas áreas de negocio.
  • Minaría de datos desestructurados, como información contida en ficheiros de texto dispoñibles en Internet e fontes dispersas.

Protocolo de proxecto

As cinco fases necesarias dun proxecto de minado de datos son, esencialmente:

Data Mining - The Noun Project.
  • Comprensión do negocio e do problema que se quere resolver.
  • Determinación, obtención e limpeza: dos datos necesarios.
  • Creación de modelos matemáticos.
  • Validación, comunicación dos resultados obtidos.
  • Integración dos resultados nun sistema transaccional ou similar.

A realidade afai ser moito máis complexa que os cinco pasos. Outras metoloxías permiten xestionar a complexidade dun proceso de minaría dunha maneira máis ou menos uniforme.[6]

Técnicas de minaría de datos

As técnicas da minaría de datos proveñen da intelixencia artificial e da estatística. Devanditas técnicas non son máis que algoritmos de menor ou maior sofisticación que se aplican sobre un conxunto de datos para obter os resultados.

As técnicas máis representativas son:

  • Regresión linear en dúas dimensións.
    Regresión linear. Dos métodos de aprendizaxe estatística é o máis coñecido e sinxelo de poñer en práctica. É un procedemento rápido e eficaz pero insuficiente en espazos multidimensionais onde poidan relacionarse máis de 2 variables (a solución é a regresión linear multivariante).
  • Árbore de decisión.
    Árbores de decisión. Unha árbore de decisión é un modelo de predición utilizado no ámbito da intelixencia artificial e análise predictiva. Dada unha base de datos constrúense estes diagramas de construcións lóxicas, moi similares aos sistemas de predición baseados en regras, que serven para representar e categorizar unha serie de condicións que suceden de forma sucesiva para resolver un problema. Exemplos:
Distribución exponencial.
  • Modelos estadísticos. Indican os factores que modifican a variable resposta. Empregados en regresión e outras técnicas de aprendizaxe estatística.
Análise clúster ou agrupamento.
  • Regras de asociación. Utilízanse para descubrir feitos que ocorren en común dentro dun determinado conxunto de datos.

Os algoritmos de análise de datos clasifícanse en supervisados e non supervisados (Weiss e Indurkhya, 1998):

  • Algoritmos supervisados (preditivos): predín un dato (ou un conxunto deles) descoñecido a priori, a partir doutros coñecidos.
  • Algoritmos non supervisados (ou do descubrimento do coñecemento): descóbrense patróns e tendencias nos datos, o que é a base do propio KDD (Knowledge Discovery in Databases).

Casos de uso e aplicacións

Negocios

A minaría de datos pode contribuír significativamente nas aplicacións de administración empresarial baseada na relación co cliente (CRM). O contacto cliente-empresa realízase tradicioanalmente a través de

Aproximación CRM.

A minaría de datos e os procesos de KDD poden percibir os clientes que teñen unha maior probabilidade de responder positivamente a unha determinada oferta, promoción ou acercamento.

As empresas que empregan minaría de datos habitualmente ven o retorno do investimento, pero tamén recoñecen que o número de modelos preditivos desenvolvidos pode crecer moi rapidamente.

  • En lugar de crear modelos para predicir os clientes que son susceptibles de cambiar, a empresa pode construír modelos separados para cada rexión e/ou tipo de cliente.
  • Se o obxectivo é determinar cales son os clientes van ser rendibles durante un período de tempo (unha quincena ou un mes, por exemplo), aproximación adecuada sería só enviar ofertas ás persoas que é probable que sexan rendibles.

A automatización dos procesos de minaría é un aspecto fundamental para xestionar todas as versións dun mesmo modelo.

Software de análise interactiva de ventas con Power BI.

Nunha contorna tan cambiante onde os volumes de datos medibles crece exponencialmente grazas á mercadotecnia dixital, «as esperas producidas pola dependencia entre departamentos técnicos e os expertos estadistas conseguen que ao final os resultados das análises sexan inservibles» aos responsables de negocio e toma de decisións.[7][8] Por isto, os provedores de ferramentas de minaría de datos traballan en aplicacións máis fáciles de utilizar no que se coñece como minaría de datos visual. O software Power BI de Microsoft cumpre a función de aplicación de visualización de datos e análise interactiva dos mesos. A demanda de emprego de analista de negocio disparouse a partir do 2010, e as previsión continúan sendo favorables para este tipo de postos de traballo.[9][10]

Análise da cesta da compra

O exemplo clásico de aplicación da minaría de datos ten que ver coa detección de hábitos de compra en supermercados. A localización dos produtos en locais de alimentación pode estar supeditada ao descubrimento de patróns a través de minaría de datos. As organizacións poden facer uso da información descuberta e incrementar as vendas.

Patróns de fuga

Un exemplo máis habitual é o da detección de patróns de fuga. En moitas industrias —como a banca ou as telecomunicacións— existe un comprensible interese en detectar canto antes aqueles clientes que poidan estar pensando en rescindir os seus contratos para, posiblemente, aceptar mellores ofertas. As minaría de datos axuda a determinar os clientes máis proclives a abandonar a organización mediante comparacións con outros clientes do pasado que tomaron esa acción.

Fraudes

Fraude de cartóns de crédito.

A detección de transaccións de branqueo de capital ou fraude no uso de cartóns de crédito ou servizos de telefonía móbil e, mesmo, na relación dos contribuíntes co fisco, pode predicirse con técnicas de minaría de datos. As operacións fraudulentas adoitan seguir patróns característicos que permiten, con certo grao de probabilidade, distinguilas das lexítimas e desenvolver así mecanismos para tomar medidas rápidas fronte a elas.

Recursos humanos

A minaría de datos tamén pode ser útil para os departamentos de recursos humanos na identificación das características dos seus empregados de maior éxito. A información obtida pode axudar á contratación de persoal, centrándose nos esforzos dos empregados e os resultados. Ademais, a axuda ofrecida polas aplicacións para dirección estratéxica nunha empresa tradúcense na obtención de vantaxes a nivel corporativo, como:

Xestión de recursos humanos.
  • Aumento da marxe de beneficios.
  • Obxectivos compartidos.
  • Mellores decisións operativas (desenvolvemento de plans de produción ou xestión de man de obra).

Comportamento en Internet

A utilización da información sobre os empregados en Internet pode servir a varios propósitos:

  • Publicidade adaptada especificamente ao seu perfil.
  • Sistema de suxestión de produtos. Coñecendo a información histórica da compra dun produto pódese recomendar a novos compradores ofertas relacionadas.

Terrorismo

A minaría de datos foi citada como un dos métodos que empregou a unidade Able Danger do Exército dos EE. UU. para identificar ao líder dos atentados do 11 de setembro de 2001, Mohammed Atta, ademais doutro dos tres secuestradores do 11-S, ambos como potenciais membros dunha célula de Al Qaeda que operou nos EE. UU máis dun ano antes do ataque. Suxeriuse que tanto a Axencia Central de Intelixencia como a súa homóloga canadense, Servizo de Intelixencia e Seguridade Canadense, tamén empregaron este minaría de datos.[11]

Xogos

Desde comezos da década de 1960 estiveron dispoñibles máquinas oráculo para determinados xogos combinacionais, tamén chamados finais de xogo de taboleiro (por exemplo, para o tres en raia ou en finais de xadrez). Desta forma abriuse unha nova área na minaría de datos que consiste na extracción de estratexias utilizadas por xogadores para aplicalas nas máquinas oráculo.

  • As formulacións actuais sobre recoñecemento de patróns, non se puideron aplicar con éxito ao funcionamento das máquinas oráculo.
  • No seu lugar, a produción de patróns perspicaces baséase nunha ampla experimentación con bases de datos sobre eses finais de xogo, combinado cun estudo intensivo dos propios finais de xogo en problemas ben deseñados e con coñecemento da técnica (datos previos sobre o final do xogo en cuestión).

Exemplos notables de investigadores que traballaron neste campo son Berlekamp no xogo de puntos-e-caixas (ou Timbiriche) e John Nunn en finais de xadrez.

Videoxogos

As tecnoloxías e os avances con relación á minaría de datos víronse involucrados na industria dos videoxogos. Nela, a necesidade por coñecer aos consumidores e o gusto destes é parte fundamental para o éxito dunha compañía.

  • Grandes compañías caeron baixo o manto de cancelacións, perdas, fracasos e en casos até a mesma quebra polo mal manexo da información.
  • Con plataformas de venda centralizada de videoxogos como Steam, as pequenas compañías contrataron os servizos de empresas especializadas no sector da minaría de datos para poder presentar produtos de calidade e publicidade ao público obxectivo ou target do videoxogo.

Ciencia e Enxeñaría

Xenética

No estudo da xenética humana, o obxectivo principal é entender a relación entre as partes e a variación individual nas secuencias do ADN humano e a variabilidade na susceptibilidad ás enfermidades.Os cambios na secuencia de ADN dun individuo afectan ao risco de desenvolver enfermidades comúns (por exemplo, o cancro).

Para mellorar o diagnóstico, prevención e tratamento das enfermidades, a minaría de datos aplica técnicas de «redución de dimensionalidade multifactorial».[12]

Enxeñaría eléctrica

No ámbito da enxeñaría eléctrica, as técnicas de minaría de datos monitorizan as condicións das instalacións de alta tensión. A finalidade da monitorización é a obtención de información valiosa sobre o estado de illamento dos equipos. Para monitorizar as vibracións e analizar os cambios de carga en transformadores empréganse técnicas de agrupación de datos (clustering) como os mapas auto-organizados (SOM, de Self-Organizing Map). Os SOM detectan concicións anómalas e estiman a natureza das devanditas anomalías.[13]

Análise de gases

É común aplicar de técnicas de minaría de datos para a análise de gases disoltos (DGA, de Dissolved Gas Analysis) en transformadores eléctricos. A análise de gases disoltos funciona como ferramenta para diagnosticar transformadores. Os mapas auto-organizados (SOM) utilízanse para analizar datos e determinar tendencias que poderían pasarse por alto utilizando as técnicas clásicas (DGA).

Disciplinas análogas

As fronteiras entre a minaría de datos e disciplinas análogas como a estatística, a intelixencia artificial e a análise preditiva son difusas.

  • Desde certos puntos de vista, a minaría de datos é «estatística envolta nunha xerga de negocios».
  • Outros consideran que é unha disciplina cun enfoque principal na informática e arquitecturas de xestión da información.
Análise de compoñentes principais sobre poboacións europeas.

A práctica totalidade dos modelos e algoritmos de uso xeral en minaría de datos —redes neuronais, árbores de decisión, regresión e clasificación, modelos loxísticos, análise de compoñentes principais, etc.— gozan dunha tradición relativamente longa noutros campos.

Da estatística

Na minaría de datos destacan técnicas de aprendizaxe estatística como:

  • Análise da varianza: avalía a existencia de diferenzas significativas entre as medias dunha ou máis variables continuas en poboacións distintas.
  • Regresión: define a relación entre unha ou máis variables.
  • Proba chi-cadrado: realiza o contraste da hipótese de dependencia entre variables.
  • Exemplo de agrupamento ou clustering dos datos en dos grupos principais.
    Análise de agrupamento ou clustering: permite a clasificación dunha poboación de individuos caracterizados por múltiples atributos (binarios, cualitativos ou cuantitativos) nun número determinado de grupos, con base nas semellanzas ou diferenzas dos individuos.
  • Análise discriminante: permite a clasificación de individuos en grupos previamente establecidos (aprendizaxe supervisada), e permite atopar a regra de clasificación dos elementos destes grupos.
  • Series de tempo: permiten o estudo da evolución dunha variable a través do tempo para poder realizar predicións a partir dese coñecemento e baixo o suposto de que non se produzan cambios estructurais.

Da informática

Da informática tómanse as seguintes técnicas:

  • Algoritmos xenéticos: métodos numéricos de optimización, nos que aquela variable ou variables que se pretenden optimizar xunto coas variables de estudo constitúen un segmento de información. Aquelas configuracións das variables de análises que obteñan mellores valores para a variable de resposta corresponderán a segmentos con maior capacidade reprodutiva. A través da reprodución, os mellores segmentos perduran e a súa proporción crece de xeración en xeración. Pódense introducir elementos aleatorios para a modificación das variables (mutacións). Ao cabo de certo número de iteracións, a poboación estará constituída por boas solucións ao problema de optimización, pois as malas solucións foron descartándose iteración tras iteración.
  • Intelixencia artificial: un modelo intelixente de tipo LLM (Large Language Model) pode interpretar os datos dispoñibles.
  • Sistemas Expertos: emprego de regras prácticas extraídas do coñecemento de expertos nun dominio. A base son inferencias ou situacións de causa-efecto.
  • Sistemas Intelixentes: similares aos sistemas expertos, pero con maior vantaxe ante novas situacións descoñecidas (ás que nunca se enfrontou antes o experto).
  • Redes neuronais: métodos de proceso numérico en paralelo. Neles, as variables interactúan mediante transformacións (lineais ou non lineais) até obter unhas saídas. A comparación das predicións e das saídas reais mediante unha función de perda inicia un proceso de retroalimentación, co cal a rede se reconfigura iterativamente até obter un modelo axeitado.

Minaría baseada na teoría da información

A minaría de datos orixinouse como tal nos anos sesenta, e nos primeiros días do campo os científicos non se preocuparon demasiado pola falta de datos e información necesaria para conseguir o resultado esperado da aplicación ou negocio. As desvantaxes eran as seguintes:

  • Falta de coñecemento que aplicar ao negocio para obter beneficio.
  • Explotación incompleta da información dispoñible nos datos de entrada.

A práctica máis común era construír modelos con parámetros distintos ata empregar o que mellores resultados conseguise. Mais o enfoque da minaría de datos foi cambiando ata pasar a ser unha ciencia e non unha arte.

En 1948 Claude Shannon publicou un traballo chamado «Unha teoría matemática da comunicación». O concepto derivou na denominada teoría da información e sentou as bases da comunicación e da codificación dos datos. A teoría de Shannon propuxo unha maneira de medir a cantidade de información a ser expresada en bits. [14]

En 1999, Dorian Pyle publicou o seu libro «Data Preparation for Data Mining».[15] Nel propón unha maneira de usar a teoría da información de Shannon para analizar datos. Neste novo enfoque, unha base de datos é unha canle que transmite información.

  • Por unha banda está o mundo real, que captura datos xerados polo negocio.
  • Polo outro están todas as situacións e problemas importantes do negocio.

De acordo a Dorian Pyle, a información flúe desde o mundo real (a través dos datos) até a problemática do negocio ou organización.

Coa perspectiva da teoría da información, é posible medir a cantidade de información dispoñible nos datos e que porción da mesma poderá utilizarse para resolver a problemática do negocio. Exemplo práctico:

  1. Os datos conteñen un 65% da información necesaria para predicir que cliente rescindirá os seus contratos.
  2. O modelo final é capaz de facer predicións cun 60 % de acerto.
  3. Nese caso, pódese asegurar que a ferramenta que xerou o modelo fixo un bo traballo capturando a información dispoñible.

Agora, si o modelo tivese unha porcentaxe de acertos de só o 10 %, por exemplo, entón tentar outros modelos podería ser unha mellor solución.

Tendencias

A minaría de datos é especialmente sensible a transformacións e cambios tecnolóxicos, novas estratexias de mercadotecnia, modelos de compra en liña, etc.

  • Os datos non estruturados (texto, páxinas de Internet), adquiriron maior importancia segundo crecía o volume de datos que se recompilaban na nube.
  • Os algoritmos e resultados obtidos en sistemas operacionais e portais de Internet necesitaban ser incorporados.
  • Os novos procesos teñen a necesidade de funcionar en tempo real, practicamente en liña (por exemplo, en casos de fraude cun cartón de crédito).
  • Os tempos de resposta crecen debido ao gran volume de datos. Os problemas que requiren de resposta en tempo real (movementos bancarios) atopan difícil apoiarse en modelos moi complexos que procesen datos durante unha cantidade de tempo inasumible.

Ferramentas de software

Entre as ferramentas de software para o desenvolvemento de modelos de minaría de datos libres ou comerciais se contan:

Notas

  1. Oded Maimon and Lior Rokach (2010). Data Mining and Knowledge Discovery Handbook. Springer, New York. ISBN 978-0-387-09823-4. 
  2. "Data mining". Consultado o 5 de abril de 2019. 
  3. "Análisis predictivo: técnicas y modelos utilizados y aplicaciones del mismo" (PDF). 
  4. Clifton, Marks, C, D (May 1996). "Security and privacy implications of data mining". 
  5. "Simplish Simplification and Summarization Tool". The Goodwill Consortium. Consultado o 5 de octubre de 2019. 
  6. "Data Mining and Rasch Measurement". 
  7. "Everything Is Measurable". CIO (en inglés). Consultado o 2024-09-04. 
  8. The Driving Need for Analytics in a Big Data World | http://www.datamashup.info/the-driving-need-for-analytics-in-a-big-data-world/ Arquivado 24 de xullo de 2015 en Wayback Machine.
  9. Visual Data Mining: Allowing business users to mine and gain insight into the data | http://birtanalytics.actuate.com/visual-data-mining Arquivado 11 de xullo de 2015 en Wayback Machine.
  10. Data Scientist: Evolution of the Business Analyst | http://www.predictiveanalyticsworld.com/patimes/data-scientist-evolution-of-the-business-analyst/
  11. Stephen Haag; et al. (2006). Management Information Systems for the information age. pp. 28. ISBN 0-07-095569-7. 
  12. Xingquan Zhu, Ian Davidson (2007). Knowledge Discovery and Data Mining: Challenges and Realities. Hershey, New Your. pp. 18. ISBN 978-1-59904-252-7. 
  13. Condition Assessment of High Voltage Insulation in Power System Equipment. IET. pp. 207–240. ISBN 9780863417375. Consultado o 5 de abril de 2019. 
  14. Collins, Graham P. "Claude E. Shannon: Founder of Information Theory". Scientific American (en inglés). Consultado o 2024-09-04. 
  15. Zhang, Shichao; Zhang, Chengqi; Yang, Qiang (2003-05). "Data preparation for data mining". Applied Artificial Intelligence (en inglés) 17 (5-6): 375–381. ISSN 0883-9514. doi:10.1080/713827180. 

Véxase tamén

Outros artigos

Ligazóns externas