Web mining

Материал из Википедии — свободной энциклопедии
Перейти к навигации Перейти к поиску
Общая взаимосвязь между категориями Web Mining и задачами интеллектуального анализа данных

Web Mining — это использование методов интеллектуального анализа данных для автоматического обнаружения веб-документов и сервисов, извлечения информации из веб-ресурсов и выявления общих закономерностей в Интернете[1].

В Web Mining можно выделить следующие этапы:

  • входной этап (англ. input stage) — получение «сырых» данных из источников (логи серверов, тексты электронных документов);
  • этап предобработки (англ. preprocessing stage) — данные представляются в форме, необходимой для успешного построения той или иной модели;
  • этап моделирования (англ. pattern discovery stage);
  • этап анализа модели (англ. pattern analysis stage) — интерпретация полученных результатов.

Это общие шаги, которые необходимо пройти для анализа данных сети Интернет. Конкретные процедуры каждого этапа зависят от поставленной задачи. В связи с этим выделяют различные категории Web Mining:

  • Web Content Mining;
  • Web Structure Mining;
  • Web Usage Mining.

Web Content Mining (Извлечение веб-контента) — процесс извлечения знаний из контента документов или их описания, доступных в Интернете[2].Поиск знаний в сети Интернет является непростой и трудоёмкой задачей. Именно это направление Web Mining решает её. Оно основано на сочетании возможностей информационного поиска, машинного обучения и интеллектуального анализа данных.

Web Structure Mining (Извлечение веб-структур) — процесс обнаружения структурной информации в Интернете[3].Данное направление рассматривает взаимосвязи между веб-страницами, основываясь на связях между ними. Построенные модели могут быть использованы для категоризации и поиска схожих веб-ресурсов, а также для распознавания авторских сайтов.

Web Usage Mining (Анализ использования веб-ресурсов) — это автоматическое обнаружение шаблонов в маршруте передвижения пользователя и связанных с ним данными, собранными или приобретёнными в результате взаимодействия с одним или несколькими веб-сайтами[4].Это направление основано на извлечении данных из логов веб-серверов. Целью анализа является выявление предпочтений посетителей при использовании тех или иных ресурсов сети Интернет.

Web Mining и информационный поиск

[править | править код]

Некоторые утверждают, что информационный поиск в Интернете — это частный случай Web Mining, другие ассоциируют Web Mining с интеллектуальным информационным поиском. На самом деле информационный поиск — это автоматический поиск всех необходимых документов, однако, в то же время не исключено получение некоторых нерелевантных документов[5]. Основные задачи информационного поиска заключаются в поиске полезных документов, полнотекстовом индексировании, и в настоящее время исследования в области информационного поиска включают в себя моделирование, классификацию и категоризацию документов, пользовательских интерфейсов, визуализацию данных, фильтрацию, и т. д..Задача, которую, как считается, выполняет частный случай Web Mining — это классификация или категоризация веб-документов, которые могут быть использованы для индексации. В этой связи, Web Mining является частью процесса информационного поиска. Тем не менее, следует отметить, что не все задачи индексации используют методы интеллектуального анализа данных.

Web Mining и извлечение информации

[править | править код]

Целью информационного извлечения является превращение коллекции документов, обычно с помощью информационно-поисковых систем, в легко усвояемую и проанализированную информацию. Процесс извлечения информации направлен на вынимание релевантных фактов из документов, в то время как процесс информационного поиска направлен на селекцию релевантных документов. Первый заинтересован в структуре или представлении документа, то есть работает на уровне тонкой детализации, а второй рассматривает текст документа как коллекцию неупорядоченных слов. Тем не менее, различия между двумя процессами становятся несущественными, если цель информационного поиска — это извлечение информации[6].

Благодаря динамике и разнообразию веб-содержимого, создание ручного режима систем информационного извлечения не представляется возможным. В связи с этим, большинство систем по извлечению данных сосредотачивают внимание на конкретные веб-сайты. Другие используют обучающие машины или методы интеллектуального анализа данных и способны извлекать веб-документы в автоматическом или полуавтоматическом режиме. С этой точки зрения, Web Mining является частью процесса извлечения информации из Интернета.

Web Mining и машинное обучение

[править | править код]

Web Mining работает не по тому же принципу, что и применяющиеся в Интернете методы машинного обучения. С одной стороны, существуют некоторые приложения машинного обучения, не являющиеся частным случаем Web Mining. Примером этого является метод, эффективно использующий веб-паука для конкретной темы, или метод, акцентирующийся на планировании лучшего пути, который будет пройден следующим. С другой стороны, помимо методов машинного обучения, существуют и другие методы, которые применимы к Web Mining. К примеру — некоторые запатентованные алгоритмы, которые используются для добычи хабов и авторитетных страниц, DataGuides и алгоритмы обнаружения веб-схем. Тем не менее, между двумя областями исследований существует тесная связь, и методы машинного обучения могут быть применены к процессам Web Mining. Например, недавние исследования показали, что применение методов машинного обучения может улучшить процесс классификации текстов, по сравнению с результатами работы традиционных методов информационного поиска[7] .

Web Content Mining описывает автоматический поиск информационных ресурсов в Интернете и включает в себя добычу содержимого из веб-данных. По сути, Web Content Mining является аналогом метода интеллектуального анализа данных для реляционных баз данных, так как существует возможность найти похожие типы знаний из неструктурированных данных, находящихся в веб-документах. Веб-документ может содержать несколько типов данных, такие как текст, изображения, аудио, видео, метаданные и гиперссылки. Некоторые из них частично структурированные, такие как HTML-документы, некоторые более структурированные, такие как данные в таблицах или базах данных, но большинство информации хранится в неструктурированных текстовых данных[8].

Существуют различные методы поиска информации в Интернете. Наиболее распространённым подходом является поиск на основе ключевых слов. Традиционные поисковые системы имеют сканеры для поиска и сбора полезной информации в Интернете, методы индексирования для хранения информации и обработки запросов, чтобы предложить пользователям более точную информацию. Web Content Mining выходит за рамки традиционной технологии IR (англ. Information Retrieval).

Существует два подхода к Web Content Mining: агентный и ориентированный на базу данных. В первом случае, добычу данных осуществляют программные агенты, во втором случае данные рассматриваются как принадлежащие к базе[9].

Подход, основанный на агентах, включает такие системы[10]:

  • интеллектуальные поисковые агенты (Intelligent Search Agents);
  • фильтрация информации / классификация;
  • персонифицированные агенты сети.

Примеры систем интеллектуальных агентов поиска:

  • Harvest (Brown и др., 1994),
  • FAQ-Finder (Hammond и др., 1995),
  • Information Manifold (Kirk и др., 1995),
  • OCCAM (Kwok and Weld, 1996), and ParaSite (Spertus, 1997),
  • ILA (Information Learning Agent) (Perkowitz and Etzioni, 1995),
  • ShopBot (Doorenbos и др., 1996).

Подход, основанный на базах данных, включает системы[10]:

  • многоуровневые базы данных;
  • системы web-запросов (Web Query Systems);

Примеры систем web-запросов:

  • W3QL (Konopnicki и Shmueli, 1995),
  • WebLog (Lakshmanan и др., 1996),
  • Lorel (Quass и др., 1995),
  • UnQL (Buneman и др., 1995 and 1996),
  • TSIMMIS (Chawathe и др.., 1994).

Web Structure Mining

[править | править код]

Web Structure Mining — это процесс выявления структурной информации в Интернете, который может быть разделён на два вида, основанных на типе структуры используемой информации[3]:

  • Гиперссылки
  • Структура документа

Гиперссылки

[править | править код]

Гиперссылка является структурной единицей, которая соединяет локацию в веб-странице с другой, или в пределах одной веб-страницы или на другой веб-странице. Гиперссылка, которая подключается к другой части той же страницы называется внутри-документной гиперссылкой, а гиперссылка, которая соединяет две разных страницы называется меж-документной гиперссылкой.

Структура документа

[править | править код]

Содержание веб-страницы может быть представлено в древовидном формате, основанном на различных HTML и XML тегах. Задача состоит в том, чтобы автоматически извлечь DOM-структуру(англ. document object model) из документов.

Web Structure Mining пытается обнаружить модель, лежащую в основе ссылочной структуры в Интернете. Модель основана на топологии гиперссылки с или без описания ссылки. Эта модель может быть использована для классификации Веб-страницы и полезна для получения информации, такие как сходство и отношения между веб-сайтами[11]. Ссылочная структура содержит важную информацию, и может помочь в фильтрации и ранжировании веб-страниц. В частности, ссылка со страницы А на страницу В может считаться рекомендацией страницы B автором А.

Были предложены некоторые новые алгоритмы, использующие ссылочную структуру не только для поиска по ключевым словам, но и других задач, таких как автоматическое создание Yahoo-подобных иерархий или идентификаций сообществ в Интернете. Качественное выполнение этих алгоритмов, как правило, лучше, чем исполнение IR-алгоритмов, поскольку они используют больше информации, чем просто содержимое страниц.

Web Usage Mining — это процесс извлечения полезной информации из пользовательских журналов доступа, журналов прокси-сервера, браузерных журналов, пользовательских сессионных данных. Говоря простым языком, Web Usage Mining — это процесс выяснения того, что пользователи ищут в Интернете. Некоторые пользователи могут быть заинтересованы только в текстовых данных, в то время как другие могут больше уделять внимания мультимедийным данным[12].

Анализируется следующая информация:

  • какие страницы просматривал пользователь;
  • какова последовательность просмотра страниц.

Анализируется также, какие группы пользователей можно выделить среди общего их числа на основе истории просмотра Web-узла.

Web Usage Mining включает следующие составляющие:

  • предварительная обработка;
  • операционная идентификация;
  • инструменты обнаружения шаблонов;
  • инструменты анализа шаблонов.

На первом этапе происходит сбор данных и предварительная обработка данных. Предварительная стадия обработки включает в себя очистку clickstream-данных (англ. Clickstream — маршрут перемещения пользователя по веб-узлу) и разбиение данных на множество пользовательских транзакций с их визитами на веб-сайт. На стадии обнаружения шаблона, статистические алгоритмы и алгоритмы баз данных выполняются на журналы транзакций, чтобы найти скрытые закономерности и поведение пользователей. На заключительном этапе анализа шаблонов, обнаруженные образцы из предыдущего этапа последовательно обрабатываются и фильтруют произведённые модели, которые впоследствии могут использоваться как входные данные в различные инструменты визуализации и инструменты генерации отчётов[12].

Статистика фиксирует идентификационные данные веб-пользователей вместе с их поведением на сайте. В зависимости от вида использования данных, результатом работы Web Usage Mining будут являться:

  • Данные веб-сервера;
  • Данные серверных приложений;
  • Данные прикладного уровня.

Данные веб-сервера

[править | править код]

Веб-сервером собираются журналы пользователя и обычно включают в себя IP-адрес, ссылку на страницу и время доступа.

Данные серверных приложений

[править | править код]

Коммерческие серверы приложений, такие как WebLogic, StoryServer, имеют значительные возможности, позволяющие обосноваться на их вершине приложениям для электронной коммерции. Ключевой особенностью является возможность отслеживать различные виды деловых мероприятий и регистрировать их в журналах сервера приложений.

Данные прикладного уровня

[править | править код]

В приложении могут быть определены новые виды событий, регистрация которых, может включать историю создания этих событий. Следует отметить, что многие конечные приложения требуют сочетания одного или нескольких методов, применяемые в категориях, указанных выше.

Плюсы и минусы Web Usage Mining

[править | править код]

Web Usage Mining имеет ряд преимуществ, что делает эту технологию привлекательной для корпораций, в том числе государственных учреждений[13]:

  • Эта технология позволила электронной торговле создать персонализированный маркетинг, который в конечном итоге привёл к увеличению объёмов торговли.
  • Государственные учреждения используют эту технологию для классификации угроз и для борьбы с терроризмом.
  • Возможность прогнозирования может принести пользу обществу путём выявления преступной деятельности.
  • Компании могут установить более тесные взаимоотношениями с клиентами, предоставляя им именно то, что им нужно.
  • Компании могут лучше понять потребности клиента и быстрее реагировать на потребности клиентов.
  • Компании могут найти, привлечь и удержать клиентов, сэкономить на себестоимости продукции за счёт использования приобретённого понимания требований заказчика.
  • Компании повышают рентабельность за счёт целевого ценообразования на основе созданных профилей.
  • Самый критикуемый этический вопрос, связанный с Web Usage Mining, является вопрос о вторжении в частную жизнь. Защита считается потерянной, когда полученная информация об отдельном пользователе используется или распространяется без их ведома и согласия. Полученные данные будут проанализированы и кластеризованы в форме профилей или будут анонимными до кластеризации без создания личных профилей. Таким образом, эти приложения де-индивидуализируют пользователя, судя о них только по их щелчками мыши[14].
  • Другой важной проблемой является то, что компании по сбору данных могут их использовать для совершенно разных целей, что существенно нарушает интересы пользователей.
  • Растущая тенденция использования персональных данных в качестве товара призывает владельцев веб-сайтов к торговле этими данными, расположенными на их сайтах.
  • Некоторые алгоритмы интеллектуального анализа могут использовать спорные атрибуты, такие как пол, раса, религия или сексуальная ориентация. Эти методы могут быть против анти-дискриминационного законодательства.

Примечания

[править | править код]

Литература

[править | править код]
  • Wang Y. Web Mining and Knowledge Discovery of Usage Patterns (англ.). — 2000. (недоступная ссылка)
  • Lingras P., Akerkar R. Building an Intelligent Web: Theory and Practice: Theory and Practice (англ.). — Jones and Bartlett Publishers, 2008. — 326 p. — ISBN 978-0-7637-4137-2.
  • Bing L. Web Data Mining: Exploring Hyperlinks, Contents, and Usage Data (англ.). — Springer, 2011. — 642 p. — ISBN 978-3642194597.
  • Wookie L. Hierarchical Web Structure Mining (англ.). — 2007.
  • Kosala R., Blockeel H. Web Mining Research: A Survey (англ.). — ACM SIGKDD, 2000. — P. 2-3.