Web mining

Web Mining — это использование методов интеллектуального анализа данных для автоматического обнаружения веб-документов и сервисов, извлечения информации из веб-ресурсов и выявления общих закономерностей в Интернете^[1].➤

В Web Mining можно выделить следующие этапы:

входной этап (англ. input stage) — получение «сырых» данных из источников (логи серверов, тексты электронных документов);
этап предобработки (англ. preprocessing stage) — данные представляются в форме, необходимой для успешного построения той или иной модели;
этап моделирования (англ. pattern discovery stage);
этап анализа модели (англ. pattern analysis stage) — интерпретация полученных результатов.

Это общие шаги, которые необходимо пройти для анализа данных сети Интернет. Конкретные процедуры каждого этапа зависят от поставленной задачи. В связи с этим выделяют различные категории Web Mining:

Web Content Mining;
Web Structure Mining;
Web Usage Mining.

Web Content Mining (Извлечение веб-контента) — процесс извлечения знаний из контента документов или их описания, доступных в Интернете^[2].➤Поиск знаний в сети Интернет является непростой и трудоёмкой задачей. Именно это направление Web Mining решает её. Оно основано на сочетании возможностей информационного поиска, машинного обучения и интеллектуального анализа данных.

Web Structure Mining (Извлечение веб-структур) — процесс обнаружения структурной информации в Интернете^[3].➤Данное направление рассматривает взаимосвязи между веб-страницами, основываясь на связях между ними. Построенные модели могут быть использованы для категоризации и поиска схожих веб-ресурсов, а также для распознавания авторских сайтов.

Web Usage Mining (Анализ использования веб-ресурсов) — это автоматическое обнаружение шаблонов в маршруте передвижения пользователя и связанных с ним данными, собранными или приобретёнными в результате взаимодействия с одним или несколькими веб-сайтами^[4].➤Это направление основано на извлечении данных из логов веб-серверов. Целью анализа является выявление предпочтений посетителей при использовании тех или иных ресурсов сети Интернет.

Web Mining

Web Mining и информационный поиск

Некоторые утверждают, что информационный поиск в Интернете — это частный случай Web Mining, другие ассоциируют Web Mining с интеллектуальным информационным поиском. На самом деле информационный поиск — это автоматический поиск всех необходимых документов, однако, в то же время не исключено получение некоторых нерелевантных документов^[5]. Основные задачи информационного поиска заключаются в поиске полезных документов, полнотекстовом индексировании, и в настоящее время исследования в области информационного поиска включают в себя моделирование, классификацию и категоризацию документов, пользовательских интерфейсов, визуализацию данных, фильтрацию, и т. д..Задача, которую, как считается, выполняет частный случай Web Mining — это классификация или категоризация веб-документов, которые могут быть использованы для индексации. В этой связи, Web Mining является частью процесса информационного поиска. Тем не менее, следует отметить, что не все задачи индексации используют методы интеллектуального анализа данных.

Web Mining и извлечение информации

Целью информационного извлечения является превращение коллекции документов, обычно с помощью информационно-поисковых систем, в легко усвояемую и проанализированную информацию. Процесс извлечения информации направлен на вынимание релевантных фактов из документов, в то время как процесс информационного поиска направлен на селекцию релевантных документов. Первый заинтересован в структуре или представлении документа, то есть работает на уровне тонкой детализации, а второй рассматривает текст документа как коллекцию неупорядоченных слов. Тем не менее, различия между двумя процессами становятся несущественными, если цель информационного поиска — это извлечение информации^[6].

Благодаря динамике и разнообразию веб-содержимого, создание ручного режима систем информационного извлечения не представляется возможным. В связи с этим, большинство систем по извлечению данных сосредотачивают внимание на конкретные веб-сайты. Другие используют обучающие машины или методы интеллектуального анализа данных и способны извлекать веб-документы в автоматическом или полуавтоматическом режиме. С этой точки зрения, Web Mining является частью процесса извлечения информации из Интернета.

Web Mining и машинное обучение

Web Mining работает не по тому же принципу, что и применяющиеся в Интернете методы машинного обучения. С одной стороны, существуют некоторые приложения машинного обучения, не являющиеся частным случаем Web Mining. Примером этого является метод, эффективно использующий веб-паука для конкретной темы, или метод, акцентирующийся на планировании лучшего пути, который будет пройден следующим. С другой стороны, помимо методов машинного обучения, существуют и другие методы, которые применимы к Web Mining. К примеру — некоторые запатентованные алгоритмы, которые используются для добычи хабов и авторитетных страниц, DataGuides и алгоритмы обнаружения веб-схем. Тем не менее, между двумя областями исследований существует тесная связь, и методы машинного обучения могут быть применены к процессам Web Mining. Например, недавние исследования показали, что применение методов машинного обучения может улучшить процесс классификации текстов, по сравнению с результатами работы традиционных методов информационного поиска^[7] .

Web Content Mining

Web Content Mining описывает автоматический поиск информационных ресурсов в Интернете и включает в себя добычу содержимого из веб-данных. По сути, Web Content Mining является аналогом метода интеллектуального анализа данных для реляционных баз данных, так как существует возможность найти похожие типы знаний из неструктурированных данных, находящихся в веб-документах. Веб-документ может содержать несколько типов данных, такие как текст, изображения, аудио, видео, метаданные и гиперссылки. Некоторые из них частично структурированные, такие как HTML-документы, некоторые более структурированные, такие как данные в таблицах или базах данных, но большинство информации хранится в неструктурированных текстовых данных^[8].

Существуют различные методы поиска информации в Интернете. Наиболее распространённым подходом является поиск на основе ключевых слов. Традиционные поисковые системы имеют сканеры для поиска и сбора полезной информации в Интернете, методы индексирования для хранения информации и обработки запросов, чтобы предложить пользователям более точную информацию. Web Content Mining выходит за рамки традиционной технологии IR (англ. Information Retrieval).

Существует два подхода к Web Content Mining: агентный и ориентированный на базу данных. В первом случае, добычу данных осуществляют программные агенты, во втором случае данные рассматриваются как принадлежащие к базе^[9].

Подход, основанный на агентах, включает такие системы^[10]:

интеллектуальные поисковые агенты (Intelligent Search Agents);
фильтрация информации / классификация;
персонифицированные агенты сети.

Примеры систем интеллектуальных агентов поиска:

Harvest (Brown и др., 1994),
FAQ-Finder (Hammond и др., 1995),
Information Manifold (Kirk и др., 1995),
OCCAM (Kwok and Weld, 1996), and ParaSite (Spertus, 1997),
ILA (Information Learning Agent) (Perkowitz and Etzioni, 1995),
ShopBot (Doorenbos и др., 1996).

Подход, основанный на базах данных, включает системы^[10]:

многоуровневые базы данных;
системы web-запросов (Web Query Systems);

Примеры систем web-запросов:

W3QL (Konopnicki и Shmueli, 1995),
WebLog (Lakshmanan и др., 1996),
Lorel (Quass и др., 1995),
UnQL (Buneman и др., 1995 and 1996),
TSIMMIS (Chawathe и др.., 1994).

Web Structure Mining

Web Structure Mining — это процесс выявления структурной информации в Интернете, который может быть разделён на два вида, основанных на типе структуры используемой информации^[3]:

Гиперссылки
Структура документа

Гиперссылки

Гиперссылка является структурной единицей, которая соединяет локацию в веб-странице с другой, или в пределах одной веб-страницы или на другой веб-странице. Гиперссылка, которая подключается к другой части той же страницы называется внутри-документной гиперссылкой, а гиперссылка, которая соединяет две разных страницы называется меж-документной гиперссылкой.

Структура документа

Содержание веб-страницы может быть представлено в древовидном формате, основанном на различных HTML и XML тегах. Задача состоит в том, чтобы автоматически извлечь DOM-структуру(англ. document object model) из документов.

Web Structure Mining пытается обнаружить модель, лежащую в основе ссылочной структуры в Интернете. Модель основана на топологии гиперссылки с или без описания ссылки. Эта модель может быть использована для классификации Веб-страницы и полезна для получения информации, такие как сходство и отношения между веб-сайтами^[11]. Ссылочная структура содержит важную информацию, и может помочь в фильтрации и ранжировании веб-страниц. В частности, ссылка со страницы А на страницу В может считаться рекомендацией страницы B автором А.

Были предложены некоторые новые алгоритмы, использующие ссылочную структуру не только для поиска по ключевым словам, но и других задач, таких как автоматическое создание Yahoo-подобных иерархий или идентификаций сообществ в Интернете. Качественное выполнение этих алгоритмов, как правило, лучше, чем исполнение IR-алгоритмов, поскольку они используют больше информации, чем просто содержимое страниц.

Web Usage Mining

Web Usage Mining — это процесс извлечения полезной информации из пользовательских журналов доступа, журналов прокси-сервера, браузерных журналов, пользовательских сессионных данных. Говоря простым языком, Web Usage Mining — это процесс выяснения того, что пользователи ищут в Интернете. Некоторые пользователи могут быть заинтересованы только в текстовых данных, в то время как другие могут больше уделять внимания мультимедийным данным^[12].

Анализируется следующая информация:

какие страницы просматривал пользователь;
какова последовательность просмотра страниц.

Анализируется также, какие группы пользователей можно выделить среди общего их числа на основе истории просмотра Web-узла.

Web Usage Mining включает следующие составляющие:

предварительная обработка;
операционная идентификация;
инструменты обнаружения шаблонов;
инструменты анализа шаблонов.

На первом этапе происходит сбор данных и предварительная обработка данных. Предварительная стадия обработки включает в себя очистку clickstream-данных (англ. Clickstream — маршрут перемещения пользователя по веб-узлу) и разбиение данных на множество пользовательских транзакций с их визитами на веб-сайт. На стадии обнаружения шаблона, статистические алгоритмы и алгоритмы баз данных выполняются на журналы транзакций, чтобы найти скрытые закономерности и поведение пользователей. На заключительном этапе анализа шаблонов, обнаруженные образцы из предыдущего этапа последовательно обрабатываются и фильтруют произведённые модели, которые впоследствии могут использоваться как входные данные в различные инструменты визуализации и инструменты генерации отчётов^[12].

Статистика фиксирует идентификационные данные веб-пользователей вместе с их поведением на сайте. В зависимости от вида использования данных, результатом работы Web Usage Mining будут являться:

Данные веб-сервера;
Данные серверных приложений;
Данные прикладного уровня.

Данные веб-сервера

Веб-сервером собираются журналы пользователя и обычно включают в себя IP-адрес, ссылку на страницу и время доступа.

Данные серверных приложений

Коммерческие серверы приложений, такие как WebLogic, StoryServer, имеют значительные возможности, позволяющие обосноваться на их вершине приложениям для электронной коммерции. Ключевой особенностью является возможность отслеживать различные виды деловых мероприятий и регистрировать их в журналах сервера приложений.

Данные прикладного уровня

В приложении могут быть определены новые виды событий, регистрация которых, может включать историю создания этих событий. Следует отметить, что многие конечные приложения требуют сочетания одного или нескольких методов, применяемые в категориях, указанных выше.

Плюсы и минусы Web Usage Mining

Плюсы

Web Usage Mining имеет ряд преимуществ, что делает эту технологию привлекательной для корпораций, в том числе государственных учреждений^[13]:

Эта технология позволила электронной торговле создать персонализированный маркетинг, который в конечном итоге привёл к увеличению объёмов торговли.
Государственные учреждения используют эту технологию для классификации угроз и для борьбы с терроризмом.
Возможность прогнозирования может принести пользу обществу путём выявления преступной деятельности.
Компании могут установить более тесные взаимоотношениями с клиентами, предоставляя им именно то, что им нужно.
Компании могут лучше понять потребности клиента и быстрее реагировать на потребности клиентов.
Компании могут найти, привлечь и удержать клиентов, сэкономить на себестоимости продукции за счёт использования приобретённого понимания требований заказчика.
Компании повышают рентабельность за счёт целевого ценообразования на основе созданных профилей.

Минусы

Самый критикуемый этический вопрос, связанный с Web Usage Mining, является вопрос о вторжении в частную жизнь. Защита считается потерянной, когда полученная информация об отдельном пользователе используется или распространяется без их ведома и согласия. Полученные данные будут проанализированы и кластеризованы в форме профилей или будут анонимными до кластеризации без создания личных профилей. Таким образом, эти приложения де-индивидуализируют пользователя, судя о них только по их щелчками мыши^[14].
Другой важной проблемой является то, что компании по сбору данных могут их использовать для совершенно разных целей, что существенно нарушает интересы пользователей.
Растущая тенденция использования персональных данных в качестве товара призывает владельцев веб-сайтов к торговле этими данными, расположенными на их сайтах.
Некоторые алгоритмы интеллектуального анализа могут использовать спорные атрибуты, такие как пол, раса, религия или сексуальная ориентация. Эти методы могут быть против анти-дискриминационного законодательства.

См. также

Надзорный капитализм

Примечания

↑ Web Mining: Machine learning for Web Applications, 2004, с. 290.
↑ Web Mining Functions, 2009, с. 132.
↑ ¹ ² Web Mining — Concepts, Applications, and Research Directions, 2004, с. 3.
↑ Web Usage Mining Description, 2011, с. 527.
↑ A Survey of Web Mining, 2000, с. 2.
↑ A Survey of Web Mining, 2000, с. 2-3.
↑ A Survey of Web Mining, 2000, с. 3.
↑ Web Content, 2000, с. 5.
↑ Web Content Methods, 2008, с. 263.
↑ ¹ ² Agent-based and Database oriented approaches, 2006.
↑ Web Structure Mining, 2007, с. 3.
↑ ¹ ² Web Usage Mining, 2008, с. 7.
↑ Web Usage mining Pros and Cons
↑ Ethical issues, 2004.

Литература

Wang Y. Web Mining and Knowledge Discovery of Usage Patterns (англ.). — 2000. (недоступная ссылка)
Lingras P., Akerkar R. Building an Intelligent Web: Theory and Practice: Theory and Practice (англ.). — Jones and Bartlett Publishers, 2008. — 326 p. — ISBN 978-0-7637-4137-2.
Bing L. Web Data Mining: Exploring Hyperlinks, Contents, and Usage Data (англ.). — Springer, 2011. — 642 p. — ISBN 978-3642194597.
Wookie L. Hierarchical Web Structure Mining (англ.). — 2007.
Kosala R., Blockeel H. Web Mining Research: A Survey (англ.). — ACM SIGKDD, 2000. — P. 2-3.

Cronin B. Annual Review of Information Science and Technology (англ.). — ARIST, 2004. — 674 p. — ISBN 1573872091.
Чубукова И. А. Data Mining: учебное пособие. — М.: Интернет-университет информационных технологий: БИНОМ: Лаборатория знаний, 2006. — 382 с. — ISBN 5-9556-0064-7.
Sivaramakrishnan J., Balakrishnan V. Web Mining Functions in an Academic Search Application. — Dubai: BITS – PILANI, 2009. — С. 132-139.
Sharma A. Web Usage Mining: Data Preprocessing, Pattern Discovery and Pattern Analysis on the RIT Web Data (англ.). — Rochester Institute of Technology, 2008. Архивировано 23 января 2013 года.
Srivastava J., Desikan P., Kumar V. Web Mining — Concepts, Applications, and Research Directions (англ.). — 2004.
Royakkers L, v.Wel L. Ethical issues in web data mining (англ.). — Kluwer Academic Publishers, 2004.

[_02b5c51e72ffb50f-1] Web Mining: Machine learning for Web Applications, 2004, с. 290.

[_ce10d0e6b6630615-2] Web Mining Functions, 2009, с. 132.

[_9662d1668c4dcdd0-3] ¹ ² Web Mining — Concepts, Applications, and Research Directions, 2004, с. 3.

[_3289444e2736ec2c-4] Web Usage Mining Description, 2011, с. 527.

[_190cf641322571e9-5] A Survey of Web Mining, 2000, с. 2.

[_af0f55331fd29a41-6] A Survey of Web Mining, 2000, с. 2-3.

[_190cf641322571e8-7] A Survey of Web Mining, 2000, с. 3.

[_81e94e5523f3b287-8] Web Content, 2000, с. 5.

[_4402e7b00db5fa9f-9] Web Content Methods, 2008, с. 263.

[_1cef2658f1753cce-10] ¹ ² Agent-based and Database oriented approaches, 2006.

[_9ff36cfd43d8f24c-11] Web Structure Mining, 2007, с. 3.

[_42aac9150c6e2347-12] ¹ ² Web Usage Mining, 2008, с. 7.

[13] Web Usage mining Pros and Cons

[_0b6b6b37aa50388d-14] Ethical issues, 2004.

[1]

[2]

[3]

[4]

[5]

[6]

[7]

[8]

[9]

[10]

[11]

[12]

[13]

[14]