Баєсова фільтрація спаму
Баєсова фільтрація спаму (англ. Naive Bayes spam filtering) — метод для фільтрації спаму, заснований на застосуванні наївного баєсова класифікатора, що спирається на пряме використання теореми Баєса. Теорему Баєса названо на честь її автора Томаса Баєса (1702—1761) — англійського математика і священика, який першим запропонував використання теореми для коригування переконань, ґрунтуючись на оновлених даних.
Під час навчання фільтра для кожного слова в тексті вираховують та зберігають його «вагу» — оцінку ймовірності того, що текст із цим словом — спам. У найпростішому випадку як оцінку використовують частоту: «появ в спамі/появ всього». У складніших випадках можлива попередня обробка тексту: приведення слів до початкової форми, видалення службових слів, обчислення «ваги» для цілих фраз, транслітерація тощо.
Під час перевірки нового тексту ймовірність «спаму» обчислюють за вказаною вище формулою для множини гіпотез. В цьому випадку «гіпотези» — це слова, і для кожного слова «достовірність гіпотези» — частка цього слова в тексті, а «залежність події від гіпотези» — обчислена раніше «вага» слова. Тобто «вага» тексту в даному випадку — усереднена «вага» всіх його слів.
Віднесення тексту до «спаму» чи «не-спаму» проводиться в залежності від того, чи перевищує його «вага» якусь планку, задану користувачем (зазвичай беруть 60-80 %). Після ухвалення рішення стосовно тексту в базі даних оновлюються «ваги» для слів, що входять до його складу.
Ця стаття не містить посилань на джерела. (березень 2017) |
Це незавершена стаття зі штучного інтелекту. Ви можете допомогти проєкту, виправивши або дописавши її. |