پرش به محتوا

مدل عناوین

از ویکی‌پدیا، دانشنامهٔ آزاد

مدل عناوین مدل توسعه یافتهٔ آنالیز پنهان مفهومی احتمالی است که دارای ساختاری بیزوی با توزیع پیشین دیریکله روی کلمات است.[۱]

در یادگیری ماشین و پردازش زبان طبیعی، یک مدل عنوان، یک نوع از مدل آماری برای کشف "عنوان‌های" چکیده که در یک مجموعه از اسناد رخ می‌دهند می‌باشد. مستقیماً، با توجه به اینکه یک سند در مورد یک عنوان خاص است، کسی انتظار لغت‌های خاص برای ظاهر شدن غالباً ببیشتر یا کمتر را در سند خواهد داشت: "سگ" و "استخوان" در اسناد در مورد سگ‌ها غالباً ظاهر می‌شوند، "گربه" و "میو" در اسناد در مورد گربه‌ها در اسناد در مورد گربه ظاهر خواهند شد، "the" و "is" به طور مساوی در هر دو ظاهر خواهند شد. یک سند به طور معمول به چندین عنوان در نسبت‌های مختلف مربوط می‌شود؛ بنابراین، در یک سند که 10% در مورد گربه‌ها و 90% در مورد سگ‌هاست، احتمالاً حدود 9 مرتبه بیشتر لغات سگ از لغات گربه خواهند بود. یک مدل عنوان این بصیرت را در یک چهارچوب ریاضی تسخیر می‌کند، که آزمایش یک مجموعه از اسناد و کشف را بر اساس آمار لغات در هر کدام، که عنوان‌ها ممکن است چه باشند و هر موازنه‌ی سند عنوان چیستند، اجازه می‌دهد.

اگرچه مدل‌های عنوان در ابتدا در محتوای پردازش زبان طبیعی توصیف و پیاده‌سازی شدند، آن‌ها کاربرهایی در دیگر زمینه‌ها از قبیل بیوانفورماتیک(تحقیقات زیستی) دارند.

منابع

[ویرایش]
  1. Blei, David M.; Ng, Andrew Y.; Jordan, Michael I (2003). Lafferty, John (ed.). "Latent Dirichlet allocation". Journal of Machine Learning Research. 3 (4–5): pp. 993–1022. doi:10.1162/jmlr.2003.3.4-5.993. Archived from the original on 1 May 2012. Retrieved 5 February 2013. {{cite journal}}: Unknown parameter |month= ignored (help)

جستارهای وابسته

[ویرایش]

یادگیری تقریبی بیزی

توزیع دیریکله

تخصیص پنهان دیریکله

آنالیز پنهان مفهومی

آنالیز پنهان مفهومی احتمالی