واژه پالایشی (پردازش زبان طبیعی)
واژه پالایشی یا واژه تصفیهشونده یا واژه ایستادهشده (به انگلیسی: Stop words) کلماتی هستند که قبل یا بعد از پردازش دادههای زبان طبیعی پالایش (تصفیه) میشوند. معمولا واژههای پالایشی به رایجترین کلمات در یک زبان اشاره دارد، اما هیچ فهرست جامعی از این واژهها، که در تمام ابزارهای پردازش زبان طبیعی استفاده شوند، موجود نیست. در واقع ابزارهای موجود هم از چنین فهرستی جامع و یکسانی استفاده نمیکنند.
برخی از ابزارهای پردازش زبان برای پشتیبانی از فعالیتهای جستجوی عبارت، بهطور خاص از حذف این کلمات اجتناب میکنند.
هر گروه دلخواه از کلمات را میتوان به عنوان واژه پالایشی برای یک هدف مشخص انتخاب کرد. برای برخی از موتورهای جستجو، این کلمات، همان رایجترین و معمولترین کلمات هستند، مثل «این»، «آن»، «در»، «به»، و غیره.
همه جا نباید این واژه ها را پالایش داد، زیرا گاهی جستجوی عباراتی که شامل واژههای پالایشی هستند، مانند «در به درها»، به دلیل حذف کلمات توقف با مشکل مواجه میشوند.
گاهی واژه های پالایشی شامل کلمات محتوایی و لغتنامهای نیز هست، مثلا بعضی از موتورهای جستجو برخی از معمولترین کلمات مثل«خواستن» را برای بهبود عملکرد و کاراییشان از پرسمان خود حذف میکنند.
در فرهنگ اصطلاحات بهینهسازی موتور جستجو، به رایجترین کلماتی که اغلب موتورهای جستجو از آن اجتناب میکنند واژه پالایشی گفته میشود که برای صرفهجویی در فضا و زمان، هنگام پردازش دادههای بزرگ در حین خزیدن یا شاخصگذاری، کاربرد دارند. حذف این کلمات به موتورهای جستجو کمک میکند تا در حافظهٔ پایگاههای اطلاعاتیشان صرفهجویی کنند.
جستارهای وابسته
[ویرایش]پیوند به بیرون
[ویرایش]منابع
[ویرایش]- مشارکتکنندگان ویکیپدیا. «Stop words». در دانشنامهٔ ویکیپدیای انگلیسی، بازبینیشده در ۲۴ فوریه ۲۰۱۹.