پرش به محتوا

واژه پالایشی (پردازش زبان طبیعی)

از ویکی‌پدیا، دانشنامهٔ آزاد

واژه پالایشی یا واژه تصفیه‌شونده یا ‌واژه ایستاده‌شده (به انگلیسی: Stop words) کلماتی هستند که قبل یا بعد از پردازش داده‌های زبان طبیعی پالایش (تصفیه) می‌شوند. معمولا واژه‌های پالایشی به رایج‌ترین کلمات در یک زبان اشاره دارد، اما هیچ فهرست جامعی از این واژه‌ها، که در تمام ابزارهای پردازش زبان طبیعی استفاده شوند، موجود نیست. در واقع ابزارهای موجود هم از چنین فهرستی جامع و یکسانی استفاده نمی‌کنند.

برخی از ابزارهای پردازش زبان برای پشتیبانی از فعالیت‌های جستجوی عبارت، به‌طور خاص از حذف این کلمات اجتناب می‌کنند.

هر گروه دلخواه از کلمات را می‌توان به عنوان واژه پالایشی برای یک هدف مشخص انتخاب کرد. برای برخی از موتورهای جستجو، این کلمات، همان رایج‌ترین و معمول‌ترین کلمات هستند، مثل «این»، «آن»، «در»، «به»، و غیره.

همه جا نباید این واژه ها را پالایش داد، زیرا گاهی جستجوی عباراتی که شامل واژه‌های پالایشی هستند، مانند «در به درها»، به دلیل حذف کلمات توقف با مشکل مواجه می‌شوند.

گاهی واژه های پالایشی شامل کلمات محتوایی و لغت‌نامه‌ای نیز هست، مثلا بعضی از موتورهای جستجو برخی از معمول‌ترین کلمات مثل«خواستن» را برای بهبود عملکرد و کارایی‌شان از پرسمان خود حذف می‌کنند.

در فرهنگ اصطلاحات بهینه‌سازی موتور جستجو، به رایج‌ترین کلماتی که اغلب موتورهای جستجو از آن اجتناب می‌کنند واژه پالایشی گفته می‌شود که برای صرفه‌جویی در فضا و زمان، هنگام پردازش داده‌های بزرگ در حین خزیدن یا شاخص‌گذاری، کاربرد دارند. حذف این کلمات به موتورهای جستجو کمک می‌کند تا در حافظهٔ پایگاه‌های اطلاعاتی‌شان صرفه‌جویی کنند.

جستارهای وابسته

[ویرایش]

پیوند به بیرون

[ویرایش]

منابع

[ویرایش]