Các thuật toán phân loại văn bản là trung tâm của nhiều hệ thống phần mềm xử lý dữ liệu văn bản trên quy mô lớn. Phần mềm email sử dụng tính năng phân loại văn bản để xác định xem thư đến có được gửi tới hộp thư đến hay được lọc vào thư mục thư rác. Các diễn đàn thảo luận sử dụng cách phân loại văn bản để xác định xem có nên gắn cờ nhận xét là không phù hợp hay không.
Đây là hai ví dụ về việc phân loại chủ đề, phân loại tài liệu văn bản thành một trong những nhóm chủ đề được xác định trước. Trong nhiều vấn đề về phân loại chủ đề, cách phân loại này chủ yếu dựa trên từ khoá trong văn bản.
Hình 1: Phân loại chủ đề được dùng để gắn cờ các email rác gửi đến và được lọc vào một thư mục thư rác.
Một loại phân loại văn bản phổ biến khác là phân tích ý kiến, mục tiêu của Google là xác định cực của nội dung văn bản: loại ý kiến mà nội dung này thể hiện. Điểm này có thể ở dạng điểm xếp hạng nhị phân như/không thích hoặc một bộ tuỳ chọn chi tiết hơn, chẳng hạn như điểm xếp hạng theo sao từ 1 đến 5. Ví dụ về việc phân tích tình cảm bao gồm việc phân tích các bài đăng trên Twitter để xác định xem mọi người có thích bộ phim Black Panther hay không ngoại suy ý kiến của công chúng về một thương hiệu giày Nike mới thông qua các bài đánh giá trên Walmart.
Hướng dẫn này sẽ hướng dẫn bạn một số phương pháp hay nhất về công nghệ máy học để giải quyết các vấn đề về phân loại văn bản. Sau đây là những nội dung bạn sẽ tìm hiểu:
- Quy trình làm việc cấp cao, toàn diện để giải quyết các vấn đề về việc phân loại văn bản bằng cách sử dụng công nghệ máy học
- Cách chọn mô hình phù hợp cho vấn đề về việc phân loại văn bản
- Cách triển khai mô hình lựa chọn bằng TensorFlow
Quy trình phân loại văn bản
Dưới đây là thông tin tổng quan cấp cao về quy trình công việc dùng để giải quyết các vấn đề về máy học:
- Bước 1: Thu thập dữ liệu
- Bước 2: Khám phá dữ liệu của bạn
- Bước 2.5: Chọn một mô hình*
- Bước 3: Chuẩn bị dữ liệu
- Bước 4: Xây dựng, đào tạo và đánh giá mô hình của bạn
- Bước 5: Điều chỉnh siêu tham số
- Bước 6: Triển khai mô hình
Hình 2: Quy trình giải quyết các vấn đề về máy học
Phần sau đây giải thích chi tiết từng bước và cách triển khai chúng cho dữ liệu văn bản.