Bài đăng này đã chuyển bạn đi sâu hơn vào Xử lý ngôn ngữ tự nhiên. Trước Lúc thường xuyên, hãy bảo đảm rằng bạn vẫn nắm rõ những tư tưởng cơ bạn dạng về NLPhường mà lại tôi vẫn nói vào bài đăng trước của bản thân - “Tìm phát âm sâu về Xử lý ngôn ngữ tự nhiên ”.

Bạn đang xem: Bag of words là gì

Tiếp tục nào!


*

Bag-of-Words là gì?

Chúng tôi buộc phải một cách để màn trình diễn tài liệu văn bản cho thuật toán thù học tập vật dụng và quy mô bag-of-words giúp Cửa Hàng chúng tôi dành được trọng trách kia. Mô hình bag-of-words rất dễ hình dung và dễ dàng thực hiện. Đó là một trong những biện pháp trích xuất những công dụng tự văn uống bạn dạng để sử dụng trong những thuật toán học máy.


*
Nguồn

Trong biện pháp tiếp cận này, công ty chúng tôi sử dụng những trường đoản cú được mã hóa cho từng lần quan tiền liền kề cùng đưa ra tần suất của từng mã thông báo. Hãy rước một ví dụ để hiểu sâu về khái niệm này.

“Đó là thời kỳ xuất sắc nhất” “Đó là thời kỳ tồi tàn nhất” “Đó là thời đại của sự việc khôn ngoan” “Đó là thời đại của sự việc gàn ngốc”

Chúng tôi coi từng câu như một tài liệu lẻ tẻ và Shop chúng tôi lập danh sách tất cả những nhàn hạ toàn bộ tư tài liệu, quanh đó lốt câu. Chúng tôi nhận thấy,

"Nó", "là", "sự", "xuất sắc nhất", "của", "thời đại", "tồi tệ nhất", "tuổi tác", "sự khôn ngoan", "sự ngốc ngốc"

Cách tiếp sau là tạo thành vectơ. Vectơ thay đổi vnạp năng lượng bản rất có thể được sử dụng bởi vì thuật tân oán học vật dụng.

Chúng tôi lấy tư liệu thứ nhất - “Đó là thời gian xuất sắc nhất” với công ty chúng tôi soát sổ tần suất các tự trong 10 trường đoản cú duy nhất. “It” = 1 “was” = 1 “the” = 1 “best” = 1 “of” = 1 “times” = 1 “bad” = 0 “age” = 0 “khôn ngoan” = 0 “dở hơi ngốc” = 0

Phần còn lại của tư liệu đang là: “Đó là thời điểm xuất sắc nhất” = <1, 1, 1, 1, 1, 1, 0, 0, 0, 0> “Đó là thời khắc tệ hại nhất” = <1, 1 , 1, 0, 1, 1, 1, 0, 0, 0> “Đó là thời đại của sự khôn ngoan” = <1, 1, 1, 0, 1, 0, 0, 1, 1, 0> “Đó là thời đại của sự dở hơi ngốc ”= <1, 1, 1, 0, 1, 0, 0, 1, 0, 1>

Trong giải pháp tiếp cận này, mỗi tự hoặc mã thông tin được Điện thoại tư vấn là 1 trong những “gam”. Tạo một từ vựng có các cặp nhị trường đoản cú được Điện thoại tư vấn là quy mô bigram.

Ví dụ: bigrams vào tư liệu đầu tiên: "Đó là thời gian tốt nhất" nlỗi sau: "kia là" "là" "xuất sắc nhất" "giỏi nhất" "của thời đại"

Quá trình biến đổi vnạp năng lượng bạn dạng NLP thành số được Điện thoại tư vấn là vectơ hóa trong ML. Các giải pháp khác biệt để biến hóa văn bản thành vectơ là:

Đếm số lần từng từ bỏ xuất hiện trong tài liệu. Tính tần suất nhưng từng tự xuất hiện thêm trong một tài liệu trong số toàn bộ những tự trong tư liệu.

CountVectorizer vận động dựa vào Tần suất quy định, Có nghĩa là đếm mốc giới hạn xuất hiện của mã thông tin cùng xây dựng ma trận tư liệu x mã thông báo thưa thớt.

Xem thêm: Kinh Nghiệm Phỏng Vấn Xin Visa Du Học Mỹ 2019, Phỏng Vấn Visa Du Học Mỹ

TF-IDF Vectorizer

TF-IDF là viết tắt của thuật ngữ tần số tư liệu nghịch hòn đảo tần số. Trọng số TF-IDF là 1 thước đo những thống kê được áp dụng nhằm review cường độ đặc biệt của một tự so với một tư liệu trong một bộ sưu tập hoặc kho ngữ liệu. Mức độ quan trọng đặc biệt tăng khớp ứng cùng với tần số một tự xuất hiện trong tài liệu cơ mà được bù đắp bởi tần suất xuất hiện của từ đó trong kho ngữ liệu.

Tần suất thuật ngữ (TF) : là vấn đề số của gia tốc lộ diện của tự vào tư liệu ngày nay. Vì mỗi tư liệu bao gồm độ dài khác nhau, đề nghị hoàn toàn có thể một thuật ngữ vẫn xuất hiện thêm nhiều lần trong những tư liệu dài hơn nữa đối với các tư liệu ngắn lại. Tần suất thuật ngữ thường được phân chia mang đến độ nhiều năm tài liệu để chuẩn hóa.
*

Tần suất tư liệu nghịch hòn đảo (IDF) : là điểm Reviews mức độ hi hữu của tự bên trên những tài liệu. IDF là thước đo cường độ thảng hoặc của một thuật ngữ. Thuật ngữ ngắn hơn, nhiều hơn thế là điểm IDF.