Hỏi đáp

bag of words là gì – viettingame

Đang xem: Bag of words là gì

Quy mô túi từ (bag-of-words) là một biểu diễn đơn giản và giản dị hóa được sử dụng trong xử lý ngôn từ tự nhiên và truy vấn thông tin (IR). Trong quy mô này, một văn bạn dạng (ví dụ như một câu hoặc một tài liệu) được thể hiện dưới dạng túi (multiset) chứa những từ của nó, ko sử dụng rộng rãi tới ngữ pháp và thậm chí trật tự từ nhưng vẫn giữ tính đa dạng và phong phú. Quy mô túi từ cũng từng được sử dụng cho thị giác máy tính.[1]

Quy mô túi từ thường được sử dụng trong những phương pháp phân loại tài liệu trong đó sự xuất hiện (tần suất) của mỗi từ được sử dụng như một đặc trưng để huấn luyện và đào tạo máy phân loại [2].

Một tài liệu xem thêm trước hết về “túi từ” trong ngữ cảnh ngôn từ thậm chí được tìm thấy trong bài a.viettingame.vnết năm 1954 của Zellect Harris về Cấu trúc phân phối.[3]

Mục lục

1 Ví dụ vận dụng 2 Ứng dụng 3 Quy mô N-gram 4 Triển khai Python 5 Thủ thuật băm 6 Ví dụ sử dụng: lọc thư rác 7 Xem thêm 8 Ghi chú 9 Tìm hiểu thêm

Ví dụ vận dụng

Dưới phía trên quy mô một tài liệu văn bạn dạng bằng phương pháp sử dụng túi từ. Phía trên là hai tài liệu văn bạn dạng đơn giản và giản dị:

(1) Phúc thích xem phim. Đạt cũng thích xem phim.
(2) Bích cũng thích xem những trận bóng đá.

Dựa trên hai tài liệu văn bạn dạng này, một danh sách được xây dựng như sau cho từng tài liệu: (Ví dụ dưới phía trên coi mỗi tiếng là một từ, “bóng đá” là “bóng” và “đá”. Cũng thậm chí xác định từ theo ngữ pháp, “bóng đá” là một từ.)

“Phúc” , “thích” , “xem” , “phim” , “Đạt” “cũng” , “thích” , “xem” , “phim” “Bích” “cũng” “thích” “xem” “những” “trận” “bóng” “đá”

Thay mặt đại diện cho từng túi từ dưới dạng đối tượng người dùng JSON và quy cho biến Javascript tương ứng:

BoW1 = ; BoW2 = ;

Xem thêm: Lợi Nhuận Ròng Net Revenue Là Gì ? Phân Biệt Doanh Thu & Doanh Thu Thuần

Mỗi khóa là từ và mỗi giá trị là số lần xuất hiện của từ đó trong tài liệu văn bạn dạng đã cho.

Thứ tự của những từ bị bỏ qua, vì thế vậy, ví dụ cũng là BoW1.

Lưu ý: nếu một tài liệu khác tương tự như một phối kết hợp của hai văn bạn dạng trên,

(3) Phúc thích xem phim. Đạt cũng thích xem phim. Bích cũng thích xem những trận bóng đá.

thể diện Javascript của nó sẽ là:

BoW3 = BoW1 = ;

Vì thế vậy, như chúng ta thấy trong đại số túi, “links” của hai văn bạn dạng trong cách biểu thị túi, chính thức là links rời rạc, tổng hợp những bội số của từng từ.

B o W 3 = B o W 1 ⨄ B o W 2

*

.

Ứng dụng

Trong thực tiễn, quy mô túi từ cơ bản được sử dụng như một dụng cụ tạo đặc trưng. Sau lúc chuyển đổi văn bạn dạng thành một “túi từ”, chúng ta thậm chí tìm những liệu pháp không giống nhau để mô tả văn bạn dạng. Loại Điểm lưu ý hoặc tính năng thịnh hành nhất được tính toán từ quy mô túi từ là tần số thuật ngữ, rõ ràng là số lần một thuật ngữ xuất hiện trong văn bạn dạng. So với ví dụ trên, chúng ta thậm chí xây dựng hai danh sách sau để ghi lại tần số thuật ngữ của toàn bộ những từ riêng lẻ (BoW1 và BoW2 được chứa như trong BoW3):

( 1 ) ( 2 )

Mỗi mục trong danh sách đề cập tới số lượng mục tương ứng trong danh sách (phía trên cũng là biểu diễn biểu đồ). Ví dụ: trong danh sách trước hết (thay mặt cho tài liệu 1), hai mục trước hết là “1,2”:

Mục trước hết tương ứng với từ “Phúc” là từ trước hết trong danh sách và giá trị của nó là “1” vì thế “Phúc” xuất hiện trong tài liệu trước hết 1 lần. Mục thứ hai tương ứng với từ “thích”, này là từ thứ hai trong danh sách và giá trị của nó là “2” vì thế “thích” xuất hiện trong tài liệu trước hết 2 lần

Danh sách (hoặc vectơ) thay mặt này ko bảo vệ thứ tự của những từ trong câu gốc. Phía trên chỉ là tính năng chính của quy mô Túi từ. Loại thay mặt này còn có một trong những ứng dụng thành công, ví dụ như lọc email.[1]

Tuy nhiên, tần số thuật ngữ ko nhất thiết là thay mặt tốt nhất cho văn bạn dạng. Những từ thịnh hành như “the”, “a”, “to” trong tiếng Anh hầu như luôn luôn là những thuật ngữ với tần suất tối đa trong văn bạn dạng. Vì thế vậy, với số lượng thô cao ko nhất thiết Có nghĩa là từ tương ứng là quan trọng hơn. Để xử lý vấn đề này, một trong những cách thịnh hành nhất để “thông thường hóa” tần số thuật ngữ là tính trọng số của một thuật ngữ bằng nghịch đảo của tần số tài liệu, hoặc tf–idf. Ngoài ra, với mục đích rõ ràng của phân loại, những lựa sắm thay thế được giám sát đã được phát triển để trình bày cho nhãn lớp của tài liệu.[1] Sau cùng, trọng số nhị phân (hiện diện / vắng ngắt mặt hoặc 1/0) được sử dụng thay cho tần số cho một trong những vấn đề (ví dụ: tùy sắm này được triển khai trong khối hệ thống ứng dụng học máy WEKA).

Quy mô N-gram

Quy mô túi từ là một thay mặt tài liệu không tồn tại trật tự, chỉ với số lần xuất hiện của từ được đánh giá trọng. Ví dụ điển hình, trong ví dụ trên “Phúc thích xem phim. Đạt cũng thích xem phim “, thay mặt túi từ sẽ không còn tiết lộ rằng động từ ” thích” luôn luôn theo sau tên của một người trong văn bạn dạng này. Thay vào đó, quy mô n-gram thậm chí lưu trữ thông tin thứ tự này. Vận dụng cho ví dụ tương tự ở trên, một quy mô bigram sẽ phân tích văn bạn dạng thành những đơn vị sau và lưu trữ tần số thuật ngữ của từng đơn vị như trước phía trên.

Về mặt luận điểm, chúng ta thậm chí xem quy mô túi từ như một trường hợp quan trọng đặc biệt của quy mô n-gram, với n = 1. Với n > 1, quy mô được đặt tên là w-shingling (trong đó w tương đương với n biểu thị số lượng từ được nhóm). Xem quy mô ngôn từ để thảo luận cụ thể hơn.

Triển khai Python

from keras.preprocessing.text import Tokenizer sentence = def print_bow ( sentence : str ) -> None : tokenizer = Tokenizer () tokenizer . fit_on_texts ( sentence ) sequences = tokenizer . texts_to_sequences ( sentence ) word_index = tokenizer . word_index bow = ” ) printf ( ‘We found unique tokens.’ ) print_bow ( sentence )

Thủ thuật băm

Một cách khác để sử dụng từ điển là thủ thuật băm, trong đó những từ được ánh xạ trực tiếp tới những chỉ mục với hàm băm [4]. Vì thế vậy, không tồn tại bộ nhớ được yêu cầu để lưu trữ một từ điển. Xung đột băm thường được xử lý trải qua giải phóng bộ nhớ để tăng số lượng băm. Trong thực tiễn, băm đơn giản và giản dị hóa a.viettingame.vnệc triển khai những quy mô túi từ và nâng cao thời gian làm việc mở mênh mông.

Ví dụ sử dụng: lọc thư rác

Trong lọc thư rác Bayes, một thông điệp email được quy mô hóa như một tập hợp những từ được sắp xếp theo thứ tự được sắm từ một trong hai phân phối xác suất: một thay mặt cho thư rác và một thay mặt cho email hợp pháp (“ham”). Hãy tưởng tượng với hai túi chữ đầy chữ. Một túi chứa đầy những từ được tìm thấy trong tin nhắn rác và túi còn sót lại với những từ được tìm thấy trong e-mail hợp pháp. Tuy vậy ngẫu nhiên từ nào với thời gian làm việc nằm tại đâu đó trong cả hai túi, túi “spam” sẽ chứa những từ liên quan tới spam như “thị trường chứng khoán”, “a.viettingame.vnagra” và “tậu” thường xuyên hơn, trong lúc túi “ham” sẽ chứa nhiều từ liên quan tới bằng hữu hoặc nơi làm a.viettingame.vnệc của người sử dụng.

Để phân loại thư e-mail, bộ lọc thư rác Bayes giả định rằng thư này là một đống từ được đổ ngẫu nhiên từ một trong hai túi và sử dụng xác suất Bayesian để xác định túi nào với thời gian làm việc nằm trong túi đó.

Xem thêm

Làm mịn cùng tính Quy mô túi từ trong thị giác máy tính Phân loại tài liệu Ma trận thuật ngữ tài liệu Trích xuất đặc trưng Thủ thuật băm Học máy MinHash n-gram Xử lý ngôn từ tự nhiên Quy mô không khí vector w-shingling

Ghi chú

^ a ă â Chú thích trống (trợ giúp) ^ McTear et al 2016, p. 167. ^ Harris, Zellig (1954). “Distributional Structure”. Word. 10 (2/3): 146–62. And this stock of combinations of elements becomes a factor in the way later choices are made… for language is not merely a bag of words but a tool with particular properties which have been fashioned in the course of its use ^ Weinberger, K. Q.; Dasgupta A.; Langford J.; Smola A.; Attenberg, J. (2009). “Feature hashing for large scale multitask learning,”. Proceedings of the 26th Annual International Conference on Machine Learning: 1113–1120. arXiv:0902.2206 . Bibcode:2009arXiv0902.2206W.

Xem thêm: Hướng Dẫn Cách Kiểm Tra Ip Chưa Active Là Gì, Iphone New 100% Nhưng Đã Bị Active Là Sao

Tìm hiểu thêm

McTear, Michael (et al) (2016). Giao diện hội thoại. Nhà xuất bạn dạng quốc tế Springer.

Về Viettingame.com

Viettingame.com - Chuyên trang web tổng hợp những thông tin hữu ích trên internet như thông tin về game, tin tổng hợp
Xem tất cả các bài viết của Viettingame.com →

Trả lời

Email của bạn sẽ không được hiển thị công khai. Các trường bắt buộc được đánh dấu *