Posted in Khác

TF-IDF

1. Giới thiệu

TF-IDF (Term Frequency-Inverse Document Frequency) là 1 kĩ thuật khai phá dữ liệu từ text sử dụng để phân loại văn bản . Trọng số này sử dụng để đánh giá tầm quan trọng của một từ trong một văn bản , 1 collection hoặc một corpus . Độ quan trọng tăng dần dựa vào số lần từ xuất hiện trong văn bản nhưng bù lại bởi tần suất của từ đó trong corpus . Một vài biến thể của tf-idf thường xuyên được sử dụng trong các hệ thống tìm kiếm như một công cụ chính để đánh giá và sắp xếp văn bản dựa vào user query.  Tf-idf có thể sử dụng để lọc những từ stop-words trong một số bài toán như tóm tắt văn bản và phân loại văn bản . [1]

TF : Term Frequency , là số lần term xuất hiện trong văn bản . Vì các văn bản có thể có độ dài ngắn khác nhau nên mọt số term có thể xuất hiện nhiều lần trong một văn bản dài hơn là một văn bản ngắn . Như thế , term frequency thường được chia cho độ dài văn bản ( tổng số term trong một văn bản) như một các normalization .

IDF: Inverse Document Frequency , đánh giá tầm quan trọng của một term . Khi tính toán TF , tất cả các terms được coi như có độ quan trọng như nhau . Nhưng  một số terms, như “is” , “of” và “that” thường xuất hiện rất nhiều lần nhưng độ quan trọng là không cao . Như thế chúng ta cần giảm wegh xuống

IDF(t) = log(Tổng số văn bản/ Số văn bản chứa term t ).

Ví dụ một văn bản chưa 100 từ mà từ “cat” xuất hiện 3 lần . Term frequency cho từ cat này là (3/100) = 0.03 . Giả sử , chúng ta có 10 triệu văn bản và từ “cat” xuất hiện trong một nghìn văn bản . Như thế , idf được dính là  log(10,000,000 / 1,000) = 4. Như thế , tf-idf của từ “cat” trong văn bản này sẽ là : 0.03 * 4 = 0.12.

 

2. Biến thể [2]

2.1 . Sublinear tf scaling

Nếu một term trong 1 văn bản xuất hiện 12 lần thì không có nghĩa là nó thực sự mang thông tin gấp 12 lần so với từ xuất hiện 1 lần . Một biến thể của tf được sử dụng logarithm của tf như sau

img449

Như thế , chúng ta có thẻ thay tf thành wf thành công thức :

img451

Một vài biến thể khác :

– Maximum tf normalization [2]

3 . Thực nghiệm

Với bộ dữ liệu như đã làm bằng bag of word . Kết quả dùng với tf-idf tăng khá ít :

tdidf.JPG

Với bộ dữ liệu sentiment thì kết quả đạt tầm 77.23144 %

sentiment.JPG

4 . Tham khảo

[1] http://www.tfidf.com/

[2] http://nlp.stanford.edu/IR-book/html/htmledition/tf-idf-weighting-1.html

Advertisements

Trả lời

Mời bạn điền thông tin vào ô dưới đây hoặc kích vào một biểu tượng để đăng nhập:

WordPress.com Logo

Bạn đang bình luận bằng tài khoản WordPress.com Đăng xuất / Thay đổi )

Twitter picture

Bạn đang bình luận bằng tài khoản Twitter Đăng xuất / Thay đổi )

Facebook photo

Bạn đang bình luận bằng tài khoản Facebook Đăng xuất / Thay đổi )

Google+ photo

Bạn đang bình luận bằng tài khoản Google+ Đăng xuất / Thay đổi )

Connecting to %s