TF-IDF(Term Frequency-Inverse Document Frequency)

PYTHON/자연어

죠으니 2022. 3. 16. 14:40

▶ 단어 빈도-역 문서 빈도

▶ 단어의 빈도와 역 문서 빈도(문서의 빈도에 특정 식을 취함)를 사용하여 DTM 내의 각 단어들마다 중요한 정도를 가중치로 주는 방법

▶ 우선 DTM을 만든 후, TF-IDF 가중치를 부여

▶ 주로 문서의 유사도를 구하는 작업, 검색 시스템에서 검색 결과의 중요도를 정하는 작업, 문서 내에서 특정 단어의 중요도를 구하는 작업 등에 쓰일 수 있습니다.

(1) tf(d,t) : 특정 문서 d에서의 특정 단어 t의 등장 횟수.

(2) df(t) : 특정 단어 t가 등장한 문서의 수.

(3) idf(d, t) : df(t)에 반비례하는 수. DF의 역수, 여러 문서에서 등장한 단어의 가중치를 낮추는 역할

▶ TF-IDF는 모든 문서에서 자주 등장하는 단어는 중요도가 낮다고 판단하며, 특정 문서에서만 자주 등장하는 단어는 중요도가 높다고 판단

▶ TF-IDF 값이 낮으면 중요도가 낮은 것이며, TF-IDF 값이 크면 중요도가 큰 것

▶ 즉, the나 a와 같이 불용어의 경우에는 모든 문서에 자주 등장하기 마련이기 때문에 자연스럽게 불용어의 TF-IDF의 값은 다른 단어의 TF-IDF에 비해서 낮아지게 됩니다.

▶ TF-IDF는 특정 문서에서 자주 등장하는 단어는 그 문서 내에서 중요한 단어로 판단