PYTHON/자연어
TF-IDF(Term Frequency-Inverse Document Frequency)
죠으니
2022. 3. 16. 14:40
▶ 단어 빈도-역 문서 빈도
▶ 단어의 빈도와 역 문서 빈도(문서의 빈도에 특정 식을 취함)를 사용하여 DTM 내의 각 단어들마다 중요한 정도를 가중치로 주는 방법
▶ 우선 DTM을 만든 후, TF-IDF 가중치를 부여
▶ 주로 문서의 유사도를 구하는 작업, 검색 시스템에서 검색 결과의 중요도를 정하는 작업, 문서 내에서 특정 단어의 중요도를 구하는 작업 등에 쓰일 수 있습니다.
(1) tf(d,t) : 특정 문서 d에서의 특정 단어 t의 등장 횟수.
(2) df(t) : 특정 단어 t가 등장한 문서의 수.
(3) idf(d, t) : df(t)에 반비례하는 수. DF의 역수, 여러 문서에서 등장한 단어의 가중치를 낮추는 역할
▶ TF-IDF는 모든 문서에서 자주 등장하는 단어는 중요도가 낮다고 판단하며, 특정 문서에서만 자주 등장하는 단어는 중요도가 높다고 판단
▶ TF-IDF 값이 낮으면 중요도가 낮은 것이며, TF-IDF 값이 크면 중요도가 큰 것
▶ 즉, the나 a와 같이 불용어의 경우에는 모든 문서에 자주 등장하기 마련이기 때문에 자연스럽게 불용어의 TF-IDF의 값은 다른 단어의 TF-IDF에 비해서 낮아지게 됩니다.
▶ TF-IDF는 특정 문서에서 자주 등장하는 단어는 그 문서 내에서 중요한 단어로 판단