▶ 국소 표현에(Local Representation)에 속하며, 단어의 빈도수를 카운트(Count)하여 단어를 수치화하는 단어 표현 방법
▶ 단어들의 순서는 전혀 고려하지 않고, 단어들의 출현 빈도(frequency)에만 집중하는 텍스트 데이터의 수치화 표현 방법
▶ BoW를 만드는 과정을 이렇게 두 가지 과정으로 생각해보겠습니다.
(1) 각 단어에 고유한 정수 인덱스를 부여합니다. # 단어 집합 생성.
(2) 각 인덱스의 위치에 단어 토큰의 등장 횟수를 기록한 벡터를 만듭니다.
'PYTHON > 자연어' 카테고리의 다른 글
LSTM(Long Short-Term Memory) (0) | 2022.04.12 |
---|---|
TF-IDF(Term Frequency-Inverse Document Frequency) (0) | 2022.03.16 |
NLP (0) | 2022.02.23 |