PYTHON/자연어

Bag of Words(BoW)

죠으니 2022. 3. 16. 14:11

▶ 국소 표현에(Local Representation)에 속하며, 단어의 빈도수를 카운트(Count)하여 단어를 수치화하는 단어 표현 방법

단어들의 순서는 전혀 고려하지 않고, 단어들의 출현 빈도(frequency)에만 집중하는 텍스트 데이터의 수치화 표현 방법

BoW를 만드는 과정을 이렇게 두 가지 과정으로 생각해보겠습니다.

(1) 각 단어에 고유한 정수 인덱스를 부여합니다.  # 단어 집합 생성.
(2) 각 인덱스의 위치에 단어 토큰의 등장 횟수를 기록한 벡터를 만듭니다. 

 

'PYTHON > 자연어' 카테고리의 다른 글

LSTM(Long Short-Term Memory)  (0) 2022.04.12
TF-IDF(Term Frequency-Inverse Document Frequency)  (0) 2022.03.16
NLP  (0) 2022.02.23