-
One-Hot encoding (원핫 인코딩)딥러닝 2023. 7. 17. 19:57
자연어처리를 위해서는 먼저 전처리된 문장을 token 단위로 나눠줘야 한다. 이를 tokenization이라 하는데, (경우에 따라 tokenization을 전처리 단계에 넣는 경우도 있다.) 시스템의 목적에 따라 달라질 수 있겠지만, 보통 token의 단위는 단어 단위로 쪼개진다. 영어의 경우는 띄어쓰기를 기준으로 tokenizing을 하면 곧 단어 단위로 쪼개지게 되지만, 한국어의 경우는 조사 등이 같이 붙어서 나타나기 때문에 좀 더 처리하기 어렵다.
단어를 컴퓨터가 이해하도록 처리해주는, 간단히 말해 단어를 숫자로 표현해주는 가장 간단하고 단순한 방법은 one-hot encoding 이 있다.
자연어 언어모델 BERT - T아카데미 강의 자료 중 일부 발췌 단순히 문장내의 단어들을 좌표평면 위에 표현하는 것으로, "세상 모든 사람" 이라는 문장에 대해 각 단어의 순서대로 위와 같이 표현될 수 있다. 이러한 one-hot encoding 방식은 Sparse representation이다.
매우 간단한 방법이지만, 단어 벡터가 sparse해서 단어가 가지는 의미를 벡터 공간에 표현할 수 없으며, 문장의 내의 단어의 개수가 많아질수록 한정된 벡터 공간 내에 표현되기 어렵다. (컴퓨터 메모리는 한정적이므로)
'딥러닝' 카테고리의 다른 글
자연어처리를 위한 언어학적 단계 (NLP Levels) (0) 2023.07.19 CBOW 모델의 개념 (0) 2023.07.18 자연어처리 전처리 과정(Pre-processing) (0) 2023.07.14 자연어처리(NLP) Approach (0) 2023.07.13 자연어처리란? (0) 2023.07.11