-
자연어처리를 위한 언어학적 단계 (NLP Levels)딥러닝 2023. 7. 19. 23:47
자연어처리를 하는 목적에 따라 조금씩 달라질 수 있겠지만, 기본적으로 자연어처리를 하기 위해 필요한 언어학적인 단계들이 있다.
1. Tokenization
- 문장을 token 단위로 자르는 단계이다. token의 단위는 보통 띄어쓰기를 기준으로 나뉘게 된다.
2. Morphological analysis (형태소 분석)
- tokenization 단계를 거친 token의 정체를 알아보는 단계이다. 형태소란 의미를 가지는 가장 작은 단위를 말하는 것으로, 이 단계에서는 말 그대로 문장을 형태소 단위로 분석하는 단계이다. 예를 들어서 'took', 'taken' 과 같은 token은 'take' 라는 type 의 활용형으로 쓰이는데, 이런 부분을 분석하는 단계로 볼 수 있다.
3. Syntactic analysis (구문 분석)
- 형태소 분석 단계를 거친 후 구문 분석 단계를 거치게 된다. 이 단계에서는 문장 안에서 각 token들이 어떤 역할을 하고 문장 성분이 어떻게 이루어져 있는지를 분석하는 단계이다.
4. Semantic analysis (의미 분석)
- 문장 성분과 요소들을 파악한 후 이 문장이 어떤 의도, 의미를 말하는지 분석하는 단계이다.
보통은 위 4단계를 거쳐 자연어처리를 하게 된다. 하지만 text의 출처 (음성인식 발화, 이미지 글자를 텍스트로 변환 등)에 따라서 tokenization 앞에 음성/음운론적인 분석 또는 OCR 단계가 추가될 수 있다.
'딥러닝' 카테고리의 다른 글
머신러닝이란? (0) 2023.07.24 인공지능이란? (0) 2023.07.20 CBOW 모델의 개념 (0) 2023.07.18 One-Hot encoding (원핫 인코딩) (0) 2023.07.17 자연어처리 전처리 과정(Pre-processing) (0) 2023.07.14