ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • 자연어처리를 위한 언어학적 단계 (NLP Levels)
    딥러닝 2023. 7. 19. 23:47

    자연어처리를 하는 목적에 따라 조금씩 달라질 수 있겠지만, 기본적으로 자연어처리를 하기 위해 필요한 언어학적인 단계들이 있다.

     

    1. Tokenization

    - 문장을 token 단위로 자르는 단계이다. token의 단위는 보통 띄어쓰기를 기준으로 나뉘게 된다. 

     

    2. Morphological analysis (형태소 분석)

    - tokenization 단계를 거친 token의 정체를 알아보는 단계이다. 형태소란 의미를 가지는 가장 작은 단위를 말하는 것으로, 이 단계에서는 말 그대로 문장을 형태소 단위로 분석하는 단계이다. 예를 들어서 'took', 'taken' 과 같은 token은 'take' 라는 type 의 활용형으로 쓰이는데, 이런 부분을 분석하는 단계로 볼 수 있다.

     

    3. Syntactic analysis (구문 분석)

    - 형태소 분석 단계를 거친 후 구문 분석 단계를 거치게 된다. 이 단계에서는 문장 안에서 각 token들이 어떤 역할을 하고 문장 성분이 어떻게 이루어져 있는지를 분석하는 단계이다.

     

    4. Semantic analysis (의미 분석)

    - 문장 성분과 요소들을 파악한 후 이 문장이 어떤 의도, 의미를 말하는지 분석하는 단계이다.

     

    보통은 위 4단계를 거쳐 자연어처리를 하게 된다. 하지만 text의 출처 (음성인식 발화, 이미지 글자를 텍스트로 변환 등)에 따라서 tokenization 앞에 음성/음운론적인 분석 또는 OCR 단계가 추가될 수 있다.

     

    '딥러닝' 카테고리의 다른 글

    머신러닝이란?  (0) 2023.07.24
    인공지능이란?  (0) 2023.07.20
    CBOW 모델의 개념  (0) 2023.07.18
    One-Hot encoding (원핫 인코딩)  (0) 2023.07.17
    자연어처리 전처리 과정(Pre-processing)  (0) 2023.07.14
Designed by Tistory.