ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • 자연어처리란?
    딥러닝 2023. 7. 11. 21:14

    1. 자연어 처리(Natural Language Processing)?

    - 자연어란 인간이 일상생활에서 사용하는 언어를 말한다. 자연어는 발화 형태, 텍스트 형태로 구현될 수 있다. (발화 형태로 구현되었더라도, 결국 텍스트로 전사된 것을 분석해 처리해야하므로 텍스트에 한정되었다고 보는게 맞을것 같다.) 자연어의 의미를 분석해서 컴퓨터가 처리하도록 하는 것을 자연어 처리라고 한다. 자연어처리에서 핵심은 자연어의 의미를 분석해야하는 것으로, 자동 음성 인식(ASR)은 단순히 STT (Speech To Text)이기 때문에 NLP 분야로 볼 수 없다. 자연어처리는 크게 언어학, 인공지능, 컴퓨터공학 학문이 융합된 것으로, 어느 한 학문에 치중한 것이 아니기 때문에 정확하게 처리를 하기 위해서는 어려운 분야이다.

     

    위 표는 솔트룩스 홈페이지(http://www.saltlux.com/ai/stt.do?menuNumber=1) 에서 가져온 것인데, 우리가 기계와 대화가 가능하게 되는 구조를 볼 수 있다. 사용자가 말한 발화를 음성 인식을 통해 텍스트로 전사된 것을 의미 분석하고 그에 맞는 답을 찾아 텍스트로 주어지면 그것을 그대로 음성합성을 통해 출력된다. 위 구조에서 자연어처리는 문자 기반 서비스에서 이루어진다고 보면 된다.

     

     

     

    2. 자연어 처리가 어려운 이유?

    - 자연어 처리가 어려운 이유는 크게 세 가지라고 생각한다. 첫번째는 중의성(ambiguity)가 너무 많다. 인간은 상황에 따라 이 중의성을 어느정도 구별할 수 있는데, 기계가 그것을 구별하도록 하는 것이 힘들다. 두번째는 언어의 무한한 생산성이다. 언어는 세대에 따라 지속적으로 변화하며, 신조어도 끊임없이 발생하고, 무엇보다도 예외사항이 너무 많다. 이 예외사항이 많은 것이 기계에 rule로 넣어주는 것은 불가능하다고 본다. (너무 많기 때문.)

    마지막으로 우리는 언어를 사용할 때 문법에 맞춰서 사용하지 않고 다양하게 사용한다. 때에 따라 맞춤법을 무시하기도 하고, 한국어의 경우 자음 또는 모음만 사용하는 경우가 있다. (ex. ㅋㅋㅋ, ㅠㅠㅠ) 이 부분은 SNS 텍스트를 보면 쉽게 알 수 있을 것이다. 이 이외에도 언어 별로 다른 어순과 특징들 등등 자연어 처리가 어려운 이유들은 많다.

Designed by Tistory.