-
자연어처리 전처리 과정(Pre-processing)딥러닝 2023. 7. 14. 22:31
자연어처리를 하기 위해서는 데이터 문장에 대한 전처리 과정이 필요하다. 전처리 과정이라 함은 보통 개행문자 제거, 특수문자 제거, 공백 제거, 중복 표현 제어, 불용어 (의미가 없는 용어) 제거, 조사 제거, 띄어쓰기, 문장분리 보정, 사전 구축 등이 있는데, 시스템의 목적에 따라 또는 데이터마다 전처리가 달라질 수 있다.
예를 들면 비교적 띄어쓰기나 맞춤법이 잘되어 있는 뉴스 데이터에 대한 전처리 과정은 트위터의 트윗 데이터 보다는 전처리 과정이 간단할 수 있는 것이다. 자연어처리에서 전처리 과정은 시스템의 정확도를 좌지우지할 수 있는 중요한 부분이므로, 목적에 맞게 처리를 해주는 것이 중요하다.
보통 우리가 처리하게 될 데이터들은 정형화된 데이터들보다는 비정형화된 데이터들이 훨씬 많을 것으로 생각된다. 당장 우리가 카톡으로 나눈 일상대화들만 보아도 맞춤법과 띄어쓰기를 모두 정확하게 맞추어 쓰는 경우가 드물고 줄임말,신조어, 은어 등등 일반인이 보아도 이해하지 못하는 단어들을 쓰는 경우가 많다. 또한 음성인식의 결과로 나오게 된 텍스트 데이터들은 발화자가 어떻게 말을 했느냐에 따라서 띄어쓰기가 제각각일 수도 있고, 버벅이거나 잘못 발화한 부분까지 나오게 될 수 있다. 따라서 자연어처리를 함에 있어 전처리 과정은 텍스트의 의미를 파악하기에 매우 중요한 과정이다.
'딥러닝' 카테고리의 다른 글
CBOW 모델의 개념 (0) 2023.07.18 One-Hot encoding (원핫 인코딩) (0) 2023.07.17 자연어처리(NLP) Approach (0) 2023.07.13 자연어처리란? (0) 2023.07.11 딥러닝 이론-8-2 : 딥러닝의 기본 개념2 (1) 2023.07.10