NLP

Mar 18, 2021


NLP

Natural Language Processing 자연어 처리, 자연 언어 처리

컴퓨터와 사람의 언어 사이의 상호작용에 대해 연구하는 컴퓨터 과학과 어학의 한 분야이다.

인간의 언어 현상을 컴퓨터와 같은 기계를 이용해서 모사 할 수 있도록 연구하고 구현하는 분야이다.

  • 분야

    정보 검색 IR (Information Retrieval)

    수 많은 문서 중에 사용자가 원하는 문서를 찾아내는 기술. e.g. 검색엔진

    정보 추출 IE (Information Extraction)

    비정형 문서에서 정규화된 정보를 추출하는 기술. e. g. 개체명 인식(NER), 관계 추출(relation extraction)

    음성 인식 Speech Recognition, STT (Speech-to-text)

    컴퓨터가 인간의 음성 언어를 이해하게 만드는 기술. SR은 컴퓨터가 음성 언어를 이해하는 것을 포함하고, STT는 음성 언어를 문자로 변환하는 것에 집중한다. e. g. Siri

    단어 분류 Word Classification

    문장 속 단어의 카테고리를 컴퓨터가 자동으로 분류하는 기술. 아래와 같이 세부화할 수 있다.

    품사 태깅 Part-Of-Speech Tagging 문장 속 단어의 품사가 무엇인지 인식하는 기술. 형태소 분석 과정을 요구할 수 있다. 다른 기술의 전처리 과정에 많이 사용된다.

    개체명 인식 NER (Named Entity Recognition) 인명, 지명 같은 고유명사를 인식/분류하는 기술.

    중의성 해소 Word Sense Disambiguation(Induction) 한 단어가 가지는 여러 의미 중 문맥에 맞는 의미를 인식하는 기술.

    구문 분석 Sentence Parsing, Syntactic Analysis

    문장의 구조를 자동으로 인식하는 기술. 언어학적 개념에 따라 구구조 구문 분석 / 의존 구문 분석으로 나뉜다. 다른 기술의 전처리 과정에 많이 사용된다.

    문장 / 문서 분류 Sentence / Document Classification

    한 문장/문서가 어떤 카테고리에 속하는지 분류하는 기술.

    1. 자질 추출: TF-IDF, PLSI, LDA, DBN, RNN, CNN
    2. 분류기 학습: SVM, Perceptron, Logistic Regression

    감정 분석 Sentiment Analysis, Opinion Mining

    한 문장에 담긴 의도와 감정을 인식하는 기술.

    의미역 결정 Semantic Role Labeling

    문장에서 주어, 목적어, 서술어 등이 무엇이고 어떤 관계인지 자동으로 결정하는 기술.

    자동 대화 시스템 Dialogue System, Dialogue Manager

    사용자가 입력한 문장에 자동으로 적합한 문장을 생성하거나, 음성으로 전환하여 대화를 시뮬레이션하는 기술. e. g. 온라인 채팅 봇, Siri

    질의 응답 QA (Question Answering System) e. g. 왓슨

    기계 번역 MT (Machine Translation)

    언어 A의 글을 언어 B의 글로 바꾸는 기술.

    1. 규칙/패턴 기반 방법론.
    2. 예시/검색 기반 방법론.
    3. 통계 기반 방법론.
    4. 인공신경망 기반 방법론.

    예측 모델 LM (Language Modeling)

    이전 단어가 주어졌을 때 다음 단어를 예측하는 기술. e. g. ELMo, ULMFiT, GTP, OpenAI Transformer