본문 바로가기

NLP3

GPT-1 labeled data 기반의 supervised learning은 딥러닝 모델의 적용을 어렵게 하는 요인 중 하나이다. 이 경우 labeled data를 더 확보한는 것이 해결방안 중 하나이지만, 효율적이지 않다. 이러한 경우 unlabeled data로부터 정보를 추출할 수 있는 semi-supervised, unsupervised 모델은 더 많은 가치를 창출할 수 있다. 또 경우에 따라서 충분한 labeled data가 있음에도 unlabeled data로부터 좋은 representation을 학습하는 것이 더 큰 성능 향상을 불러오기도 한다. 이러한 지도학습의 데이터 부족 문제는 NLP에서 똑같이 적용되는데 이 때 Word 수준 이상의 unlabeled text data를 학습하는 것은 다음과 같.. 2024. 1. 16.
ELMo ELMo 컴퓨터는 텍스트 자체보다 숫자를 더 잘 처리하기 때문에 NLP에서 텍스트를 숫자(벡터)로 바꾸는 여러 방법을 사용하는데 이를 Word Embedding이라고 한다. ELMo 등장 이 전에는 word2vec, GloVe와 같은 모델을 사용해 임베딩을 했으나, 이 모델들은 다의어의 모든 의미를 담아 내기 힘들다는 한계점을 가지고 있다. ELMo의 경우 같은 표기의 단어라도 문맥에 따라 단어의 의미를 결정하는 방식의 word embedding을 한다는 아이디어로 시작한다. ELMo는 큰 corpus에 대해 사전 학습된 bidrectional langauge model(bILM)을 사용한다. Bidirectional language models(biLM) input sequence가 N개인 token일.. 2024. 1. 16.
[Deeplearning Part.7-1] 자연어 처리와 Word Embedding NLP란 NLP란 자연어 처리란 뜻으로, 자연어 생성(Meaning ->Text)과 자연어 이해(Text -> Meaning) 두 가지를 포함하는 영역입니다. NLP의 영역 감정 분석(Sentiment Analysis) 요약(Summarization) 기계 번역(Machine Translation) 질문 응답(Question Answering) 문자를 숫자로 표현하는 법 Token과 vocabulary 각 Token별로 indexing했을 때 문제점 1) feature engineering의 label encoding처럼 별 의미 없을 듯?? 2) 학습한 말뭉치에 없는 Token이 나온다면?? -> OOV(Out-Of-Voca) OOV문제를 줄이기 위해 큰 기업의 연구에서는 말뭉치(Corpus)를 잘 o.. 2022. 1. 22.