WordPiece Tokenization1 BPE(Byte Pair Encoding), WordPiece Tokenization BPE에 대해 정리하기 전에 Tokenization에 대해 간단히 정리를 하고 넘어간다. Tokenization Tokenization은 Text를 임의로 지정한 단위, 즉 token으로 나누는 작업이다. NLP 모델을 학습시킬 때 토큰화된 단어의 개수가 모델 성능에 다양한 영향을 미치며, 여기서 특히 Out-of-Vocabulary(OOV)는 큰 문제다. Tokenization은 크게 3가지 유형으로 분류한다. 1. Word based Tokenizer : 말 그대로 단어 단위로 토큰화를 한다. - 하지만 단어 단위로 토큰화를 하면 신조어를 처리하지 못하거나 OOV와 같은 문제가 있다. 2. Character based Tokenizer : 영어 기준 알파벳, 한국어 기준 초성 중성 종성 혹은 음절 단.. 2024. 1. 25. 이전 1 다음