본문 바로가기
  • 책상 밖 세상을 경험할 수 있는 Playground를 제공하고, 수동적 학습에서 창조의 삶으로의 전환을 위한 새로운 라이프 스타일을 제시합니다.

Natural Language Processing21

[2023-2] 황재연 - Efficient Estimation of Word Representations inVector Space https://arxiv.org/abs/1301.3781 Efficient Estimation of Word Representations in Vector Space We propose two novel model architectures for computing continuous vector representations of words from very large data sets. The quality of these representations is measured in a word similarity task, and the results are compared to the previously best per arxiv.org Abstract 단어의 연속 벡터를 표현하기 위한 새로운 2가지 모델.. 2023. 12. 3.
[2023-2] 김민재 - CCNet: Extracting High Quality Monoligual https://paperswithcode.com/paper/ccnet-extracting-high-quality-monolingual Papers with Code - CCNet: Extracting High Quality Monolingual Datasets from Web Crawl Data Implemented in 2 code libraries. paperswithcode.com 1. Introduction 사전 학습된 텍스트 표현은 많은 자연어 처리 작업에서 성능 향상을 가져왔다. 트랜스포머와 BERT의 도입 이후 사전 학습된 모델의 품질이 꾸준히 향상되어 왔으며 이는 주로 사전 학습된 코퍼스의 크기가 커진 것에 따른 것이다. 그러나 크기가 커지는 것뿐만 아니라 데이터의 품질을 유지하는 것도 중.. 2023. 12. 2.
[2023-2] 양소정 - Improving Language Understanding by Generative Pre-Training https://cdn.openai.com/research-covers/language-unsupervised/language_understanding_paper.pdf Abstract 자연어 이해는 textual entailment, question answering, semantic similarity assessment, document classification 등 다양한 작업으로 구성됨 Unlabeled corpora는 풍부하지만, 이러한 특정 작업을 학습하기 위한 labeled corpora는 부족하여 모델이 차별적으로 학습하기 어려움 Open AI는 다양한 unlabeled text corpora에 기반한 GPT language 모델과 specific task 각각에 대한 fine-tuning.. 2023. 11. 28.
[2023-2] 김지원 - Recurrent Neural Network based language model(2010) # SML - 딥러닝 이전의 전통적인 Language Model - 딥러닝이 등장하기 전 전통적인 언어 모델이다. - 통계적 언어 모델로 SLM이라고 한다. - 해당 모델을 알기 전에 조건부 확률의 연쇄 법칙(Chain Rule)을 알아야 하는데 이는 아래 식과 같다. P(x_1,x_2,x_3,...x_n)=P(x_1)P(x_2|x_1)...P(x_n|x_1x_2...x_{n-1}) - 예를 들어 문장 “I like dogs and cats”을 생성할 때 해당 문장이 생성될 확률은 다음과 같다. P(I,like,dogs ,and, cats)=P(I)P(like|I)P(dogs|I,like)P(and|I,like,dogs)P(cats|I,like,dogs,and) - 이때 각 단어에 대한 확률은 카운트를 .. 2023. 11. 27.