본문 바로가기
  • 책상 밖 세상을 경험할 수 있는 Playground를 제공하고, 수동적 학습에서 창조의 삶으로의 전환을 위한 새로운 라이프 스타일을 제시합니다.

Natural Language Processing80

[2023-2] 김민재 - CCNet: Extracting High Quality Monoligual https://paperswithcode.com/paper/ccnet-extracting-high-quality-monolingual Papers with Code - CCNet: Extracting High Quality Monolingual Datasets from Web Crawl Data Implemented in 2 code libraries. paperswithcode.com 1. Introduction 사전 학습된 텍스트 표현은 많은 자연어 처리 작업에서 성능 향상을 가져왔다. 트랜스포머와 BERT의 도입 이후 사전 학습된 모델의 품질이 꾸준히 향상되어 왔으며 이는 주로 사전 학습된 코퍼스의 크기가 커진 것에 따른 것이다. 그러나 크기가 커지는 것뿐만 아니라 데이터의 품질을 유지하는 것도 중.. 2023. 12. 2.
[2023-2] 양소정 - Improving Language Understanding by Generative Pre-Training https://cdn.openai.com/research-covers/language-unsupervised/language_understanding_paper.pdf Abstract 자연어 이해는 textual entailment, question answering, semantic similarity assessment, document classification 등 다양한 작업으로 구성됨 Unlabeled corpora는 풍부하지만, 이러한 특정 작업을 학습하기 위한 labeled corpora는 부족하여 모델이 차별적으로 학습하기 어려움 Open AI는 다양한 unlabeled text corpora에 기반한 GPT language 모델과 specific task 각각에 대한 fine-tuning.. 2023. 11. 28.
[2023-2] 김지원 - Recurrent Neural Network based language model(2010) # SML - 딥러닝 이전의 전통적인 Language Model - 딥러닝이 등장하기 전 전통적인 언어 모델이다. - 통계적 언어 모델로 SLM이라고 한다. - 해당 모델을 알기 전에 조건부 확률의 연쇄 법칙(Chain Rule)을 알아야 하는데 이는 아래 식과 같다. P(x_1,x_2,x_3,...x_n)=P(x_1)P(x_2|x_1)...P(x_n|x_1x_2...x_{n-1}) - 예를 들어 문장 “I like dogs and cats”을 생성할 때 해당 문장이 생성될 확률은 다음과 같다. P(I,like,dogs ,and, cats)=P(I)P(like|I)P(dogs|I,like)P(and|I,like,dogs)P(cats|I,like,dogs,and) - 이때 각 단어에 대한 확률은 카운트를 .. 2023. 11. 27.
[2023-2] 강민재 - Training language models to follow instructions with human feedback Training language models to follow instructions with human feedback Making language models bigger does not inherently make them better at following a user's intent. For example, large language models can generate outputs that are untruthful, toxic, or simply not helpful to the user. In other words, these models are not ali arxiv.org 0. Review of GPT Series GPT-1: Generative Pre-Training 레이블이 있는 .. 2023. 11. 25.