본문 바로가기
  • 책상 밖 세상을 경험할 수 있는 Playground를 제공하고, 수동적 학습에서 창조의 삶으로의 전환을 위한 새로운 라이프 스타일을 제시합니다.

Natural Language Processing63

[2023-2] 김민재 - Unified Language Model Pre-training for Natural Language Understanding and Generation https://paperswithcode.com/paper/unified-language-model-pre-training-for Introduction Table 1에서 볼 수 있듯 각각 다른 종류의 예측 작업을 위해 ELMo, GPT, BERT 등의 여러 종류의 LM(Language Model)이 사용됨을 확인할 수 있음 이 논문에서 소개할 UniLM은 NLU(Natural Language Understading)와 NLG(Natural Language Generation)에 모두 사용 가능 UniLM은 다층의 Transformer network로 많은 양의 텍스트가 함께 pre-training 되었으며 Table 2에서 볼 수 있듯 3가지 유형의 비지도 LM 목표에 최적화됨 BERT가 NLU에 주로.. 2024. 2. 27.
[2023-2] 김민재 - CCpdf: Building a High Quality Corpus for Visually Rich Documents from Web Crawl Data https://arxiv.org/abs/2304.14953 Introduction GPT-3와 T5와 같은 모델은 대규모 텍스트 corpus를 활용한 사전 훈련을 통해 높은 성능을 보여주며, 이를 위해 Common Crawl과 같은 데이터 소스가 사용 이 논문의 목표는 language model의 pretraining을 위한 다양하고 다국어의 대규모 PDF 파일 corpus를 만드는 것 Common Crawl을 활용하여 PDF 파일의 색인 형태나 다운로드 스크립트를 공유하여 언어 모델 사전 훈련에 활용할 수 있는 CCpdf corpus를 제공 이를 통해 연구자들이 더 나은 다국어 언어 모델을 개발할 수 있는 기회를 제공 Related works 이 연구와 관련된 이전 연구들은 대부분 단일 도메인, 단일 .. 2024. 2. 13.
[2023-2] 백승우 - LORA: LOW-RANK ADAPTATION OF LARGE LANGUAGE MODELS LoRA: Low-Rank Adaptation of Large Language Models An important paradigm of natural language processing consists of large-scale pre-training on general domain data and adaptation to particular tasks or domains. As we pre-train larger models, full fine-tuning, which retrains all model parameters, becomes le arxiv.org 0. Abstrct 대규모 모델을 사전 학습할수록 모든 모델 파라미터를 재학습하는 전체 미세 조정은 실현 가능성이 낮아진다. 사전 학습된 모델 .. 2024. 2. 13.
[2023-2] 양소정 - GPT4Table: Can Large Language Models Understand Structured Table Data? A Benchmark and Empirical Study https://arxiv.org/pdf/2305.13062.pdf Abstract 이 논문에서는 대형 언어 모델(Large Language Models, LLMs)이 구조화된 데이터, 특히 테이블과 같은 데이터를 얼마나 이해하는지에 대한 연구를 진행하고자 한다. 테이블은 LLMs에 직렬화(serialization)를 통해 입력으로 사용될 수 있지만, 이러한 데이터를 LLMs가 실제로 이해할 수 있는지에 대한 포괄적인 연구가 부족하다. 논문에서는 LLMs의 구조적 이해 능력(Structural Understanding Capabilities, SUC)을 평가하기 위한 벤치마크를 설계하였고, 이를 통해 GPT-3.5와 GPT-4에 대한 일련의 평가를 실시한다. 벤치마크에는 셀 조회, 행 검색 및 크기 감지와.. 2024. 1. 29.