본문 바로가기
  • 책상 밖 세상을 경험할 수 있는 Playground를 제공하고, 수동적 학습에서 창조의 삶으로의 전환을 위한 새로운 라이프 스타일을 제시합니다.

Natural Language Processing65

[2025-1] 김민정 - LargeConceptModels: Language Modeling in a Sentence Representation Space 1. IntroductionLCM의 현황LLM : NLP의 표준 기술로 자리잡았으나, 토큰 수준에서 동작하며 인간처럼 다층적인 추론 및 창의적 콘텐츠 생성에는 한계 有암묵적으로 계층적 구조를 포함하고 있지만, 명백한 계층적 구조를 가진 모델이 일관된 장문의 출력을 만드는데 적합 인간은 단어 수준이 아닌, 개념적이고 추상적인 레벨에서 정보를 처리하고 생성하기에 명백한 계층적 구조를 가진 모델 필요 LCM의 목표LCM(Large Concept Models)은 "개념"을 중심으로 작동하며, 언어와 모달리티에 독립적인 구조를 가짐SONAR라는 문장 임베딩 공간을 활용하여 200개 언어의 텍스트와 76개 언어의 음성을 지원 기존 LLM과의 차별점현재 LLM들은 단순히 다음 토큰을 예측하지만, LCM은 계층적 정보.. 2025. 1. 25.
[2025-1] 박지원 - GPT-NeoX-20B: An Open-Source Autoregressive Language Model GPT-Neo 논문) https://arxiv.org/abs/2204.06745 개요 : GPT-NeoX-20B는 어떤 모델인가200억 개의 파라미터로 구성된 오픈 소스 자동 회귀 언어 모델자연어 처리에 매우 효과적이며, 특히 few-shot 학습에서 좋은 성능을 보임weight, model source 등이 모두 공개되어 있다!모델 설계 및 구현GPT-3의 구조를 참고하여 설계된 구조2-1. GPT-3과의 차이(GPT-J도 참고하였으나, 공개된 게 GPT-3뿐이라 이를 비교함. 좌측이 GPT-3, 우측이 Neo)매개변수 수1750억200억층 수9644숨은 차원 크기122886144헤드 수9664위치 임베딩trained 임베딩로타리 임베딩계산방식직렬계산병렬계산44개 layer // 6144의 hidden.. 2025. 1. 23.
[2025-1] 백승우 - Speculative RAG: Enhancing Retrieval Augmented Generation through Drafting Speculative RAG: Enhancing Retrieval Augmented Generation through DraftingRetrieval augmented generation (RAG) combines the generative abilities of large language models (LLMs) with external knowledge sources to provide more accurate and up-to-date responses. Recent RAG advancements focus on improving retrieval outcomes througharxiv.org0. AbstractRAG는 LLM의 생성 기능과 외부 지식을 결합하여 답변을 제공한다. 최근 RAG는 반복.. 2025. 1. 22.
[2025-1] 정유림 - NV-Embed : Improved Techniques for Training Decoder Models for General Text Embeddings 논문 개요논문 제목: NV-Embed: Improved Techniques for Training Decoder Models for General Text Embeddings게재 연도: 2024년인용 횟수: 2025.01.10 기준 54회 인용주요 성과:디코더 모델의 representation 성능 한계 극복(Decoder 기반 text embedding model)MTEB leader board에서 SOTA 달성(2024.05.22 기준 MTEB 결과 SOTA)DOI: https://doi.org/10.48550/arXiv.2405.174282. 연구 배경Decoder model의 한계:기존 디코더 기반 모델은 단방향(Unidirectional) Attention을 사용하여 Representation .. 2025. 1. 10.