분류 전체보기163 [2025-1] 김경훈 - LATENT CONSISTENCY MODELS:SYNTHESIZING HIGH-RESOLUTION IMAGESWITH FEW-STEP INFERENCE 원본 논문 링크 : https://arxiv.org/pdf/2310.04378 블로그 작성일 : 2025.01.25(토) LCM(컨시스턴시 모델)은 생성 속도를 높이고자 하는 목적에서 출발한 모델로, 고해상도 이미지를 더 빠르게 생성하고자 하는 노력이 돋보입니다. 기존의 디퓨전 모델은 단계를 여러 번 거쳐 이미지를 생성하는데, LCM은 이러한 단계를 축소하여 빠르게 고품질 이미지를 얻고자 합니다.LCM은 역 디퓨전과정에서 수식을 통해 특정 부분을 대체함으로써 이미지 생성 속도를 향상시킵니다. 이는 기존의 미분 방정식을 푸는 과정을 더 효율적으로 처리함으로써 가능해졌습니다. 특히, probability flow 기반의 미분 방정식을 대체하여 학습을 가속화하고 높은 품질의 이미지를 빠르게 생성할 수 있.. 2025. 1. 25. [2025-1] 김민정 - LargeConceptModels: Language Modeling in a Sentence Representation Space 1. IntroductionLCM의 현황LLM : NLP의 표준 기술로 자리잡았으나, 토큰 수준에서 동작하며 인간처럼 다층적인 추론 및 창의적 콘텐츠 생성에는 한계 有암묵적으로 계층적 구조를 포함하고 있지만, 명백한 계층적 구조를 가진 모델이 일관된 장문의 출력을 만드는데 적합 인간은 단어 수준이 아닌, 개념적이고 추상적인 레벨에서 정보를 처리하고 생성하기에 명백한 계층적 구조를 가진 모델 필요 LCM의 목표LCM(Large Concept Models)은 "개념"을 중심으로 작동하며, 언어와 모달리티에 독립적인 구조를 가짐SONAR라는 문장 임베딩 공간을 활용하여 200개 언어의 텍스트와 76개 언어의 음성을 지원 기존 LLM과의 차별점현재 LLM들은 단순히 다음 토큰을 예측하지만, LCM은 계층적 정보.. 2025. 1. 25. [2025-1] 정인아 - CoCa: Contrastive Captioners are Image-Text Foundation Models https://arxiv.org/abs/2205.01917 CoCa: Contrastive Captioners are Image-Text Foundation ModelsExploring large-scale pretrained foundation models is of significant interest in computer vision because these models can be quickly transferred to many downstream tasks. This paper presents Contrastive Captioner (CoCa), a minimalist design to pretrain anarxiv.org Intro문제Captioning과 Contrastive Learnin.. 2025. 1. 25. [2025-1] 조환희 - SRCNN, ESRGAN 1. SRCNN (Image Super-Resolution Using Deep Convolutional Networks)Introduction컴퓨터 비전 분야에서, 하나의(single) 저해상도(low-resoultion) 이미지에서 고해상도(high-resoultion) 이미지로 복원하는 것은 전통적인 문제였습니다. 특히, 저해상도에서 고해상도로 바꾸는 것은 정답이 없는(ill-posed) 문제였습니다. 이렇게 정답이 없는 문제인 SR에 대해서, 지금까지의 전통적인 SOTA 기술들은 사전 지식을 통해 어느 정도 정답의 후보를 간추리려고 했습니다. 기존 방식첫번째로, example based 방식이 있습니다. 이 기술은 저해상도/고해상도 이미지 patch의 쌍을 매핑하는 함수를 학습시켜, 미리 딕셔너리 .. 2025. 1. 25. 이전 1 2 3 4 5 6 ··· 41 다음