CV149 [2025-1] 박지원 - InternVL Abstract (초록)InternVL은 60억 개의 파라미터를 가진 비전 인코더(이미지를 다루는 부분)와 80억 개의 파라미터를 가진 언어 미들웨어(언어를 다루는 부분)로 구성된 대규모 vision-language foundation 모델이다.이 모델은 웹에서 수집한 방대한 양의 이미지와 텍스트 데이터를 점진적으로 정렬하며 학습함으로써, 다양한 그림-글 관련 작업에서 성능과 효율을 극대화한 바 있으며 챗봇처럼 사람과 대화하는 기능에서도 뛰어난 성능을 보인다. 또 여러 그림-글 처리 작업에 유연하게 활용될 수 있는 구조를 가지고 있고 특히 다국어 언어 모델(LLaMA)을 언어 미들웨어 초기값으로 활용함으로써, 그림을 보는 능력과 말을 이해하는 능력 사이의 균형을 맞추고 표현 간 일관성을 확보했다는 장점이.. 2025. 4. 3. [2025-1] 박서형 - SadTalker: Learning Realistic 3D Motion Coefficients for Stylized Audio-DrivenSingle Image Talking Face Animation https://arxiv.org/abs/2211.12194 SadTalker: Learning Realistic 3D Motion Coefficients for Stylized Audio-Driven Single Image Talking Face AnimationGenerating talking head videos through a face image and a piece of speech audio still contains many challenges. ie, unnatural head movement, distorted expression, and identity modification. We argue that these issues are mainly because of learning fro.. 2025. 3. 29. [2025-1] 이재호 - 3D Gaussian Splatting for Real-Time Radiance Field Rendering https://arxiv.org/pdf/2308.04079 - Bernhard Kerbl, Georgios Kopanas, Thomas Leimkuhler, George Drettakis Abstract기존 Radiance Field (NeRF) 기반 방법은 고화질 뷰 합성은 가능하지만, 느리고 무거운 학습 비용과 실시간 렌더링 불가라는 한계가 있음.본 논문은 1080p 해상도에서 30fps 이상의 실시간 렌더링과 SOTA 수준의 화질을 동시에 달성하기 위해 다음 세 가지 핵심 요소를 도입:3D Gaussian Representation카메라 캘리브레이션으로 얻은 sparse point로 초기화불필요한 빈 공간의 계산을 줄이고 연속적인 radiance field의 장점을 유지Interleaved Opti.. 2025. 3. 29. [2025-1] 김유현 - Improved Training of Wasserstein GANs https://arxiv.org/abs/1704.00028 Improved Training of Wasserstein GANsGenerative Adversarial Networks (GANs) are powerful generative models, but suffer from training instability. The recently proposed Wasserstein GAN (WGAN) makes progress toward stable training of GANs, but sometimes can still generate only low-quality samplarxiv.org 0. AbstractGAN은 강력한 생성 모델이지만 학습 불안정성이 문제이다. WGAN은 학습 안정성을 개선했지.. 2025. 3. 22. 이전 1 ··· 7 8 9 10 11 12 13 ··· 38 다음