본문 바로가기
  • 책상 밖 세상을 경험할 수 있는 Playground를 제공하고, 수동적 학습에서 창조의 삶으로의 전환을 위한 새로운 라이프 스타일을 제시합니다.

전체 글416

[2026-1] 김지원 - Denoising Diffusion Probabilistic Models 논문 소개 : Denoising Diffusion Probabilistic Models (DDPM)Jonathan Ho, Ajay Jain, Pieter Abbeel (UC Berkeley) · NeurIPS 2020arXiv: 2006.11239 · 공식 구현들어가며요즘 이미지 생성의 표준이 되어버린 디퓨전 모델, 그 출발점이 된 논문임. 사실 디퓨전 모델 자체는 2015년 Sohl-Dickstein et al.이 비평형 열역학(nonequilibrium thermodynamics)에서 아이디어를 빌려와 처음 제안했음. 다만 그때까진 "정의는 깔끔하고 학습도 잘 되는데, 정작 고품질 샘플을 만들어낸 적은 없는" 모델이었음.이 논문의 기여를 한 줄로 요약하면 이렇게 정리됨.디퓨전 모델이 실제로 GAN급,.. 2026. 6. 12.
[2026-1] 이루가 - InstructPix2Pix: Learning to Follow Image Editing Instructions 논문링크: https://arxiv.org/abs/2211.09800 InstructPix2Pix: Learning to Follow Image Editing InstructionsWe propose a method for editing images from human instructions: given an input image and a written instruction that tells the model what to do, our model follows these instructions to edit the image. To obtain training data for this problem, we combine thearxiv.org Abstract목표입력 이미지와 사용자의 자연어 지시를 .. 2026. 6. 12.
[2026-1] 백승우 - How Mobile World Model Guides GUI Agents? How Mobile World Model Guides GUI Agents?Recent advances in vision-language models have enabled mobile GUI agents to perceive visual interfaces and execute user instructions, but reliable prediction of action consequences remains critical for long-horizon and high-risk interactions. Existing mobiarxiv.org 2026. 5. 19.
[2026-1] 백승우 - Agent+P: Guiding UI Agents via Symbolic Planning Agent+P: Guiding UI Agents via Symbolic PlanningLarge Language Model (LLM)-based UI agents show great promise for UI automation but often hallucinate in long-horizon tasks due to their lack of understanding of the global UI transition structure. To address this, we introduce AGENT+P, a novel framework tarxiv.org 2026. 5. 19.