분류 전체보기374 [2026-1] 백승우 - UICOMPASS: UI Map Guided Mobile Task Automation via Adaptive Action Generation UICOMPASS: UI Map Guided Mobile Task Automation via Adaptive Action GenerationYuanzhang Lin, Zhe Zhang, He Rui, Qingao Dong, Mingyi Zhou, Jing Zhang, Xiang Gao, Hailong Sun. Proceedings of the 2025 Conference on Empirical Methods in Natural Language Processing. 2025.aclanthology.org 2026. 1. 28. [2026-1] 김지원 - WAVENET: A GENERATIVE MODEL FOR RAW AUDIO 논문 제목: WAVENET: A GENERATIVE MODEL FOR RAW AUDIO논문 링크: https://arxiv.org/pdf/1609.03499논문 인용수: 7000회+(26.01.28 기준)논문 정보: WaveNet은 2016년 Google DeepMind에서 발표한 획기적인 음성 생성 모델임. 기존의 음성 합성이 "음성의 특징을 추출하고 재조합"하는 방식이었다면, WaveNet은 오디오 파형 자체를 샘플 단위로 직접 생성함.1. 배경 지식: 오디오 신호와 음성 합성의 이해1.1 디지털 오디오의 기초소리는 공기의 진동으로, 본래 연속적인 아날로그 신호임. 이를 컴퓨터에서 처리하려면 두 가지 과정이 필요함.샘플링 (Sampling)연속 신호를 일정 간격으로 측정하여 이산적인 값들로 변환함.샘.. 2026. 1. 28. [2026-1] 백승우 - The Evolution of Human-Like Computer-Using Agents From Perception to Command UFO: A UI-Focused Agent for Windows OS InteractionWe introduce UFO, an innovative UI-Focused agent to fulfill user requests tailored to applications on Windows OS, harnessing the capabilities of GPT-Vision. UFO employs a dual-agent framework to meticulously observe and analyze the graphical user interfacearxiv.org UFO2: The Desktop AgentOSRecent Computer-Using Agents (CUAs), powered by multimod.. 2026. 1. 21. [2025-2] 김지은 - DN-DETR: Accelerate DETR Training by Introducing Query DeNoising 본 글에서는 DETR(ECCV 2020)의 bipartite matching 기반 학습 과정에서 발생하는 수렴 속도 문제를 개선하기 위해 제안된 DN-DETR(CVPR 2022)을 살펴본다. 1. Introduction2020년 제안된 DETR은 기존 객체 탐지 파이프라인에서 필수적으로 사용되던 anchor 설계, proposal 생성, NMS 등의 복잡성을 제거하고, 객체 탐지를 end-to-end 방식으로 최적화한 모델이다. [ ⚠️ DETR의 한계 ] - 느린 학습 수렴 속도 그러나 이 구조적 단순성에도 불구하고, DETR은 기존 CNN 기반 탐지기들에 비해 학습 수렴 속도가 현저히 느리다는 한계를 가진다.예를 들어, COCO detection dataset에서 기존 Faster R-CNN이 약 1.. 2026. 1. 17. 이전 1 2 3 4 ··· 94 다음