전체 글313 [2025-1] 박서형 - UNIFORMER https://arxiv.org/pdf/2201.04676 0. Abstract 고차원 비디오로부터 풍부하고 다중 스케일의 시공간 의미를 학습하는 것은 어려운 과제이다. 비디오 프레임 간에 지역적 중복이 크고, 전역적인 의존성이 복잡하기 때문이다. 이 연구 분야의 최근 발전은 주로 3D CNN과 vision transformer에 의해 이루어졌는데 3D CNN은 멀리 있는 프레임 간 global 정보는 잘 보지 못하고 vision transformer는 가까운 프레임 사이의 지역적인 중복은 잘 제거하지 못한다. 본 논문은 위 두 방식을 적절히 섞은 UNIFORMER라는 모델을 제안하는데 이 모델은 얕은 layer에서는 3D 합성곱처럼 지역 정보를 잘 처리하고 깊은 layer에서는 트랜스포머처럼 glo.. 2025. 7. 12. [2025-2] 황징아이 - Big Self Supervised Models Advance Medical Image Classifications 논문 : https://arxiv.org/pdf/2101.05224 Introduction본 논문은 Self Supervised Learning의 방법중 SimCLR을 활용하여 의료 이미지 분류 성능을 향상 시키는 논문입니다.Self-Supervised Learning은 데이터에 라벨을 부여하지 않고도 학습이 가능하다는 점에서 라벨링 비용이 높은 의료 분야에서 특히 더 강점을 드러낸다. SSL는 그동안 일반 이미지 도메인에서 많이 연구 되어 왔지만 본 논문은 SSL을 의료 도메인에 적용했다는 점에서 의미가 있고 기존 Supervised Learning 방식보다 효율적이고 좋은 일반화 성능을 보여줬다. 3단계의 학습 파이프라인을 제안한다 :ImageNet 기반 Self-Supervised Pretraini.. 2025. 7. 12. [2025-2] 전연주 - MaeTok: Masked Autoencoders Are Effective Tokenizers for Diffusion Models 논문 링크: arxiv.org/pdf/2502.03444깃허브 링크: Hhhhhhao/continuous_tokenizer GitHub - Hhhhhhao/continuous_tokenizerContribute to Hhhhhhao/continuous_tokenizer development by creating an account on GitHub.github.com허깅페이스 링크: MAETok/maetok-b-128 · Hugging Face MAETok/maetok-b-128 · Hugging FaceThis model has been pushed to the Hub using the PytorchModelHubMixin integration: Library: [More Information Need.. 2025. 7. 12. [2025-1] 임준수 - Self-Adapting Language Models https://arxiv.org/abs/2506.10943 Self-Adapting Language ModelsLarge language models (LLMs) are powerful but static; they lack mechanisms to adapt their weights in response to new tasks, knowledge, or examples. We introduce Self-Adapting LLMs (SEAL), a framework that enables LLMs to self-adapt by generating their ownarxiv.org Abstract기존의 대형 언어 모델(LLM)은 강력하지만 정적(static)이며 새로운 작업이나 지식에 즉각적으로 적응하는 능.. 2025. 7. 10. 이전 1 2 3 4 5 ··· 79 다음