본문 바로가기
  • 책상 밖 세상을 경험할 수 있는 Playground를 제공하고, 수동적 학습에서 창조의 삶으로의 전환을 위한 새로운 라이프 스타일을 제시합니다.

전체 글75

[2024-1] 백승우 - VATT: Transformers for Multimodal Self-Supervised Learning from Raw Video, Audio and Text VATT: Transformers for Multimodal Self-Supervised Learning from Raw Video, Audio and Text We present a framework for learning multimodal representations from unlabeled data using convolution-free Transformer architectures. Specifically, our Video-Audio-Text Transformer (VATT) takes raw signals as inputs and extracts multimodal representations t arxiv.org 1. Abstract VATT는 트랜스포머 아키텍처를 사용해, 레이블이 없.. 2024. 3. 4.
[2023-2] 백승우 - ImageNet Classification with Deep Convolutional Neural Networks https://papers.nips.cc/paper_files/paper/2012/hash/c399862d3b9d6b76c8436e924a68c45b-Abstract.html 1. Introduction - AlexNet 이전의 객체 인식 모델은 대부분 고전적인 ML 모델 - 수만개 정도의 작은 데이터셋(NORB, Caltech-101/256, CIFAR-10/100)을 사용 - 수십만 개의 완전 분할 된 이미지로 구성된 LabelMe 등장 - 1500만 개 이상의 고해상도 이미지로 구성된 ImageNet 등장 - 등장한 데이터셋을 처리하기 위해, 높은 학습 역량을 가진 모델 필요 - 사용되지 않은 데이터에 대해서 추론을 할 수 있는 사전 지식을 담아내야 함 → 이에 논문은 컨볼루션 신경망(CNN) 모델.. 2024. 2. 28.
[2023-2] 김민재 - Unified Language Model Pre-training for Natural Language Understanding and Generation https://paperswithcode.com/paper/unified-language-model-pre-training-for Introduction Table 1에서 볼 수 있듯 각각 다른 종류의 예측 작업을 위해 ELMo, GPT, BERT 등의 여러 종류의 LM(Language Model)이 사용됨을 확인할 수 있음 이 논문에서 소개할 UniLM은 NLU(Natural Language Understading)와 NLG(Natural Language Generation)에 모두 사용 가능 UniLM은 다층의 Transformer network로 많은 양의 텍스트가 함께 pre-training 되었으며 Table 2에서 볼 수 있듯 3가지 유형의 비지도 LM 목표에 최적화됨 BERT가 NLU에 주로.. 2024. 2. 27.
[2023-2] 백승우 - 🦩 Flamingo: a Visual Language Model for Few-Shot Learning Flamingo: a Visual Language Model for Few-Shot Learning Building models that can be rapidly adapted to novel tasks using only a handful of annotated examples is an open challenge for multimodal machine learning research. We introduce Flamingo, a family of Visual Language Models (VLM) with this ability. We propo arxiv.org 0. Abstract Flamingo의 주요 아키텍쳐 발전 (1) 사전 학습된 강력한 시각 전용 모델과 언어 전용 모델을 연결 (2) .. 2024. 2. 23.