전체 글301 [2024-1] 박태호 - Visual Question Answering https://arxiv.org/abs/1505.00468 VQA: Visual Question Answering We propose the task of free-form and open-ended Visual Question Answering (VQA). Given an image and a natural language question about the image, the task is to provide an accurate natural language answer. Mirroring real-world scenarios, such as helping the arxiv.org 초록 free-form and open-ended task의 해결 방식으로 VQA를 제안한다. VQA는 image와 na.. 2024. 3. 19. [2024-1] 염제원 - HAE-RAE Bench: Evaluation of Korean Knowledge in Language Models https://arxiv.org/abs/2309.02706 HAE-RAE Bench: Evaluation of Korean Knowledge in Language Models Large Language Models (LLMs) trained on massive corpora demonstrate impressive capabilities in a wide range of tasks. While there are ongoing efforts to adapt these models to languages beyond English, the attention given to their evaluation methodologies r arxiv.org Abstract LLM 모델을 비영어권에 적용하려는 시도가 .. 2024. 3. 18. [2024-1] 백승우 - VATT: Transformers for Multimodal Self-Supervised Learning from Raw Video, Audio and Text VATT: Transformers for Multimodal Self-Supervised Learning from Raw Video, Audio and Text We present a framework for learning multimodal representations from unlabeled data using convolution-free Transformer architectures. Specifically, our Video-Audio-Text Transformer (VATT) takes raw signals as inputs and extracts multimodal representations t arxiv.org 1. Abstract VATT는 트랜스포머 아키텍처를 사용해, 레이블이 없.. 2024. 3. 4. [2023-2] 백승우 - ImageNet Classification with Deep Convolutional Neural Networks https://papers.nips.cc/paper_files/paper/2012/hash/c399862d3b9d6b76c8436e924a68c45b-Abstract.html 1. Introduction - AlexNet 이전의 객체 인식 모델은 대부분 고전적인 ML 모델 - 수만개 정도의 작은 데이터셋(NORB, Caltech-101/256, CIFAR-10/100)을 사용 - 수십만 개의 완전 분할 된 이미지로 구성된 LabelMe 등장 - 1500만 개 이상의 고해상도 이미지로 구성된 ImageNet 등장 - 등장한 데이터셋을 처리하기 위해, 높은 학습 역량을 가진 모델 필요 - 사용되지 않은 데이터에 대해서 추론을 할 수 있는 사전 지식을 담아내야 함 → 이에 논문은 컨볼루션 신경망(CNN) 모델.. 2024. 2. 28. 이전 1 ··· 63 64 65 66 67 68 69 ··· 76 다음