분류 전체보기90 [2023-2] 김경훈 - Mask R-CNN 원본 논문 링크 : https://arxiv.org/abs/1703.06870 Mask R-CNN We present a conceptually simple, flexible, and general framework for object instance segmentation. Our approach efficiently detects objects in an image while simultaneously generating a high-quality segmentation mask for each instance. The method, called arxiv.org Introduction 이번 포스팅에서는 Mask R-CNN에 대해 소개하려고 합니다. Mask R-CNN은 주로 인스턴스 분할 작업에 사.. 2024. 2. 20. [2023-2] 염제원 - Topology of Learning in Artificial Neural Networks https://arxiv.org/abs/1902.08160 Topology of Learning in Artificial Neural Networks Understanding how neural networks learn remains one of the central challenges in machine learning research. From random at the start of training, the weights of a neural network evolve in such a way as to be able to perform a variety of tasks, like classif arxiv.org Abstract Neural Network의 학습과정을 Topological Data.. 2024. 2. 19. [2023-2] 양소정 - KOSMOS-G: Generating Images in Context with Multimodal Large Language Models Figure 1 KOSMOS-G는 입력된 이미지를 “외국어”로 간주하며 여러 이미지를 포함하는 일반화된 비전-언어 입력을 이해하고 이미지를 생성하는 능력을 가지고 있음. Abstract 최근 텍스트에서 이미지로의 변환 (T2I, text-to-image) 및 비전-언어에서 이미지로의 생성 (VL2I, vision-language-to-image) 분야에서 상당한 발전이 있었음. 특히 여러 이미지를 포함하는 일반화된 비전-언어 입력에서의 생성은 미개척된 분야임. 본 논문에서는 MLLMs(Multimodal Large Language Models)의 고급 지각 능력을 활용하여 이러한 도전 과제에 대처하는 KOSMOS-G 모델을 제안함. KOSMOS-G는 제로샷 다중 개체 주체 구동 생성(zero-shot m.. 2024. 2. 19. [2023-2] 김민재 - CCpdf: Building a High Quality Corpus for Visually Rich Documents from Web Crawl Data https://arxiv.org/abs/2304.14953 Introduction GPT-3와 T5와 같은 모델은 대규모 텍스트 corpus를 활용한 사전 훈련을 통해 높은 성능을 보여주며, 이를 위해 Common Crawl과 같은 데이터 소스가 사용 이 논문의 목표는 language model의 pretraining을 위한 다양하고 다국어의 대규모 PDF 파일 corpus를 만드는 것 Common Crawl을 활용하여 PDF 파일의 색인 형태나 다운로드 스크립트를 공유하여 언어 모델 사전 훈련에 활용할 수 있는 CCpdf corpus를 제공 이를 통해 연구자들이 더 나은 다국어 언어 모델을 개발할 수 있는 기회를 제공 Related works 이 연구와 관련된 이전 연구들은 대부분 단일 도메인, 단일 .. 2024. 2. 13. 이전 1 ··· 12 13 14 15 16 17 18 ··· 23 다음