Speech2 [2026-1] 김지원 - WAVENET: A GENERATIVE MODEL FOR RAW AUDIO 논문 제목: WAVENET: A GENERATIVE MODEL FOR RAW AUDIO논문 링크: https://arxiv.org/pdf/1609.03499논문 인용수: 7000회+(26.01.28 기준)논문 정보: WaveNet은 2016년 Google DeepMind에서 발표한 획기적인 음성 생성 모델임. 기존의 음성 합성이 "음성의 특징을 추출하고 재조합"하는 방식이었다면, WaveNet은 오디오 파형 자체를 샘플 단위로 직접 생성함.1. 배경 지식: 오디오 신호와 음성 합성의 이해1.1 디지털 오디오의 기초소리는 공기의 진동으로, 본래 연속적인 아날로그 신호임. 이를 컴퓨터에서 처리하려면 두 가지 과정이 필요함.샘플링 (Sampling)연속 신호를 일정 간격으로 측정하여 이산적인 값들로 변환함.샘.. 2026. 1. 28. [2023-2] 현시은 - Music Transformer: Generating Music with Long-Term Structure (ICLR19) 원본 논문 링크 : https://arxiv.org/abs/2112.10752 High-Resolution Image Synthesis with Latent Diffusion Models By decomposing the image formation process into a sequential application of denoising autoencoders, diffusion models (DMs) achieve state-of-the-art synthesis results on image data and beyond. Additionally, their formulation allows for a guiding mechanism t arxiv.org Abstract 많은 사람들 머신러닝 알고리즘을.. 2023. 11. 26. 이전 1 다음