본문 바로가기
  • 책상 밖 세상을 경험할 수 있는 Playground를 제공하고, 수동적 학습에서 창조의 삶으로의 전환을 위한 새로운 라이프 스타일을 제시합니다.

Natural Language Processing64

[2025-1] 정유림 - MTEB: Massive Text Embedding Benchmark 1. 논문 개요논문 제목: MTEB: Massive Text Embedding Benchmark게재 연도: 2022 (arXiv:2210.07316)인용 횟수: 2025.04.06 기준 739회 인용.주요 성과:텍스트 임베딩 모델의 평가 한계를 극복하기 위해 8개 Task(Clustering, Classification, Retrieval 등)를 포괄하는 벤치마크 제시총 58개 데이터셋과 112개 언어를 포함하여 단일 평가 프레임워크 내에서 다양한 실제 사용 사례 반영모델 성능뿐만 아니라, latency(지연 시간) 및 임베딩 크기와의 trade-off 분석을 통한 효율성 평가 제공2. 연구 배경 및 필요성Text Embedding의 정의 및 활용:텍스트 데이터를 수치 벡터로 변환하여 NLP 작업(Clu.. 2025. 4. 6.
[2025-1] 김지원 - Forecasting price movements using technical indicators: Investigatingthe impact of varying input window length 논문 제목:  Forecasting price movements using technical indicators: Investigatingthe impact of varying input window length논문 인용수: 237회논문 정보 : Neurocomputing 저널에 2017년 개제된 논문논문 링크: https://www.sciencedirect.com/science/article/pii/S0925231217311074 1. 소개머신러닝/딥러닝을 활용한 Financial forecasting은 입력 feature로 Techniqal Indicator(TI)들을 사용한다.여기서 말하는 TI란 주식 시장에서 차트 분석에 많이 사용되는 지표들인데 예를 들어 RSI, MA, EMA, ATR, ADM.. 2025. 3. 30.
[2025-1] 이루가 - GloVe: Global Vectors for Word Representation 논문 링크: https://nlp.stanford.edu/pubs/glove.pdf Abstract: Glove 모델은 의미 있는 하위 구조를 갖춘 벡터 공간을 생성하며 최근의 단어 유추(word analogy) 작업에서 75%의 정확도를 달성함으로써 입증된다. 또한 단어 유사성 및 개체명 인식(NER) 작업에서도 관련 모델보다 우수한 성능을 보인다. 1. Introduction의미론적 벡터 공간 모델은 언어에서 각 단어를 실수 값 벡터로 표현 → 정보 검색, 문서 분류, 질의 응답, 개체명 인식, 구문분석 등의 다양한 작업에서 기능적 요소로 사용됨대부분의 단어 벡터 방법은 벡터 쌍 간의 거리 또는 각도를 주요 평가 기준으로 삼지만 최근 단어 벡터 공간의 세부 구조를 조사하기 위해 단어 유추(word a.. 2025. 3. 29.
[2025-1] 정유림 - GNN (GCN, GraphSAGE, GAT) PaperGCN : https://arxiv.org/abs/1609.02907GraphSAGE :https://arxiv.org/abs/1706.02216GAT : https://arxiv.org/pdf/1710.10903 1. 그래프 데이터 기본 개념그래프는 노드(Vertex)와 엣지(Edge) 로 이루어지며, 이를 수학적으로 다음과 같이 표현합니다.인접 행렬 (Adjacency Matrix), 노드 간 연결 관계를 나타냄.노드의 특징 행렬 (Feature Matrix), 각 노드의 feature 값을 포함. (초기 Feature가 GNN을 거치면서 학습되고, 최종적으로 Embedding이 됩니다.)  2. 그래프로 표현할 수 있는 데이터 예시분자 구조: 원자들이 노드, 결합이 엣지로 표현됨.소셜 네트.. 2025. 3. 16.