Miscellaneous

[2025-1] Graph neural networks for single-cell omics data: a review of approaches and applications

urmu 2025. 7. 27. 12:24

Title: Graph neural networks for single-cell omics data: a review of approaches and applications

Published in: Briefings in Bioinformatics, 2025, Vol. 26(2), bbaf109

DOI: 10.1093/bib/bbaf109

논문링크 : https://academic.oup.com/bib/article/26/2/bbaf109/8080373

한 줄 요약 : GNN(Graph Neural Network)로 single cell omics data를 더 잘 분석할 수 있다.

 


Single Cell Omics Data란?

1. Single Cell (단일세포)

  • 인체는 여러 조직으로 이루어져 있고, 그 조직은 수많은 세포로 구성되어 있음
  • 기존에는 조직 단위(벌크)로 유전자 데이터를 분석했지만, 이제는 한 개의 세포 수준(single-cell resolution)으로 분석 가능
  • 개별 세포마다 유전자 발현 상태, 염색질 구조, 단백질 양 등이 다름
  • 이렇게 세포 하나하나에서 얻은 데이터를 single cell data라고 함

2. Omics (오믹스)

  • 생물학적 정보를 전 범위적으로 포괄하는 분석 분야를 지칭하는 접미사
  • 종류:
    • scRNA-seq: 단일세포 유전자 발현 (transcriptomics)
    • scATAC-seq: 염색질 접근성 (chromatin accessibility)
    • scDNAm: DNA 메틸화 (epigenomics)
    • scHi-C: 3D 염색체 구조 (chromosome conformation)
    • spatial transcriptomics: 세포 위치 기반 유전자 발현
    • proteomics: 단백질 발현

→ 이런 여러 층위의 생물학적 정보를 아우르기 때문에 "omics"라 부름

왜 중요한가? (Single-cell omics의 장점)

  • 세포 간 이질성(heterogeneity) 분석 가능
    → 암세포와 정상세포가 어떻게 다르게 행동하는지 파악
  • 희귀 세포 집단 탐지
    → 질병 초기에 존재하는 소수 세포를 포착
  • 세포–세포 간 상호작용 추론
    → 면역세포가 종양세포와 어떻게 커뮤니케이션하는지 예측 가능
  • 유전자–유전자 간 조절 관계 분석
    → 유전자 네트워크 구조 해석 (e.g., 전사 조절)

Single-cell omics 데이터의 단점

Noise 측정 오류 또는 생물학적 변동성에 의해 신호가 불안정함
Sparsity 많은 유전자에서 발현값이 0 (dropout 현상)
고차원성 수천~수만 개의 feature가 존재해 해석이 어렵고 계산량이 큼

 


 

Graph를 이용하는 이유

이런 생물학적인 context에서는

  • 세포와 세포의 상호작용, 유사성
  • 유전자와 유전자 사이의 상호작용, 유사성

이 중요하다.

이때 이런 관계는 단순한 Euclidean space에 존재하는게 아니기때문에 복잡한 관계로 존재하는데,

GNN은 non-Euclidean structure를 다룰 수 있기때문에 적합하다.

 

Graph 데이터의 특징

Figure 1: Euclidean vs. Non-Euclidean Data

  • 1D 데이터 (예: 텍스트)
    • 순서가 정해져 있음 (linear structure)
    • 예: "I love GNNs" → 순차적으로 처리 가능
    • RNN, 1D CNN 등 사용
  • 2D 데이터 (예: 이미지)
    • 고정된 격자(grid) 구조
    • CNN이 국소 영역(edge, corner 등)에서 특징 추출
  • Graph 데이터
    • 노드(node)와 엣지(edge)로 구성
    • 이웃 노드 수나 연결 구조가 일정하지 않음
    • 메시지 전달(message passing) 기반 학습 필요
    • GNN은 이처럼 유동적이고 복잡한 연결 관계를 다룰 수 있는 프레임워크

텍스트(1D), 이미지(2D) 같은 전통적인 딥러닝 입력은 Euclidean 공간에 정의되어 있는 반면, 그래프(graph)는 Non-Euclidean 공간 구조에 존재한다는 점에서 본질적으로 다르다


GNN의 다양한 종류

Figure 2: 주요 GNN 아키텍처 개요

GCN 평균화된 이웃 정보 연산이 간단하지만 global context 부족
GraphSAGE 샘플링 기반 aggregation large-scale graph에 적합
GAT attention 가중치 학습 이웃 중요도 반영 가능
GTN 그래프 + Transformer 스타일 heterogeneous/multi-relational graph에 강력
GAE/VGAE autoencoder 구조 비지도 학습 (embedding, imputation)
MPNN message passing generalization 다양한 변형 가능

(a) GCN (Graph Convolutional Network)

  • 전체 노드의 이웃 정보를 aggregate하고
  • weight matrix와 활성화 함수(예: ReLU)를 거쳐
  • node classification, graph classification 등의 task로 연결됨
  • 일반적인 pipeline 구조:
  • 입력 → GCN 레이어 → 활성화 → 풀링 → 출력

(b), (c) GraphSAGE

이웃이 너무 많아도 학습이 가능하도록 "neighbor sampling"을 도입한 GNN

  • (b): 각 노드마다 고정된 수의 이웃을 샘플링 (e.g., 10개)
  • (c): 샘플링된 이웃의 feature를 평균, LSTM, max 등 aggregation function으로 통합
  • 장점: 대규모 그래프에서의 확장성 (scalability) 확보

(d) GAT (Graph Attention Network)

이웃 간 중요도를 학습된 attention score로 가중합

  • 노드 v가 이웃 u로부터 정보를 받아올 때,→ 더 중요한 이웃에게 더 많은 영향을 부여
  • 이웃마다 가중치를 학습함
  • 구조:
  • feature concatenation → attention layer → softmax → weighted sum

(e) VGAE (Variational Graph Autoencoder)

비지도(unsupervised) 방식으로 노드 임베딩을 학습하고

그래프 구조 자체를 복원하는 모델

  • Encoder: GCN 등을 통해 노드를 latent vector로 임베딩
  • Decoder: 두 노드 간 내적 또는 MLP로 edge 존재 여부 복원
  • Loss: Variational loss (KL divergence + reconstruction loss)

활용: 네트워크 복원, 노드 임베딩, feature 추출 등에 적합

 


single cell omics에서 GNN의 활용

GNN이 다양한 단일세포 오믹스(scRNA-seq, scATAC-seq, spatial transcriptomics 등)에 어떻게 적용되었는지를 기능별로 분류한 overview

 

a. GNN variant별 사용 비율 요약 : GCN이 가장 널리 쓰이며, GAT/GAE/VGAE도 다수 사용됨 b. 오믹스별 GNN 모델 응용 분포 요약 : Transcriptomics 중심으로 clustering/imputation에 주로 사용됨

 

single cell omics data별 GNN 활용 툴

1. Epigenomics

1.1 Chromatin Accessibility (scATAC-seq)

Task: Cell type identification
요약:

  • 세포 간 발현 유사도 또는 cross-omics (scRNA–scATAC) 유사성을 기반으로 hybrid graph 생성
  • 다른 omics (scRNA-seq)의 레이블 정보를 활용해 cross-modal label transfer를 수행하거나
  • 동일 omics 내에서 peak-level 또는 sequence-level feature를 활용하여 세포 임베딩을 학습

대표 모델:

  • scGCN: scRNA-seq을 참조 데이터로 활용한 label transfer
  • HyGAnno: gene-level과 peak-level feature 병합
  • SANGO: peak sequence로부터 CNN + GTN 기반 예측

1.2 DNA Methylation (scDNAm)

Task: Methylation imputation
요약:

  • cell과 CpG locus 간 known methylation 상태를 edge로 하는 bipartite graph 구성
  • GCN으로 노드 임베딩을 학습하여 결측 메틸화 상태를 link prediction으로 예측

대표 모델:

  • GraphCpG

1.3 Chromosome Conformation (scHi-C)

Task: Chromosomal interaction imputation, methylation prediction
요약:

  • 각 세포를 chromosomal bins 간 상호작용으로 정의된 intra-cell contact graph로 모델링
  • GNN과 transformer를 통해 전체 구조 또는 promoter-level interaction을 학습해 예측

대표 모델:

  • HiC-SGL: 세포 그래프 상에서 interaction 복원
  • scHiMe: GTN을 통해 3D genome 구조 기반 methylation 수준 예측

 

2. Transcriptomics (scRNA-seq)

2.1 Imputation

Task: Dropout된 발현값 복원
요약:

  • 세포 간 Pearson correlation, PCA embedding 거리, 또는 kNN 기반의 cell–cell similarity graph 생성
  • GNN 또는 attention을 사용해 이웃 세포로부터 누락된 발현값을 보완

대표 모델:

  • GraphSCI: Pearson correlation + GCN + AE
  • GNNImpute: kNN + attention 가중치

2.2 Dimensionality Reduction

Task: 저차원 임베딩 학습
요약:

  • raw 발현값 또는 차원 축소된 feature로 계산한 cell–cell kNN graph 기반
  • autoencoder 또는 GAE를 통해 노이즈를 제거하고 유의미한 임베딩 학습

대표 모델:

  • scGNN: 반복적 클러스터링-재구성 기반 표현 학습
  • scDHA-GNN, DR-GNN 등

2.3 Cell Type Identification

Task: 세포 클러스터링 및 분류
요약:

  • 발현 유사도 기반 kNN 그래프 또는 feature correlation 기반 세포 간 그래프 구성
  • kNN 기반 그래프에서 GCN 또는 self-supervised 학습을 통해
  • 세포 간 구조를 반영한 유형 구분 수행

대표 모델:

  • GraphSCC: dual self-supervised learning
  • CellGNN, scGCL 등

2.4 Cell–Cell Communication

Task: 세포 간 상호작용 예측
요약:

  • 세포 간 발현 correlation 또는 ligand–receptor DB 기반 binary 또는 weighted cell–cell graph 구성
  • VGAE, GAT 등을 사용해 세포 간 신호 전달 관계를 예측

대표 모델:

  • Graph-DiffVAE: VGAE 기반
  • GraphComm: annotated ligand-receptor DB 활용
  • PathFinder: GTN 기반 signaling path 분해

 

3. Spatial Transcriptomics (SRT)

3.1 Spatial Gene Expression Prediction

Task: 이미지로부터 유전자 발현 예측
요약:

  • patch 간 Euclidean 거리 기반으로 spot-level kNN 그래프 구성
  • 조직학 이미지로부터 patch feature 추출
  • spatial transformer + GNN을 통해 공간적 gene expression 예측

대표 모델:

  • Hist2ST

3.2 Dimensionality Reduction

Task: 공간 구조 반영 저차원 임베딩
요약:

  • spot 위치의 spatial coordinate 기반 kNN 혹은 radius-based neighbor graph 생성
  • GNN을 통해 공간적으로 구분되는 세포 표현 학습

대표 모델:

  • spage2vec
  • STAGATE, SpaGCN (일부 해당됨)

3.3 Spatial Domain Identification

Task: 조직 내 기능적 영역 정의
요약:

  • spot 간 spatial 거리 + 발현 유사도 + 조직학 정보를 통합한 weighted graph 구성
  • GCN 기반 클러스터링을 통해 공간 도메인 및 변이 유전자 추출

대표 모델:

  • SpaGCN
  • STAGATE, SEDR 등

3.4 Cell–Cell Communication

Task: 위치 기반 상호작용 예측
요약:

  • 세포 위치 간 거리 기반 threshold 적용하여 neighbor graph 구성 (ligand-receptor 분석용)
  • GCN을 통해 ligand-receptor 기반 상호작용 네트워크 예측

대표 모델:

  • GCNG

 

4. Proteomics

Task: Clustering, classification, tissue 상태 분석
요약:

  • 단백질 abundance 간 Pearson correlation 또는 이미지 기반 이웃 관계로 cell–cell graph 생성
  • 또는 이미지 기반 spatial 정보 활용
  • GCN을 통해 단백질 기반 세포 표현 및 면역 반응 예측

대표 모델:

  • scPROTEIN: abundance 기반 cell graph
  • SNOWFLAKE: 이미지 + proteomics 통합

 

5. Multi-omics Integration

5.1 Omics Alignment

Task: scRNA, scATAC, scDNAm 등 통합
요약:

  • 유전자/peak/feature 간 known regulatory 관계 기반 feature–feature guidance graph 생성
  • omics별 VAE로 표현 학습 후
  • prior knowledge 기반 guidance graph로 정렬
  • shared cell embedding 학습

대표 모델:

  • GLUE

5.2 Rare Cell Population Detection

Task: 희귀 세포 탐지 및 조절 네트워크 추론
요약:

  • 세포–유전자–peak 간 이종 관계를 edge로 하는 heterogeneous graph 구성
  • 확률 기반 transformer 모델로 희귀 클러스터 식별 및 eGRN 추론

대표 모델:

  • MarsGT

5.3 Biological Network Inference

Task: gene–cell, gene–gene, cell–cell 네트워크 추정
요약:

  • gene–cell matrix로부터 gene–gene, cell–cell 간 correlation을 edge로 갖는 multiple graphs 구성
  • VGAE 및 embedding을 통해 연관성 예측 및 pathway 활성 추정

대표 모델:

  • scapGNN

5.4 Cell Type Deconvolution (ST 기반)

Task: spot 단위 세포 구성 비율 추정
요약:

  • pseudo-ST와 실제 ST spot 간 공동 kNN 기반 spot–spot graph 구성
  • semi-supervised GCN으로 spot 내 cell composition 추정

대표 모델:

  • DSTG

앞으로의 방향성

  • 더 생물학적으로 해석 가능한 모델
  • 기존 지식(예: 유전자 네트워크, 단백질 상호작용(PPI, TF–target, ligand–receptor)등) 통합
  • 파운데이션 모델(사전학습된 모델)과의 결합 가능성