Miscellaneous

[2025-2] 정유림 - LLM-based agent : DrBioRight 2.0

urmu 2025. 8. 16. 13:04

논문 출처 : Liu, W., Li, J., Tang, Y. et al. DrBioRight 2.0: an LLM-powered bioinformatics chatbot for large-scale cancer functional proteomics analysis. Nat Commun 16, 2256 (2025). https://doi.org/10.1038/s41467-025-57430-4

 

 

Agent란?

그냥 “사람 대리인”이 아니라, 목표를 스스로 이해하고, 계획을 세우고, 필요한 도구를 사용해 문제를 해결하는 소프트웨어 시스템

  1. LLM에서의 agent
    • LLM 단독 → 단순히 질문에 답변하거나 텍스트 생성.
    • LLM agent → LLM이 여러 외부 도구(tool)나 API, 데이터베이스, 실험 장비스스로 호출해 목표를 달성.
  2. DrBioRight에서의 agent 의미
    • LLM agent: “지식이 많은 실험실 연구원” — 설명도 하고, 직접 문서 찾아보고, 장비 켜서 실험하거나 분석까지 해줌

 

 

DrBioRight 2.0: 암 기능단백체 분석을 위한 차세대 LLM 플랫폼

1. 왜 DrBioRight 2.0인가?

기존 TCPA(The Cancer Proteome Atlas) 포털은 분석 모듈이 제한적이어서, 연구자가 원하는 맞춤 분석이나 시각화를 하려면 직접 코드를 작성해야 했습니다.

DrBioRight 2.0은 이를 완전히 바꿉니다. 자연어로 “이 단백질과 생존의 관계 보여줘”라고 입력하면, LLM이 코드를 생성·검증·실행하고 결과를 인터랙티브 시각화로 반환합니다.

 

2. 데이터 통합과 혁신 포인트 (Fig. 1)

Fig. 1은 DrBioRight 2.0이 사용하는 데이터 통합 워크플로우와 주요 혁신 포인트를 보여줍니다.

  • Cohorts: TCGA 환자 샘플(~7,800, 32종 암) + CCLE 세포주(~878) 등 약 9,000개 샘플
  • Data types: 임상, DNA/RNA, RPPA 단백질, 약물감수성, 유전자 의존성 등
  • 데이터 구조: HDF5 기반 NoSQL DB — 대규모 멀티오믹스 데이터의 효율적 저장·검색
  • 핵심 기능:
    1. 자연어 질의/분석(Conversational AI)
    2. 암 단백체 분석 특화 프롬프트
    3. 인터랙티브 시각화

 

3. 플랫폼 개요 (Fig. 2)

Fig. 2a는 DrBioRight 2.0의 사용자 인터페이스 스냅샷입니다.

  • 코드 작성 없이 자연어로 분석 요청 가능
  • 결과는 줌/검색/필터링이 가능한 인터랙티브 그래프로 제공
  • Kaplan–Meier, Heatmap, 2D/3D scatter 등 다양한 시각화 지원

Fig. 2b는 내부 아키텍처를 보여줍니다.

  • 데이터 계층: NoSQL DB + HDF5 저장
  • 분석 계층: LLM이 질의 의도를 분석 → 적합한 분석 agent 호출 → 코드 생성·실행
  • 인터페이스 계층: Chat UI + 플러그인 시각화
  • 피드백 루프: 사용자 평가를 RLHF(Reinforcement Learning from Human Feedback)로 반영

 

 

 

 

4. Fine-tuning & Model Evaluation (Fig. 3)

Fig. 3a는 모델 학습 파이프라인입니다.

  1. SFT(Supervised Fine-Tuning): 정제된 Q/A 데이터로 초기 학습
  2. Reward model: 전문가 채택/거부 데이터로 학습
  3. PPO(Proximal Policy Optimization): 보상모델 기반 정책 최적화
    • PPO ? PPO(Proximal Policy Optimization)는 강화학습(Reinforcement Learning, RL)에서 자주 쓰이는 정책 최적화 알고리즘 입니다. DrBioRight 2.0 같은 LLM fine-tuning 파이프라인에서는 RLHF(Reinforcement Learning from Human Feedback)의 핵심 단계로 쓰입니다.
      • 기본개념
        • 목표: 에이전트(여기선 LLM)가 더 나은 행동(응답)을 하도록 정책(Policy)을 업데이트.
        • 정책(Policy): 주어진 상태(사용자 질문)에서 어떤 행동(답변)을 할 확률 분포.
        • 보상(Reward): 행동의 품질을 수치로 표현한 값(예: 전문가 채택=+1, 거부=-1).
  4. Detoxification 단계: roberta-hate-speech로 독성 점수 부여 → PPO로 안전성 강화
    • Detoxification? Detoxification 단계는 말 그대로 모델이 유해하거나 부적절한 내용을 생성하지 않도록 “독성(toxicity)”을 줄이는 후처리 학습 과정입니다.
      1. 독성 평가 모델(roberta-hate-speech)로 응답 텍스트를 자동 판정→ "독성 점수(toxicity score)"를 계산.
      2. 독성 점수가 높은 응답은 보상(Reward)을 크게 낮춤.
      3. 이 보상을 활용해 PPO로 모델 재학습→ 모델이 유해 표현을 내놓을 확률을 점점 줄임.

Fig. 3b는 성능 비교 결과를 시각화한 그래프입니다.

  • TCPA: 26%
  • 범용 GPT-4: 58%
  • DrBioRight 2.0 (도메인 특화 + multi-agent): ~90%
  • (내부 평가 기준, 외부 검증 필요)

 

5. Multi-agent 구조와 작동 원리

DrBioRight 2.0은 Multi-agent 구조를 사용합니다.

  • Supervisor agent: 질의 분석 후 적절한 분석 agent에 작업 할당
  • 분석 agent 예시: Heatmap agent, Survival analysis agent, Correlation analysis agent
  • → 이렇게 역할을 나누면, 복잡한 분석도 빠르고 안정적으로 처리할 수 있습니다.

6. 작동 예시

  • “현재 데이터셋으로 protein expression heatmap 만들어줘.”→ 대규모 데이터를 인터랙티브 Heatmap으로 탐색
  • “AKT2 pS474와 IL6 발현 상관관계 보여줘.”→ 스캐터플롯 + Pearson/Spearman correlation
  • “이 단백질 발현과 overall survival 관계 확인해줘.”→ Kaplan–Meier plot + log-rank test
  • “남성 환자만 다시 분석해줘 / 색상 바꿔줘.”→ 필터 및 스타일 실시간 수정

7. 핵심 차별점

항목 TCPA(기존) DrBioRight 2.0
인터페이스 정해진 모듈 UI 자연어 기반 Chat UI
분석 코드 직접 작성 LLM이 자동 생성·수정
시각화 제한적 플러그인 기반 인터랙티브
재현성 일부 R Markdown 완전 지원
메타데이터 비표준 표기 표준화·주석화 지원

 

 

 

8. 결론

DrBioRight 2.0은

  1. 도메인 특화 데이터 + fine-tuning + PPO로 정확도 극대화
  2. Multi-agent 구조로 분석 자동화
  3. Detoxification으로 안전성 확보
  4. 를 동시에 달성한 플랫폼입니다.

자연어만으로 복잡한 분석을 수행하고, 결과를 재현 가능한 보고서로 남길 수 있다는 점에서,

암 연구 데이터 활용의 효율성과 접근성을 크게 높인 사례입니다.