본문 바로가기
  • 책상 밖 세상을 경험할 수 있는 Playground를 제공하고, 수동적 학습에서 창조의 삶으로의 전환을 위한 새로운 라이프 스타일을 제시합니다.
Miscellaneous

[2025-2] 이루가 - A survey on large language model based autonomous agents

by wnfladl 2025. 8. 16.

논문 링크: https://arxiv.org/abs/2308.11432

 

A Survey on Large Language Model based Autonomous Agents

Autonomous agents have long been a prominent research focus in both academic and industry communities. Previous research in this field often focuses on training agents with limited knowledge within isolated environments, which diverges significantly from h

arxiv.org

1. Introduction

  • 자율 에이전트의 정의
    환경에 위치하고 그 일부로 작용하며, 환경을 인식하고 이에 따라 행동하여 시간이 지나며 스스로의 목표를 추구하는 시스템으로 정의됨 (Franklin and Graesser, 1997의 정의 기반)
  • 기존 자율 에이전트 연구의 한계
    • 단순한 휴리스틱 정책 기반으로 제한된 환경에서 학습한 사례 중심
    • 인간은 다양한 환경에서 복합적인 학습을 수행하는 반면, 기존 에이전트는 인간 수준의 의사결정 과정 재현에 한계 존재
      개방적·비제한적 환경에서의 인간 유사 학습과정 재현의 미흡함
  • 대형 언어 모델(LLM)의 부상
    • 대규모 파라미터와 데이터셋을 활용한 훈련을 통해 인간 유사 지능 달성 가능성 제시
    • LLM을 중심 제어기로 활용하는 자율 에이전트 연구의 확대
  • LLM 기반 자율 에이전트의 강점
    • 도메인 특화 학습 없이도 내재적 세계 지식을 활용한 의사결정 가능성
    • 자연어 인터페이스를 통한 유연하고 설명 가능한 인간과의 상호작용 가능성
  • 기존 연구의 한계
    • 메모리, 계획 능력 등을 탑재한 다양한 모델이 등장했으나, 통합적 분석과 비교가 부족함
  • 본 논문의 기여
    • 급속히 발전하는 연구 흐름을 체계적으로 정리 및 분류
    • 후속 연구자에게 통찰 제공 및 연구 기반 마련의 목적
  • 세 가지 주요 축을 중심으로 구성
    1. 구조 설계 (Construction)
      • (1) LLM을 활용한 에이전트 구조 설계 방식
      • (2) 에이전트의 능력을 강화하는 방법
      • 하드웨어적 구성과 소프트웨어적 자원 확보 전략의 구분
    2. 응용 분야 (Applications)
      • 사회과학, 자연과학, 공학 등 다양한 분야에서의 활용 사례 분석
    3. 평가 방식 (Evaluation)
      • 주관적·객관적 평가 전략의 비교와 분류
  • 연구자의 접근성 향상과 미래 연구 방향 제시
    • 체계적 분류와 개념 정리를 통한 배경지식 제공
    • LLM 기반 자율 에이전트 연구 활성화를 위한 기반 조성

2. LLM-based autonomous agent construction(에이전트 구조 설계)

  • 목표: LLM의 인간 유사 능력을 활용하여 자율 에이전트가 다양한 작업을 효과적으로 수행하도록 설계
  • 두 가지 핵심 질문
    1. LLM을 효과적으로 활용하기 위한 아키텍처 설계 방식
    2. 설계된 구조를 바탕으로 특정 작업을 수행하는 능력 획득 방식

<아키텍처 설계>

  • 기여: 기존 연구를 종합적으로 정리하고 통합하여 포괄적인 통합 프레임워크 제시
  • 의의: 다양한 모델과 구조적 접근법을 아우르는 체계적 정합성 확보

<에이전트 능력>

  • 전략 분류: LLM을 파인튜닝하는지 여부에 따라 에이전트의 능력 획득 전략을 분류
  • 유추
    • 아키텍처 설계는 전통적인 머신러닝에서의 네트워크 구조 설정에 해당
    • 능력 획득은 모델 파라미터 학습에 해당

2.1. Agent architecture design

<설계의 필요성>

  • 기존 LLM의 한계
    • 최근의 LLM은 질문-응답(Question-Answering) 형식에서 뛰어난 성과를 보였으나
    • 자율 에이전트는 특정 역할 수행, 환경 인식, 자율 학습 등을 포함해야 하므로 QA와는 본질적으로 다름
  • 설계 방향성
    → LLM의 잠재력을 극대화하기 위해 합리적 아키텍처 설계가 필수
    → 다양한 연구를 통해 LLM 보조 모듈이 제안됨

<제안된 통합 프레임워크 구성>

  • 전체 구조: 프레임워크는 총 네 개의 모듈로 구성됨
    1. 프로파일링 모듈 (Profiling Module)
      → 에이전트의 역할과 정체성 정의
    2. 메모리 모듈 (Memory Module)
      → 과거 경험을 저장하고 회상
    3. 계획 모듈 (Planning Module)
      → 미래 행동 계획 수립
    4. 행동 모듈 (Action Module)
      → 결정된 내용을 외부로 출력

<모듈 간 관계>

  • 프로파일링 모듈 → 메모리 모듈 및 계획 모듈에 영향
  • 메모리 + 계획 모듈 → 행동 모듈의 출력에 직접적 영향
  • 전반적으로 네 모듈이 상호작용하며 동적인 학습 및 실행 구조 형성

 

2.1.1. Profiling module

  • 역할: 자율 에이전트는 코더, 교사, 전문가 등 특정 역할을 수행하며 행동
    → 프로파일링 모듈은 이러한 에이전트 역할의 성격과 배경을 정의하는 기능 수행
  • 입력 방식: 역할 정보는 프롬프트 내에 삽입되어 LLM의 행동을 유도
  • 프로파일 구성 요소
    • 기본 정보: 나이, 성별, 직업
    • 심리 정보: 성격 유형
    • 사회 정보: 타 에이전트와의 관계
  • 적용 시나리오별 정보 선택의 중요성
    예: 인지과정 연구의 경우 → 심리 정보가 핵심

< 프로필 생성 방식 (세 가지 주요 전략) >

  1. 수작업 생성 방식 (Handcrafting Method)
    • 사람이 직접 프롬프트에 성격/역할 부여
    • 예: "너는 외향적인 사람이다", "너는 내향적인 사람이다"
    • 활용 사례
      • Generative Agent: 이름, 목표, 관계 등 수동 정의
      • MetaGPT, ChatDev, Self-Collaboration: 역할 및 책임을 수동 배정
      • PTLLM: 성격 평가 도구(IPIP-NEO, BFI)를 기반으로 다양한 성격 부여
      • Toxicity 연구: 정치인, 기자 등 다양한 역할을 지정해 LLM 반응 비교
    • 장점: 유연성
    • 단점: 에이전트 수가 많을 경우 높은 노동 비용
  2. LLM 생성 방식 (LLM-Generation Method)
    • LLM이 에이전트 프로필을 자동 생성
    • 과정
      1. 프로파일 구성 규칙 정의
      2. 소수의 시드(seed) 프로필 예시 제공
      3. LLM을 통해 전체 프로필 생성
    • 활용 사례
      • RecAgent: 시드 프로필을 기반으로 ChatGPT가 나머지 생성
    • 장점: 규모 확장 시 효율적
    • 단점: 정밀한 통제력 부족 가능성
  3. 데이터셋 정렬 방식 (Dataset Alignment Method)
    • 실제 인물 데이터를 기반으로 프롬프트 구성
    • 예: ANES 데이터를 바탕으로 인종, 성별, 연령 등을 프롬프트화하여 GPT-3에 역할 부여
    • 장점: 현실 집단의 특성을 정확하게 반영, 행동의 의미 강화

<Remark. 혼합 전략의 가능성>

  • 혼합 전략의 권장
    • 예: 현재 존재하는 사회 역할 → 실제 데이터 기반 구성
    • 미래 사회 역할 예측 → 수작업으로 가상의 역할 추가
    • 다양한 전략의 병행 사용을 통한 표현력 강화
  • 기초 모듈로서의 의의: 프로파일링 모듈은 에이전트의 기억, 계획, 행동 모듈에 지대한 영향을 미치는 핵심 기반

2.1.2. Memory module

  • 역할: 환경으로부터 인지한 정보를 저장하고 활용하여 향후 행동을 조정
    경험 축적, 자기 진화, 일관성 있는 행동에 기여
  • 의의
    • 인간의 인지 과학 이론을 바탕으로 설계
    • 인간 기억의 구조(감각 → 단기 → 장기 기억)를 반영한 설계 방식 채택

<Memory Structures>

1.  통합 메모리 (Unified Memory)

  • 특징
    • 단기 기억만을 모사
    • 프롬프트 내부에 직접 정보를 삽입하는 in-context learning 기반 구조
  • 장점: 구현이 단순하고, 최근 행동이나 문맥 기반 인식 능력 강화
  • 단점: LLM의 컨텍스트 윈도우 제한에 의해 모든 기억 포함이 어려움
    → 성능 저하 발생 가능
  • 대표 사례
    • RLP: 대화 에이전트의 발화자·청자 상태를 단기 기억으로 유지
    • SayPlan: 환경 피드백 및 장면 그래프를 단기 기억으로 활용
    • CALYPSO: DnD 게임 내 장면 설명·몬스터 정보 등을 단기 기억으로 구성
    • DEPS: 마인크래프트 작업 계획을 단기 기억으로 사용하여 행동 생성

 

2. 하이브리드 메모리 (Hybrid Memory)

  • 특징
    • 단기 + 장기 기억 모두 구현
    • 단기 기억: 최근 정보 임시 저장
    • 장기 기억: 과거 행동·지식의 축적 및 검색
  • 장점
    • 유연한 계획 수립 + 안정된 지식 저장
    • 복잡한 환경에서의 추론 및 일관성 향상
  • 대표 사례
    • Generative Agent: 상황별 단기 정보 + 회상 가능한 장기 기억 구성
    • AgentSims: 프롬프트는 단기 기억, 벡터 데이터베이스로 장기 기억 구현
    • GITM: 현재 경로는 단기, 성공 경로 요약본은 장기 기억에 저장
    • Reflexion: 피드백은 단기, 핵심 인사이트는 장기 기억으로 분리
    • SCM: 문맥에 따라 관련 장기 기억을 선택적으로 활성화
    • SimplyRetrieve: 사용자 질의를 단기 기억, 외부 지식 기반을 장기 기억으로 활용
    • MemorySandbox: 2D 캔버스를 이용한 시각적 기억 객체 저장 및 공유

<Remark>

  • 장기 기억만을 사용하는 구조도 존재 가능성은 있으나, 문헌에서 드물게 나타남
    → 이유: 자율 에이전트는 연속적이고 동적인 환경에 위치하며
    단기 기억의 중요성이 크기 때문에 대부분의 시스템이 이를 포함

<Memory format>

  • 메모리 모듈은 구조뿐 아니라 저장 포맷의 유형에 따라 구분 가능
  • 포맷별로 장점과 적용 분야가 다르며, 복수 포맷의 혼용도 가능

1. 자연어 포맷 (Natural Language Format)

  • 특징
    • 행동 및 관찰 정보를 자연어로 직접 기록
    • 유연성, 이해 용이성, 풍부한 의미 정보 제공
  • 장점
    • 직관적인 해석 가능성
    • 프롬프트 삽입 시 행동 지침으로 작용
  • 사례
    • Reflexion: 슬라이딩 윈도우를 통해 피드백을 자연어로 저장
    • Voyager: 마인크래프트 게임 내 기술(skill)을 자연어로 표현하여 저장

2. 임베딩 포맷 (Embedding Format)

  • 특징
    • 메모리 정보를 벡터 임베딩으로 변환하여 저장
    • 검색 효율일관된 벡터 연산 가능
  • 장점
    • 유사도 기반 검색 가능
    • 대규모 메모리의 처리 용이
  • 사례
    • MemoryBank: 메모리를 임베딩으로 변환하여 인덱스화
    • GITM: 참조 계획(reference plan)을 임베딩으로 표현
    • ChatDev: 대화 이력을 벡터로 저장하여 검색

3. 데이터베이스 포맷 (Database Format)

  • 특징
    • 메모리 정보를 데이터베이스 내에 저장
    • 정밀한 조작(SQL 기반 수정, 삭제 등) 가능
  • 장점
    • 복잡한 정보 조작 및 확장성 확보
    • 외부 시스템과의 연계 용이
  • 사례
    • ChatDB: SQL 기반 기호적 메모리 조작
    • DB-GPT: 데이터베이스에 메모리를 저장하고 SQL을 자연어로 제어 가능하도록 미세 조정

4. 구조화 리스트 포맷 (Structured List Format)

  • 특징
    • 정보를 **리스트 구조나 계층 구조(Tree)**로 표현
    • 목표-계획 간 관계 표현에 효과적
  • 장점
    • 명확한 관계 구조
    • 정보 축약 및 정돈된 표현 가능
  • 사례
    • GITM: 서브 목표별 액션 리스트를 계층 구조로 저장
    • RET-LLM: 자연어 문장을 삼중 항목(triplet)으로 변환 후 저장

<Remark>

  • 기타 포맷
    • 예: Voyager에서는 프로그래밍 코드를 메모리로 사용한 사례도 존재
  • 포맷 간 병행 사용 가능성
    • 많은 모델이 복수 포맷을 결합하여 장점을 동시에 활용
    • 예: GITM은
      • 키는 임베딩
      • 값은 자연어
        → 검색 효율 + 풍부한 의미 정보의 결합을 통한 행동 최적화

<Memory Operation>

  • 메모리 모듈은 환경과의 상호작용을 통해 지식의 획득, 축적, 활용을 가능하게 함
  • 세 가지 핵심 연산으로 구성됨:
    1. Memory Reading (읽기)
    2. Memory Writing (쓰기)
    3. Memory Reflection (성찰)

1. 메모리 읽기 (Memory Reading)

  • 목적: 과거의 유의미한 정보를 추출하여 행동의 질 향상을 도모
  • 핵심 기준 (3가지)
    • Recency (최근성)
    • Relevance (관련성)
    • Importance (중요도)
  • 추출 전략 공식화

  • 활용 사례

2. 메모리 쓰기(Memory Writing)

  • 목적: 환경에서 인지한 중요 정보의 저장을 통해 향후 활용 기반 마련
  • 주요 문제
    1. 중복 메모리 (Memory Duplicated)
    2. 메모리 초과 (Memory Overflow)

2-1. 중복 메모리 처리

  • 핵심 과제: 유사 정보의 중복 저장 방지 및 통합
  • 전략
    • 동일 목표 관련 행동 시퀀스를 저장하다가 일정 개수 이상(예: 5개) 축적 시, LLM을 활용해 하나의 통합 계획으로 요약 후 대체 (예: [7])
    • Augmented LLM: 횟수 누적 방식으로 중복 정보 통합

2-2. 메모리 초과 처리

  • 핵심 과제: 저장 용량이 가득 찼을 때의 삭제 정책 수립
  • 전략
    • ChatDB: 사용자의 명령어 기반 명시적 삭제
    • RET-LLM: 고정 크기 버퍼 활용, FIFO(선입선출) 방식으로 가장 오래된 정보 삭제

<Memory Reflection>

  • 정의
    메모리 성찰은 인간이 자신의 인지, 감정, 행동을 인식하고 평가하는 능력을 에이전트에게 모사하는 기능
  • 목적
    에이전트가 과거 경험을 요약 및 추상화하여 복합적이고 고차원적인 인사이트를 도출할 수 있도록 지원
  • 최근 기억 기반으로 3가지 핵심 질문 생성
  • 생성된 질문을 바탕으로 관련 정보 검색
  • 정보를 바탕으로 5가지 고차 인사이트 도출

예:

  • 낮은 수준의 기억
    • "Klaus Mueller is writing a research paper"
    • "Klaus Mueller is engaging with a librarian"
    • "Klaus Mueller is conversing with Ayesha Khan"
  • 고차원 인사이트
    • "Klaus Mueller is dedicated to his research"
  • 계층적 성찰 구조 가능
    • 기존 인사이트를 기반으로 새로운 인사이트를 도출하는 방식

<주요 사례>

  • Generative Agent : 메모리 기반 질문 생성 및 고차 인사이트 도출 프로세스 구현
  • GITM : 성공적인 행동 리스트가 5개 이상일 경우
    공통된 추상 패턴으로 요약 후 기존 데이터 대체
  • ExpeL 
    • (1) 동일 작업 내 성공/실패 경로 비교
    • (2) 성공 경로 모음에서 경험 일반화 학습 수행
  • 전통적 LLM과의 차별점
    • LLM은 지식 생성기로 기능
    • 반면 자율 에이전트는 동적 환경에서의 학습과 자기 향상 능력이 필수
      → 메모리 성찰은 이러한 능력을 구현하는 핵심 요소

2.1.3. Planning module

  • 목적: 인간처럼 복잡한 문제를 단순한 하위 과제로 분해하고 해결하는 능력을 에이전트에 부여
  • 기대 효과: 에이전트의 합리성, 신뢰성, 실행력 향상
  • 분류 기준: 에이전트가 계획 과정 중 피드백을 받는지 여부에 따라 세 가지로 분류:

1) 피드백 없는 계획 (Planning Without Feedback)

 

● 단일 경로 추론 (Single-Path Reasoning)

  • 전략: 하나의 직선적 경로로 문제를 단계별로 해결
  • 사례:
    • Chain of Thought (CoT) [45]: 추론 과정을 프롬프트에 명시
    • Zero-shot-CoT [46]: “step by step” 같은 트리거 문장만으로 추론 유도
    • Re-Prompting [47]: 각 단계의 사전 조건 검사 → 실패 시 재생성
    • ReWOO [48]: 계획과 관찰을 독립 생성 후 결합
    • HuggingGPT [13]: 작업을 하위 목표로 분해하고 각각 해결

● 다중 경로 추론 (Multi-Path Reasoning)

  • 전략: 트리 구조 또는 그래프 기반의 다중 추론 경로 탐색
  • 사례:
    • Self-consistent CoT (CoT-SC) [49]: 여러 경로 중 빈도 기반 최종 답 선택
    • Tree of Thoughts (ToT) [50]: BFS/DFS 탐색을 통한 계획 수립
    • RecMind [51]: 버려진 정보도 활용해 새로운 추론 경로 생성
    • GoT [52]: 트리 기반 ToT를 그래프 구조로 확장
    • AoT [53]: 알고리즘 예시 기반의 추론 향상
    • [54]: 여러 다음 스텝 중 허용 가능한 행동에 가장 가까운 경로 선택
    • [55]: 쿼리 유사 예시 추가로 [54] 개선
    • RAP [56]: 몬테카를로 트리 탐색(MCTS) 기반의 세계 모델 구성

● 외부 계산기 활용 (External Planner)

  • 전략: LLM이 전처리·후처리를 담당하고, 계획 수립은 외부 도구에 위임
  • 장점:
    • LLM의 고수준 계획 생성 능력
    • 외부 도구의 정밀 탐색 능력을 결합
  • 사례:
    • LLM+P : 작업을 PDDL로 변환 → 외부 계획기 처리 → LLM으로 결과 자연어화
    • LLM-DP : 관찰/목표/상태 → PDDL 변환 → 외부 계획기 활용
    • CO-LLM : 고수준 계획은 LLM, 저수준 실행은 휴리스틱 기반 외부 계획기 사용

2) 피드백 기반 계획 수립 (Planning with Feedback)

  • 필요성
    • 복잡하고 장기적인 과제에서는 초기 계획만으로 문제 해결이 어려움
    • 이유:
    • 사전조건이 많아 완전한 초기 계획 생성이 어려움
    • 실행 중 예상치 못한 상황 변화 발생 가능성
      → 단일 계획 수립보다 피드백을 반영한 반복 계획 수립 전략이 효과적
  • 사람의 계획 방식 모사
    • 인간은 피드백을 기반으로 계획을 반복적으로 수정
    • 이를 모사하기 위해 다양한 피드백 유형 기반의 계획 모듈 설계

환경 피드백 (Environmental Feedback)

  • 정의: 게임 환경, 시뮬레이터, 관찰 등 외부 세계로부터의 반응
  • 대표 사례:
    • ReAct [59]: thought-act-observation 삼중 구조 활용 → 추론과 행동에 관찰 결과 반영
    • Voyager [38]: 실행 중간 결과, 오류, 자기 검증 결과를 기반으로 계획 수정
    • Ghost [16]: 실행 성공/실패 및 환경 상태를 지속적으로 반영
    • SayPlan [31]: 장면 그래프 시뮬레이터의 피드백으로 전략 반복 수정
    • DEPS [33]: 실패의 구체적 원인 제공을 통해 효과적인 재계획 유도
    • LLM-Planner [60]: 객체 불일치, 실행 불가능성 발견 시 동적 계획 재작성
    • Inner Monologue [61]:
      • (1) 작업 성공 여부
      • (2) 수동적 장면 설명
      • (3) 능동적 장면 설명
        → 환경 기반 피드백으로 합리적 행동 유도

 인간 피드백 (Human Feedback)

  • 정의: 인간 사용자와의 상호작용을 통한 직접적이고 주관적인 피드백 제공
  • 장점:
    • 인간 가치 및 선호 반영 가능
    • 환각(hallucination) 감소 효과
  • 대표 사례:
    • Inner Monologue [61]: 자연어 지시 수행 도중 사용자에게 장면 설명 요청 → 프롬프트에 반영하여 계획 품질 향상
    • 다양한 환경 피드백과 인간 피드백을 함께 결합하여 성능 증대

 모델 피드백 (Model Feedback)

  • 정의: 사전학습된 모델로부터 생성된 내부 평가 및 피드백
  • 대표 사례:
    • Self-Refine [62]:
      1. 출력 생성
      2. 출력에 대한 모델 피드백 생성
      3. 피드백 기반 정제 반복 수행
    • SelfCheck [63]: 각 단계의 추론 과정을 자가검토 및 오류 수정
    • InterAct [64]: 다른 LLM(ChatGPT, InstructGPT 등)을 **보조자(checker, sorter)**로 활용
    • ChatCoT [65]: 추론 과정의 품질 향상을 위한 내부 평가 모듈 도입
    • Reflexion [12]: 행동 결과에 대한 상세 자연어 피드백 생성 → 스칼라 값 대신 풍부한 언어 정보 제공

<Remark>

  • 비피드백 기반 계획 모듈: 구현이 간단하나, 단순한 작업에만 적합
  • 피드백 기반 계획 모듈: 구현은 복잡하나,
    장기 추론 및 고차원 문제 해결에 매우 효과적

2.1.4. Action module

  • 역할: 에이전트의 의사결정을 구체적인 실행 결과로 전환
    → 환경과의 직접적인 상호작용 담당
  • 모듈 간 상호작용: 프로파일링, 메모리, 계획 모듈로부터 영향 받음
  • 분석 관점 (4가지)
    1. Action Goal — 행동의 목적 (Before-action)
    2. Action Production — 행동 생성 방식 (Before-action)
    3. Action Space — 가능한 행동의 범위 (In-action)
    4. Action Impact — 행동의 결과 및 영향 (After-action)
      ※ 이번 요약에서는 Action Goal 및 Action Production 중심

1) 행동 목적 (Action Goal)

: 에이전트가 수행하는 행동의 의도된 결과에 따라 유형 분류

  • (1) 작업 수행 (Task Completion)
    • 목적: 명확한 목표를 향한 행동 수행
    • 사례:
      • Voyager [38]: 마인크래프트에서 철 곡괭이 제작
      • ChatDev [18]: 소프트웨어 기능 완성
  • (2) 의사소통 (Communication)
    • 목적: 정보 공유, 협업을 위한 상호작용
    • 사례:
      • ChatDev [18]: 다수의 에이전트 간 협업 대화
      • Inner Monologue [61]: 인간과의 피드백 중심 상호작용
  • (3) 환경 탐색 (Environment Exploration)
    • 목적: 미지의 환경 탐색 및 기술 습득
    • 사례:
      • Voyager [38]: 탐험 중 새로운 스킬 발견 및 코드 개선

2) 행동 생성 방식 (Action Production)

: 에이전트는 다음 두 가지 주요 전략 중 하나로 행동을 생성

 

(1) 메모리 기반 행동 (Action via Memory Recollection)

  • 전략: 현재 과제와 관련된 기억 정보 추출 → 행동 유도
  • 사례:
    • Generative Agent [20]: 최근 중요 기억을 추출해 행동 지침 구성
    • GITM [16]: 유사 과제 성공 경험 검색 → 동일 방식 재사용
    • ChatDev [18], MetaGPT [23]: 대화 이력을 기반으로 발화 생성

(2) 계획 기반 행동 (Action via Plan Following)

  • 전략: 사전에 생성된 행동 계획을 기반으로 순차적 실행
  • 사례:
    • DEPS [33]: 계획 오류 신호 없을 시 계획을 그대로 실행
    • GITM [16]: 하위 목표 기반 계획 수립 → 각 목표별 행동 수행

3) 행동 공간 (Action Space)

  • 에이전트가 수행 가능한 모든 행동의 집합을 의미
  • 크게 두 가지 범주로 분류
    1. 외부 도구 활용
    2. LLM 내재 지식 활용

● 외부 도구 (External Tools)

(1) API

  • 의의:
    • 전문 지식이 필요한 도메인 대응
    • LLM의 환각 문제 해결
      → LLM이 API 호출 기능을 통해 외부 행동 실행 가능
  • 대표 사례:
    • HuggingGPT [13]: HuggingFace 모델 활용
    • TPTU [67]: 파이썬 인터프리터 및 LaTeX 컴파일러 연결
    • Gorilla [68]: API 호출용 인자 생성 최적화
    • ToolFormer [15]: 자연어 기반의 도구 변환 시스템
    • API-Bank [69]: 프로그래밍 언어에 적합한 API 자동 추천
    • ToolBench [14]: 계산기, 단위변환기, 지도 등 다양한 도구 자동 생성
    • RestGPT [70]: RESTful API 연결로 현실 앱과의 호환성 강화
    • TaskMatrix.AI [71]: 수백만 개 API와 연결, 코드 자동 생성 기능 탑재

(2) 외부 데이터베이스 및 지식베이스

  • 역할:
    • 특정 도메인 정보 확보
    • 정확하고 현실적인 행동 생성 지원
  • 대표 사례:
    • ChatDB [40]: SQL 기반 데이터베이스 질의
    • MRKL [72], OpenAGI [73]: 지식베이스 및 전문가 시스템 연계

(3) 외부 모델

  • 의의:
    • API보다 복잡한 작업 처리 가능
    • 한 모델이 여러 API와 연결될 수 있음
  • 대표 사례:
    • MemoryBank [39]: 두 개의 언어 모델로 텍스트 인코딩 및 질의 매칭
    • ViperGPT [74]: Codex 기반 코드 생성 → 실행을 통한 작업 처리
    • TPTU [67]: 코드, 가사 등 다양한 언어 생성 작업 지원
    • ChemCrow [75]: 17개 전문가 모델로 화학 합성, 신약 설계 등 수행
    • MM-REACT [76]:
      • VideoBERT: 비디오 요약
      • X-decoder: 이미지 생성
      • SpeechBERT: 음성 처리
        → 멀티모달 행동 공간 확장

●  내부 지식 기반 행동 (Internal Knowledge)

  • 정의: 외부 도구 없이 LLM 자체의 내재적 능력만으로 행동을 수행하는 방식
    자율성, 추론력, 사람 유사성 구현의 핵심 기반
  • 핵심 능력 분류 (3가지): 각 능력은 실제 에이전트 동작의 중요한 구성 요소로 기능

(1) 계획 수립 능력 (Planning Capability)

  • 의의:
    • LLM은 복잡한 작업을 하위 작업으로 분해하는 계획 수립이 가능
    • 심지어 예시 없이도 “zero-shot” 방식으로 추론 유도 가능
  • 대표 사례:
    • DEPS [33]: 마인크래프트 작업을 하위 목표로 나누어 해결
    • GITM [16], Voyager [38]: LLM의 계획 기능을 기반으로 과제 수행

(2) 대화 능력 (Conversation Capability)

  • 의의:
    • 인간 유사한 고품질 대화 생성 가능
    • 다른 에이전트 또는 인간과의 소통 기반 행동 수행
  • 대표 사례:
    • ChatDev [18]: 협업 개발 및 행동 성찰을 위한 에이전트 간 대화
    • RLP [30]: 청자의 피드백을 반영한 유동적인 커뮤니케이션 실행

(3) 상식 이해 능력 (Common Sense Understanding)

  • 의의:
    • 인간의 상식 기반 상황 인식 및 추론 가능
    • 일상적 상황 시뮬레이션 및 의사결정 가능성 확보
  • 대표 사례:
    • Generative Agent: 현재 상태, 주변 환경 인식, 고차원 아이디어 도출
    • RecAgent [21], S3 [77]: 사용자 추천, 사회적 행동 시뮬레이션 수행

4) Action Impact

  • 정의: 에이전트의 행동이 환경이나 시스템에 미치는 영향 전반을 의미
    → 외부 세계뿐만 아니라 내부 상태 변화 및 다음 행동의 유발까지 포함
  • 핵심 유형 분류 (3가지)

(1) 환경 변화 (Changing Environments)

  • 의의:
    • 행동을 통해 외부 환경의 상태 변경 유도
  • 대표 사례:
    • GITM [16], Voyager [38]:
      • 예: 나무 3개를 채굴하면 해당 자원이 환경에서 사라짐
      • 위치 이동, 자원 수집, 건축 행위 등 포함

(2) 내부 상태 변화 (Altering Internal States)

  • 의의:
    • 행동 수행 후 에이전트의 기억, 계획, 지식 상태 변화
  • 대표 사례:
    • Generative Agent [20]: 행동 후 메모리 스트림 업데이트
    • SayCan [78]: 환경에 대한 이해도를 행동을 통해 갱신

(3) 새로운 행동 유발 (Triggering New Actions)

  • 의의:
    • 하나의 행동이 다음 행동으로 이어지는 유기적 연결 형성
  • 대표 사례:
    • Voyager [38]:
      • 필요한 자원을 수집한 후 자동으로 건물 건설 행동 시작

2.2. Agent capability acquisition

  • 목적: 앞서 소개된 아키텍처는 하드웨어(구조)에 해당하지만 효과적인 작업 수행을 위해서는 소프트웨어(능력, 기술, 경험)가 필수
    → 다양한 능력 획득 전략 필요
  • 전략 분류 기준
    1. 파인튜닝을 사용하는 방식 (With Fine-tuning)
    2. 파인튜닝을 사용하지 않는 방식 (Without Fine-tuning) (다음 파트에서 다룸)

1) 파인튜닝 기반 능력 획득 (Capability Acquisition with Fine-tuning)

 

1-1) 사람이 주석한 데이터셋을 활용한 파인튜닝

  • 개요:
    • 사람이 수집하고 주석한 데이터셋을 기반으로 에이전트 파인튜닝 수행
    • 도메인 적합성, 신뢰성, 평가 품질 확보 가능
  • 주요 사례:
    • CoH [79]: 인간 가치 정렬을 위해 자연어 기반 비교 피드백을 활용
    • RET-LLM [42]: 자연어 ↔ 삼중 항목(triplet) 변환 학습
    • WebShop [80]:
      • 아마존 상품 데이터 + 시뮬레이션 쇼핑 환경 구성
      • 13명의 사용자 행동 데이터 수집
      • 휴리스틱, 모방학습, 강화학습 기반 전략 학습 (LLM 파인튜닝은 아니지만 응용 가치가 높음)
    • EduChat [81]:
      • 질의응답, 논술 평가, 소크라테스식 질의, 감정 케어 등 교육 목적 강화
      • 심리 전문가와 교사에 의해 수집·평가된 고품질 주석 데이터 사용
    • SWIFTSAGE [82]:
      • 이중 처리 이론 기반 추론 모델
      • 인간 주석 데이터를 활용한 SWIFT 모듈 파인튜닝

1-2) LLM이 생성한 데이터셋을 활용한 파인튜닝

  • 개요:
    • 대규모 수작업 주석이 비용적 부담이 클 경우
      → LLM이 직접 데이터를 생성하여 대체
  • 장점:
    • 생성 데이터의 품질은 다소 낮을 수 있으나, 규모 확장성 및 비용 효율성 확보 가능
  • 주요 사례:
    • ToolBench [14]:
      • RapidAPI에서 수집한 49개 카테고리, 16,464개의 API 기반
      • ChatGPT로 다양한 지시문 생성 → LLaMA 모델 파인튜닝 → 도구 사용 성능 향상
    • [84]:
      • 에이전트 간 상호작용 기반 사회적 능력 학습용 데이터 생성
      • 중앙 에이전트가 초기 응답 생성 → 주변 에이전트 피드백 수집 → 수정 → 데이터화
        → 대규모 사회적 상호작용 데이터로 LLM 파인튜닝 수행

1-3) 실세계 데이터셋을 활용한 파인튜닝

  • 개요:
    • 웹, 대화, 서비스 등 현실에서 수집된 데이터를 직접 활용
  • 장점:
    • 현실 반영성 높음
    • 다양한 시나리오와 사용자 행동 패턴을 포함
  • 주요 사례:
    • MIND2WEB [85]:
      • 137개 웹사이트, 31개 도메인에서 2,000개 이상의 열린 과제 수집
        → 영화 검색, 티켓 예약 등 다양한 웹 과제에 대응
    • SQL-PaLM [86]:
      • 크로스 도메인 텍스트-SQL 변환 학습을 위한 Spider 데이터셋 활용
        → PaLM-2 모델의 질의 응답 기반 SQL 처리 성능 향상

2) 파인튜닝 없이 능력 획득하기 (Without Fine-tuning)

  • 기존 머신러닝: 모델 파라미터 학습 중심 능력 획득
  • LLM 시대:
    1. 모델 파라미터 조정 (fine-tuning)
    2. 프롬프트 설계 (Prompt Engineering)
    3. 에이전트 메커니즘 설계 (Mechanism Engineering)

→ 특히 프롬프트 설계 및 메커니즘 설계fine-tuning 없이도 능력 향상 가능

 

2-1) 프롬프트 설계 (Prompt Engineering)

  • 정의:
    자연어 기반 프롬프트에 행동 목적, 전략, 사고 방식 등을 삽입하여 능력 유도
  • 주요 사례:
    • CoT [45]: 단계별 추론 예시 제공 → 복잡한 문제 해결 유도
    • CoT-SC [49], ToT [50]: 다양한 경로의 추론 흐름 유도
    • SocialAGI [30]: 에이전트-청자 간 정신 상태 정보를 프롬프트에 포함 → 대화 적응력 및 전략성 강화
    • Retroformer [87]: 실패에 대한 반성(reflection)을 프롬프트에 삽입 → 이후 행동 가이드로 활용

2-2) 메커니즘 설계 (Mechanism Engineering)

  • 정의: 내부 구조, 피드백 절차, 학습 규칙 등 모듈과 운영 체계의 설계를 통한 능력 향상 전략

 (1) 시행착오 기반 학습 (Trial-and-Error)

  • 개요: 에이전트 행동 → 비평 모듈 평가 → 실패 시 피드백 반영 → 행동 수정
  • 사례:
    • RAH [88]: 추천 시스템에서 인간 행동과의 비교를 통한 실패 학습
    • DEPS [33]: 실패 원인 설명 → 계획 재작성
    • RoCo [89]: 다중 로봇 경로 검증 → 충돌 발생 시 재계획
    • PREFER [90]: 성능 평가 실패 시 LLM을 통해 실패 원인 설명 생성 → 행동 개선

(2) 크라우드소싱 기반 강화 (Crowd-sourcing)

  • 개요: 다수 에이전트의 응답 비교 → 상호 피드백 → 집단 토론을 통한 최종 답 도출
  • 사례:
    • [91]: 의견 불일치 발생 시, 다른 에이전트 의견 통합 후 재응답 → 토론 기반 합의 형성

(3) 경험 축적 및 활용 (Experience Accumulation)

  • 개요: 성공 경험을 기억·라이브러리·지식베이스에 저장 → 유사 과제에 활용
  • 사례:
    • GITM [16]: 과거 성공 행동 기억화 → 유사 과제 시 재사용
    • Voyager [38]: 피드백 기반 스킬 코드 반복 개선 → 스킬 라이브러리 확장
    • AppAgent [92]: 사용자 앱 사용 방식 관찰 + 자율 탐색 → 작업 수행 지식 축적
    • MemPrompt [93]: 사용자 피드백을 메모리로 저장 → 의도 추론 및 대응 향상

(4) 자가 진화 메커니즘 (Self-driven Evolution)

  • 개요: 에이전트 스스로 목표 설정, 환경 탐색, 피드백 기반 능력 성장
  • 사례:
    • LMA3 [94]: 자율 목표 설정 및 보상 기반 학습
    • SALLM-MS [95]: GPT-4 기반 다중 에이전트 협업 → 고도화된 자기조정 능력
    • CLMTWA [96]: LLM 교사 → 약한 LLM 학생에게 맞춤 설명 제공 → 이해도 기반 피드백 학습
    • NLSOM [97]: 다중 에이전트 간 자연어 기반 협력과 역할 조정 → 동적 팀워크 기반 학습

3. LLM-based autonomous agent application

3.1. Social science

  • 정의: 사회과학은 사회와 개인 간 관계를 연구하는 학문 분야
    LLM 기반 자율 에이전트는 인간 유사한 이해력, 사고력, 과제 해결력을 기반으로 이 분야에 혁신적 영향을 미침
  • 분류 기준: 본 장에서는 사회과학, 자연과학, 공학의 3가지 분야로 응용 사례를 분류 (현재는 사회과학 중심 정리)

<심리학(Psychology)>

  • 시뮬레이션 실험 수행
    • 다양한 프로파일을 부여받은 LLM이 심리학 실험을 수행
    • 결과: 인간 피험자와 유사한 결과 생성 가능성 확인
    • 모델 크기와 정확도 간 정비례 관계 관측
    • 단점: 일부 대형 모델은 과도하게 정확한 추정값(hyper-accuracy distortion)을 보여 후속 연구에 영향을 미칠 수 있음
  • 정신 건강 지원
    • Reddit의 120개 게시글을 기반으로 LLM 대화형 에이전트의 효과 분석
    • 결과: 불안, 사회적 고립, 우울감 해소에 기여 가능성 확인
    • 문제점: 일부 경우에는 유해한 콘텐츠 생성 위험성 존재

<정치학 및 경제학 (Political Science and Economy)>

  • 이념 분석 및 투표 패턴 예측: LLM 기반 에이전트를 활용하여 이데올로기 탐지 및 투표 행태 예측
  • 정치 연설 분석: LLM을 이용해 정치 연설의 담론 구조 및 설득 요소 분석
  • 경제 행동 시뮬레이션: 다양한 성격, 성향, 재능을 부여받은 LLM 에이전트를 통해 인간의 경제적 선택 행동 탐색

<사회 시뮬레이션 (Social Simulation)>

  • 정의: 인간 사회를 모사한 가상 환경 구축사회 현상 시뮬레이션
  • 주요 사례:
    • Social Simulacra [79]: 온라인 커뮤니티 규칙 개선을 위한 가상 사회 시뮬레이션
    • [107,108]: 에이전트의 성격이 소셜 네트워크 내 정보 전파에 미치는 영향 분석
    • Generative Agents [20], AgentSims [34]: 가상 마을 내 일상 생활 시뮬레이션
    • SocialAI School [109]: 아동기 사회 인지 능력 발달 과정 모사
    • S3 [77]: 정보·감정·태도 전파 중심의 사회 네트워크 시뮬레이터
    • CGMI [111]: 다중 에이전트 시뮬레이션 프레임워크, 교실 시나리오 구현

<법학 (Jurisprudence)>

  • 사법 판단 보조
    • Blind Judgement [113]: 여러 LLM 기반 판사 시뮬레이션 → 투표 기반 판단 통합
    • ChatLaw [112]: 중국 법률 특화 LLM 모델
      • 데이터베이스·키워드 기반 검색 기능 탑재
      • 자기주의(Self-attention)를 활용해 참조 오류 및 환각 문제 완화

<연구 보조 (Research Assistant)>

  • 논문 및 연구 업무 지원
    • 논문 초록 생성, 키워드 추출, 연구 스크립트 작성
    • 사회과학 연구의 정확성·속도·생산성 향상에 기여
  • 아이디어 탐색 보조
    • 사회과학자들이 새로운 연구 질문 발굴 시 LLM 에이전트를 활용
    • 창의성과 문제 설정 능력 증진 가능성 제시

 

3.2. Natural science

<문서화 및 데이터 관리 (Documentation and Data Management)>

  • 배경: 자연과학 연구는 방대한 양의 문헌과 데이터를 수집·정리·종합하는 작업이 필수적이며, 이는 많은 시간과 인력이 소요됨.
  • LLM 기반 에이전트의 역할: 자연어 이해력과 인터넷/데이터베이스 활용 능력을 기반으로 문서 처리 및 정보 정리에 강점을 보임
  • 주요 사례:
    • [115]: 인터넷 정보 탐색 및 활용을 통한 질문 응답 및 실험 설계 수행
    • ChatMOF [116]: 인간이 작성한 텍스트에서 금속-유기 골격체(MOF) 관련 정보를 추출하고 도구를 통해 물성 예측 수행
    • ChemCrow [75]: 화학 관련 데이터베이스를 활용해 화합물 표현 검증위험 물질 식별 기능 제공

<실험 보조 (Experiment Assistant)>

  • 기능: 에이전트가 실험 목적을 입력받고, 관련 문서를 검색한 뒤 Python 코드 실행을 통해 실험 설계–계획–실행까지 자동화 수행
  • 주요 사례:
    • [115]: LLM 기반 에이전트를 통한 과학 실험 전주기 자동화 시스템 제안
    • ChemCrow [75]: 17개의 특화 도구 내장 → 실험 설계, 절차 제안, 안전 리스크 경고 제공

<자연과학 교육 (Natural Science Education)>

  • 기능: 사람과의 자연스러운 대화를 바탕으로 교육 도구 개발, 개인화된 피드백 제공, 문제 해결 및 분석 능력 향상 유도
  • 주요 사례:
    • [115]: 실험 설계, 방법론, 분석 교육 시스템 → 비판적 사고력 및 문제 해결 능력 함양
    • Math Agents [117]: 수학 탐색–증명–해결 지원, 인간과의 대화 가능
    • [118], CodeX [119]: 대학 수학 문제 자동 해결 및 설명 기능 → 교육용 도구로 활용
    • CodeHelp [120]: 프로그래밍 교육 에이전트, 키워드 설정, 질문 추적, 피드백 제공
    • EduChat [81]: 교육 특화 LLM 에이전트, 학생·교사·학부모에게 공감형 맞춤 교육 지원
    • FreeText [121]: 서술형 문제 자동 평가 및 피드백 제공 에이전트

3.3. Engineering

<토목공학 (Civil Engineering)>

  • 기능: 자연어 명령을 이해하고, 3D 시뮬레이션 환경에서 구조물 설계 및 최적화
  • 사례: [122] 인간 설계자와 AI 에이전트가 협력하여 건물, 다리 등 복잡 구조물 설계
    • 에이전트는 블록 배치, 피드백 반영, 모호성 탐지 및 질문 기능 보유

<컴퓨터공학 및 소프트웨어공학>

- 소프트웨어 개발 전반 자동화

  • 기능: 코딩, 디버깅, 문서화, 테스트 자동화
  • 사례:
    • ChatDev [18]: 다중 에이전트 대화 기반 SW 개발 프레임워크 (역할 분담 포함)
    • MetaGPT [23]: 기획자–PM–엔지니어 역할 분리 → 코드 품질 향상
    • ToolBench [14], DemoGPT [124]: 코드 추천, 자동 완성, 프롬프트 기반 생성
    • GPT-Engineer [125], SmolModels [123]: 프롬프트 기반 경량 개발 자동화
    • CodeHelp [120]: 에러 메시지 분석 및 수정 제안, 학생용 디버깅 도구
    • ChatEDA [127]: EDA(전자설계자동화) 분야에서 설계–스크립트 실행 자동화
    • LLIFT [126]: 정적 분석 기반 보안 취약점 탐지
    • PENTESTGPT [128]: 침투 테스트 수행, 소스 코드 분석 및 익스플로잇 생성
    • DB-GPT [41]: 데이터베이스 이상 탐지를 위한 사고 과정 추적 기반 진단

<산업 자동화 (Industrial Automation)>

  • 기능: 디지털 트윈 + 프롬프트 엔지니어링 결합 → 생산 공정의 유연한 지능형 제어
  • 사례:
    • [129]: LLM과 디지털 트윈 통합 프레임워크로 생산 설계 자동화
    • IELLM [130]: 석유·가스 산업 사례, 암석 물리, 음향 반사법, 관 제어 등 활용

<로보틱스 및 구현지능 (Embodied AI)>

  • 기능: 강화학습 기반 에이전트가 실세계 행동 기획, 정보 수집, 협업 수행
  • 사례:
    • [135]: 고수준 명령을 행동으로 번역하는 계획 + 제어 통합 시스템
    • SayCan [78]: 모바일 로봇 기반 조작/이동 기술 551개 구성, 주방 환경 기반
    • [137,138]: 장기 목표 달성을 위한 복합 스킬 조합 및 실행 계획 수립
    • TidyBot [139]: 가정 내 청소 자동화, 텍스트 기반 학습 통한 사용자 맞춤화
    • [136]: 대화 기반 정보 수집으로 최적화 학습 가속화

<오픈소스 프레임워크 및 플랫폼>

    • 목표: 개발자들이 LLM 기반 에이전트를 쉽게 구성·테스트·확장할 수 있는 환경 제공
    • 주요 프로젝트:
      • LangChain [145]: 프로그래밍·디버깅 자동화, 다양한 소스 및 플러그인 연동
      • XLang [143]: 데이터 처리, 플러그인, 웹 에이전트 등 3가지 시나리오 지원
      • AutoGPT [100], WorkGPT [146]: 목표 설정–작업 분해–자동 순환 실행
      • AgentVerse [19]: 사용자 정의 시뮬레이션을 위한 다목적 프레임워크
      • GPT Researcher [148]: 연구 질문 생성–웹 정보 수집–요약 자동화
      • BMTools [149]: LLM 도구 확장용 오픈 플랫폼, 플러그인 URL 로딩 지원

 

<Remark>

  • 기술적 오류로 인한 위험 발생 가능성
      • LLM 자체가 환각(hallucination) 등의 문제에 취약하며, 때때로 오답을 생성
      • 이로 인해 다음과 같은 문제가 발생할 수 있음:
        • 잘못된 결론 도출
        • 실험 실패
        • 특히 위험 환경에서의 인간 안전 위협
      • 해결 방안:
        • 실험 과정에서 사용자의 전문성 및 안전에 대한 인식 필요
        • AI의 답변을 비판적으로 검토할 수 있는 역량 확보 필요
    •  
  • 악용 가능성에 대한 우려
      • LLM 기반 에이전트가 화학 무기 개발 등 악의적 목적에 활용될 가능성 존재
      • 잠재적 위협 기술로 전용될 경우, 사회적·윤리적 위험 증가
  • 해결 방안: Human alignment, 사용 제한 조치, 감시 체계 도입윤리적 사용을 보장하는 보안 메커니즘 필요
    •  

4. LLM-based autonomous agent evaluation

4.1. Subjective evaluation

1) 인간 주석 (Human Annotation)

  • 인간 평가자가 에이전트의 출력에 대해 직접 점수를 매기거나 순위를 매김
  • 주요 사례:
    • [20]: 5가지 핵심 질문에 기반해 에이전트의 능력을 평가
    • [159]: 무해성, 정직성, 유용성, 상호작용성, 편향성 등에 대한 인간 점수 비교
    • [79]: 커뮤니티 규칙 개발에서의 에이전트 효과성 판단

2) 튜링 테스트 (Turing Test)

  • 인간 평가자가 출력의 출처(인간 vs 에이전트)를 구분하지 못할 경우, 인간 수준의 성능 달성으로 간주
  • 주요 사례:
    • [29]: 자유 형식의 정치 성향 텍스트 응답에 대해 인간/에이전트 구분 실험
    • [20]: 에이전트와 인간의 행동 구분 여부 평가
    • EmotionBench [160]: 인간과 LLM의 감정 표현 비교를 통해 감성지능 측정
  • 주관적 평가는 인간 관점에서의 성능 평가를 가능케 하며, 서비스 품질의 핵심 지표로 기능함
  • 그러나 높은 비용, 낮은 효율성, 인구학적 편향의 한계 존재

3) 해결 방안: LLM을 통한 대체 평가 전략

  • 최근 연구들은 LLM 자체를 평가 도구로 활용하는 방법을 모색 중
    • ChemCrow [75]: 실험 결과의 정확성과 과정을 GPT로 평가
    • ChatEval [161]: 여러 에이전트가 토론 형식으로 서로의 결과를 비평 및 평가

- 이러한 방식은 신뢰성 향상, 자동화 가능성 확보 측면에서 유망하며, 향후 직접 인간 평가의 한계를 극복할 수 있는 대안으로 주목받고 있음

4.2. Objective evaluation

1) 평가 지표 (Metrics)

 

(1) 과업 성공률 (Task Success)

  • 성공률 (success rate)
  • 보상/점수 (reward/score)
  • 커버리지 (coverage)
  • 정확도 (accuracy)
    → 과업 수행 능력을 직접적으로 반영

(2) 인간 유사성 (Human Similarity)

  • 경로 정확도 (trajectory/location accuracy)
  • 대화 유사도 (dialogue similarity)
  • 인간 반응 모사 여부 (human-like mimicry)
    → 인간 행동을 얼마나 자연스럽게 흉내내는지 측정

(3) 효율성 (Efficiency)

  • 계획 소요 시간 (planning length)
  • 개발 비용 (development cost)
  • 추론 속도 (inference speed)
  • 명확화 대화 횟수 (clarification dialogues)
    → 자원 활용의 효율성과 운영 속도 평가

2) 평가 프로토콜 (Evaluation Protocols)

: 지표를 어떻게 활용해 평가를 수행할지를 정하는 방식

 

(1) 실세계 시뮬레이션

  • 게임/시뮬레이터 기반 환경에서 자율적 과업 수행
  • 경로 추적, 목표 달성률 등을 통해 현실 적용성 평가

(2) 사회적 평가 (Social Evaluation)

  • 협업, 토론, 감정 표현 등 사회적 행동 능력 측정
  • Theory of Mind, 공감능력, 소셜 IQ 평가

(3) 다중 과제 평가 (Multi-task Evaluation)

  • 다양한 도메인의 과업을 부여하여 범용성 및 일반화 능력 측정

(4) 소프트웨어 테스트

  • 테스트 케이스 생성, 버그 재현, 코드 디버깅 수행 후
  • 테스트 커버리지, 버그 탐지율 등으로 성능 측정

3) 벤치마크 (Benchmarks)

: 다양한 분야에서 에이전트 평가를 위한 벤치마크 활용

 

<시뮬레이션 환경>

  • ALFWorld, IGLU, Minecraft: 실시간 과업 수행 능력 평가
  • Tachikuma: TRPG 게임 로그 기반의 상호작용 이해력 평가

<사회성 평가>

  • SocKET: 감정, 유머, 신뢰성 등 5개 범주의 사회정보 측정
  • EmotionBench: 8가지 부정 감정에 대한 정서 판단 능력 평가
  • AgentSims: 행동 계획·기억·행동 전략의 효과성 측정

<도구 활용 및 소프트웨어 개발>

  • ToolBench: 툴 사용 역량 평가
  • WebShop, WebArena: 제품 검색, 정보 검색 정확도 평가
  • DB-GPT, PEB, ClemBench, E2E 등: 다양한 환경 기반 실제 응용 평가

<Remark>

  • 객관적 평가는 에이전트의 성능을 수치화하여 명확하게 비교·분석 가능
  • 아직 모든 능력을 완벽하게 평가하긴 어려우나, 주관적 평가를 보완하는 필수적 수단으로 기능
  • 다양한 벤치마크와 평가 방식의 발전은 향후 에이전트 개발 및 분석에 중요한 기반이 될 것임

5. Related surveys

  • 기존 서베이들은 LLM 자체에 대한 기술·응용·한계·평가 등 광범위한 범주를 포괄
  • 반면, 본 연구는 LLM 기반 자율 에이전트(LAA)에 특화된 최초의 종합적 서베이
  • 총 100편 이상의 선행 연구를 정리, 에이전트의 구성, 응용, 평가에 대해 체계적으로 정리

6. Challenges

6.1. Role-playing capability

 

  • 에이전트는 상황에 따라 프로그래머, 화학자, 연구자 등 다양한 역할 수행 필요
  • 그러나 LLM은 웹 기반 학습으로 인해 드문 직군이나 새로운 역할에 대한 이해가 부족
  • 또한 인지심리학적 특성이나 자기 인식 결여 문제 존재
  • 해결 방안: 역할별 실데이터 수집 후 fine-tuning 또는 프롬프트/아키텍처 특화 설계

 

6.2. Generalized human alignment

 

  • 기존 LLM은 "옳은" 인간 가치에 정렬되어 있음 (ex. 폭탄 제조 거부)
  • 그러나 현실 시뮬레이션에서는 부정적 특성도 필요 (ex. 범죄자 행동 분석)
  • 시뮬레이션 목적에 따라 다양한 가치에 맞춰 정렬할 수 있는 유연성 필요
  • 해결 방안: 목적에 따른 prompt 설계로 유연한 정렬 방식 구현

 

6.3. Prompt robustness

 

  • 프롬프트에 작은 변화만으로도 큰 결과 차이 발생
  • 에이전트는 기억·계획 모듈 포함으로 인해 모듈 간 상호작용까지 고려된 복합 프롬프트 프레임워크 필요
  • 해결 방안:
    • 수작업을 통한 프롬프트 최적화
    • GPT 기반 자동 프롬프트 생성

 

6.4. Hallucination

 

  • LLM은 사실이 아닌 정보를 그럴듯하게 생성하는 환각(hallucination) 현상이 존재
  • 코드 생성·보안·윤리적 문제 발생 가능
  • 해결 방안: 인간의 피드백을 지속적으로 반영하는 상호작용적 학습 과정 도입

 

6.5. Knowledge boundary

 

  • 에이전트는 인간 행동 시뮬레이션을 수행해야 하나, LLM의 과잉지식이 현실성 저해
  • 예: 영화 평가를 모사할 때, 모르는 상태를 가정해야 하지만 LLM은 이미 내용을 알고 있음
  • 해결 방안: 특정 지식 접근을 제한하는 방식(knowledge masking 등) 필요

 

6.6. Efficiency

 

  • 오토리그레시브 구조로 인해 추론 속도가 느림
  • 에이전트는 매 동작마다 LLM 호출이 반복됨 (ex. 기억 검색, 계획 수립)
  • 시스템 전반의 응답성 저하
  • 해결 방안: 캐싱, 프리페칭, 경량화된 LLM 연동 등이 필요

 

7. Conclusion

  • 본 서베이의 목적은 LLM 기반 자율 에이전트 분야의 기존 연구를 체계적으로 정리하는 것에 있음.
  • 각 측면에 대해 세부 분류 체계(taxonomy)를 제공하여 기술 간 연관성과 발전 흐름 정리
  • 100여 편 이상의 주요 연구를 바탕으로 분야별 흐름과 통찰 제공
  • 본 연구는 단순 정리에 그치지 않고, 해결이 필요한 주요 도전 과제들을 제안
  • 향후 연구자들에게 연구 방향성과 문제 인식의 기준점을 제공