논문 링크: https://arxiv.org/abs/2308.11432
A Survey on Large Language Model based Autonomous Agents
Autonomous agents have long been a prominent research focus in both academic and industry communities. Previous research in this field often focuses on training agents with limited knowledge within isolated environments, which diverges significantly from h
arxiv.org
1. Introduction
- 자율 에이전트의 정의
환경에 위치하고 그 일부로 작용하며, 환경을 인식하고 이에 따라 행동하여 시간이 지나며 스스로의 목표를 추구하는 시스템으로 정의됨 (Franklin and Graesser, 1997의 정의 기반) - 기존 자율 에이전트 연구의 한계
- 단순한 휴리스틱 정책 기반으로 제한된 환경에서 학습한 사례 중심
- 인간은 다양한 환경에서 복합적인 학습을 수행하는 반면, 기존 에이전트는 인간 수준의 의사결정 과정 재현에 한계 존재
→ 개방적·비제한적 환경에서의 인간 유사 학습과정 재현의 미흡함
- 대형 언어 모델(LLM)의 부상
- 대규모 파라미터와 데이터셋을 활용한 훈련을 통해 인간 유사 지능 달성 가능성 제시
- LLM을 중심 제어기로 활용하는 자율 에이전트 연구의 확대
- LLM 기반 자율 에이전트의 강점
- 도메인 특화 학습 없이도 내재적 세계 지식을 활용한 의사결정 가능성
- 자연어 인터페이스를 통한 유연하고 설명 가능한 인간과의 상호작용 가능성
- 기존 연구의 한계
- 메모리, 계획 능력 등을 탑재한 다양한 모델이 등장했으나, 통합적 분석과 비교가 부족함
- 본 논문의 기여
- 급속히 발전하는 연구 흐름을 체계적으로 정리 및 분류
- 후속 연구자에게 통찰 제공 및 연구 기반 마련의 목적
- 세 가지 주요 축을 중심으로 구성
- 구조 설계 (Construction)
- (1) LLM을 활용한 에이전트 구조 설계 방식
- (2) 에이전트의 능력을 강화하는 방법
- 하드웨어적 구성과 소프트웨어적 자원 확보 전략의 구분
- 응용 분야 (Applications)
- 사회과학, 자연과학, 공학 등 다양한 분야에서의 활용 사례 분석
- 평가 방식 (Evaluation)
- 주관적·객관적 평가 전략의 비교와 분류
- 구조 설계 (Construction)
- 연구자의 접근성 향상과 미래 연구 방향 제시
- 체계적 분류와 개념 정리를 통한 배경지식 제공
- LLM 기반 자율 에이전트 연구 활성화를 위한 기반 조성
2. LLM-based autonomous agent construction(에이전트 구조 설계)
- 목표: LLM의 인간 유사 능력을 활용하여 자율 에이전트가 다양한 작업을 효과적으로 수행하도록 설계
- 두 가지 핵심 질문
- LLM을 효과적으로 활용하기 위한 아키텍처 설계 방식
- 설계된 구조를 바탕으로 특정 작업을 수행하는 능력 획득 방식
<아키텍처 설계>
- 기여: 기존 연구를 종합적으로 정리하고 통합하여 포괄적인 통합 프레임워크 제시
- 의의: 다양한 모델과 구조적 접근법을 아우르는 체계적 정합성 확보
<에이전트 능력>
- 전략 분류: LLM을 파인튜닝하는지 여부에 따라 에이전트의 능력 획득 전략을 분류
- 유추
- 아키텍처 설계는 전통적인 머신러닝에서의 네트워크 구조 설정에 해당
- 능력 획득은 모델 파라미터 학습에 해당
2.1. Agent architecture design
<설계의 필요성>
- 기존 LLM의 한계
- 최근의 LLM은 질문-응답(Question-Answering) 형식에서 뛰어난 성과를 보였으나
- 자율 에이전트는 특정 역할 수행, 환경 인식, 자율 학습 등을 포함해야 하므로 QA와는 본질적으로 다름
- 설계 방향성
→ LLM의 잠재력을 극대화하기 위해 합리적 아키텍처 설계가 필수
→ 다양한 연구를 통해 LLM 보조 모듈이 제안됨
<제안된 통합 프레임워크 구성>
- 전체 구조: 프레임워크는 총 네 개의 모듈로 구성됨
- 프로파일링 모듈 (Profiling Module)
→ 에이전트의 역할과 정체성 정의 - 메모리 모듈 (Memory Module)
→ 과거 경험을 저장하고 회상 - 계획 모듈 (Planning Module)
→ 미래 행동 계획 수립 - 행동 모듈 (Action Module)
→ 결정된 내용을 외부로 출력
- 프로파일링 모듈 (Profiling Module)
<모듈 간 관계>
- 프로파일링 모듈 → 메모리 모듈 및 계획 모듈에 영향
- 메모리 + 계획 모듈 → 행동 모듈의 출력에 직접적 영향
- 전반적으로 네 모듈이 상호작용하며 동적인 학습 및 실행 구조 형성
2.1.1. Profiling module
- 역할: 자율 에이전트는 코더, 교사, 전문가 등 특정 역할을 수행하며 행동
→ 프로파일링 모듈은 이러한 에이전트 역할의 성격과 배경을 정의하는 기능 수행 - 입력 방식: 역할 정보는 프롬프트 내에 삽입되어 LLM의 행동을 유도
- 프로파일 구성 요소
- 기본 정보: 나이, 성별, 직업
- 심리 정보: 성격 유형
- 사회 정보: 타 에이전트와의 관계
- 적용 시나리오별 정보 선택의 중요성
예: 인지과정 연구의 경우 → 심리 정보가 핵심
< 프로필 생성 방식 (세 가지 주요 전략) >
- 수작업 생성 방식 (Handcrafting Method)
- 사람이 직접 프롬프트에 성격/역할 부여
- 예: "너는 외향적인 사람이다", "너는 내향적인 사람이다"
- 활용 사례
- Generative Agent: 이름, 목표, 관계 등 수동 정의
- MetaGPT, ChatDev, Self-Collaboration: 역할 및 책임을 수동 배정
- PTLLM: 성격 평가 도구(IPIP-NEO, BFI)를 기반으로 다양한 성격 부여
- Toxicity 연구: 정치인, 기자 등 다양한 역할을 지정해 LLM 반응 비교
- 장점: 유연성
- 단점: 에이전트 수가 많을 경우 높은 노동 비용
- LLM 생성 방식 (LLM-Generation Method)
- LLM이 에이전트 프로필을 자동 생성
- 과정
- 프로파일 구성 규칙 정의
- 소수의 시드(seed) 프로필 예시 제공
- LLM을 통해 전체 프로필 생성
- 활용 사례
- RecAgent: 시드 프로필을 기반으로 ChatGPT가 나머지 생성
- 장점: 규모 확장 시 효율적
- 단점: 정밀한 통제력 부족 가능성
- 데이터셋 정렬 방식 (Dataset Alignment Method)
- 실제 인물 데이터를 기반으로 프롬프트 구성
- 예: ANES 데이터를 바탕으로 인종, 성별, 연령 등을 프롬프트화하여 GPT-3에 역할 부여
- 장점: 현실 집단의 특성을 정확하게 반영, 행동의 의미 강화
<Remark. 혼합 전략의 가능성>
- 혼합 전략의 권장
- 예: 현재 존재하는 사회 역할 → 실제 데이터 기반 구성
- 미래 사회 역할 예측 → 수작업으로 가상의 역할 추가
- 다양한 전략의 병행 사용을 통한 표현력 강화
- 기초 모듈로서의 의의: 프로파일링 모듈은 에이전트의 기억, 계획, 행동 모듈에 지대한 영향을 미치는 핵심 기반
2.1.2. Memory module
- 역할: 환경으로부터 인지한 정보를 저장하고 활용하여 향후 행동을 조정
→ 경험 축적, 자기 진화, 일관성 있는 행동에 기여 - 의의
- 인간의 인지 과학 이론을 바탕으로 설계
- 인간 기억의 구조(감각 → 단기 → 장기 기억)를 반영한 설계 방식 채택
<Memory Structures>
1. 통합 메모리 (Unified Memory)
- 특징
- 단기 기억만을 모사
- 프롬프트 내부에 직접 정보를 삽입하는 in-context learning 기반 구조
- 장점: 구현이 단순하고, 최근 행동이나 문맥 기반 인식 능력 강화
- 단점: LLM의 컨텍스트 윈도우 제한에 의해 모든 기억 포함이 어려움
→ 성능 저하 발생 가능 - 대표 사례
- RLP: 대화 에이전트의 발화자·청자 상태를 단기 기억으로 유지
- SayPlan: 환경 피드백 및 장면 그래프를 단기 기억으로 활용
- CALYPSO: DnD 게임 내 장면 설명·몬스터 정보 등을 단기 기억으로 구성
- DEPS: 마인크래프트 작업 계획을 단기 기억으로 사용하여 행동 생성
2. 하이브리드 메모리 (Hybrid Memory)
- 특징
- 단기 + 장기 기억 모두 구현
- 단기 기억: 최근 정보 임시 저장
- 장기 기억: 과거 행동·지식의 축적 및 검색
- 장점
- 유연한 계획 수립 + 안정된 지식 저장
- 복잡한 환경에서의 추론 및 일관성 향상
- 대표 사례
- Generative Agent: 상황별 단기 정보 + 회상 가능한 장기 기억 구성
- AgentSims: 프롬프트는 단기 기억, 벡터 데이터베이스로 장기 기억 구현
- GITM: 현재 경로는 단기, 성공 경로 요약본은 장기 기억에 저장
- Reflexion: 피드백은 단기, 핵심 인사이트는 장기 기억으로 분리
- SCM: 문맥에 따라 관련 장기 기억을 선택적으로 활성화
- SimplyRetrieve: 사용자 질의를 단기 기억, 외부 지식 기반을 장기 기억으로 활용
- MemorySandbox: 2D 캔버스를 이용한 시각적 기억 객체 저장 및 공유
<Remark>
- 장기 기억만을 사용하는 구조도 존재 가능성은 있으나, 문헌에서 드물게 나타남
→ 이유: 자율 에이전트는 연속적이고 동적인 환경에 위치하며
→ 단기 기억의 중요성이 크기 때문에 대부분의 시스템이 이를 포함
<Memory format>
- 메모리 모듈은 구조뿐 아니라 저장 포맷의 유형에 따라 구분 가능
- 포맷별로 장점과 적용 분야가 다르며, 복수 포맷의 혼용도 가능
1. 자연어 포맷 (Natural Language Format)
- 특징
- 행동 및 관찰 정보를 자연어로 직접 기록
- 유연성, 이해 용이성, 풍부한 의미 정보 제공
- 장점
- 직관적인 해석 가능성
- 프롬프트 삽입 시 행동 지침으로 작용
- 사례
- Reflexion: 슬라이딩 윈도우를 통해 피드백을 자연어로 저장
- Voyager: 마인크래프트 게임 내 기술(skill)을 자연어로 표현하여 저장
2. 임베딩 포맷 (Embedding Format)
- 특징
- 메모리 정보를 벡터 임베딩으로 변환하여 저장
- 검색 효율 및 일관된 벡터 연산 가능
- 장점
- 유사도 기반 검색 가능
- 대규모 메모리의 처리 용이
- 사례
- MemoryBank: 메모리를 임베딩으로 변환하여 인덱스화
- GITM: 참조 계획(reference plan)을 임베딩으로 표현
- ChatDev: 대화 이력을 벡터로 저장하여 검색
3. 데이터베이스 포맷 (Database Format)
- 특징
- 메모리 정보를 데이터베이스 내에 저장
- 정밀한 조작(SQL 기반 수정, 삭제 등) 가능
- 장점
- 복잡한 정보 조작 및 확장성 확보
- 외부 시스템과의 연계 용이
- 사례
- ChatDB: SQL 기반 기호적 메모리 조작
- DB-GPT: 데이터베이스에 메모리를 저장하고 SQL을 자연어로 제어 가능하도록 미세 조정
4. 구조화 리스트 포맷 (Structured List Format)
- 특징
- 정보를 **리스트 구조나 계층 구조(Tree)**로 표현
- 목표-계획 간 관계 표현에 효과적
- 장점
- 명확한 관계 구조
- 정보 축약 및 정돈된 표현 가능
- 사례
- GITM: 서브 목표별 액션 리스트를 계층 구조로 저장
- RET-LLM: 자연어 문장을 삼중 항목(triplet)으로 변환 후 저장
<Remark>
- 기타 포맷
- 예: Voyager에서는 프로그래밍 코드를 메모리로 사용한 사례도 존재
- 포맷 간 병행 사용 가능성
- 많은 모델이 복수 포맷을 결합하여 장점을 동시에 활용
- 예: GITM은
- 키는 임베딩
- 값은 자연어
→ 검색 효율 + 풍부한 의미 정보의 결합을 통한 행동 최적화
<Memory Operation>
- 메모리 모듈은 환경과의 상호작용을 통해 지식의 획득, 축적, 활용을 가능하게 함
- 세 가지 핵심 연산으로 구성됨:
- Memory Reading (읽기)
- Memory Writing (쓰기)
- Memory Reflection (성찰)
1. 메모리 읽기 (Memory Reading)
- 목적: 과거의 유의미한 정보를 추출하여 행동의 질 향상을 도모
- 핵심 기준 (3가지)
- Recency (최근성)
- Relevance (관련성)
- Importance (중요도)
- 추출 전략 공식화
- 활용 사례
2. 메모리 쓰기(Memory Writing)
- 목적: 환경에서 인지한 중요 정보의 저장을 통해 향후 활용 기반 마련
- 주요 문제
- 중복 메모리 (Memory Duplicated)
- 메모리 초과 (Memory Overflow)
2-1. 중복 메모리 처리
- 핵심 과제: 유사 정보의 중복 저장 방지 및 통합
- 전략
- 동일 목표 관련 행동 시퀀스를 저장하다가 일정 개수 이상(예: 5개) 축적 시, LLM을 활용해 하나의 통합 계획으로 요약 후 대체 (예: [7])
- Augmented LLM: 횟수 누적 방식으로 중복 정보 통합
2-2. 메모리 초과 처리
- 핵심 과제: 저장 용량이 가득 찼을 때의 삭제 정책 수립
- 전략
- ChatDB: 사용자의 명령어 기반 명시적 삭제
- RET-LLM: 고정 크기 버퍼 활용, FIFO(선입선출) 방식으로 가장 오래된 정보 삭제
<Memory Reflection>
- 정의
메모리 성찰은 인간이 자신의 인지, 감정, 행동을 인식하고 평가하는 능력을 에이전트에게 모사하는 기능 - 목적
에이전트가 과거 경험을 요약 및 추상화하여 복합적이고 고차원적인 인사이트를 도출할 수 있도록 지원 - 최근 기억 기반으로 3가지 핵심 질문 생성
- 생성된 질문을 바탕으로 관련 정보 검색
- 정보를 바탕으로 5가지 고차 인사이트 도출
예:
- 낮은 수준의 기억
- "Klaus Mueller is writing a research paper"
- "Klaus Mueller is engaging with a librarian"
- "Klaus Mueller is conversing with Ayesha Khan"
- 고차원 인사이트
- "Klaus Mueller is dedicated to his research"
- 계층적 성찰 구조 가능
- 기존 인사이트를 기반으로 새로운 인사이트를 도출하는 방식
<주요 사례>
- Generative Agent : 메모리 기반 질문 생성 및 고차 인사이트 도출 프로세스 구현
- GITM : 성공적인 행동 리스트가 5개 이상일 경우
→ 공통된 추상 패턴으로 요약 후 기존 데이터 대체 - ExpeL
- (1) 동일 작업 내 성공/실패 경로 비교
- (2) 성공 경로 모음에서 경험 일반화 학습 수행
- 전통적 LLM과의 차별점
- LLM은 지식 생성기로 기능
- 반면 자율 에이전트는 동적 환경에서의 학습과 자기 향상 능력이 필수
→ 메모리 성찰은 이러한 능력을 구현하는 핵심 요소
2.1.3. Planning module
- 목적: 인간처럼 복잡한 문제를 단순한 하위 과제로 분해하고 해결하는 능력을 에이전트에 부여
- 기대 효과: 에이전트의 합리성, 신뢰성, 실행력 향상
- 분류 기준: 에이전트가 계획 과정 중 피드백을 받는지 여부에 따라 세 가지로 분류:
1) 피드백 없는 계획 (Planning Without Feedback)
● 단일 경로 추론 (Single-Path Reasoning)
- 전략: 하나의 직선적 경로로 문제를 단계별로 해결
- 사례:
- Chain of Thought (CoT) [45]: 추론 과정을 프롬프트에 명시
- Zero-shot-CoT [46]: “step by step” 같은 트리거 문장만으로 추론 유도
- Re-Prompting [47]: 각 단계의 사전 조건 검사 → 실패 시 재생성
- ReWOO [48]: 계획과 관찰을 독립 생성 후 결합
- HuggingGPT [13]: 작업을 하위 목표로 분해하고 각각 해결
● 다중 경로 추론 (Multi-Path Reasoning)
- 전략: 트리 구조 또는 그래프 기반의 다중 추론 경로 탐색
- 사례:
- Self-consistent CoT (CoT-SC) [49]: 여러 경로 중 빈도 기반 최종 답 선택
- Tree of Thoughts (ToT) [50]: BFS/DFS 탐색을 통한 계획 수립
- RecMind [51]: 버려진 정보도 활용해 새로운 추론 경로 생성
- GoT [52]: 트리 기반 ToT를 그래프 구조로 확장
- AoT [53]: 알고리즘 예시 기반의 추론 향상
- [54]: 여러 다음 스텝 중 허용 가능한 행동에 가장 가까운 경로 선택
- [55]: 쿼리 유사 예시 추가로 [54] 개선
- RAP [56]: 몬테카를로 트리 탐색(MCTS) 기반의 세계 모델 구성
● 외부 계산기 활용 (External Planner)
- 전략: LLM이 전처리·후처리를 담당하고, 계획 수립은 외부 도구에 위임
- 장점:
- LLM의 고수준 계획 생성 능력과
- 외부 도구의 정밀 탐색 능력을 결합
- 사례:
- LLM+P : 작업을 PDDL로 변환 → 외부 계획기 처리 → LLM으로 결과 자연어화
- LLM-DP : 관찰/목표/상태 → PDDL 변환 → 외부 계획기 활용
- CO-LLM : 고수준 계획은 LLM, 저수준 실행은 휴리스틱 기반 외부 계획기 사용
2) 피드백 기반 계획 수립 (Planning with Feedback)
- 필요성
- 복잡하고 장기적인 과제에서는 초기 계획만으로 문제 해결이 어려움
- 이유:
- 사전조건이 많아 완전한 초기 계획 생성이 어려움
- 실행 중 예상치 못한 상황 변화 발생 가능성
→ 단일 계획 수립보다 피드백을 반영한 반복 계획 수립 전략이 효과적
- 사람의 계획 방식 모사
- 인간은 피드백을 기반으로 계획을 반복적으로 수정
- 이를 모사하기 위해 다양한 피드백 유형 기반의 계획 모듈 설계
● 환경 피드백 (Environmental Feedback)
- 정의: 게임 환경, 시뮬레이터, 관찰 등 외부 세계로부터의 반응
- 대표 사례:
- ReAct [59]: thought-act-observation 삼중 구조 활용 → 추론과 행동에 관찰 결과 반영
- Voyager [38]: 실행 중간 결과, 오류, 자기 검증 결과를 기반으로 계획 수정
- Ghost [16]: 실행 성공/실패 및 환경 상태를 지속적으로 반영
- SayPlan [31]: 장면 그래프 시뮬레이터의 피드백으로 전략 반복 수정
- DEPS [33]: 실패의 구체적 원인 제공을 통해 효과적인 재계획 유도
- LLM-Planner [60]: 객체 불일치, 실행 불가능성 발견 시 동적 계획 재작성
- Inner Monologue [61]:
- (1) 작업 성공 여부
- (2) 수동적 장면 설명
- (3) 능동적 장면 설명
→ 환경 기반 피드백으로 합리적 행동 유도
● 인간 피드백 (Human Feedback)
- 정의: 인간 사용자와의 상호작용을 통한 직접적이고 주관적인 피드백 제공
- 장점:
- 인간 가치 및 선호 반영 가능
- 환각(hallucination) 감소 효과
- 대표 사례:
- Inner Monologue [61]: 자연어 지시 수행 도중 사용자에게 장면 설명 요청 → 프롬프트에 반영하여 계획 품질 향상
- 다양한 환경 피드백과 인간 피드백을 함께 결합하여 성능 증대
● 모델 피드백 (Model Feedback)
- 정의: 사전학습된 모델로부터 생성된 내부 평가 및 피드백
- 대표 사례:
- Self-Refine [62]:
- 출력 생성
- 출력에 대한 모델 피드백 생성
- 피드백 기반 정제 반복 수행
- SelfCheck [63]: 각 단계의 추론 과정을 자가검토 및 오류 수정
- InterAct [64]: 다른 LLM(ChatGPT, InstructGPT 등)을 **보조자(checker, sorter)**로 활용
- ChatCoT [65]: 추론 과정의 품질 향상을 위한 내부 평가 모듈 도입
- Reflexion [12]: 행동 결과에 대한 상세 자연어 피드백 생성 → 스칼라 값 대신 풍부한 언어 정보 제공
- Self-Refine [62]:
<Remark>
- 비피드백 기반 계획 모듈: 구현이 간단하나, 단순한 작업에만 적합
- 피드백 기반 계획 모듈: 구현은 복잡하나,
→ 장기 추론 및 고차원 문제 해결에 매우 효과적
2.1.4. Action module
- 역할: 에이전트의 의사결정을 구체적인 실행 결과로 전환
→ 환경과의 직접적인 상호작용 담당 - 모듈 간 상호작용: 프로파일링, 메모리, 계획 모듈로부터 영향 받음
- 분석 관점 (4가지)
- Action Goal — 행동의 목적 (Before-action)
- Action Production — 행동 생성 방식 (Before-action)
- Action Space — 가능한 행동의 범위 (In-action)
- Action Impact — 행동의 결과 및 영향 (After-action)
※ 이번 요약에서는 Action Goal 및 Action Production 중심
1) 행동 목적 (Action Goal)
: 에이전트가 수행하는 행동의 의도된 결과에 따라 유형 분류
- (1) 작업 수행 (Task Completion)
- 목적: 명확한 목표를 향한 행동 수행
- 사례:
- Voyager [38]: 마인크래프트에서 철 곡괭이 제작
- ChatDev [18]: 소프트웨어 기능 완성
- (2) 의사소통 (Communication)
- 목적: 정보 공유, 협업을 위한 상호작용
- 사례:
- ChatDev [18]: 다수의 에이전트 간 협업 대화
- Inner Monologue [61]: 인간과의 피드백 중심 상호작용
- (3) 환경 탐색 (Environment Exploration)
- 목적: 미지의 환경 탐색 및 기술 습득
- 사례:
- Voyager [38]: 탐험 중 새로운 스킬 발견 및 코드 개선
2) 행동 생성 방식 (Action Production)
: 에이전트는 다음 두 가지 주요 전략 중 하나로 행동을 생성
(1) 메모리 기반 행동 (Action via Memory Recollection)
- 전략: 현재 과제와 관련된 기억 정보 추출 → 행동 유도
- 사례:
- Generative Agent [20]: 최근 중요 기억을 추출해 행동 지침 구성
- GITM [16]: 유사 과제 성공 경험 검색 → 동일 방식 재사용
- ChatDev [18], MetaGPT [23]: 대화 이력을 기반으로 발화 생성
(2) 계획 기반 행동 (Action via Plan Following)
- 전략: 사전에 생성된 행동 계획을 기반으로 순차적 실행
- 사례:
- DEPS [33]: 계획 오류 신호 없을 시 계획을 그대로 실행
- GITM [16]: 하위 목표 기반 계획 수립 → 각 목표별 행동 수행
3) 행동 공간 (Action Space)
- 에이전트가 수행 가능한 모든 행동의 집합을 의미
- 크게 두 가지 범주로 분류
- 외부 도구 활용
- LLM 내재 지식 활용
● 외부 도구 (External Tools)
(1) API
- 의의:
- 전문 지식이 필요한 도메인 대응
- LLM의 환각 문제 해결
→ LLM이 API 호출 기능을 통해 외부 행동 실행 가능
- 대표 사례:
- HuggingGPT [13]: HuggingFace 모델 활용
- TPTU [67]: 파이썬 인터프리터 및 LaTeX 컴파일러 연결
- Gorilla [68]: API 호출용 인자 생성 최적화
- ToolFormer [15]: 자연어 기반의 도구 변환 시스템
- API-Bank [69]: 프로그래밍 언어에 적합한 API 자동 추천
- ToolBench [14]: 계산기, 단위변환기, 지도 등 다양한 도구 자동 생성
- RestGPT [70]: RESTful API 연결로 현실 앱과의 호환성 강화
- TaskMatrix.AI [71]: 수백만 개 API와 연결, 코드 자동 생성 기능 탑재
(2) 외부 데이터베이스 및 지식베이스
- 역할:
- 특정 도메인 정보 확보
- 더 정확하고 현실적인 행동 생성 지원
- 대표 사례:
- ChatDB [40]: SQL 기반 데이터베이스 질의
- MRKL [72], OpenAGI [73]: 지식베이스 및 전문가 시스템 연계
(3) 외부 모델
- 의의:
- API보다 복잡한 작업 처리 가능
- 한 모델이 여러 API와 연결될 수 있음
- 대표 사례:
- MemoryBank [39]: 두 개의 언어 모델로 텍스트 인코딩 및 질의 매칭
- ViperGPT [74]: Codex 기반 코드 생성 → 실행을 통한 작업 처리
- TPTU [67]: 코드, 가사 등 다양한 언어 생성 작업 지원
- ChemCrow [75]: 17개 전문가 모델로 화학 합성, 신약 설계 등 수행
- MM-REACT [76]:
- VideoBERT: 비디오 요약
- X-decoder: 이미지 생성
- SpeechBERT: 음성 처리
→ 멀티모달 행동 공간 확장
● 내부 지식 기반 행동 (Internal Knowledge)
- 정의: 외부 도구 없이 LLM 자체의 내재적 능력만으로 행동을 수행하는 방식
→ 자율성, 추론력, 사람 유사성 구현의 핵심 기반 - 핵심 능력 분류 (3가지): 각 능력은 실제 에이전트 동작의 중요한 구성 요소로 기능
(1) 계획 수립 능력 (Planning Capability)
- 의의:
- LLM은 복잡한 작업을 하위 작업으로 분해하는 계획 수립이 가능
- 심지어 예시 없이도 “zero-shot” 방식으로 추론 유도 가능
- 대표 사례:
- DEPS [33]: 마인크래프트 작업을 하위 목표로 나누어 해결
- GITM [16], Voyager [38]: LLM의 계획 기능을 기반으로 과제 수행
(2) 대화 능력 (Conversation Capability)
- 의의:
- 인간 유사한 고품질 대화 생성 가능
- 다른 에이전트 또는 인간과의 소통 기반 행동 수행
- 대표 사례:
- ChatDev [18]: 협업 개발 및 행동 성찰을 위한 에이전트 간 대화
- RLP [30]: 청자의 피드백을 반영한 유동적인 커뮤니케이션 실행
(3) 상식 이해 능력 (Common Sense Understanding)
- 의의:
- 인간의 상식 기반 상황 인식 및 추론 가능
- 일상적 상황 시뮬레이션 및 의사결정 가능성 확보
- 대표 사례:
- Generative Agent: 현재 상태, 주변 환경 인식, 고차원 아이디어 도출
- RecAgent [21], S3 [77]: 사용자 추천, 사회적 행동 시뮬레이션 수행
4) Action Impact
- 정의: 에이전트의 행동이 환경이나 시스템에 미치는 영향 전반을 의미
→ 외부 세계뿐만 아니라 내부 상태 변화 및 다음 행동의 유발까지 포함 - 핵심 유형 분류 (3가지)
(1) 환경 변화 (Changing Environments)
- 의의:
- 행동을 통해 외부 환경의 상태 변경 유도
- 대표 사례:
- GITM [16], Voyager [38]:
- 예: 나무 3개를 채굴하면 해당 자원이 환경에서 사라짐
- 위치 이동, 자원 수집, 건축 행위 등 포함
- GITM [16], Voyager [38]:
(2) 내부 상태 변화 (Altering Internal States)
- 의의:
- 행동 수행 후 에이전트의 기억, 계획, 지식 상태 변화
- 대표 사례:
- Generative Agent [20]: 행동 후 메모리 스트림 업데이트
- SayCan [78]: 환경에 대한 이해도를 행동을 통해 갱신
(3) 새로운 행동 유발 (Triggering New Actions)
- 의의:
- 하나의 행동이 다음 행동으로 이어지는 유기적 연결 형성
- 대표 사례:
- Voyager [38]:
- 필요한 자원을 수집한 후 자동으로 건물 건설 행동 시작
- Voyager [38]:
2.2. Agent capability acquisition
- 목적: 앞서 소개된 아키텍처는 하드웨어(구조)에 해당하지만 효과적인 작업 수행을 위해서는 소프트웨어(능력, 기술, 경험)가 필수
→ 다양한 능력 획득 전략 필요 - 전략 분류 기준
- 파인튜닝을 사용하는 방식 (With Fine-tuning)
- 파인튜닝을 사용하지 않는 방식 (Without Fine-tuning) (다음 파트에서 다룸)
1) 파인튜닝 기반 능력 획득 (Capability Acquisition with Fine-tuning)
1-1) 사람이 주석한 데이터셋을 활용한 파인튜닝
- 개요:
- 사람이 수집하고 주석한 데이터셋을 기반으로 에이전트 파인튜닝 수행
- 도메인 적합성, 신뢰성, 평가 품질 확보 가능
- 주요 사례:
- CoH [79]: 인간 가치 정렬을 위해 자연어 기반 비교 피드백을 활용
- RET-LLM [42]: 자연어 ↔ 삼중 항목(triplet) 변환 학습
- WebShop [80]:
- 아마존 상품 데이터 + 시뮬레이션 쇼핑 환경 구성
- 13명의 사용자 행동 데이터 수집
- 휴리스틱, 모방학습, 강화학습 기반 전략 학습 (LLM 파인튜닝은 아니지만 응용 가치가 높음)
- EduChat [81]:
- 질의응답, 논술 평가, 소크라테스식 질의, 감정 케어 등 교육 목적 강화
- 심리 전문가와 교사에 의해 수집·평가된 고품질 주석 데이터 사용
- SWIFTSAGE [82]:
- 이중 처리 이론 기반 추론 모델
- 인간 주석 데이터를 활용한 SWIFT 모듈 파인튜닝
1-2) LLM이 생성한 데이터셋을 활용한 파인튜닝
- 개요:
- 대규모 수작업 주석이 비용적 부담이 클 경우
→ LLM이 직접 데이터를 생성하여 대체
- 대규모 수작업 주석이 비용적 부담이 클 경우
- 장점:
- 생성 데이터의 품질은 다소 낮을 수 있으나, 규모 확장성 및 비용 효율성 확보 가능
- 주요 사례:
- ToolBench [14]:
- RapidAPI에서 수집한 49개 카테고리, 16,464개의 API 기반
- ChatGPT로 다양한 지시문 생성 → LLaMA 모델 파인튜닝 → 도구 사용 성능 향상
- [84]:
- 에이전트 간 상호작용 기반 사회적 능력 학습용 데이터 생성
- 중앙 에이전트가 초기 응답 생성 → 주변 에이전트 피드백 수집 → 수정 → 데이터화
→ 대규모 사회적 상호작용 데이터로 LLM 파인튜닝 수행
- ToolBench [14]:
1-3) 실세계 데이터셋을 활용한 파인튜닝
- 개요:
- 웹, 대화, 서비스 등 현실에서 수집된 데이터를 직접 활용
- 장점:
- 현실 반영성 높음
- 다양한 시나리오와 사용자 행동 패턴을 포함
- 주요 사례:
- MIND2WEB [85]:
- 137개 웹사이트, 31개 도메인에서 2,000개 이상의 열린 과제 수집
→ 영화 검색, 티켓 예약 등 다양한 웹 과제에 대응
- 137개 웹사이트, 31개 도메인에서 2,000개 이상의 열린 과제 수집
- SQL-PaLM [86]:
- 크로스 도메인 텍스트-SQL 변환 학습을 위한 Spider 데이터셋 활용
→ PaLM-2 모델의 질의 응답 기반 SQL 처리 성능 향상
- 크로스 도메인 텍스트-SQL 변환 학습을 위한 Spider 데이터셋 활용
- MIND2WEB [85]:
2) 파인튜닝 없이 능력 획득하기 (Without Fine-tuning)
- 기존 머신러닝: 모델 파라미터 학습 중심 능력 획득
- LLM 시대:
- 모델 파라미터 조정 (fine-tuning)
- 프롬프트 설계 (Prompt Engineering)
- 에이전트 메커니즘 설계 (Mechanism Engineering)
→ 특히 프롬프트 설계 및 메커니즘 설계는 fine-tuning 없이도 능력 향상 가능
2-1) 프롬프트 설계 (Prompt Engineering)
- 정의:
자연어 기반 프롬프트에 행동 목적, 전략, 사고 방식 등을 삽입하여 능력 유도 - 주요 사례:
- CoT [45]: 단계별 추론 예시 제공 → 복잡한 문제 해결 유도
- CoT-SC [49], ToT [50]: 다양한 경로의 추론 흐름 유도
- SocialAGI [30]: 에이전트-청자 간 정신 상태 정보를 프롬프트에 포함 → 대화 적응력 및 전략성 강화
- Retroformer [87]: 실패에 대한 반성(reflection)을 프롬프트에 삽입 → 이후 행동 가이드로 활용
2-2) 메커니즘 설계 (Mechanism Engineering)
- 정의: 내부 구조, 피드백 절차, 학습 규칙 등 모듈과 운영 체계의 설계를 통한 능력 향상 전략
(1) 시행착오 기반 학습 (Trial-and-Error)
- 개요: 에이전트 행동 → 비평 모듈 평가 → 실패 시 피드백 반영 → 행동 수정
- 사례:
- RAH [88]: 추천 시스템에서 인간 행동과의 비교를 통한 실패 학습
- DEPS [33]: 실패 원인 설명 → 계획 재작성
- RoCo [89]: 다중 로봇 경로 검증 → 충돌 발생 시 재계획
- PREFER [90]: 성능 평가 실패 시 LLM을 통해 실패 원인 설명 생성 → 행동 개선
(2) 크라우드소싱 기반 강화 (Crowd-sourcing)
- 개요: 다수 에이전트의 응답 비교 → 상호 피드백 → 집단 토론을 통한 최종 답 도출
- 사례:
- [91]: 의견 불일치 발생 시, 다른 에이전트 의견 통합 후 재응답 → 토론 기반 합의 형성
(3) 경험 축적 및 활용 (Experience Accumulation)
- 개요: 성공 경험을 기억·라이브러리·지식베이스에 저장 → 유사 과제에 활용
- 사례:
- GITM [16]: 과거 성공 행동 기억화 → 유사 과제 시 재사용
- Voyager [38]: 피드백 기반 스킬 코드 반복 개선 → 스킬 라이브러리 확장
- AppAgent [92]: 사용자 앱 사용 방식 관찰 + 자율 탐색 → 작업 수행 지식 축적
- MemPrompt [93]: 사용자 피드백을 메모리로 저장 → 의도 추론 및 대응 향상
(4) 자가 진화 메커니즘 (Self-driven Evolution)
- 개요: 에이전트 스스로 목표 설정, 환경 탐색, 피드백 기반 능력 성장
- 사례:
- LMA3 [94]: 자율 목표 설정 및 보상 기반 학습
- SALLM-MS [95]: GPT-4 기반 다중 에이전트 협업 → 고도화된 자기조정 능력
- CLMTWA [96]: LLM 교사 → 약한 LLM 학생에게 맞춤 설명 제공 → 이해도 기반 피드백 학습
- NLSOM [97]: 다중 에이전트 간 자연어 기반 협력과 역할 조정 → 동적 팀워크 기반 학습
3. LLM-based autonomous agent application
3.1. Social science
- 정의: 사회과학은 사회와 개인 간 관계를 연구하는 학문 분야
LLM 기반 자율 에이전트는 인간 유사한 이해력, 사고력, 과제 해결력을 기반으로 이 분야에 혁신적 영향을 미침 - 분류 기준: 본 장에서는 사회과학, 자연과학, 공학의 3가지 분야로 응용 사례를 분류 (현재는 사회과학 중심 정리)
<심리학(Psychology)>
- 시뮬레이션 실험 수행
- 다양한 프로파일을 부여받은 LLM이 심리학 실험을 수행
- 결과: 인간 피험자와 유사한 결과 생성 가능성 확인
- 모델 크기와 정확도 간 정비례 관계 관측
- 단점: 일부 대형 모델은 과도하게 정확한 추정값(hyper-accuracy distortion)을 보여 후속 연구에 영향을 미칠 수 있음
- 정신 건강 지원
- Reddit의 120개 게시글을 기반으로 LLM 대화형 에이전트의 효과 분석
- 결과: 불안, 사회적 고립, 우울감 해소에 기여 가능성 확인
- 문제점: 일부 경우에는 유해한 콘텐츠 생성 위험성 존재
<정치학 및 경제학 (Political Science and Economy)>
- 이념 분석 및 투표 패턴 예측: LLM 기반 에이전트를 활용하여 이데올로기 탐지 및 투표 행태 예측
- 정치 연설 분석: LLM을 이용해 정치 연설의 담론 구조 및 설득 요소 분석
- 경제 행동 시뮬레이션: 다양한 성격, 성향, 재능을 부여받은 LLM 에이전트를 통해 인간의 경제적 선택 행동 탐색
<사회 시뮬레이션 (Social Simulation)>
- 정의: 인간 사회를 모사한 가상 환경 구축 및 사회 현상 시뮬레이션
- 주요 사례:
- Social Simulacra [79]: 온라인 커뮤니티 규칙 개선을 위한 가상 사회 시뮬레이션
- [107,108]: 에이전트의 성격이 소셜 네트워크 내 정보 전파에 미치는 영향 분석
- Generative Agents [20], AgentSims [34]: 가상 마을 내 일상 생활 시뮬레이션
- SocialAI School [109]: 아동기 사회 인지 능력 발달 과정 모사
- S3 [77]: 정보·감정·태도 전파 중심의 사회 네트워크 시뮬레이터
- CGMI [111]: 다중 에이전트 시뮬레이션 프레임워크, 교실 시나리오 구현
<법학 (Jurisprudence)>
- 사법 판단 보조
- Blind Judgement [113]: 여러 LLM 기반 판사 시뮬레이션 → 투표 기반 판단 통합
- ChatLaw [112]: 중국 법률 특화 LLM 모델
- 데이터베이스·키워드 기반 검색 기능 탑재
- 자기주의(Self-attention)를 활용해 참조 오류 및 환각 문제 완화
<연구 보조 (Research Assistant)>
- 논문 및 연구 업무 지원
- 논문 초록 생성, 키워드 추출, 연구 스크립트 작성 등
- 사회과학 연구의 정확성·속도·생산성 향상에 기여
- 아이디어 탐색 보조
- 사회과학자들이 새로운 연구 질문 발굴 시 LLM 에이전트를 활용
- 창의성과 문제 설정 능력 증진 가능성 제시
3.2. Natural science
<문서화 및 데이터 관리 (Documentation and Data Management)>
- 배경: 자연과학 연구는 방대한 양의 문헌과 데이터를 수집·정리·종합하는 작업이 필수적이며, 이는 많은 시간과 인력이 소요됨.
- LLM 기반 에이전트의 역할: 자연어 이해력과 인터넷/데이터베이스 활용 능력을 기반으로 문서 처리 및 정보 정리에 강점을 보임
- 주요 사례:
- [115]: 인터넷 정보 탐색 및 활용을 통한 질문 응답 및 실험 설계 수행
- ChatMOF [116]: 인간이 작성한 텍스트에서 금속-유기 골격체(MOF) 관련 정보를 추출하고 도구를 통해 물성 예측 수행
- ChemCrow [75]: 화학 관련 데이터베이스를 활용해 화합물 표현 검증 및 위험 물질 식별 기능 제공
<실험 보조 (Experiment Assistant)>
- 기능: 에이전트가 실험 목적을 입력받고, 관련 문서를 검색한 뒤 Python 코드 실행을 통해 실험 설계–계획–실행까지 자동화 수행
- 주요 사례:
- [115]: LLM 기반 에이전트를 통한 과학 실험 전주기 자동화 시스템 제안
- ChemCrow [75]: 17개의 특화 도구 내장 → 실험 설계, 절차 제안, 안전 리스크 경고 제공
<자연과학 교육 (Natural Science Education)>
- 기능: 사람과의 자연스러운 대화를 바탕으로 교육 도구 개발, 개인화된 피드백 제공, 문제 해결 및 분석 능력 향상 유도
- 주요 사례:
- [115]: 실험 설계, 방법론, 분석 교육 시스템 → 비판적 사고력 및 문제 해결 능력 함양
- Math Agents [117]: 수학 탐색–증명–해결 지원, 인간과의 대화 가능
- [118], CodeX [119]: 대학 수학 문제 자동 해결 및 설명 기능 → 교육용 도구로 활용
- CodeHelp [120]: 프로그래밍 교육 에이전트, 키워드 설정, 질문 추적, 피드백 제공
- EduChat [81]: 교육 특화 LLM 에이전트, 학생·교사·학부모에게 공감형 맞춤 교육 지원
- FreeText [121]: 서술형 문제 자동 평가 및 피드백 제공 에이전트
3.3. Engineering
<토목공학 (Civil Engineering)>
- 기능: 자연어 명령을 이해하고, 3D 시뮬레이션 환경에서 구조물 설계 및 최적화
- 사례: [122] 인간 설계자와 AI 에이전트가 협력하여 건물, 다리 등 복잡 구조물 설계
- 에이전트는 블록 배치, 피드백 반영, 모호성 탐지 및 질문 기능 보유
<컴퓨터공학 및 소프트웨어공학>
- 소프트웨어 개발 전반 자동화
- 기능: 코딩, 디버깅, 문서화, 테스트 자동화
- 사례:
- ChatDev [18]: 다중 에이전트 대화 기반 SW 개발 프레임워크 (역할 분담 포함)
- MetaGPT [23]: 기획자–PM–엔지니어 역할 분리 → 코드 품질 향상
- ToolBench [14], DemoGPT [124]: 코드 추천, 자동 완성, 프롬프트 기반 생성
- GPT-Engineer [125], SmolModels [123]: 프롬프트 기반 경량 개발 자동화
- CodeHelp [120]: 에러 메시지 분석 및 수정 제안, 학생용 디버깅 도구
- ChatEDA [127]: EDA(전자설계자동화) 분야에서 설계–스크립트 실행 자동화
- LLIFT [126]: 정적 분석 기반 보안 취약점 탐지
- PENTESTGPT [128]: 침투 테스트 수행, 소스 코드 분석 및 익스플로잇 생성
- DB-GPT [41]: 데이터베이스 이상 탐지를 위한 사고 과정 추적 기반 진단
<산업 자동화 (Industrial Automation)>
- 기능: 디지털 트윈 + 프롬프트 엔지니어링 결합 → 생산 공정의 유연한 지능형 제어
- 사례:
- [129]: LLM과 디지털 트윈 통합 프레임워크로 생산 설계 자동화
- IELLM [130]: 석유·가스 산업 사례, 암석 물리, 음향 반사법, 관 제어 등 활용
<로보틱스 및 구현지능 (Embodied AI)>
- 기능: 강화학습 기반 에이전트가 실세계 행동 기획, 정보 수집, 협업 수행
- 사례:
- [135]: 고수준 명령을 행동으로 번역하는 계획 + 제어 통합 시스템
- SayCan [78]: 모바일 로봇 기반 조작/이동 기술 551개 구성, 주방 환경 기반
- [137,138]: 장기 목표 달성을 위한 복합 스킬 조합 및 실행 계획 수립
- TidyBot [139]: 가정 내 청소 자동화, 텍스트 기반 학습 통한 사용자 맞춤화
- [136]: 대화 기반 정보 수집으로 최적화 학습 가속화
<오픈소스 프레임워크 및 플랫폼>
- 목표: 개발자들이 LLM 기반 에이전트를 쉽게 구성·테스트·확장할 수 있는 환경 제공
- 주요 프로젝트:
- LangChain [145]: 프로그래밍·디버깅 자동화, 다양한 소스 및 플러그인 연동
- XLang [143]: 데이터 처리, 플러그인, 웹 에이전트 등 3가지 시나리오 지원
- AutoGPT [100], WorkGPT [146]: 목표 설정–작업 분해–자동 순환 실행
- AgentVerse [19]: 사용자 정의 시뮬레이션을 위한 다목적 프레임워크
- GPT Researcher [148]: 연구 질문 생성–웹 정보 수집–요약 자동화
- BMTools [149]: LLM 도구 확장용 오픈 플랫폼, 플러그인 URL 로딩 지원
<Remark>
- 기술적 오류로 인한 위험 발생 가능성
-
- LLM 자체가 환각(hallucination) 등의 문제에 취약하며, 때때로 오답을 생성
- 이로 인해 다음과 같은 문제가 발생할 수 있음:
- 잘못된 결론 도출
- 실험 실패
- 특히 위험 환경에서의 인간 안전 위협
- 해결 방안:
- 실험 과정에서 사용자의 전문성 및 안전에 대한 인식 필요
- AI의 답변을 비판적으로 검토할 수 있는 역량 확보 필요
- 악용 가능성에 대한 우려
-
- LLM 기반 에이전트가 화학 무기 개발 등 악의적 목적에 활용될 가능성 존재
- 잠재적 위협 기술로 전용될 경우, 사회적·윤리적 위험 증가
- 해결 방안: Human alignment, 사용 제한 조치, 감시 체계 도입 등 윤리적 사용을 보장하는 보안 메커니즘 필요
4. LLM-based autonomous agent evaluation
4.1. Subjective evaluation
1) 인간 주석 (Human Annotation)
- 인간 평가자가 에이전트의 출력에 대해 직접 점수를 매기거나 순위를 매김
- 주요 사례:
- [20]: 5가지 핵심 질문에 기반해 에이전트의 능력을 평가
- [159]: 무해성, 정직성, 유용성, 상호작용성, 편향성 등에 대한 인간 점수 비교
- [79]: 커뮤니티 규칙 개발에서의 에이전트 효과성 판단
2) 튜링 테스트 (Turing Test)
- 인간 평가자가 출력의 출처(인간 vs 에이전트)를 구분하지 못할 경우, 인간 수준의 성능 달성으로 간주
- 주요 사례:
- [29]: 자유 형식의 정치 성향 텍스트 응답에 대해 인간/에이전트 구분 실험
- [20]: 에이전트와 인간의 행동 구분 여부 평가
- EmotionBench [160]: 인간과 LLM의 감정 표현 비교를 통해 감성지능 측정
- 주관적 평가는 인간 관점에서의 성능 평가를 가능케 하며, 서비스 품질의 핵심 지표로 기능함
- 그러나 높은 비용, 낮은 효율성, 인구학적 편향의 한계 존재
3) 해결 방안: LLM을 통한 대체 평가 전략
- 최근 연구들은 LLM 자체를 평가 도구로 활용하는 방법을 모색 중
- ChemCrow [75]: 실험 결과의 정확성과 과정을 GPT로 평가
- ChatEval [161]: 여러 에이전트가 토론 형식으로 서로의 결과를 비평 및 평가
- 이러한 방식은 신뢰성 향상, 자동화 가능성 확보 측면에서 유망하며, 향후 직접 인간 평가의 한계를 극복할 수 있는 대안으로 주목받고 있음
4.2. Objective evaluation
1) 평가 지표 (Metrics)
(1) 과업 성공률 (Task Success)
- 성공률 (success rate)
- 보상/점수 (reward/score)
- 커버리지 (coverage)
- 정확도 (accuracy)
→ 과업 수행 능력을 직접적으로 반영
(2) 인간 유사성 (Human Similarity)
- 경로 정확도 (trajectory/location accuracy)
- 대화 유사도 (dialogue similarity)
- 인간 반응 모사 여부 (human-like mimicry)
→ 인간 행동을 얼마나 자연스럽게 흉내내는지 측정
(3) 효율성 (Efficiency)
- 계획 소요 시간 (planning length)
- 개발 비용 (development cost)
- 추론 속도 (inference speed)
- 명확화 대화 횟수 (clarification dialogues)
→ 자원 활용의 효율성과 운영 속도 평가
2) 평가 프로토콜 (Evaluation Protocols)
: 지표를 어떻게 활용해 평가를 수행할지를 정하는 방식
(1) 실세계 시뮬레이션
- 게임/시뮬레이터 기반 환경에서 자율적 과업 수행
- 경로 추적, 목표 달성률 등을 통해 현실 적용성 평가
(2) 사회적 평가 (Social Evaluation)
- 협업, 토론, 감정 표현 등 사회적 행동 능력 측정
- Theory of Mind, 공감능력, 소셜 IQ 평가
(3) 다중 과제 평가 (Multi-task Evaluation)
- 다양한 도메인의 과업을 부여하여 범용성 및 일반화 능력 측정
(4) 소프트웨어 테스트
- 테스트 케이스 생성, 버그 재현, 코드 디버깅 수행 후
- 테스트 커버리지, 버그 탐지율 등으로 성능 측정
3) 벤치마크 (Benchmarks)
: 다양한 분야에서 에이전트 평가를 위한 벤치마크 활용
<시뮬레이션 환경>
- ALFWorld, IGLU, Minecraft: 실시간 과업 수행 능력 평가
- Tachikuma: TRPG 게임 로그 기반의 상호작용 이해력 평가
<사회성 평가>
- SocKET: 감정, 유머, 신뢰성 등 5개 범주의 사회정보 측정
- EmotionBench: 8가지 부정 감정에 대한 정서 판단 능력 평가
- AgentSims: 행동 계획·기억·행동 전략의 효과성 측정
<도구 활용 및 소프트웨어 개발>
- ToolBench: 툴 사용 역량 평가
- WebShop, WebArena: 제품 검색, 정보 검색 정확도 평가
- DB-GPT, PEB, ClemBench, E2E 등: 다양한 환경 기반 실제 응용 평가
<Remark>
- 객관적 평가는 에이전트의 성능을 수치화하여 명확하게 비교·분석 가능
- 아직 모든 능력을 완벽하게 평가하긴 어려우나, 주관적 평가를 보완하는 필수적 수단으로 기능
- 다양한 벤치마크와 평가 방식의 발전은 향후 에이전트 개발 및 분석에 중요한 기반이 될 것임
5. Related surveys
- 기존 서베이들은 LLM 자체에 대한 기술·응용·한계·평가 등 광범위한 범주를 포괄
- 반면, 본 연구는 LLM 기반 자율 에이전트(LAA)에 특화된 최초의 종합적 서베이
- 총 100편 이상의 선행 연구를 정리, 에이전트의 구성, 응용, 평가에 대해 체계적으로 정리
6. Challenges
6.1. Role-playing capability
- 에이전트는 상황에 따라 프로그래머, 화학자, 연구자 등 다양한 역할 수행 필요
- 그러나 LLM은 웹 기반 학습으로 인해 드문 직군이나 새로운 역할에 대한 이해가 부족
- 또한 인지심리학적 특성이나 자기 인식 결여 문제 존재
- 해결 방안: 역할별 실데이터 수집 후 fine-tuning 또는 프롬프트/아키텍처 특화 설계
6.2. Generalized human alignment
- 기존 LLM은 "옳은" 인간 가치에 정렬되어 있음 (ex. 폭탄 제조 거부)
- 그러나 현실 시뮬레이션에서는 부정적 특성도 필요 (ex. 범죄자 행동 분석)
- 시뮬레이션 목적에 따라 다양한 가치에 맞춰 정렬할 수 있는 유연성 필요
- 해결 방안: 목적에 따른 prompt 설계로 유연한 정렬 방식 구현
6.3. Prompt robustness
- 프롬프트에 작은 변화만으로도 큰 결과 차이 발생
- 에이전트는 기억·계획 모듈 포함으로 인해 모듈 간 상호작용까지 고려된 복합 프롬프트 프레임워크 필요
- 해결 방안:
- 수작업을 통한 프롬프트 최적화
- GPT 기반 자동 프롬프트 생성
6.4. Hallucination
- LLM은 사실이 아닌 정보를 그럴듯하게 생성하는 환각(hallucination) 현상이 존재
- 코드 생성·보안·윤리적 문제 발생 가능
- 해결 방안: 인간의 피드백을 지속적으로 반영하는 상호작용적 학습 과정 도입
6.5. Knowledge boundary
- 에이전트는 인간 행동 시뮬레이션을 수행해야 하나, LLM의 과잉지식이 현실성 저해
- 예: 영화 평가를 모사할 때, 모르는 상태를 가정해야 하지만 LLM은 이미 내용을 알고 있음
- 해결 방안: 특정 지식 접근을 제한하는 방식(knowledge masking 등) 필요
6.6. Efficiency
- 오토리그레시브 구조로 인해 추론 속도가 느림
- 에이전트는 매 동작마다 LLM 호출이 반복됨 (ex. 기억 검색, 계획 수립)
- 시스템 전반의 응답성 저하
- 해결 방안: 캐싱, 프리페칭, 경량화된 LLM 연동 등이 필요
7. Conclusion
- 본 서베이의 목적은 LLM 기반 자율 에이전트 분야의 기존 연구를 체계적으로 정리하는 것에 있음.
- 각 측면에 대해 세부 분류 체계(taxonomy)를 제공하여 기술 간 연관성과 발전 흐름 정리
- 100여 편 이상의 주요 연구를 바탕으로 분야별 흐름과 통찰 제공
- 본 연구는 단순 정리에 그치지 않고, 해결이 필요한 주요 도전 과제들을 제안
- 향후 연구자들에게 연구 방향성과 문제 인식의 기준점을 제공