[2025-2] 이루가 - A survey on large language model based autonomous agents

A Survey on Large Language Model based Autonomous Agents

Autonomous agents have long been a prominent research focus in both academic and industry communities. Previous research in this field often focuses on training agents with limited knowledge within isolated environments, which diverges significantly from h

arxiv.org

1. Introduction

자율 에이전트의 정의
환경에 위치하고 그 일부로 작용하며, 환경을 인식하고 이에 따라 행동하여 시간이 지나며 스스로의 목표를 추구하는 시스템으로 정의됨 (Franklin and Graesser, 1997의 정의 기반)
기존 자율 에이전트 연구의 한계
- 단순한 휴리스틱 정책 기반으로 제한된 환경에서 학습한 사례 중심
- 인간은 다양한 환경에서 복합적인 학습을 수행하는 반면, 기존 에이전트는 인간 수준의 의사결정 과정 재현에 한계 존재
  → 개방적·비제한적 환경에서의 인간 유사 학습과정 재현의 미흡함

대형 언어 모델(LLM)의 부상
- 대규모 파라미터와 데이터셋을 활용한 훈련을 통해 인간 유사 지능 달성 가능성 제시
- LLM을 중심 제어기로 활용하는 자율 에이전트 연구의 확대
LLM 기반 자율 에이전트의 강점
- 도메인 특화 학습 없이도 내재적 세계 지식을 활용한 의사결정 가능성
- 자연어 인터페이스를 통한 유연하고 설명 가능한 인간과의 상호작용 가능성

기존 연구의 한계
- 메모리, 계획 능력 등을 탑재한 다양한 모델이 등장했으나, 통합적 분석과 비교가 부족함
본 논문의 기여
- 급속히 발전하는 연구 흐름을 체계적으로 정리 및 분류
- 후속 연구자에게 통찰 제공 및 연구 기반 마련의 목적

세 가지 주요 축을 중심으로 구성
1. 구조 설계 (Construction)
  - (1) LLM을 활용한 에이전트 구조 설계 방식
  - (2) 에이전트의 능력을 강화하는 방법
  - 하드웨어적 구성과 소프트웨어적 자원 확보 전략의 구분
2. 응용 분야 (Applications)
  - 사회과학, 자연과학, 공학 등 다양한 분야에서의 활용 사례 분석
3. 평가 방식 (Evaluation)
  - 주관적·객관적 평가 전략의 비교와 분류

연구자의 접근성 향상과 미래 연구 방향 제시
- 체계적 분류와 개념 정리를 통한 배경지식 제공
- LLM 기반 자율 에이전트 연구 활성화를 위한 기반 조성

2. LLM-based autonomous agent construction(에이전트 구조 설계)

목표: LLM의 인간 유사 능력을 활용하여 자율 에이전트가 다양한 작업을 효과적으로 수행하도록 설계
두 가지 핵심 질문
1. LLM을 효과적으로 활용하기 위한 아키텍처 설계 방식
2. 설계된 구조를 바탕으로 특정 작업을 수행하는 능력 획득 방식

<아키텍처 설계>

기여: 기존 연구를 종합적으로 정리하고 통합하여 포괄적인 통합 프레임워크 제시
의의: 다양한 모델과 구조적 접근법을 아우르는 체계적 정합성 확보

<에이전트 능력>

전략 분류: LLM을 파인튜닝하는지 여부에 따라 에이전트의 능력 획득 전략을 분류
유추
- 아키텍처 설계는 전통적인 머신러닝에서의 네트워크 구조 설정에 해당
- 능력 획득은 모델 파라미터 학습에 해당

2.1. Agent architecture design

<설계의 필요성>

기존 LLM의 한계
- 최근의 LLM은 질문-응답(Question-Answering) 형식에서 뛰어난 성과를 보였으나
- 자율 에이전트는 특정 역할 수행, 환경 인식, 자율 학습 등을 포함해야 하므로 QA와는 본질적으로 다름
설계 방향성
→ LLM의 잠재력을 극대화하기 위해 합리적 아키텍처 설계가 필수
→ 다양한 연구를 통해 LLM 보조 모듈이 제안됨

<제안된 통합 프레임워크 구성>

전체 구조: 프레임워크는 총 네 개의 모듈로 구성됨
1. 프로파일링 모듈 (Profiling Module)
  → 에이전트의 역할과 정체성 정의
2. 메모리 모듈 (Memory Module)
  → 과거 경험을 저장하고 회상
3. 계획 모듈 (Planning Module)
  → 미래 행동 계획 수립
4. 행동 모듈 (Action Module)
  → 결정된 내용을 외부로 출력

<모듈 간 관계>

프로파일링 모듈 → 메모리 모듈 및 계획 모듈에 영향
메모리 + 계획 모듈 → 행동 모듈의 출력에 직접적 영향
전반적으로 네 모듈이 상호작용하며 동적인 학습 및 실행 구조 형성

2.1.1. Profiling module

역할: 자율 에이전트는 코더, 교사, 전문가 등 특정 역할을 수행하며 행동
→ 프로파일링 모듈은 이러한 에이전트 역할의 성격과 배경을 정의하는 기능 수행
입력 방식: 역할 정보는 프롬프트 내에 삽입되어 LLM의 행동을 유도
프로파일 구성 요소
- 기본 정보: 나이, 성별, 직업
- 심리 정보: 성격 유형
- 사회 정보: 타 에이전트와의 관계
적용 시나리오별 정보 선택의 중요성
예: 인지과정 연구의 경우 → 심리 정보가 핵심

< 프로필 생성 방식 (세 가지 주요 전략) >

수작업 생성 방식 (Handcrafting Method)
- 사람이 직접 프롬프트에 성격/역할 부여
- 예: "너는 외향적인 사람이다", "너는 내향적인 사람이다"
- 활용 사례
  - Generative Agent: 이름, 목표, 관계 등 수동 정의
  - MetaGPT, ChatDev, Self-Collaboration: 역할 및 책임을 수동 배정
  - PTLLM: 성격 평가 도구(IPIP-NEO, BFI)를 기반으로 다양한 성격 부여
  - Toxicity 연구: 정치인, 기자 등 다양한 역할을 지정해 LLM 반응 비교
- 장점: 유연성
- 단점: 에이전트 수가 많을 경우 높은 노동 비용
LLM 생성 방식 (LLM-Generation Method)
- LLM이 에이전트 프로필을 자동 생성
- 과정
  1. 프로파일 구성 규칙 정의
  2. 소수의 시드(seed) 프로필 예시 제공
  3. LLM을 통해 전체 프로필 생성
- 활용 사례
  - RecAgent: 시드 프로필을 기반으로 ChatGPT가 나머지 생성
- 장점: 규모 확장 시 효율적
- 단점: 정밀한 통제력 부족 가능성
데이터셋 정렬 방식 (Dataset Alignment Method)
- 실제 인물 데이터를 기반으로 프롬프트 구성
- 예: ANES 데이터를 바탕으로 인종, 성별, 연령 등을 프롬프트화하여 GPT-3에 역할 부여
- 장점: 현실 집단의 특성을 정확하게 반영, 행동의 의미 강화

<Remark. 혼합 전략의 가능성>

혼합 전략의 권장
- 예: 현재 존재하는 사회 역할 → 실제 데이터 기반 구성
- 미래 사회 역할 예측 → 수작업으로 가상의 역할 추가
- 다양한 전략의 병행 사용을 통한 표현력 강화
기초 모듈로서의 의의: 프로파일링 모듈은 에이전트의 기억, 계획, 행동 모듈에 지대한 영향을 미치는 핵심 기반

2.1.2. Memory module

역할: 환경으로부터 인지한 정보를 저장하고 활용하여 향후 행동을 조정
→ 경험 축적, 자기 진화, 일관성 있는 행동에 기여
의의
- 인간의 인지 과학 이론을 바탕으로 설계
- 인간 기억의 구조(감각 → 단기 → 장기 기억)를 반영한 설계 방식 채택

<Memory Structures>

1. 통합 메모리 (Unified Memory)

특징
- 단기 기억만을 모사
- 프롬프트 내부에 직접 정보를 삽입하는 in-context learning 기반 구조
장점: 구현이 단순하고, 최근 행동이나 문맥 기반 인식 능력 강화
단점: LLM의 컨텍스트 윈도우 제한에 의해 모든 기억 포함이 어려움
→ 성능 저하 발생 가능
대표 사례
- RLP: 대화 에이전트의 발화자·청자 상태를 단기 기억으로 유지
- SayPlan: 환경 피드백 및 장면 그래프를 단기 기억으로 활용
- CALYPSO: DnD 게임 내 장면 설명·몬스터 정보 등을 단기 기억으로 구성
- DEPS: 마인크래프트 작업 계획을 단기 기억으로 사용하여 행동 생성

2. 하이브리드 메모리 (Hybrid Memory)

특징
- 단기 + 장기 기억 모두 구현
- 단기 기억: 최근 정보 임시 저장
- 장기 기억: 과거 행동·지식의 축적 및 검색
장점
- 유연한 계획 수립 + 안정된 지식 저장
- 복잡한 환경에서의 추론 및 일관성 향상
대표 사례
- Generative Agent: 상황별 단기 정보 + 회상 가능한 장기 기억 구성
- AgentSims: 프롬프트는 단기 기억, 벡터 데이터베이스로 장기 기억 구현
- GITM: 현재 경로는 단기, 성공 경로 요약본은 장기 기억에 저장
- Reflexion: 피드백은 단기, 핵심 인사이트는 장기 기억으로 분리
- SCM: 문맥에 따라 관련 장기 기억을 선택적으로 활성화
- SimplyRetrieve: 사용자 질의를 단기 기억, 외부 지식 기반을 장기 기억으로 활용
- MemorySandbox: 2D 캔버스를 이용한 시각적 기억 객체 저장 및 공유

<Remark>

장기 기억만을 사용하는 구조도 존재 가능성은 있으나, 문헌에서 드물게 나타남
→ 이유: 자율 에이전트는 연속적이고 동적인 환경에 위치하며
→ 단기 기억의 중요성이 크기 때문에 대부분의 시스템이 이를 포함

<Memory format>

메모리 모듈은 구조뿐 아니라 저장 포맷의 유형에 따라 구분 가능
포맷별로 장점과 적용 분야가 다르며, 복수 포맷의 혼용도 가능

1. 자연어 포맷 (Natural Language Format)

특징
- 행동 및 관찰 정보를 자연어로 직접 기록
- 유연성, 이해 용이성, 풍부한 의미 정보 제공
장점
- 직관적인 해석 가능성
- 프롬프트 삽입 시 행동 지침으로 작용
사례
- Reflexion: 슬라이딩 윈도우를 통해 피드백을 자연어로 저장
- Voyager: 마인크래프트 게임 내 기술(skill)을 자연어로 표현하여 저장

2. 임베딩 포맷 (Embedding Format)

특징
- 메모리 정보를 벡터 임베딩으로 변환하여 저장
- 검색 효율 및 일관된 벡터 연산 가능
장점
- 유사도 기반 검색 가능
- 대규모 메모리의 처리 용이
사례
- MemoryBank: 메모리를 임베딩으로 변환하여 인덱스화
- GITM: 참조 계획(reference plan)을 임베딩으로 표현
- ChatDev: 대화 이력을 벡터로 저장하여 검색

3. 데이터베이스 포맷 (Database Format)

특징
- 메모리 정보를 데이터베이스 내에 저장
- 정밀한 조작(SQL 기반 수정, 삭제 등) 가능
장점
- 복잡한 정보 조작 및 확장성 확보
- 외부 시스템과의 연계 용이
사례
- ChatDB: SQL 기반 기호적 메모리 조작
- DB-GPT: 데이터베이스에 메모리를 저장하고 SQL을 자연어로 제어 가능하도록 미세 조정

4. 구조화 리스트 포맷 (Structured List Format)

특징
- 정보를 **리스트 구조나 계층 구조(Tree)**로 표현
- 목표-계획 간 관계 표현에 효과적
장점
- 명확한 관계 구조
- 정보 축약 및 정돈된 표현 가능
사례
- GITM: 서브 목표별 액션 리스트를 계층 구조로 저장
- RET-LLM: 자연어 문장을 삼중 항목(triplet)으로 변환 후 저장

<Remark>

기타 포맷
- 예: Voyager에서는 프로그래밍 코드를 메모리로 사용한 사례도 존재
포맷 간 병행 사용 가능성
- 많은 모델이 복수 포맷을 결합하여 장점을 동시에 활용
- 예: GITM은
  - 키는 임베딩
  - 값은 자연어
    → 검색 효율 + 풍부한 의미 정보의 결합을 통한 행동 최적화

<Memory Operation>

메모리 모듈은 환경과의 상호작용을 통해 지식의 획득, 축적, 활용을 가능하게 함
세 가지 핵심 연산으로 구성됨:
1. Memory Reading (읽기)
2. Memory Writing (쓰기)
3. Memory Reflection (성찰)

1. 메모리 읽기 (Memory Reading)

목적: 과거의 유의미한 정보를 추출하여 행동의 질 향상을 도모
핵심 기준 (3가지)
- Recency (최근성)
- Relevance (관련성)
- Importance (중요도)
추출 전략 공식화

활용 사례

2. 메모리 쓰기(Memory Writing)

목적: 환경에서 인지한 중요 정보의 저장을 통해 향후 활용 기반 마련
주요 문제
1. 중복 메모리 (Memory Duplicated)
2. 메모리 초과 (Memory Overflow)

2-1. 중복 메모리 처리

핵심 과제: 유사 정보의 중복 저장 방지 및 통합
전략
- 동일 목표 관련 행동 시퀀스를 저장하다가 일정 개수 이상(예: 5개) 축적 시, LLM을 활용해 하나의 통합 계획으로 요약 후 대체 (예: [7])
- Augmented LLM: 횟수 누적 방식으로 중복 정보 통합

2-2. 메모리 초과 처리

핵심 과제: 저장 용량이 가득 찼을 때의 삭제 정책 수립
전략
- ChatDB: 사용자의 명령어 기반 명시적 삭제
- RET-LLM: 고정 크기 버퍼 활용, FIFO(선입선출) 방식으로 가장 오래된 정보 삭제

<Memory Reflection>

정의
메모리 성찰은 인간이 자신의 인지, 감정, 행동을 인식하고 평가하는 능력을 에이전트에게 모사하는 기능
목적
에이전트가 과거 경험을 요약 및 추상화하여 복합적이고 고차원적인 인사이트를 도출할 수 있도록 지원
최근 기억 기반으로 3가지 핵심 질문 생성
생성된 질문을 바탕으로 관련 정보 검색
정보를 바탕으로 5가지 고차 인사이트 도출

예:

낮은 수준의 기억

"Klaus Mueller is writing a research paper"

"Klaus Mueller is engaging with a librarian"

"Klaus Mueller is conversing with Ayesha Khan"

고차원 인사이트

"Klaus Mueller is dedicated to his research"

계층적 성찰 구조 가능
- 기존 인사이트를 기반으로 새로운 인사이트를 도출하는 방식

<주요 사례>

Generative Agent : 메모리 기반 질문 생성 및 고차 인사이트 도출 프로세스 구현
GITM : 성공적인 행동 리스트가 5개 이상일 경우
→ 공통된 추상 패턴으로 요약 후 기존 데이터 대체
ExpeL
- (1) 동일 작업 내 성공/실패 경로 비교
- (2) 성공 경로 모음에서 경험 일반화 학습 수행

전통적 LLM과의 차별점
- LLM은 지식 생성기로 기능
- 반면 자율 에이전트는 동적 환경에서의 학습과 자기 향상 능력이 필수
  → 메모리 성찰은 이러한 능력을 구현하는 핵심 요소

2.1.3. Planning module

목적: 인간처럼 복잡한 문제를 단순한 하위 과제로 분해하고 해결하는 능력을 에이전트에 부여
기대 효과: 에이전트의 합리성, 신뢰성, 실행력 향상
분류 기준: 에이전트가 계획 과정 중 피드백을 받는지 여부에 따라 세 가지로 분류:

1) 피드백 없는 계획 (Planning Without Feedback)

● 단일 경로 추론 (Single-Path Reasoning)

전략: 하나의 직선적 경로로 문제를 단계별로 해결
사례:
- Chain of Thought (CoT) [45]: 추론 과정을 프롬프트에 명시
- Zero-shot-CoT [46]: “step by step” 같은 트리거 문장만으로 추론 유도
- Re-Prompting [47]: 각 단계의 사전 조건 검사 → 실패 시 재생성
- ReWOO [48]: 계획과 관찰을 독립 생성 후 결합
- HuggingGPT [13]: 작업을 하위 목표로 분해하고 각각 해결

● 다중 경로 추론 (Multi-Path Reasoning)

전략: 트리 구조 또는 그래프 기반의 다중 추론 경로 탐색
사례:
- Self-consistent CoT (CoT-SC) [49]: 여러 경로 중 빈도 기반 최종 답 선택
- Tree of Thoughts (ToT) [50]: BFS/DFS 탐색을 통한 계획 수립
- RecMind [51]: 버려진 정보도 활용해 새로운 추론 경로 생성
- GoT [52]: 트리 기반 ToT를 그래프 구조로 확장
- AoT [53]: 알고리즘 예시 기반의 추론 향상
- [54]: 여러 다음 스텝 중 허용 가능한 행동에 가장 가까운 경로 선택
- [55]: 쿼리 유사 예시 추가로 [54] 개선
- RAP [56]: 몬테카를로 트리 탐색(MCTS) 기반의 세계 모델 구성

● 외부 계산기 활용 (External Planner)

전략: LLM이 전처리·후처리를 담당하고, 계획 수립은 외부 도구에 위임
장점:
- LLM의 고수준 계획 생성 능력과
- 외부 도구의 정밀 탐색 능력을 결합
사례:
- LLM+P : 작업을 PDDL로 변환 → 외부 계획기 처리 → LLM으로 결과 자연어화
- LLM-DP : 관찰/목표/상태 → PDDL 변환 → 외부 계획기 활용
- CO-LLM : 고수준 계획은 LLM, 저수준 실행은 휴리스틱 기반 외부 계획기 사용

2) 피드백 기반 계획 수립 (Planning with Feedback)

필요성
- 복잡하고 장기적인 과제에서는 초기 계획만으로 문제 해결이 어려움
- 이유:
- 사전조건이 많아 완전한 초기 계획 생성이 어려움
- 실행 중 예상치 못한 상황 변화 발생 가능성
  → 단일 계획 수립보다 피드백을 반영한 반복 계획 수립 전략이 효과적

사람의 계획 방식 모사
- 인간은 피드백을 기반으로 계획을 반복적으로 수정
- 이를 모사하기 위해 다양한 피드백 유형 기반의 계획 모듈 설계

● 환경 피드백 (Environmental Feedback)

정의: 게임 환경, 시뮬레이터, 관찰 등 외부 세계로부터의 반응
대표 사례:
- ReAct [59]: thought-act-observation 삼중 구조 활용 → 추론과 행동에 관찰 결과 반영
- Voyager [38]: 실행 중간 결과, 오류, 자기 검증 결과를 기반으로 계획 수정
- Ghost [16]: 실행 성공/실패 및 환경 상태를 지속적으로 반영
- SayPlan [31]: 장면 그래프 시뮬레이터의 피드백으로 전략 반복 수정
- DEPS [33]: 실패의 구체적 원인 제공을 통해 효과적인 재계획 유도
- LLM-Planner [60]: 객체 불일치, 실행 불가능성 발견 시 동적 계획 재작성
- Inner Monologue [61]:
  - (1) 작업 성공 여부
  - (2) 수동적 장면 설명
  - (3) 능동적 장면 설명
    → 환경 기반 피드백으로 합리적 행동 유도

● 인간 피드백 (Human Feedback)

정의: 인간 사용자와의 상호작용을 통한 직접적이고 주관적인 피드백 제공
장점:
- 인간 가치 및 선호 반영 가능
- 환각(hallucination) 감소 효과
대표 사례:
- Inner Monologue [61]: 자연어 지시 수행 도중 사용자에게 장면 설명 요청 → 프롬프트에 반영하여 계획 품질 향상
- 다양한 환경 피드백과 인간 피드백을 함께 결합하여 성능 증대

● 모델 피드백 (Model Feedback)

정의: 사전학습된 모델로부터 생성된 내부 평가 및 피드백
대표 사례:
- Self-Refine [62]:
  1. 출력 생성
  2. 출력에 대한 모델 피드백 생성
  3. 피드백 기반 정제 반복 수행
- SelfCheck [63]: 각 단계의 추론 과정을 자가검토 및 오류 수정
- InterAct [64]: 다른 LLM(ChatGPT, InstructGPT 등)을 **보조자(checker, sorter)**로 활용
- ChatCoT [65]: 추론 과정의 품질 향상을 위한 내부 평가 모듈 도입
- Reflexion [12]: 행동 결과에 대한 상세 자연어 피드백 생성 → 스칼라 값 대신 풍부한 언어 정보 제공

<Remark>

비피드백 기반 계획 모듈: 구현이 간단하나, 단순한 작업에만 적합
피드백 기반 계획 모듈: 구현은 복잡하나,
→ 장기 추론 및 고차원 문제 해결에 매우 효과적

2.1.4. Action module

역할: 에이전트의 의사결정을 구체적인 실행 결과로 전환
→ 환경과의 직접적인 상호작용 담당
모듈 간 상호작용: 프로파일링, 메모리, 계획 모듈로부터 영향 받음
분석 관점 (4가지)
1. Action Goal — 행동의 목적 (Before-action)
2. Action Production — 행동 생성 방식 (Before-action)
3. Action Space — 가능한 행동의 범위 (In-action)
4. Action Impact — 행동의 결과 및 영향 (After-action)
  ※ 이번 요약에서는 Action Goal 및 Action Production 중심

1) 행동 목적 (Action Goal)

: 에이전트가 수행하는 행동의 의도된 결과에 따라 유형 분류

(1) 작업 수행 (Task Completion)
- 목적: 명확한 목표를 향한 행동 수행
- 사례:
  - Voyager [38]: 마인크래프트에서 철 곡괭이 제작
  - ChatDev [18]: 소프트웨어 기능 완성
(2) 의사소통 (Communication)
- 목적: 정보 공유, 협업을 위한 상호작용
- 사례:
  - ChatDev [18]: 다수의 에이전트 간 협업 대화
  - Inner Monologue [61]: 인간과의 피드백 중심 상호작용

(3) 환경 탐색 (Environment Exploration)
- 목적: 미지의 환경 탐색 및 기술 습득
- 사례:
  - Voyager [38]: 탐험 중 새로운 스킬 발견 및 코드 개선

2) 행동 생성 방식 (Action Production)

: 에이전트는 다음 두 가지 주요 전략 중 하나로 행동을 생성

(1) 메모리 기반 행동 (Action via Memory Recollection)

전략: 현재 과제와 관련된 기억 정보 추출 → 행동 유도
사례:
- Generative Agent [20]: 최근 중요 기억을 추출해 행동 지침 구성
- GITM [16]: 유사 과제 성공 경험 검색 → 동일 방식 재사용
- ChatDev [18], MetaGPT [23]: 대화 이력을 기반으로 발화 생성

(2) 계획 기반 행동 (Action via Plan Following)

전략: 사전에 생성된 행동 계획을 기반으로 순차적 실행
사례:
- DEPS [33]: 계획 오류 신호 없을 시 계획을 그대로 실행
- GITM [16]: 하위 목표 기반 계획 수립 → 각 목표별 행동 수행

3) 행동 공간 (Action Space)

에이전트가 수행 가능한 모든 행동의 집합을 의미
크게 두 가지 범주로 분류
1. 외부 도구 활용
2. LLM 내재 지식 활용

● 외부 도구 (External Tools)

(1) API

의의:
- 전문 지식이 필요한 도메인 대응
- LLM의 환각 문제 해결
  → LLM이 API 호출 기능을 통해 외부 행동 실행 가능
대표 사례:
- HuggingGPT [13]: HuggingFace 모델 활용
- TPTU [67]: 파이썬 인터프리터 및 LaTeX 컴파일러 연결
- Gorilla [68]: API 호출용 인자 생성 최적화
- ToolFormer [15]: 자연어 기반의 도구 변환 시스템
- API-Bank [69]: 프로그래밍 언어에 적합한 API 자동 추천
- ToolBench [14]: 계산기, 단위변환기, 지도 등 다양한 도구 자동 생성
- RestGPT [70]: RESTful API 연결로 현실 앱과의 호환성 강화
- TaskMatrix.AI [71]: 수백만 개 API와 연결, 코드 자동 생성 기능 탑재

(2) 외부 데이터베이스 및 지식베이스

역할:
- 특정 도메인 정보 확보
- 더 정확하고 현실적인 행동 생성 지원
대표 사례:
- ChatDB [40]: SQL 기반 데이터베이스 질의
- MRKL [72], OpenAGI [73]: 지식베이스 및 전문가 시스템 연계

(3) 외부 모델

의의:
- API보다 복잡한 작업 처리 가능
- 한 모델이 여러 API와 연결될 수 있음
대표 사례:
- MemoryBank [39]: 두 개의 언어 모델로 텍스트 인코딩 및 질의 매칭
- ViperGPT [74]: Codex 기반 코드 생성 → 실행을 통한 작업 처리
- TPTU [67]: 코드, 가사 등 다양한 언어 생성 작업 지원
- ChemCrow [75]: 17개 전문가 모델로 화학 합성, 신약 설계 등 수행
- MM-REACT [76]:
  - VideoBERT: 비디오 요약
  - X-decoder: 이미지 생성
  - SpeechBERT: 음성 처리
    → 멀티모달 행동 공간 확장

● 내부 지식 기반 행동 (Internal Knowledge)

정의: 외부 도구 없이 LLM 자체의 내재적 능력만으로 행동을 수행하는 방식
→ 자율성, 추론력, 사람 유사성 구현의 핵심 기반
핵심 능력 분류 (3가지): 각 능력은 실제 에이전트 동작의 중요한 구성 요소로 기능

(1) 계획 수립 능력 (Planning Capability)

의의:
- LLM은 복잡한 작업을 하위 작업으로 분해하는 계획 수립이 가능
- 심지어 예시 없이도 “zero-shot” 방식으로 추론 유도 가능
대표 사례:
- DEPS [33]: 마인크래프트 작업을 하위 목표로 나누어 해결
- GITM [16], Voyager [38]: LLM의 계획 기능을 기반으로 과제 수행

(2) 대화 능력 (Conversation Capability)

의의:
- 인간 유사한 고품질 대화 생성 가능
- 다른 에이전트 또는 인간과의 소통 기반 행동 수행
대표 사례:
- ChatDev [18]: 협업 개발 및 행동 성찰을 위한 에이전트 간 대화
- RLP [30]: 청자의 피드백을 반영한 유동적인 커뮤니케이션 실행

(3) 상식 이해 능력 (Common Sense Understanding)

의의:
- 인간의 상식 기반 상황 인식 및 추론 가능
- 일상적 상황 시뮬레이션 및 의사결정 가능성 확보
대표 사례:
- Generative Agent: 현재 상태, 주변 환경 인식, 고차원 아이디어 도출
- RecAgent [21], S3 [77]: 사용자 추천, 사회적 행동 시뮬레이션 수행

4) Action Impact

정의: 에이전트의 행동이 환경이나 시스템에 미치는 영향 전반을 의미
→ 외부 세계뿐만 아니라 내부 상태 변화 및 다음 행동의 유발까지 포함
핵심 유형 분류 (3가지)

(1) 환경 변화 (Changing Environments)

의의:
- 행동을 통해 외부 환경의 상태 변경 유도
대표 사례:
- GITM [16], Voyager [38]:
  - 예: 나무 3개를 채굴하면 해당 자원이 환경에서 사라짐
  - 위치 이동, 자원 수집, 건축 행위 등 포함

(2) 내부 상태 변화 (Altering Internal States)

의의:
- 행동 수행 후 에이전트의 기억, 계획, 지식 상태 변화
대표 사례:
- Generative Agent [20]: 행동 후 메모리 스트림 업데이트
- SayCan [78]: 환경에 대한 이해도를 행동을 통해 갱신

(3) 새로운 행동 유발 (Triggering New Actions)

의의:
- 하나의 행동이 다음 행동으로 이어지는 유기적 연결 형성
대표 사례:
- Voyager [38]:
  - 필요한 자원을 수집한 후 자동으로 건물 건설 행동 시작

2.2. Agent capability acquisition

목적: 앞서 소개된 아키텍처는 하드웨어(구조)에 해당하지만 효과적인 작업 수행을 위해서는 소프트웨어(능력, 기술, 경험)가 필수
→ 다양한 능력 획득 전략 필요
전략 분류 기준
1. 파인튜닝을 사용하는 방식 (With Fine-tuning)
2. 파인튜닝을 사용하지 않는 방식 (Without Fine-tuning) (다음 파트에서 다룸)

1) 파인튜닝 기반 능력 획득 (Capability Acquisition with Fine-tuning)

1-1) 사람이 주석한 데이터셋을 활용한 파인튜닝

개요:
- 사람이 수집하고 주석한 데이터셋을 기반으로 에이전트 파인튜닝 수행
- 도메인 적합성, 신뢰성, 평가 품질 확보 가능
주요 사례:
- CoH [79]: 인간 가치 정렬을 위해 자연어 기반 비교 피드백을 활용
- RET-LLM [42]: 자연어 ↔ 삼중 항목(triplet) 변환 학습
- WebShop [80]:
  - 아마존 상품 데이터 + 시뮬레이션 쇼핑 환경 구성
  - 13명의 사용자 행동 데이터 수집
  - 휴리스틱, 모방학습, 강화학습 기반 전략 학습 (LLM 파인튜닝은 아니지만 응용 가치가 높음)
- EduChat [81]:
  - 질의응답, 논술 평가, 소크라테스식 질의, 감정 케어 등 교육 목적 강화
  - 심리 전문가와 교사에 의해 수집·평가된 고품질 주석 데이터 사용
- SWIFTSAGE [82]:
  - 이중 처리 이론 기반 추론 모델
  - 인간 주석 데이터를 활용한 SWIFT 모듈 파인튜닝

1-2) LLM이 생성한 데이터셋을 활용한 파인튜닝

개요:
- 대규모 수작업 주석이 비용적 부담이 클 경우
  → LLM이 직접 데이터를 생성하여 대체
장점:
- 생성 데이터의 품질은 다소 낮을 수 있으나, 규모 확장성 및 비용 효율성 확보 가능
주요 사례:
- ToolBench [14]:
  - RapidAPI에서 수집한 49개 카테고리, 16,464개의 API 기반
  - ChatGPT로 다양한 지시문 생성 → LLaMA 모델 파인튜닝 → 도구 사용 성능 향상
- [84]:
  - 에이전트 간 상호작용 기반 사회적 능력 학습용 데이터 생성
  - 중앙 에이전트가 초기 응답 생성 → 주변 에이전트 피드백 수집 → 수정 → 데이터화
    → 대규모 사회적 상호작용 데이터로 LLM 파인튜닝 수행

1-3) 실세계 데이터셋을 활용한 파인튜닝

개요:
- 웹, 대화, 서비스 등 현실에서 수집된 데이터를 직접 활용
장점:
- 현실 반영성 높음
- 다양한 시나리오와 사용자 행동 패턴을 포함
주요 사례:
- MIND2WEB [85]:
  - 137개 웹사이트, 31개 도메인에서 2,000개 이상의 열린 과제 수집
    → 영화 검색, 티켓 예약 등 다양한 웹 과제에 대응
- SQL-PaLM [86]:
  - 크로스 도메인 텍스트-SQL 변환 학습을 위한 Spider 데이터셋 활용
    → PaLM-2 모델의 질의 응답 기반 SQL 처리 성능 향상

2) 파인튜닝 없이 능력 획득하기 (Without Fine-tuning)

기존 머신러닝: 모델 파라미터 학습 중심 능력 획득
LLM 시대:
1. 모델 파라미터 조정 (fine-tuning)
2. 프롬프트 설계 (Prompt Engineering)
3. 에이전트 메커니즘 설계 (Mechanism Engineering)

→ 특히 프롬프트 설계 및 메커니즘 설계는 fine-tuning 없이도 능력 향상 가능

2-1) 프롬프트 설계 (Prompt Engineering)

정의:
자연어 기반 프롬프트에 행동 목적, 전략, 사고 방식 등을 삽입하여 능력 유도
주요 사례:
- CoT [45]: 단계별 추론 예시 제공 → 복잡한 문제 해결 유도
- CoT-SC [49], ToT [50]: 다양한 경로의 추론 흐름 유도
- SocialAGI [30]: 에이전트-청자 간 정신 상태 정보를 프롬프트에 포함 → 대화 적응력 및 전략성 강화
- Retroformer [87]: 실패에 대한 반성(reflection)을 프롬프트에 삽입 → 이후 행동 가이드로 활용

2-2) 메커니즘 설계 (Mechanism Engineering)

정의: 내부 구조, 피드백 절차, 학습 규칙 등 모듈과 운영 체계의 설계를 통한 능력 향상 전략

(1) 시행착오 기반 학습 (Trial-and-Error)

개요: 에이전트 행동 → 비평 모듈 평가 → 실패 시 피드백 반영 → 행동 수정
사례:
- RAH [88]: 추천 시스템에서 인간 행동과의 비교를 통한 실패 학습
- DEPS [33]: 실패 원인 설명 → 계획 재작성
- RoCo [89]: 다중 로봇 경로 검증 → 충돌 발생 시 재계획
- PREFER [90]: 성능 평가 실패 시 LLM을 통해 실패 원인 설명 생성 → 행동 개선

(2) 크라우드소싱 기반 강화 (Crowd-sourcing)

개요: 다수 에이전트의 응답 비교 → 상호 피드백 → 집단 토론을 통한 최종 답 도출
사례:
- [91]: 의견 불일치 발생 시, 다른 에이전트 의견 통합 후 재응답 → 토론 기반 합의 형성

(3) 경험 축적 및 활용 (Experience Accumulation)

개요: 성공 경험을 기억·라이브러리·지식베이스에 저장 → 유사 과제에 활용
사례:
- GITM [16]: 과거 성공 행동 기억화 → 유사 과제 시 재사용
- Voyager [38]: 피드백 기반 스킬 코드 반복 개선 → 스킬 라이브러리 확장
- AppAgent [92]: 사용자 앱 사용 방식 관찰 + 자율 탐색 → 작업 수행 지식 축적
- MemPrompt [93]: 사용자 피드백을 메모리로 저장 → 의도 추론 및 대응 향상

(4) 자가 진화 메커니즘 (Self-driven Evolution)

개요: 에이전트 스스로 목표 설정, 환경 탐색, 피드백 기반 능력 성장
사례:
- LMA3 [94]: 자율 목표 설정 및 보상 기반 학습
- SALLM-MS [95]: GPT-4 기반 다중 에이전트 협업 → 고도화된 자기조정 능력
- CLMTWA [96]: LLM 교사 → 약한 LLM 학생에게 맞춤 설명 제공 → 이해도 기반 피드백 학습
- NLSOM [97]: 다중 에이전트 간 자연어 기반 협력과 역할 조정 → 동적 팀워크 기반 학습

3. LLM-based autonomous agent application

3.1. Social science

정의: 사회과학은 사회와 개인 간 관계를 연구하는 학문 분야
LLM 기반 자율 에이전트는 인간 유사한 이해력, 사고력, 과제 해결력을 기반으로 이 분야에 혁신적 영향을 미침
분류 기준: 본 장에서는 사회과학, 자연과학, 공학의 3가지 분야로 응용 사례를 분류 (현재는 사회과학 중심 정리)

<심리학(Psychology)>

시뮬레이션 실험 수행
- 다양한 프로파일을 부여받은 LLM이 심리학 실험을 수행
- 결과: 인간 피험자와 유사한 결과 생성 가능성 확인
- 모델 크기와 정확도 간 정비례 관계 관측
- 단점: 일부 대형 모델은 과도하게 정확한 추정값(hyper-accuracy distortion)을 보여 후속 연구에 영향을 미칠 수 있음
정신 건강 지원
- Reddit의 120개 게시글을 기반으로 LLM 대화형 에이전트의 효과 분석
- 결과: 불안, 사회적 고립, 우울감 해소에 기여 가능성 확인
- 문제점: 일부 경우에는 유해한 콘텐츠 생성 위험성 존재

<정치학 및 경제학 (Political Science and Economy)>

이념 분석 및 투표 패턴 예측: LLM 기반 에이전트를 활용하여 이데올로기 탐지 및 투표 행태 예측
정치 연설 분석: LLM을 이용해 정치 연설의 담론 구조 및 설득 요소 분석
경제 행동 시뮬레이션: 다양한 성격, 성향, 재능을 부여받은 LLM 에이전트를 통해 인간의 경제적 선택 행동 탐색

<사회 시뮬레이션 (Social Simulation)>

정의: 인간 사회를 모사한 가상 환경 구축 및 사회 현상 시뮬레이션
주요 사례:
- Social Simulacra [79]: 온라인 커뮤니티 규칙 개선을 위한 가상 사회 시뮬레이션
- [107,108]: 에이전트의 성격이 소셜 네트워크 내 정보 전파에 미치는 영향 분석
- Generative Agents [20], AgentSims [34]: 가상 마을 내 일상 생활 시뮬레이션
- SocialAI School [109]: 아동기 사회 인지 능력 발달 과정 모사
- S3 [77]: 정보·감정·태도 전파 중심의 사회 네트워크 시뮬레이터
- CGMI [111]: 다중 에이전트 시뮬레이션 프레임워크, 교실 시나리오 구현

<법학 (Jurisprudence)>

사법 판단 보조
- Blind Judgement [113]: 여러 LLM 기반 판사 시뮬레이션 → 투표 기반 판단 통합
- ChatLaw [112]: 중국 법률 특화 LLM 모델
  - 데이터베이스·키워드 기반 검색 기능 탑재
  - 자기주의(Self-attention)를 활용해 참조 오류 및 환각 문제 완화

<연구 보조 (Research Assistant)>

논문 및 연구 업무 지원
- 논문 초록 생성, 키워드 추출, 연구 스크립트 작성 등
- 사회과학 연구의 정확성·속도·생산성 향상에 기여
아이디어 탐색 보조
- 사회과학자들이 새로운 연구 질문 발굴 시 LLM 에이전트를 활용
- 창의성과 문제 설정 능력 증진 가능성 제시

3.2. Natural science

<문서화 및 데이터 관리 (Documentation and Data Management)>

배경: 자연과학 연구는 방대한 양의 문헌과 데이터를 수집·정리·종합하는 작업이 필수적이며, 이는 많은 시간과 인력이 소요됨.
LLM 기반 에이전트의 역할: 자연어 이해력과 인터넷/데이터베이스 활용 능력을 기반으로 문서 처리 및 정보 정리에 강점을 보임
주요 사례:
- [115]: 인터넷 정보 탐색 및 활용을 통한 질문 응답 및 실험 설계 수행
- ChatMOF [116]: 인간이 작성한 텍스트에서 금속-유기 골격체(MOF) 관련 정보를 추출하고 도구를 통해 물성 예측 수행
- ChemCrow [75]: 화학 관련 데이터베이스를 활용해 화합물 표현 검증 및 위험 물질 식별 기능 제공

<실험 보조 (Experiment Assistant)>

기능: 에이전트가 실험 목적을 입력받고, 관련 문서를 검색한 뒤 Python 코드 실행을 통해 실험 설계–계획–실행까지 자동화 수행
주요 사례:
- [115]: LLM 기반 에이전트를 통한 과학 실험 전주기 자동화 시스템 제안
- ChemCrow [75]: 17개의 특화 도구 내장 → 실험 설계, 절차 제안, 안전 리스크 경고 제공

<자연과학 교육 (Natural Science Education)>

기능: 사람과의 자연스러운 대화를 바탕으로 교육 도구 개발, 개인화된 피드백 제공, 문제 해결 및 분석 능력 향상 유도
주요 사례:
- [115]: 실험 설계, 방법론, 분석 교육 시스템 → 비판적 사고력 및 문제 해결 능력 함양
- Math Agents [117]: 수학 탐색–증명–해결 지원, 인간과의 대화 가능
- [118], CodeX [119]: 대학 수학 문제 자동 해결 및 설명 기능 → 교육용 도구로 활용
- CodeHelp [120]: 프로그래밍 교육 에이전트, 키워드 설정, 질문 추적, 피드백 제공
- EduChat [81]: 교육 특화 LLM 에이전트, 학생·교사·학부모에게 공감형 맞춤 교육 지원
- FreeText [121]: 서술형 문제 자동 평가 및 피드백 제공 에이전트

3.3. Engineering

<토목공학 (Civil Engineering)>

기능: 자연어 명령을 이해하고, 3D 시뮬레이션 환경에서 구조물 설계 및 최적화
사례: [122] 인간 설계자와 AI 에이전트가 협력하여 건물, 다리 등 복잡 구조물 설계
- 에이전트는 블록 배치, 피드백 반영, 모호성 탐지 및 질문 기능 보유

<컴퓨터공학 및 소프트웨어공학>

- 소프트웨어 개발 전반 자동화

기능: 코딩, 디버깅, 문서화, 테스트 자동화
사례:
- ChatDev [18]: 다중 에이전트 대화 기반 SW 개발 프레임워크 (역할 분담 포함)
- MetaGPT [23]: 기획자–PM–엔지니어 역할 분리 → 코드 품질 향상
- ToolBench [14], DemoGPT [124]: 코드 추천, 자동 완성, 프롬프트 기반 생성
- GPT-Engineer [125], SmolModels [123]: 프롬프트 기반 경량 개발 자동화
- CodeHelp [120]: 에러 메시지 분석 및 수정 제안, 학생용 디버깅 도구
- ChatEDA [127]: EDA(전자설계자동화) 분야에서 설계–스크립트 실행 자동화
- LLIFT [126]: 정적 분석 기반 보안 취약점 탐지
- PENTESTGPT [128]: 침투 테스트 수행, 소스 코드 분석 및 익스플로잇 생성
- DB-GPT [41]: 데이터베이스 이상 탐지를 위한 사고 과정 추적 기반 진단

<산업 자동화 (Industrial Automation)>

기능: 디지털 트윈 + 프롬프트 엔지니어링 결합 → 생산 공정의 유연한 지능형 제어
사례:
- [129]: LLM과 디지털 트윈 통합 프레임워크로 생산 설계 자동화
- IELLM [130]: 석유·가스 산업 사례, 암석 물리, 음향 반사법, 관 제어 등 활용

<로보틱스 및 구현지능 (Embodied AI)>

기능: 강화학습 기반 에이전트가 실세계 행동 기획, 정보 수집, 협업 수행
사례:
- [135]: 고수준 명령을 행동으로 번역하는 계획 + 제어 통합 시스템
- SayCan [78]: 모바일 로봇 기반 조작/이동 기술 551개 구성, 주방 환경 기반
- [137,138]: 장기 목표 달성을 위한 복합 스킬 조합 및 실행 계획 수립
- TidyBot [139]: 가정 내 청소 자동화, 텍스트 기반 학습 통한 사용자 맞춤화
- [136]: 대화 기반 정보 수집으로 최적화 학습 가속화

<오픈소스 프레임워크 및 플랫폼>

목표: 개발자들이 LLM 기반 에이전트를 쉽게 구성·테스트·확장할 수 있는 환경 제공
주요 프로젝트:
- LangChain [145]: 프로그래밍·디버깅 자동화, 다양한 소스 및 플러그인 연동
- XLang [143]: 데이터 처리, 플러그인, 웹 에이전트 등 3가지 시나리오 지원
- AutoGPT [100], WorkGPT [146]: 목표 설정–작업 분해–자동 순환 실행
- AgentVerse [19]: 사용자 정의 시뮬레이션을 위한 다목적 프레임워크
- GPT Researcher [148]: 연구 질문 생성–웹 정보 수집–요약 자동화
- BMTools [149]: LLM 도구 확장용 오픈 플랫폼, 플러그인 URL 로딩 지원

<Remark>

기술적 오류로 인한 위험 발생 가능성

- LLM 자체가 환각(hallucination) 등의 문제에 취약하며, 때때로 오답을 생성
- 이로 인해 다음과 같은 문제가 발생할 수 있음:
  - 잘못된 결론 도출
  - 실험 실패
  - 특히 위험 환경에서의 인간 안전 위협
- 해결 방안:
  - 실험 과정에서 사용자의 전문성 및 안전에 대한 인식 필요
  - AI의 답변을 비판적으로 검토할 수 있는 역량 확보 필요

악용 가능성에 대한 우려

- LLM 기반 에이전트가 화학 무기 개발 등 악의적 목적에 활용될 가능성 존재
- 잠재적 위협 기술로 전용될 경우, 사회적·윤리적 위험 증가

해결 방안: Human alignment, 사용 제한 조치, 감시 체계 도입 등 윤리적 사용을 보장하는 보안 메커니즘 필요

4. LLM-based autonomous agent evaluation

4.1. Subjective evaluation

1) 인간 주석 (Human Annotation)

인간 평가자가 에이전트의 출력에 대해 직접 점수를 매기거나 순위를 매김
주요 사례:
- [20]: 5가지 핵심 질문에 기반해 에이전트의 능력을 평가
- [159]: 무해성, 정직성, 유용성, 상호작용성, 편향성 등에 대한 인간 점수 비교
- [79]: 커뮤니티 규칙 개발에서의 에이전트 효과성 판단

2) 튜링 테스트 (Turing Test)

인간 평가자가 출력의 출처(인간 vs 에이전트)를 구분하지 못할 경우, 인간 수준의 성능 달성으로 간주
주요 사례:
- [29]: 자유 형식의 정치 성향 텍스트 응답에 대해 인간/에이전트 구분 실험
- [20]: 에이전트와 인간의 행동 구분 여부 평가
- EmotionBench [160]: 인간과 LLM의 감정 표현 비교를 통해 감성지능 측정

주관적 평가는 인간 관점에서의 성능 평가를 가능케 하며, 서비스 품질의 핵심 지표로 기능함
그러나 높은 비용, 낮은 효율성, 인구학적 편향의 한계 존재

3) 해결 방안: LLM을 통한 대체 평가 전략

최근 연구들은 LLM 자체를 평가 도구로 활용하는 방법을 모색 중
- ChemCrow [75]: 실험 결과의 정확성과 과정을 GPT로 평가
- ChatEval [161]: 여러 에이전트가 토론 형식으로 서로의 결과를 비평 및 평가

- 이러한 방식은 신뢰성 향상, 자동화 가능성 확보 측면에서 유망하며, 향후 직접 인간 평가의 한계를 극복할 수 있는 대안으로 주목받고 있음

4.2. Objective evaluation

1) 평가 지표 (Metrics)

(1) 과업 성공률 (Task Success)

성공률 (success rate)
보상/점수 (reward/score)
커버리지 (coverage)
정확도 (accuracy)
→ 과업 수행 능력을 직접적으로 반영

(2) 인간 유사성 (Human Similarity)

경로 정확도 (trajectory/location accuracy)
대화 유사도 (dialogue similarity)
인간 반응 모사 여부 (human-like mimicry)
→ 인간 행동을 얼마나 자연스럽게 흉내내는지 측정

(3) 효율성 (Efficiency)

계획 소요 시간 (planning length)
개발 비용 (development cost)
추론 속도 (inference speed)
명확화 대화 횟수 (clarification dialogues)
→ 자원 활용의 효율성과 운영 속도 평가

2) 평가 프로토콜 (Evaluation Protocols)

: 지표를 어떻게 활용해 평가를 수행할지를 정하는 방식

(1) 실세계 시뮬레이션

게임/시뮬레이터 기반 환경에서 자율적 과업 수행
경로 추적, 목표 달성률 등을 통해 현실 적용성 평가

(2) 사회적 평가 (Social Evaluation)

협업, 토론, 감정 표현 등 사회적 행동 능력 측정
Theory of Mind, 공감능력, 소셜 IQ 평가

(3) 다중 과제 평가 (Multi-task Evaluation)

다양한 도메인의 과업을 부여하여 범용성 및 일반화 능력 측정

(4) 소프트웨어 테스트

테스트 케이스 생성, 버그 재현, 코드 디버깅 수행 후
테스트 커버리지, 버그 탐지율 등으로 성능 측정

3) 벤치마크 (Benchmarks)

: 다양한 분야에서 에이전트 평가를 위한 벤치마크 활용

<시뮬레이션 환경>

ALFWorld, IGLU, Minecraft: 실시간 과업 수행 능력 평가
Tachikuma: TRPG 게임 로그 기반의 상호작용 이해력 평가

<사회성 평가>

SocKET: 감정, 유머, 신뢰성 등 5개 범주의 사회정보 측정
EmotionBench: 8가지 부정 감정에 대한 정서 판단 능력 평가
AgentSims: 행동 계획·기억·행동 전략의 효과성 측정

<도구 활용 및 소프트웨어 개발>

ToolBench: 툴 사용 역량 평가
WebShop, WebArena: 제품 검색, 정보 검색 정확도 평가
DB-GPT, PEB, ClemBench, E2E 등: 다양한 환경 기반 실제 응용 평가

객관적 평가는 에이전트의 성능을 수치화하여 명확하게 비교·분석 가능
아직 모든 능력을 완벽하게 평가하긴 어려우나, 주관적 평가를 보완하는 필수적 수단으로 기능
다양한 벤치마크와 평가 방식의 발전은 향후 에이전트 개발 및 분석에 중요한 기반이 될 것임

5. Related surveys

기존 서베이들은 LLM 자체에 대한 기술·응용·한계·평가 등 광범위한 범주를 포괄
반면, 본 연구는 LLM 기반 자율 에이전트(LAA)에 특화된 최초의 종합적 서베이
총 100편 이상의 선행 연구를 정리, 에이전트의 구성, 응용, 평가에 대해 체계적으로 정리

6. Challenges

6.1. Role-playing capability

에이전트는 상황에 따라 프로그래머, 화학자, 연구자 등 다양한 역할 수행 필요
그러나 LLM은 웹 기반 학습으로 인해 드문 직군이나 새로운 역할에 대한 이해가 부족
또한 인지심리학적 특성이나 자기 인식 결여 문제 존재
해결 방안: 역할별 실데이터 수집 후 fine-tuning 또는 프롬프트/아키텍처 특화 설계

6.2. Generalized human alignment

기존 LLM은 "옳은" 인간 가치에 정렬되어 있음 (ex. 폭탄 제조 거부)
그러나 현실 시뮬레이션에서는 부정적 특성도 필요 (ex. 범죄자 행동 분석)
시뮬레이션 목적에 따라 다양한 가치에 맞춰 정렬할 수 있는 유연성 필요
해결 방안: 목적에 따른 prompt 설계로 유연한 정렬 방식 구현

6.3. Prompt robustness

프롬프트에 작은 변화만으로도 큰 결과 차이 발생
에이전트는 기억·계획 모듈 포함으로 인해 모듈 간 상호작용까지 고려된 복합 프롬프트 프레임워크 필요
해결 방안:
- 수작업을 통한 프롬프트 최적화
- GPT 기반 자동 프롬프트 생성

6.4. Hallucination

LLM은 사실이 아닌 정보를 그럴듯하게 생성하는 환각(hallucination) 현상이 존재
코드 생성·보안·윤리적 문제 발생 가능
해결 방안: 인간의 피드백을 지속적으로 반영하는 상호작용적 학습 과정 도입

6.5. Knowledge boundary

에이전트는 인간 행동 시뮬레이션을 수행해야 하나, LLM의 과잉지식이 현실성 저해
예: 영화 평가를 모사할 때, 모르는 상태를 가정해야 하지만 LLM은 이미 내용을 알고 있음
해결 방안: 특정 지식 접근을 제한하는 방식(knowledge masking 등) 필요

6.6. Efficiency

오토리그레시브 구조로 인해 추론 속도가 느림
에이전트는 매 동작마다 LLM 호출이 반복됨 (ex. 기억 검색, 계획 수립)
시스템 전반의 응답성 저하
해결 방안: 캐싱, 프리페칭, 경량화된 LLM 연동 등이 필요

7. Conclusion

본 서베이의 목적은 LLM 기반 자율 에이전트 분야의 기존 연구를 체계적으로 정리하는 것에 있음.
각 측면에 대해 세부 분류 체계(taxonomy)를 제공하여 기술 간 연관성과 발전 흐름 정리
100여 편 이상의 주요 연구를 바탕으로 분야별 흐름과 통찰 제공
본 연구는 단순 정리에 그치지 않고, 해결이 필요한 주요 도전 과제들을 제안
향후 연구자들에게 연구 방향성과 문제 인식의 기준점을 제공

'Miscellaneous' 카테고리의 다른 글

[2025-2] 김지원 - Introduction to Reinforcement Learning (0)	2025.09.13
[2025-2] LLM-based agent : DrBioRight 2.0 (2)	2025.08.16
[2025-2] 김지원 - Auto-GPT for Online Decision Making: Benchmarks andAdditional Opinions (2)	2025.08.16
[2025-2] 박제우 - Playing Atari with Deep Reinforcement Learning (5)	2025.08.15
[2025-2] 이루가 - Rumor Detection on Social Media with Bi-Directional Graph ConvolutionalNetworks (3)	2025.07.27

[2025-2] 이루가 - A survey on large language model based autonomous agents

1. Introduction

2. LLM-based autonomous agent construction(에이전트 구조 설계)

<아키텍처 설계>

<에이전트 능력>

2.1. Agent architecture design

<설계의 필요성>

<제안된 통합 프레임워크 구성>

<모듈 간 관계>

2.1.1. Profiling module

< 프로필 생성 방식 (세 가지 주요 전략) >

<Remark. 혼합 전략의 가능성>

2.1.2. Memory module

<Memory Structures>

<Remark>

<Memory format>

<Remark>

<Memory Operation>

<Memory Reflection>

2.1.3. Planning module

<Remark>

2.1.4. Action module

1) 행동 목적 (Action Goal)

2) 행동 생성 방식 (Action Production)

3) 행동 공간 (Action Space)

● 내부 지식 기반 행동 (Internal Knowledge)

4) Action Impact

2.2. Agent capability acquisition

3. LLM-based autonomous agent application

3.1. Social science

3.2. Natural science

3.3. Engineering

<Remark>

4. LLM-based autonomous agent evaluation

4.1. Subjective evaluation

4.2. Objective evaluation

5. Related surveys

6. Challenges

6.1. Role-playing capability

6.2. Generalized human alignment

6.3. Prompt robustness

6.4. Hallucination

6.5. Knowledge boundary

6.6. Efficiency

7. Conclusion

'Miscellaneous' 카테고리의 다른 글

관련글

티스토리툴바