메뉴얼 Landing V2.0
Quick · Step 06 — 에이전트 경험 학습

Agent Experience Learning

실제 사용자 피드백·실행 트레이스를 chosen/rejected 선호 쌍으로 환원해 에이전트가 지속적으로 학습하고 개선됩니다

Auto Learning
User Query
사용자 질의
Agent Response
에이전트 응답
User Feedback
피드백 수집
Learning
모델 학습
Improvement
성능 향상
경험 데이터셋
트레이스·대화 계열
DPO 데이터셋
chosen/rejected 페어
DPO 페어 수
dpo 데이터셋 rows 합
DPO 재학습 잡
method: dpo 잡
1트레이스 수집
2DPO 페어 변환
3재학습

트레이스 · 경험 수집 현황

에이전트 실행 트레이스와 대화 로그 데이터셋

경험 저장소
불러오는 중…