메뉴얼 Landing V2.0

Quick · Step 06 — 에이전트 경험 학습

Agent Experience Learning

실제 사용자 피드백·실행 트레이스를 chosen/rejected 선호 쌍으로 환원해 에이전트가 지속적으로 학습하고 개선됩니다

Auto Learning

User Query

사용자 질의

Agent Response

에이전트 응답

User Feedback

피드백 수집

Learning

모델 학습

Improvement

성능 향상

경험 데이터셋

…

트레이스·대화 계열

DPO 데이터셋

…

chosen/rejected 페어

DPO 페어 수

…

dpo 데이터셋 rows 합

DPO 재학습 잡

…

method: dpo 잡

1트레이스 수집

2DPO 페어 변환

3재학습

트레이스 · 경험 수집 현황

에이전트 실행 트레이스와 대화 로그 데이터셋

경험 저장소

불러오는 중…