Quick · Step 06 — 에이전트 경험 학습
Agent Experience Learning
실제 사용자 피드백·실행 트레이스를 chosen/rejected 선호 쌍으로 환원해 에이전트가 지속적으로 학습하고 개선됩니다
Auto Learning
User Query
사용자 질의
Agent Response
에이전트 응답
User Feedback
피드백 수집
Learning
모델 학습
Improvement
성능 향상
경험 데이터셋
…
트레이스·대화 계열
DPO 데이터셋
…
chosen/rejected 페어
DPO 페어 수
…
dpo 데이터셋 rows 합
DPO 재학습 잡
…
method: dpo 잡
1트레이스 수집
2DPO 페어 변환
3재학습
트레이스 · 경험 수집 현황
에이전트 실행 트레이스와 대화 로그 데이터셋
불러오는 중…