Quick · Step 12 — 경험 → 학습 (루프백)
경험 → 학습
런타임 트레이스 · 사용자 피드백을 SFT/DPO 페어로 변환 → 1번 데이터로 ↺. 수집 → 변환 → 재학습 → 루프 재시작.
TRACES COLLECTED
…
경험 계열 데이터셋 0개
SFT CANDIDATES
…
좋은 응답 → SFT 페어
DPO CANDIDATES
…
나쁜 응답 → 거부 페어
UNTIL RETRAIN
…
자동 재학습 큐 진입 기준
① 수집
확인 중…
② 변환
확인 중…
③ 재학습
확인 중…
④ 1번으로 ↺
확인 중…
① 수집 — 경험 데이터셋 현황
경험 계열 데이터셋
…
학습 가능 (sft·dpo)
…
총 rows
…
② 변환 — 실행 로그 → 학습 데이터
Playground·실서비스 로그를 SFT/DPO 형식으로 환원합니다
③ 재학습 — 잡 생성
sft → QLoRA · dpo → DPO 방식으로 자동 매핑
최근 루프 이력
최근 생성된 학습 잡 5개
불러오는 중…