메뉴얼 Landing V2.0
Quick · Step 12 — 경험 → 학습 (루프백)

경험 → 학습

런타임 트레이스 · 사용자 피드백을 SFT/DPO 페어로 변환 → 1번 데이터로 ↺. 수집 → 변환 → 재학습 → 루프 재시작.

TRACES COLLECTED
경험 계열 데이터셋 0개
SFT CANDIDATES
좋은 응답 → SFT 페어
DPO CANDIDATES
나쁜 응답 → 거부 페어
UNTIL RETRAIN
자동 재학습 큐 진입 기준
수집
확인 중…
변환
확인 중…
재학습
확인 중…
1번으로 ↺
확인 중…

① 수집 — 경험 데이터셋 현황

경험 저장소
경험 계열 데이터셋
학습 가능 (sft·dpo)
총 rows

② 변환 — 실행 로그 → 학습 데이터

Playground·실서비스 로그를 SFT/DPO 형식으로 환원합니다

SFT

③ 재학습 — 잡 생성

sft → QLoRA · dpo → DPO 방식으로 자동 매핑

최근 루프 이력

최근 생성된 학습 잡 5개

불러오는 중…
변환 룰
다음 자동 재학습

1,000건 누적 시 자동으로 파인튜닝 큐에 진입합니다.

④ 1번으로 ↺ — 루프 재시작

재학습이 끝나면 새 어댑터가 모델 카탈로그에 반영됩니다. 베이스 모델 선택(Step 01)으로 돌아가 다음 라운드를 시작하세요.

자동 트리거 설정

경험이 일정량 쌓이면 변환·재학습을 자동 실행하는 트리거를 설정합니다.