Quick · Step 12 — 경험 → 학습 (루프백)

경험 → 학습

런타임 트레이스 · 사용자 피드백을 SFT/DPO 페어로 변환 → 1번 데이터로 ↺. 수집 → 변환 → 재학습 → 루프 재시작.

TRACES COLLECTED

…

경험 계열 데이터셋 0개

SFT CANDIDATES

…

좋은 응답 → SFT 페어

DPO CANDIDATES

…

나쁜 응답 → 거부 페어

UNTIL RETRAIN

…

자동 재학습 큐 진입 기준

① 수집

확인 중…

② 변환

확인 중…

③ 재학습

확인 중…

④ 1번으로 ↺

확인 중…

① 수집 — 경험 데이터셋 현황

경험 저장소

경험 계열 데이터셋

…

학습 가능 (sft·dpo)

…

총 rows

…

② 변환 — 실행 로그 → 학습 데이터

Playground·실서비스 로그를 SFT/DPO 형식으로 환원합니다

SFT

③ 재학습 — 잡 생성

sft → QLoRA · dpo → DPO 방식으로 자동 매핑

데이터셋베이스 모델

최근 루프 이력

최근 생성된 학습 잡 5개

불러오는 중…

변환 룰

다음 자동 재학습

1,000건 누적 시 자동으로 파인튜닝 큐에 진입합니다.

…

④ 1번으로 ↺ — 루프 재시작

재학습이 끝나면 새 어댑터가 모델 카탈로그에 반영됩니다. 베이스 모델 선택(Step 01)으로 돌아가 다음 라운드를 시작하세요.

모델 카탈로그로

자동 트리거 설정

경험이 일정량 쌓이면 변환·재학습을 자동 실행하는 트리거를 설정합니다.

자동화 설정으로