MLOps 대시보드
GNN·LSTM·Transformer AI 모델 운용 현황 — 실시간 갱신
실시간 모니터링
AI 학습 파이프라인 · 4 PILLAR · 12 STEP
AUTO LOOP 가동중
현재: STEP 07 강화학습
PILLAR 01 · 데이터 팩토리
✓
기상 원시 수집
K-weather
✓
전처리·QC
✓
학습셋 구성
PILLAR 02 · 모델 빌드
✓
GNN 학습
✓
LSTM 학습
✓
Transformer 학습
PILLAR 03 · 검증 · 강화학습
07
강화학습 루프
RL
08
평가 vs WRF
09
앙상블 패키징
PILLAR 04 · 배포 · 루프백
10
운용 배포
11
실서비스 예보
12
경험→재학습 ↺
LOOP
현재 배포 모델
GNN v2.4.1
Production
LSTM v1.9.2 · Transformer v1.2.0 병행
자기학습 횟수
284 회
↑ 이번 달 +12
최근 학습: 2026-05-21 02:30 KST
GPU 활용률
78.4 %
↑ +5.2%p 어제 대비
A100 80GB × 32 / 8노드
오늘 예보 정확도
91.7 %
↑ WRF 대비 +3.4%p
기온 RMSE: 1.42°C · 풍속 MAE: 0.88 m/s
AI 모델 파이프라인 현황
자동 갱신
GNN
Graph Neural Network v2.4.1
Production
GraphSAGE 기반 · 관측소 그래프 연결 · 시공간 특징 추출
검증 RMSE1.42°C
정확도91.0%
LSTM
Long Short-Term Memory v1.9.2
Production
시계열 기상 예측 · 72시간 예보 · BiLSTM 구조
검증 RMSE1.78°C
정확도87.2%
TFM
Transformer v1.2.0
Staging
Attention 기반 중기예보 · 168h 예측 · 멀티헤드 어텐션
검증 RMSE2.14°C
정확도82.6%
7일 RMSE 추이 (기온)
단위: °C
라이브 학습 모니터
GNN run-2841 진행 중
에포크 진행
67 / 120
학습 중
NODE-01~04 · A100×16
전체 진행률55.8%
Train Loss
0.0198
Val Loss
0.0224
LR
1e-3
GPU ◤
92%
시스템 헬스
Airflow정상
DAG 3개 활성 · 스케줄러 가동
MLflow정상
실험 47개 · 모델 저장소 연결
KISTI GPU정상
8노드 · 활성: 25/32 GPU · 78.4%
MinIO정상
2.4TB / 10TB 사용
최근 학습 실행 이력
| 실행 ID | 모델 | 시작 시각 | 소요 시간 | Val RMSE | Val MAE | 에포크 | 상태 | 액션 |
|---|---|---|---|---|---|---|---|---|
| run-2841 | GNN | 2026-05-21 02:30 | 1h 24m | 1.42°C | 0.88 m/s | 120/120 | 배포됨 | |
| run-2840 | LSTM | 2026-05-20 23:15 | 2h 08m | 1.78°C | 1.12 m/s | 200/200 | 배포됨 | |
| run-2839 | TFM | 2026-05-20 20:00 | 3h 42m | 2.14°C | 1.45 m/s | 80/150 | 스테이징 | |
| run-2838 | GNN | 2026-05-19 02:30 | 1h 18m | 1.49°C | 1.02 m/s | 120/120 | 완료 | |
| run-2837 | LSTM | 2026-05-18 23:00 | 2h 15m | 1.82°C | 1.18 m/s | 200/200 | 완료 |
이벤트 로그
실시간
2026-05-21 20:05[OK]K-weather 기상 데이터 수신 완료 · AWS 2,847건 · ASOS 1,204건
2026-05-21 20:02[INFO]Milvus 벡터 인덱스 업데이트 · weather_forecast +2,847벡터
2026-05-21 04:04[OK]GNN v2.4.1 Production 배포 완료 · RMSE 1.42°C · 응답 84ms
2026-05-21 04:01[OK]모델 평가 통과 · Val RMSE 1.42 (이전: 1.49) · 임계값 1.50 하회
2026-05-21 03:54[INFO]GNN Epoch 120/120 완료 · train_loss=0.0184 · val_loss=0.0211
2026-05-21 02:41[INFO]Task train_gnn 시작 · NODE-01~04 A100×16 할당 · run-2841
2026-05-21 02:33[WARN]결측값 감지: AWS-0047 기온 데이터 누락 · 선형보간 적용 후 계속
2026-05-21 02:30[OK]weather_train_daily DAG 시작 · 스케줄러: 02:30 KST · run_id=2026-05-21T02:30
자기학습 루프
실황 오차 기반 자동 파인튜닝 · 롤링 윈도우 30일
루프 가동 중
총 루프 횟수
284 회
↑ 이번 주 +8
최근 RMSE 개선
-0.07 °C
↑ 개선됨
트리거 임계값
0.15 °C
RMSE 초과시
다음 루프 예정
02:30 KST
~6시간 후
자기학습 단계 파이프라인
3단계 진행 중
실황 수집
AWS → SFTP 완료
›
오차 계산
예보 vs 관측 RMSE
›
데이터 증강
진행 중 67%
›
파인튜닝
대기 중
›
검증
홀드아웃 세트
›
배포
임계값 통과시
반복당 RMSE 개선 (최근 14회)
루프 구성 파라미터
롤링 윈도우 기간
30일
7일30일60일90일
RMSE 트리거 임계값
0.15°C
0.050.200.350.50
최소 개선량 (배포 조건)
0.05°C
0.010.050.100.20
파인튜닝 에포크
20 epoch
52550100
학습률 (Fine-tuning LR)
자동 실행 스케줄
매일 02:30 KST
Early Stop patience
5
⚡ STEP 07 — 강화학습 루프 (Reinforcement Learning)
AI 예보 생성
GNN v2.4.1
72h 격자 예보
72h 격자 예보
예보 출력
실황 관측 수집
군 AWS 884개소
6h 간격 자동 수신
6h 간격 자동 수신
관측값
보상 함수 계산
R = −RMSE(예보,관측)
지역·시간대 가중치 적용
지역·시간대 가중치 적용
reward signal
PPO 정책 업데이트
clip ε=0.2 · GAE λ=0.95
KL divergence 제한
KL divergence 제한
파라미터 갱신
개선 모델 검증
Hold-out 30일
RMSE Δ ≥ 0.05°C 시 배포
RMSE Δ ≥ 0.05°C 시 배포
보상 함수
R = −α·RMSE(T) − β·MAE(WS) + γ·ACC(Precip)현재 누적 보상
R̄ = −1.42 (개선중 ↑)
알고리즘
PPO (Proximal Policy Optimization) · GRPO 병행 실험
학습 대상 레이어
GNN Decoder · Attention Head (상위 4층만 unfreeze)
🔵 STEP 12 — 신규학습 기반 루프백 (Continual Learning)
드리프트 감지 → 자동 재학습 트리거
① 신규 기상 패턴 데이터 자동 감지
Population Stability Index
② 데이터 드리프트 > 0.2 시 트리거
Evidently AI
③ EWC(탄성 가중치) 적응형 파인튜닝
진행중
④ 구 지식 망각 방지(Replay Buffer)
대기
⑤ A/B 검증 → 자동 스왑 배포
대기
루프 학습 전략 요약
Continual Learning 방식
EWC + Replay Buffer
드리프트 감지 주기
매 6h (PSI)
트리거 임계 (PSI)
> 0.2
Replay Buffer 크기
50,000 샘플
EWC λ (정규화)
400
재학습 배치
신규 30% + 구 70%
RL ↔ Continual 전환
RMSE 안정 시 RL → CL 전환
루프 실행 이력
| 루프 ID | 실행 시각 | 트리거 사유 | 이전 RMSE | 이후 RMSE | 개선량 | 배포 | 소요 | 상태 |
|---|---|---|---|---|---|---|---|---|
| loop-284 | 2026-05-21 02:30 | RMSE 임계 초과 | 1.49°C | 1.42°C | -0.07°C | 배포됨 | 38m | 완료 |
| loop-283 | 2026-05-20 02:30 | 일일 스케줄 | 1.53°C | 1.49°C | -0.04°C | 미달 | 41m | 완료 |
| loop-282 | 2026-05-19 02:30 | 일일 스케줄 | 1.61°C | 1.53°C | -0.08°C | 배포됨 | 36m | 완료 |
| loop-281 | 2026-05-18 02:30 | RMSE 임계 초과 | 1.68°C | 1.61°C | -0.07°C | 배포됨 | 44m | 완료 |
| loop-280 | 2026-05-17 02:30 | 일일 스케줄 | 1.71°C | 1.69°C | -0.02°C | 미달 | 35m | 완료 |
수동 파인튜닝 실행
수동 트리거
파인튜닝 설정
파인튜닝 학습률5e-5
1e-65e-51e-45e-4
에포크 수20
웜업 스텝 비율10%
얼리 스토핑
EWC 정규화 (망각 방지)
✓ 파인튜닝 완료
개선 확인
이전 Val RMSE1.49°C
이후 Val RMSE1.42°C
개선량-0.07°C ↑
체크포인트epoch_18 (best)
소요 시간22m 14s
파인튜닝 이력
| ID | 기반 모델 | 데이터 | RMSE 개선 | 배포 |
|---|---|---|---|---|
| ft-284 | GNN v2.4.1 | 30d 오차 | -0.07°C | 배포됨 |
| ft-283 | GNN v2.4.0 | 30d 오차 | -0.04°C | 미달 |
| ft-280 | GNN v2.3.2 | 90d 전체 | -0.08°C | 배포됨 |
학습 파이프라인
Apache Airflow 기반 DAG 관리 · 자동화 학습 워크플로우
Airflow 정상
활성 DAG
3 개
전체 5개 중
오늘 실행
7 회
성공 6 / 실패 1
평균 소요
1.8 h
지난주 2.1h
weather_train_daily
활성
매일 02:30 KST
GNN·LSTM 일일 재학습 파이프라인 · 최근 30일 관측 데이터 사용 · 자동 배포 포함
✓
data_fetch
2m 14s
›
✓
data_validate
0m 48s
›
✓
preprocess
8m 32s
›
⟳
train_gnn
진행 중 67%
›
○
evaluate
대기
›
○
deploy
대기
weather_retrain_weekly
활성
매주 일요일 00:00 KST
전체 모델 주간 재학습 · 최근 90일 데이터 · 하이퍼파라미터 탐색 포함
✓
data_fetch
›
✓
hpo_search
›
✓
train_all
›
✓
compare
›
✓
promote
최근 실행:2026-05-18 00:00 · 4h 12m · 완료
data_validate_hourly
활성
매시간 정각
K-weather 수신 데이터 품질 검사 · 이상값 탐지 · 결측 처리
최근 실행:2026-05-21 20:00 · 1m 42s · 완료정상
| 실행 ID | DAG 명 | 시작 | 종료 | 소요 | Tasks 완료 | 상태 | 로그 |
|---|---|---|---|---|---|---|---|
| 2026-05-21T02:30 | weather_train_daily | 02:30:00 | 진행 중 | 50m+ | 3/6 | 실행중 | |
| 2026-05-21T00:00 | data_validate_hourly | 00:00:01 | 00:01:43 | 1m 42s | 4/4 | 완료 | |
| 2026-05-20T23:00 | data_validate_hourly | 23:00:01 | 23:01:48 | 1m 47s | 4/4 | 완료 | |
| 2026-05-20T02:30 | weather_train_daily | 02:30:00 | 04:38:14 | 2h 8m | 6/6 | 완료 | |
| 2026-05-18T00:00 | weather_retrain_weekly | 00:00:00 | 04:12:34 | 4h 12m | 5/5 | 완료 |
02:30:00[INFO]DAG weather_train_daily 시작 · run_id=2026-05-21T02:30
02:30:01[INFO]Task data_fetch 시작
02:30:14[INFO]SFTP 연결 완료 · 서버: kweather-sftp.mil.kr:22
02:32:15[INFO]수신 완료: AWS 관측 2,847건 · ASOS 1,204건 · 해상 88건
02:32:16[INFO]Task data_fetch 완료 · 소요: 2m 15s
02:32:17[INFO]Task data_validate 시작
02:32:44[WARN]결측값 감지: 관측소 AWS-0047 기온 데이터 누락 · 선형보간 적용
02:33:05[INFO]데이터 검증 완료 · 품질점수: 98.4% · Task data_validate 완료
02:33:06[INFO]Task preprocess 시작
02:41:38[INFO]전처리 완료 · 정규화·증강 완료 · 시퀀스 생성 48,204건
02:41:39[INFO]Task train_gnn 시작 · GPU: node-01~04 (A100×16)
02:45:00[INFO]Epoch 10/120 · train_loss=0.0284 · val_loss=0.0311
02:55:00[INFO]Epoch 30/120 · train_loss=0.0241 · val_loss=0.0268
03:12:00[INFO]Epoch 67/120 · train_loss=0.0198 · val_loss=0.0224 ← 현재
기본 설정
잡 기본 정보
GPU 리소스
node-01 (A100×4)
node-02 (A100×4)
node-03 (A100×4)
node-04 (A100×4)
선택된 GPU: A100×8 · VRAM: 320 GB · 예상 학습 시간: ~1.8h
하이퍼파라미터
학습률 (lr)1e-3
1e-51e-41e-35e-31e-2
배치 크기64
1664128256
에포크 수120
히든 차원256
64128256512
드롭아웃0.2
얼리 스토핑 (patience)
체크포인트 저장 주기 (epoch)
MLflow 자동 로깅
학습 잡 실행
준비됨
모델GNN-Forecast
데이터셋gnn_train_v4
GPUA100×8 (node-01,02)
예상 시간~1.8 h
예상 VRAM~240 GB / 320 GB
✓ 학습 완료
최종 메트릭
Val RMSE1.38°C
Val MAE0.91 m/s
Best Epoch117/120
총 소요1h 47m
아티팩트
체크포인트24개
모델 크기186 MB
MLflow Runrun-2842
MinIO 경로/models/gnn/v2.5
실험 관리 (MLflow)
하이퍼파라미터 추적 · 메트릭 비교 · 아티팩트 관리
MLflow UI 연결됨
전체 실험
47 개
활성 3개
전체 실행
2,841 run
↑ 이번 주 +24
최고 성능 모델
GNN v2.4.1
RMSE 1.42°C
| 실험명 | 모델 유형 | 실행 수 | 최고 Val RMSE | 최고 Val MAE | 마지막 실행 | 상태 | 액션 |
|---|---|---|---|---|---|---|---|
| GNN-Forecast-v2 | Graph Neural Network | 841 | 1.42°C | 0.98 m/s | 2026-05-21 02:30 | 활성 | |
|
최근 Run 상세 (run-2841)
lr1e-3
batch_size64
hidden_dim256
dropout0.2
epochs120
layers4
최종 메트릭
train_loss0.0198
val_loss0.0224
val_rmse1.42°C
val_mae0.98 m/s
best_epoch117
duration1h 52m
아티팩트
모델 파일gnn_v2.4.1.pt
크기186 MB
체크포인트24개
MinIO/models/gnn/v2.4.1
실행 로그 (최근)
[02:30:00] INFO Run run-2841 시작 · experiment=GNN-Forecast-v2
[02:41:39] INFO Task train_gnn 시작 · GPU: node-01~04 (A100×16)
[03:12:00] INFO Epoch 67/120 · train_loss=0.0198 · val_loss=0.0224
[04:02:14] INFO 학습 완료 · best_epoch=117 · val_rmse=1.42°C
[04:02:18] INFO 아티팩트 저장 완료 · MinIO: /models/gnn/v2.4.1
[04:02:20] INFO Run run-2841 완료 · 총 소요: 1h 52m 14s
|
|||||||
| LSTM-Short-v1 | Bidirectional LSTM | 1,204 | 1.78°C | 1.12 m/s | 2026-05-20 23:15 | 활성 | |
| Transformer-Mid-v1 | Transformer Encoder | 512 | 2.14°C | 1.45 m/s | 2026-05-20 20:00 | 스테이징 | |
| GNN-Forecast-v1 | Graph Neural Network | 284 | 1.89°C | 1.24 m/s | 2025-12-15 02:30 | 보관 | |
| CNN-Baseline | Convolutional NN | 88 | 2.44°C | 1.87 m/s | 2025-08-01 12:00 | 보관 | |
상위 실행 하이퍼파라미터 비교 (GNN-Forecast-v2 기준 Top-5)
| Run ID | 학습률 (lr) | 배치 크기 | 에포크 | 히든 차원 | 레이어 수 | 드롭아웃 | Val RMSE | Val MAE | 상태 |
|---|---|---|---|---|---|---|---|---|---|
| run-2841 ★ | 1e-3 | 64 | 120 | 256 | 4 | 0.2 | 1.42°C | 0.98 | 배포 |
| run-2838 | 1e-3 | 32 | 120 | 256 | 4 | 0.3 | 1.49°C | 1.02 | 완료 |
| run-2830 | 5e-4 | 64 | 150 | 512 | 6 | 0.1 | 1.53°C | 1.08 | 완료 |
| run-2820 | 2e-3 | 128 | 100 | 128 | 3 | 0.2 | 1.61°C | 1.14 | 완료 |
| run-2810 | 1e-4 | 64 | 200 | 256 | 4 | 0.2 | 1.68°C | 1.19 | 완료 |
새 실험 생성
MLflow 자동 연결
기본 하이퍼파라미터 복사
HPO (하이퍼파라미터 탐색) 설정
Optuna를 통한 자동 하이퍼파라미터 최적화 · 베이지안 탐색
~
16
32
64
128
256
64
128
256
512
학습 손실 곡선 — 상위 3 실행 비교 (Val Loss per Epoch)
모델 레지스트리
학습된 AI 모델 버전 관리 · 승격·롤백 관리
새 모델 등록
GNN-ForecastProductionGraphSAGE+Attention
Graph Neural Network 기상예측 모델 · 기온·풍속·강수·시정·운고 72h 예보 · 관측소 그래프 구조 활용
현재 버전 메타데이터
버전v2.4.1
프레임워크PyTorch 2.2 / DGL 1.1
파라미터 수48.7M
입력 형태[B,T=24,N=512,F=18]
출력 형태[B,T=72,N=512,F=5]
등록일2026-05-21 04:02
성능 지표
Val RMSE (기온)1.42°C
Val MAE (풍속)0.88 m/s
강수 ACC84.2%
추론 지연 (P99)84 ms
VRAM 사용24 GB
정확도91.8%
버전 이력
| 버전 | RMSE | 배포일 | 상태 | |
|---|---|---|---|---|
| v2.4.1 | 1.42°C | 2026-05-21 | Production | — |
| v2.4.0 | 1.49°C | 2026-05-18 | 보관 | |
| v2.3.2 | 1.57°C | 2026-04-30 | 보관 | |
| v2.3.0 | 1.62°C | 2026-04-15 | 보관 | |
| v2.2.5 | 1.68°C | 2026-04-01 | 보관 |
LSTM-ShortRangeProductionBiLSTM×4
Bidirectional LSTM 단기 기상예측 · 기온·습도·바람·강수 48h · 시계열 순환 구조
현재 버전 메타데이터
버전v1.9.2
프레임워크PyTorch 2.2
파라미터 수24.2M
입력 형태[B,T=48,F=22]
출력 형태[B,T=48,F=7]
등록일2026-05-20
성능 지표
Val RMSE (기온)1.78°C
Val MAE (풍속)1.12 m/s
강수 ACC81.4%
추론 지연 (P99)38 ms
VRAM 사용8 GB
정확도87.2%
버전 이력
| 버전 | RMSE | 배포일 | 상태 | |
|---|---|---|---|---|
| v1.9.2 | 1.78°C | 2026-05-20 | Production | — |
| v1.8.0 | 1.89°C | 2026-04-15 | 보관 | |
| v1.7.1 | 2.01°C | 2026-03-01 | 보관 |
Transformer-MidRangeStagingPatchTST
Transformer Encoder 중기예보 · 기상장 168h · 멀티헤드 어텐션 · Patch 기반 시계열
승격 미달
Val RMSE 2.14°C — 승격 기준(2.0°C) 미달 · 추가 RL 파인튜닝 예정 (loop-285)
현재 버전 메타데이터
버전v1.2.0
프레임워크PyTorch 2.2
파라미터 수112.4M
입력 형태[B,T=168,F=18]
등록일2026-05-20
성능 지표
Val RMSE (기온)2.14°C
Val MAE (풍속)1.45 m/s
강수 ACC78.8%
추론 지연 (P99)124 ms
VRAM 사용18 GB
정확도82.6%
버전 이력
| 버전 | RMSE | 배포일 | 상태 | |
|---|---|---|---|---|
| v1.2.0 | 2.14°C | 2026-05-20 | Staging | — |
| v1.1.0 | 2.38°C | 2026-04-10 | 보관 |
데이터셋 관리
학습·검증·테스트 데이터셋 관리 · 데이터 계보 추적
데이터셋 수집 / 등록
K-weather SFTP
AWS 관측
ERA5 재분석
직접 업로드
~
기온
풍속
풍향
강수량
습도
시정
운고
기압
Train 비율70%
50%70%90%
직접 업로드
NetCDF, CSV, Parquet 지원 · 최대 100GB
📡 데이터 수집 진행 중...
SFTP 연결됨
K-weather SFTP 수신
84%
품질 검사 (QC)
62%
전처리 · 보간
15%
기상관측 원시 데이터
K-weather AWS·ASOS·해상·고층 관측
데이터 크기
2.4 TB
총 레코드
48.2M
기간
2021.01–현재
품질 점수
98.4%
관측 변수: 기온·풍속·풍향·강수량·습도·시정·운고·기압·이슬점
관측소: AWS 2,847개 · ASOS 96개 · 해상 88개
GNN 학습 데이터셋
그래프 구조화 · 전처리 완료
데이터 크기
480 GB
시퀀스 수
38.6K
기간
2022.01–2026.04
품질 점수
99.1%
입력 특성 수: 18개 / 그래프 노드: 512개 / 에지: 4,096개
데이터 분할 비율
데이터 계보 (Lineage)
원천
K-weather SFTP
AWS·ASOS·해상
→
수집
원시 저장소
MinIO / Raw
→
전처리
정제 데이터
결측 보간·정규화
→
특징화
학습 데이터셋
Train·Val·Test
→
학습
AI 모델
GNN·LSTM·TFM
데이터셋 목록
| 데이터셋명 | 크기 | 레코드 수 | 기간 | 특성 수 | 품질 | 마지막 갱신 | 상태 |
|---|---|---|---|---|---|---|---|
| raw_observations | 2.4 TB | 48.2M | 2021.01–현재 | 28 | 98.4% | 2026-05-21 20:00 | 수집 중 |
| gnn_train_v4 | 480 GB | 38,640 | 2022.01–2026.04 | 18 | 99.1% | 2026-05-01 08:00 | 최신 |
| lstm_train_v2 | 210 GB | 124,800 | 2022.06–2026.04 | 22 | 98.8% | 2026-05-01 09:30 | 최신 |
| validation_holdout | 42 GB | 8,400 | 2026.01–2026.04 | 18 | 99.6% | 2026-05-01 10:00 | 잠금 |
| test_set_2026q1 | 18 GB | 2,160 | 2026.04 | 18 | 100% | 2026-05-01 10:00 | 잠금 |
성능 평가
AI 모델 vs WRF 수치예보 비교 · 지역별·시간대별 분석
평가 기간: 2026-05-01 ~ 2026-05-21
기온 RMSE (GNN)
1.42 °C
↑ WRF 대비 -0.84°C
풍속 MAE (GNN)
0.88 m/s
↑ WRF 대비 -0.42
강수 정확도
84.2 %
↑ WRF 대비 +6.4%p
시정 MAE (GNN)
0.72 km
↑ WRF 대비 -0.38km
| 평가 지표 | 단위 | GNN v2.4.1 | LSTM v1.9.2 | Transformer | WRF (기준) | GNN 개선율 |
|---|---|---|---|---|---|---|
| 기온 RMSE | °C | 1.42 | 1.78 | 2.14 | 2.26 | -37.2% |
| 풍속 MAE | m/s | 0.88 | 1.12 | 1.45 | 1.30 | -32.3% |
| 강수 정확도 | % | 84.2 | 81.4 | 78.8 | 77.8 | +8.2%p |
| 습도 RMSE | % | 4.8 | 5.9 | 6.4 | 7.2 | -33.3% |
| 시정 MAE | km | 0.72 | 0.98 | 1.14 | 1.10 | -34.5% |
| 운고 MAE | ft | 124 | 158 | 184 | 198 | -37.4% |
| 해면기압 RMSE | hPa | 0.84 | 1.02 | 1.18 | 1.24 | -32.3% |
지역별 성능 히트맵 (기온 RMSE °C, GNN v2.4.1)
| 지역 | 기온 RMSE | 풍속 MAE | 강수 ACC | 습도 RMSE |
|---|---|---|---|---|
| 수도권 | 1.28°C | 0.82 | 86.4% | 4.2% |
| 강원 산악 | 1.92°C | 1.24 | 79.8% | 6.8% |
| 서해안 | 1.38°C | 0.94 | 83.6% | 5.1% |
| 동해안 | 1.44°C | 0.91 | 84.8% | 4.9% |
| 제주 | 1.35°C | 0.88 | 85.2% | 4.6% |
개선 필요강원 산악 지역
복잡한 지형에 의한 국지 기상 현상(풍상·풍하 효과, 산악파, 안개) 예측 정확도 부족. GNN 그래프 에지 추가 및 지형 특성 입력 강화 필요.
예보 시간대별 기온 RMSE (GNN vs WRF)
GPU 리소스
KISTI 슈퍼컴 클러스터 · NVIDIA A100 80GB × 32 / 8노드
클러스터 정상
전체 GPU 활용률
78.4 %
↑ +5.2%p
활성 GPU
25 / 32
A100 80GB
VRAM 사용
1,840 GB
/ 2,560 GB
실행 중 작업
4 job
대기 2 / 완료 오늘 12
노드 상태 (8노드 × A100×4)
NODE-01 학습 중
GNN train_gnn run-2841
GPU 활용률
94%72°C
VRAM
282/320 GB
NODE-02 학습 중
GNN train_gnn run-2841
GPU 활용률
91%69°C
VRAM
275/320 GB
NODE-03 학습 중
GNN train_gnn run-2841
GPU 활용률
89%65°C
VRAM
269/320 GB
NODE-04 학습 중
GNN train_gnn run-2841
GPU 활용률
92%70°C
VRAM
278/320 GB
NODE-05 대기
SLURM 작업 대기 중
GPU 활용률
12%42°C
VRAM
26/320 GB
NODE-06 대기
SLURM 작업 대기 중
GPU 활용률
8%40°C
VRAM
19/320 GB
NODE-07 유지보수
정기 점검 21:00–23:00
GPU 활용률
0%38°C
VRAM
0/320 GB
NODE-08 대기
예비 노드
GPU 활용률
5%41°C
VRAM
13/320 GB
작업 큐 (SLURM)
| 작업 ID | 이름 | 우선순위 | GPU 요청 | 제출 시각 | 예상 시작 | 상태 |
|---|---|---|---|---|---|---|
| JOB-4821 | gnn_train_daily | HIGH | 16 GPU | 02:30:00 | 진행 중 | 실행 중 |
| JOB-4822 | lstm_finetune | NORMAL | 4 GPU | 03:18:42 | 03:45:00 | 대기 |
| JOB-4823 | tfm_eval_run | LOW | 4 GPU | 03:20:00 | 05:00:00 | 대기 |
| JOB-4820 | data_preprocess | NORMAL | 2 GPU | 01:00:00 | 완료 | 완료 |
7일 GPU 활용률 추이
전체 클러스터 평균 · 2026-05-15 ~ 2026-05-21
7일 평균 73.6%
최고 82% (05-19)
최저 62% (05-15)
SLURM 실시간 로그
스트리밍
[20:05:41] SLURM JOB-4821 gnn_train_daily — epoch 67/120 · loss=0.0198 · val_loss=0.0224 · GPU avg 91.8%
[20:05:00] SLURM JOB-4821 checkpoint saved → /models/gnn/ckpt-ep67.pt (MinIO 업로드 완료)
[20:04:22] NVIDIA NODE-01 GPU0 temp 72°C · power 320W · VRAM 78.8/80GB · PCIe BW 28.4 GB/s
[20:04:22] NVIDIA NODE-02 GPU0 temp 69°C · power 308W · VRAM 75.1/80GB · PCIe BW 26.8 GB/s
[20:03:45] SLURM JOB-4822 lstm_finetune — pending, waiting for NODE-05 availability (ETA 03:45 KST)
[20:03:10] SLURM JOB-4821 epoch 66/120 완료 · 소요시간 3m 58s · gradient norm 0.842
[20:02:44] NCCL all-reduce bandwidth: 186.4 GB/s (8 GPU × A100 NVLink) — 정상
[20:01:52] SLURM JOB-4820 data_preprocess — 완료 · 출력: /data/processed/20260521/ · 4.2M 레코드
[20:01:30] SCHED NODE-07 유지보수 예약 21:00–23:00 · JOB-4822/4823 재스케줄링 완료
[20:00:01] SLURM 스케줄러 정기 점검 완료 · 활성 작업 4건 · 대기 작업 2건
[19:59:02] MLFLOW run-2841 metrics 업데이트 · epoch=67 · train_loss=0.0198 → val_loss=0.0224 기록 완료
[19:55:18] THERMAL NODE-01 GPU2 온도 경고 75°C (임계 80°C) · 쿨링 팬 RPM 자동 증가
배포 관리
모델 배포 환경 관리 · Canary 배포 · 롤백 플랜
새 배포 생성
1
모델 선택
2
배포 전략
Canary (단계적)
Blue/Green
롤링 업데이트
즉시 교체
3
롤백 설정
4
검증 · 실행
배포 전 Health Check통과
API 엔드포인트 검증통과
GPU 리소스 여유충분
승인자 확인대기
Production서비스 중
GNN v2.4.1
메쉐망 실시간 예보 서비스
배포 시각2026-05-21 04:02
요청 처리율99.94%
평균 응답124ms
트래픽 비율90%
트래픽 분배
Canary카나리
GNN v2.5.0-rc1
다음 릴리즈 후보 · 검증 중
배포 시각2026-05-21 08:00
요청 처리율99.88%
평균 응답118ms
트래픽 비율10%
Staging스테이징
GNN v2.5.0-dev
개발 브랜치 · 내부 테스트
배포 시각2026-05-20 18:00
헬스체크정상
평균 응답142ms
배포 이력
| 버전 | 환경 | 배포 시각 | 배포자 | 트래픽 | RMSE | 상태 | 롤백 |
|---|---|---|---|---|---|---|---|
| v2.4.1 | Production | 2026-05-21 04:02 | Airflow 자동배포 | 90% | 1.42°C | 활성 | |
| v2.3.0 | Production | 2026-05-18 04:00 | Airflow 자동배포 | 0% | 1.49°C | 대체됨 | |
| v2.2.1 | Production | 2026-04-30 04:10 | Airflow 자동배포 | 0% | 1.57°C | 대체됨 |
Canary 트래픽 분배 조정
Production 90%
Canary 10%
Canary 0%Canary 25%Canary 50%
헬스체크 엔드포인트
자동 체크 · 30초 간격| 엔드포인트 | 환경 | 마지막 확인 | 응답시간 | HTTP | 상태 |
|---|---|---|---|---|---|
| /api/v2/health | Production | 20:05:20 | 42ms | 200 | 정상 |
| /api/v2/predict | Production | 20:05:20 | 84ms | 200 | 정상 |
| /api/v2/health | Canary | 20:05:18 | 38ms | 200 | 정상 |
| /api/v2/predict | Canary | 20:05:18 | 76ms | 200 | 정상 |
롤백 플랜긴급 롤백 절차
자동 트리거 조건
오류율 > 1% 또는 응답시간 > 5초 지속 2분 이상 시 자동 롤백 실행
롤백 대상 버전
GNN v2.3.0
이전 stable 버전 · MinIO 아티팩트 보존됨
예상 롤백 시간
< 3분
컨테이너 재배포 · 로드밸런서 전환
시스템 대시보드
메쉐망 RAG 기상검색 서비스 전체 현황 · 실시간 갱신
전체 서비스 정상
오늘 쿼리 수
1,842 건
↑ +12% 어제 대비
피크: 10:00–12:00
응답 정확도
94.8 %
↑ +0.4%p 이번 주
할루시네이션율: 1.8%
벡터 인덱스
12.4 M
벡터 수 / 7컬렉션
BGE-M3 임베딩 · 768dim
LLM 가동률
99.92 %
↑ Llama-3-70B
오프라인 · 폐쇄망 운용
서비스 헬스 체크
실시간🤖
LLM 서버 (Llama-3-70B)
vLLM · 8×A100 · 오프라인
142ms
평균 TPS
99.92%
가동률
4,842
오늘 추론
🗄
Milvus 벡터 DB
v2.4 · HNSW 인덱스
12.4M
총 벡터
8ms
검색 P99
7
컬렉션
⚙
RAG 엔진
LangChain · Top-5 검색
284ms
전체 P95
94.8%
정확도
1,842
오늘 쿼리
🌐
API 서버
FastAPI · REST · 폐쇄망
45ms
P50 응답
99.98%
가동률
12
활성 키
📡
SFTP 수신 (K-weather)
자동 수집 · 매시간
매시
수집 주기
98.4%
성공률
20:00
최근 수신
시간별 쿼리 추이 (오늘)
최근 이벤트
20:05[OK]K-weather 기상 데이터 수신 완료 · 2,847건
20:02[INFO]벡터 인덱스 업데이트 · weather_forecast 컬렉션 +1,204벡터
19:58[OK]RAG 쿼리 처리 정상 · 응답시간 P95=284ms
19:30[WARN]LLM 응답시간 일시 증가 · 3.4s → 자동 복구됨
18:00[INFO]데이터 품질 검사 완료 · 품질점수 98.4%
17:45[OK]일일 성능 보고서 생성 완료
04:02[OK]GNN v2.4.1 Production 배포 완료 · RMSE 1.42°C
자연어 기상 검색
RAG 기반 오프라인 LLM 기상 질의응답 · Llama-3-70B
Llama-3-70B 오프라인 · Milvus 12.4M 벡터 · K-weather GNN v2.4.1 예보 데이터
RAG 파이프라인 상태
가동리트리버 (Milvus)정상
검색 Top-K5
리랭커BGE-reranker
임베딩 모델BGE-M3 (로컬)
LLMLlama-3-70B-Instruct
평균 처리284ms
오늘 LLM 토큰2.4M tokens
참조 문서 (최근 쿼리)
| # | 문서 | 유사도 |
|---|---|---|
| 1 | 강원 산악 GNN 72h 예보 2026-05-21 20:00 | 0.942 |
| 2 | 대관령 관측소 실황 2026-05-21 19:50 | 0.918 |
| 3 | 강원 강풍 클리마토로지 2025 통계 | 0.876 |
| 4 | 산악 바람 특보 기준 기상청 지침 | 0.844 |
| 5 | 고층 일기도 분석 2026-05-21 12Z | 0.821 |
기상 격자 지도
GNN AI 예보 격자 시각화 · 5km 해상도
범례 (기온 °C)
5–10°C북부 산악
12–18°C중부
18–22°C남부
22–26°C남해안·제주
5°C15°C25°C
선택 격자 정보
위치대관령 (37.68N, 128.72E)
기온14.2°C
풍속14.8 m/s
풍향북서(315°)
강수확률35%
습도72%
시정8 km
운고1,200 ft
예보 신뢰도88%
GNN v2.4.1 · T+12h · 발표 2026-05-21 20:00
기상 특보
⚠ 강풍 주의보
강원 산악 · 내일 06:00–18:00
📡 고파고 예비특보
동해 먼 바다 · 파고 3.5m 예상
데이터 수집
K-weather SFTP 자동 수신 · 기상 관측·수치 데이터 파이프라인
SFTP 연결됨
오늘 수신 건수
48,204 건
↑ +4.2% 어제
수집 성공률
98.4 %
↑ 7일 평균
최근 수신
20:00 KST
정시 수신
SFTP 전송량
2.8 GB
오늘 누적
수집 스케줄
| 데이터 유형 | 주기 | 마지막 수신 | 건수 | 상태 |
|---|---|---|---|---|
| AWS 지상 관측 | 매시간 | 2026-05-21 20:00 | 2,847 | 정상 |
| ASOS 자동기상 | 매시간 | 2026-05-21 20:00 | 1,204 | 정상 |
| 해상 부이 관측 | 3시간 | 2026-05-21 18:00 | 88 | 정상 |
| 고층 기상 관측 | 12시간 | 2026-05-21 12:00 | 96 | 정상 |
| 수치예보 앙상블 | 6시간 | 2026-05-21 18:00 | 144 | 정상 |
수집 성공률 (최근 7일)
5/18 SFTP 접속 장애 (12:00–14:00) · 자동 재시도 후 복구
수집 파이프라인 흐름
SFTP 수신
K-weather 서버
›
포맷 변환
CSV → Parquet
›
품질 검사
이상값·결측 탐지
›
임베딩 변환
BGE-M3 처리 중
›
Milvus 저장
벡터 인덱싱
SFTP 연결 상태
서버 주소kweather-sftp.mil.kr
포트22
인증 방식RSA 키 인증
연결 상태연결됨
마지막 연결2026-05-21 20:00
재연결 간격자동 30초
오늘 전송량2.8 GB
파일 수1,842
평균 속도12.4 MB/s
벡터 DB 인덱싱
Milvus v2.4 · BGE-M3 오프라인 임베딩 · HNSW 인덱스
Milvus 정상
총 벡터 수
12.4 M
↑ 오늘 +2.4K
컬렉션 수
7 개
모두 정상
검색 P99
8 ms
↑ 목표 <20ms
스토리지
184 GB
/ 500 GB
컬렉션 목록
| 컬렉션명 | 벡터 수 | 차원 | 인덱스 | 상태 |
|---|---|---|---|---|
| weather_forecast | 4,280,000 | 768 | HNSW | 인덱스됨 |
| weather_obs_realtime | 2,847,000 | 768 | HNSW | 인덱스됨 |
| weather_climatology | 1,840,000 | 768 | IVF_FLAT | 인덱스됨 |
| wx_aviation | 1,204,000 | 768 | HNSW | 인덱스됨 |
| wx_maritime | 880,000 | 768 | IVF_SQ8 | 인덱스됨 |
| weather_warnings | 248,000 | 768 | HNSW | 인덱스됨 |
| wx_synoptic_analysis | 1,101,000 | 768 | IVF_FLAT | 재인덱스 중 |
스토리지 분포
weather_forecast66 GB
obs_realtime42 GB
climatology28 GB
기타 4개48 GB
HNSW 인덱스 파라미터
M (연결 수)16
efConstruction200
ef (검색)100
메트릭COSINE
임베딩 모델 설정
BGE-M3 (오프라인)
모델BAAI/bge-m3
차원768
최대 토큰8,192
언어한국어·영어
처리 성능
처리 속도1,200 doc/s
배치 크기64
GPUA100 1× 전용
오늘 임베딩
처리 건수48,204
소요 시간40m 12s
오류 건수0
새 인덱싱 실행
인덱싱 파이프라인 설정
청크 크기 (토큰)512
12851210242048
오버랩 (토큰)64
HNSW
IVF_FLAT
IVF_SQ8
기존 벡터 덮어쓰기
🔷 인덱싱 진행 중...
임베딩 처리
문서 로딩 · 청킹
완료
BGE-M3 임베딩
0%
Milvus 삽입 · 인덱스 빌드
대기
[시작] 인덱싱 파이프라인 초기화...
RAG 파이프라인
검색 증강 생성 파이프라인 설정 · 테스트 · 지연시간 분석
파이프라인 정상
파이프라인 구성
🔍 리트리버 설정
검색 Top-K
5
151020
유사도 임계값
0.75
0.500.650.800.99
⚖️ 리랭커
모델BGE-reranker-v2
리랭커 활성화
최종 선택 K
3
🤖 LLM 생성
모델Llama-3-70B-Instruct
Temperature
0.2
0.00.30.71.0
Max Tokens
1,024
256102420484096
지연시간 분석 (P95)
임베딩 변환18ms
Milvus 벡터 검색8ms
리랭킹24ms
프롬프트 구성4ms
LLM 생성230ms
전체 P95284ms
파이프라인 테스트
테스트 실행 버튼을 누르면 RAG 결과가 여기에 표시됩니다.
프롬프트 템플릿
[SYSTEM]
당신은 대한민국 군 작전기상 전문가입니다. 제공된 기상 데이터를 바탕으로 정확하고 간결한 답변을 제공하세요.
- 불확실한 정보는 명확히 표시하고, 오차 범위를 포함하세요.
- 항공·지상 작전에 영향을 줄 수 있는 기상 요소(풍속, 시정, 운고, 강수)를 우선 언급하세요.
- 출처(예보 시각, 모델 버전)를 항상 명시하세요.
[CONTEXT]
{retrieved_documents}
[USER]
{user_query}
품질 모니터링
RAG 검색 품질 · 할루시네이션 탐지 · 사용자 피드백 분석
최근 7일 기준
Precision@1
91.4 %
↑ +0.8%p
Precision@3
87.2 %
↑ +1.1%p
Precision@5
84.8 %
↑ +0.6%p
BLEU-4
0.72
ROUGE-L: 0.81
Precision@K 현황
P@191.4%
P@387.2%
P@584.8%
생성 품질 점수
BLEU-40.72
ROUGE-L0.81
BERTScore0.88
카테고리별 정확도
기온 예보94.2%
풍속·풍향91.8%
강수 예보82.4%
할루시네이션율 (7일)
1.8 %
↓ -0.4%p 개선
오늘 탐지
33 건
쿼리 1,842건 중
심각 등급
2 건
↑ 주의 필요
할루시네이션율 추이 (7일)
할루시네이션 발생 로그
| 시각 | 쿼리 (요약) | 유형 | 심각도 | 조치 |
|---|---|---|---|---|
| 20:14:32 | 제주 태풍 경로 예측 | 숫자 오류 | HIGH | 수정됨 |
| 19:48:11 | 백령도 파고 예보 | 날짜 오류 | CRITICAL | 검토 중 |
| 18:22:05 | 강원 적설량 예측 | 단위 혼용 | MEDIUM | 자동 수정 |
| 15:33:18 | 서해 해상 풍향 | 방향 오류 | LOW | 무시됨 |
긍정 피드백
1,284 건
↑ 69.7%
부정 피드백
558 건
↓ 30.3%
만족도 점수
4.1 / 5
↑ +0.2
응답 채택률
84.2 %
↑ +2.1%p
| 주요 불만 유형 | 건수 | 비율 | 개선 조치 |
|---|---|---|---|
| 응답 시간 지연 (3초 이상) | 184 | 33.0% | LLM 추론 최적화 진행 중 |
| 예보 수치 부정확 (강수) | 142 | 25.4% | 강수 모델 재학습 예정 |
| 답변 너무 긴 경우 | 112 | 20.1% | 프롬프트 간결화 적용됨 |
| 관련 없는 지역 정보 | 84 | 15.1% | 지역 필터링 강화됨 |
| 기타 | 36 | 6.4% | — |
알림·경보
시스템 경보 규칙 관리 · 알림 이력 · 채널 설정
미해결 3건
활성 규칙
12 개
임계값 설정됨
오늘 발생
7 건
해결 4 / 미해결 3
평균 해결 시간
12 분
↓ -3분 개선
알림 채널
2 개
내부망 Slack · 이메일
알림 규칙 (12개)
| 규칙명 | 조건 | 심각도 | 채널 | 최근 발생 | 활성 |
|---|---|---|---|---|---|
| 할루시네이션율 초과 | rate > 5% | 위험 | Slack + 이메일 | 19:48 | |
| LLM 응답 지연 | p95 > 3s | 경고 | Slack | 19:30 | |
| 데이터 수집 실패 | 실패 >3회/시간 | 경고 | Slack + 이메일 | 04:05 | |
| GPU 사용률 포화 | util > 95% | 경고 | Slack | 10:15 | |
| Milvus 연결 실패 | 연결 오류 발생 | 위험 | Slack + 이메일 | — | |
| SFTP 수집 지연 | 지연 > 30분 | 정보 | Slack | 15:22 | |
| 모델 RMSE 저하 | RMSE > 2.0°C | 경고 | 이메일 | 어제 | |
| API 오류율 증가 | error_rate > 1% | 정보 | Slack | 14:08 | |
| Disk 용량 부족 | usage > 85% | 정보 | Slack | — | |
| PSI 드리프트 감지 | PSI > 0.2 | 경고 | Slack + 이메일 | — | |
| RL 보상 급감 | reward < -0.5 (3회) | 경고 | 이메일 | — | |
| Airflow DAG 실패 | task_state = failed | 위험 | Slack + 이메일 | — |
알림 이력 (오늘 · 15건)
| 발생 | 규칙 | 심각도 | 해결 시각 | 소요 | 상태 |
|---|---|---|---|---|---|
| 19:48 | 할루시네이션율 초과 | 위험 | — | — | 미해결 |
| 19:30 | LLM 응답 지연 | 경고 | 19:41 | 11분 | 해결됨 |
| 16:02 | API 오류율 증가 | 정보 | 16:14 | 12분 | 해결됨 |
| 15:22 | SFTP 수집 지연 | 정보 | — | — | 미해결 |
| 14:08 | API 오류율 증가 | 정보 | 14:19 | 11분 | 해결됨 |
| 12:55 | GPU 사용률 포화 | 경고 | 13:08 | 13분 | 해결됨 |
| 10:15 | GPU 사용률 포화 | 경고 | 10:28 | 13분 | 해결됨 |
| 08:33 | LLM 응답 지연 | 경고 | 08:44 | 11분 | 해결됨 |
| 07:10 | SFTP 수집 지연 | 정보 | 07:18 | 8분 | 해결됨 |
| 05:44 | 데이터 수집 실패 | 경고 | 06:02 | 18분 | 해결됨 |
| 04:05 | 데이터 수집 실패 | 경고 | — | — | 미해결 |
| 03:18 | Airflow DAG 실패 | 위험 | 03:31 | 13분 | 해결됨 |
| 02:41 | SFTP 수집 지연 | 정보 | 02:49 | 8분 | 해결됨 |
| 01:05 | LLM 응답 지연 | 경고 | 01:16 | 11분 | 해결됨 |
| 00:12 | API 오류율 증가 | 정보 | 00:24 | 12분 | 해결됨 |
알림 채널 설정
내부망 Slack연결됨
채널: #작전기상-알림 · 위험·경고 수신
이메일 (내부망)연결됨
수신자: ops@mil.kr · 위험 전용
REST API
메쉐망 기상 검색 서비스 REST API · FastAPI 기반 · 폐쇄망 운용
API 서버 정상
오늘 API 호출
1,842 건
↑ +12%
P50 응답
45 ms
↑ 빠름
P99 응답
284 ms
목표 <500ms
오류율
0.06 %
↓ 목표 <1%
API 엔드포인트
| 메서드 | 경로 | 설명 | 오늘 호출 | P95 응답 | 상태 |
|---|---|---|---|---|---|
| GET | /api/v1/weather/search | 자연어 기상 검색 (RAG) | 1,204 | 284ms | 정상 |
| GET | /api/v1/weather/forecast | 격자 예보 데이터 조회 | 380 | 48ms | 정상 |
| GET | /api/v1/weather/observation | 실시간 관측 데이터 | 188 | 32ms | 정상 |
| POST | /api/v1/weather/query | LLM 질의응답 (스트리밍) | 70 | 312ms | 정상 |
| GET | /api/v1/models/status | AI 모델 상태 조회 | 0 | 18ms | 정상 |
| GET | /api/v1/health | 헬스체크 | 14,400 | 4ms | 정상 |
API 키 관리
| 키 이름 | 생성일 | 오늘 호출 | Rate Limit | 상태 |
|---|---|---|---|---|
| ops-center-01 | 2026-01-10 | 844 | 1,000/h | 활성 |
| weather-team-02 | 2026-02-15 | 612 | 500/h | 활성 |
| intel-unit-03 | 2026-03-01 | 284 | 200/h | 활성 |
| test-key-dev | 2026-05-01 | 102 | 100/h | 테스트 |
요청/응답 예시
POST /api/v1/weather/query
Authorization: Bearer {api_key}
Content-Type: application/json
{
"query": "강원도 산악 내일 바람 예보",
"region": "gangwon",
"forecast_hour": 24
}
--- Response 200 ---
{
"answer": "내일 강원 산악 풍속 14.8m/s...",
"sources": [{"title":"GNN 예보","score":0.94}],
"latency_ms": 284,
"model": "GNN-v2.4.1"
}
접근 제어
사용자·역할 관리 · 권한 매트릭스 · 접속 이력
사용자 목록 (10명)
| 이름 | 계급 | 소속 | 역할 | 마지막 로그인 | 상태 |
|---|---|---|---|---|---|
| 김관제 | 대령 | 제1기상단 | 관리자 | 19:42 | 온라인 |
| 이기상 | 중령 | 기상운용과 | 운용자 | 18:30 | 온라인 |
| 박예보 | 소령 | 기상분석과 | 운용자 | 17:12 | 오프라인 |
| 최분석 | 대위 | AI개발팀 | 운용자 | 16:05 | 오프라인 |
| 정시스템 | 중위 | 인프라팀 | 운용자 | 14:55 | 오프라인 |
| 한데이터 | 준위 | 기상단 본부 | 열람자 | 13:22 | 오프라인 |
| 오관측 | 원사 | AWS운용반 | 열람자 | 11:08 | 오프라인 |
| 서품질 | 상사 | AI개발팀 | 운용자 | 어제 22:14 | 오프라인 |
| 윤배포 | 중사 | 인프라팀 | 열람자 | 어제 18:40 | 오프라인 |
| 강모니터 | 하사 | 기상단 본부 | 열람자 | 어제 16:08 | 오프라인 |
역할별 권한 매트릭스
| 기능 | 관리자 | 운용자 | 열람자 |
|---|---|---|---|
| 기상 검색·조회 | ✓ | ✓ | ✓ |
| 모델 배포·롤백 | ✓ | ✓ | ✗ |
| 파이프라인 실행 | ✓ | ✓ | ✗ |
| 시스템 설정 변경 | ✓ | ✗ | ✗ |
| 사용자·키 관리 | ✓ | ✗ | ✗ |
| 리포트 생성 | ✓ | ✓ | ✗ |
| 알림 규칙 설정 | ✓ | ✓ | ✗ |
IP 화이트리스트
10.10.1.0/24작전센터 LAN
10.20.5.0/24기상단 LAN
192.168.100.0/24KISTI VPN
접속 이력 (최근 10건)
| 시각 | 사용자 | IP 주소 | 액션 | 결과 |
|---|---|---|---|---|
| 20:05:10 | 김관제 | 10.10.1.42 | 알림 규칙 저장 | 성공 |
| 19:42:08 | 김관제 | 10.10.1.42 | 로그인 | 성공 |
| 19:40:31 | 김관제 | 10.10.1.42 | 모델 배포 승인 v2.4.1 | 성공 |
| 18:30:14 | 이기상 | 10.20.5.18 | 파이프라인 실행 | 성공 |
| 17:12:55 | 박예보 | 10.20.5.24 | 기상 검색 12건 | 성공 |
| 16:05:02 | 최분석 | 10.10.1.55 | 모델 레지스트리 조회 | 성공 |
| 14:55:18 | 정시스템 | 10.10.1.88 | 리포트 다운로드 | 성공 |
| 13:22:40 | 한데이터 | 10.20.5.31 | 대시보드 조회 | 성공 |
| 11:22:07 | unknown | 172.16.0.99 | 로그인 시도 | 차단됨 |
| 11:08:53 | 오관측 | 10.20.5.42 | 데이터 파이프라인 조회 | 성공 |
리포트 생성
작전기상 보고서 자동 생성 · 일일·주간·월간 보고서
보고서 템플릿
일일 기상 보고서
매일 06:00 자동 생성 · GNN 예보 + 실황 포함
자동 생성
다음 생성: 2026-05-22 06:00
주간 성능 보고서
매주 월요일 07:00 · AI 모델 성능 비교 분석
자동 생성
다음 생성: 2026-05-25 07:00
월간 품질 보고서
매월 1일 08:00 · RAG 품질 · 할루시네이션 분석
자동 생성
다음 생성: 2026-06-01 08:00
보고서 미리보기 (일일 기상 보고서)
AI 작전기상 일일 보고서
2026년 5월 21일 / GNN-v2.4.1 / 폐쇄망 배포
1. 총괄 기상 개황
고기압이 한반도 전역을 지배하며 전반적으로 맑은 날씨가 예상됩니다. 강원 산악 지역은 북서풍의 영향으로 강풍이 예상되며, 내일 오전 강풍 주의보 발령이 예상됩니다.
2. 지역별 예보 요약
| 지역 | 기온 | 풍속 | 강수 |
|---|---|---|---|
| 수도권 | 18°C | 4 m/s | 없음 |
| 강원 산악 | 14°C | 14.8 m/s | 없음 |
| 제주도 | 24°C | 6 m/s | 30% |
3. 작전 기상 특이사항
⚠ 강원 산악 지역 내일 강풍 주의보 예상 · 항공 작전 제한 검토 필요
보고서 이력 (8건)
| 보고서명 | 생성 시각 | 생성 방법 | 생성자 | 크기 | 다운로드 |
|---|---|---|---|---|---|
| 일일 기상 보고서 2026-05-21 | 2026-05-21 06:00 | 자동 | Airflow | 248 KB | |
| 임시 보고서 야간작전 | 2026-05-20 21:14 | 수동 | 이기상 | 162 KB | |
| 일일 기상 보고서 2026-05-20 | 2026-05-20 06:00 | 자동 | Airflow | 231 KB | |
| 임시 분석 보고서 강원강풍 | 2026-05-19 14:22 | 수동 | 박예보 | 188 KB | |
| 일일 기상 보고서 2026-05-19 | 2026-05-19 06:00 | 자동 | Airflow | 244 KB | |
| 주간 성능 보고서 2026-W20 | 2026-05-18 07:00 | 자동 | Airflow | 1.2 MB | |
| 일일 기상 보고서 2026-05-18 | 2026-05-18 06:00 | 자동 | Airflow | 219 KB | |
| 월간 품질 보고서 2026-04 | 2026-05-01 08:00 | 자동 | Airflow | 3.4 MB |
시스템 설정
메쉐망 서비스 전역 설정 · LLM · Milvus · SFTP · 알림 · 백업
기능 활성화 설정
실시간 적용
RAG 파이프라인
벡터 검색 + LLM 답변 생성
리랭킹 (BGE-reranker)
검색 결과 품질 향상
스트리밍 응답
LLM 출력 실시간 스트리밍
할루시네이션 감지
NLI 모델 기반 사실 검증
자동 인덱스 갱신
매시간 Milvus 자동 업데이트
API 속도 제한
클라이언트별 Rate Limit
감사 로그 기록
모든 쿼리 이력 보존
캐시 (Redis)
동일 쿼리 응답 캐싱 (TTL 5분)
LLM 서버 설정 (Llama-3-70B-Instruct)
정상 가동
Temperature
0.2
0.0 (결정론적)0.51.0 (창의적)
Max Tokens
1,024
256102420484096
동시 요청 수
16
4163264
Milvus 벡터 DB 연결
검색 Top-K
5
유사도 임계값
0.75
0.500.750.99
자동 재인덱싱
K-weather SFTP 수집 설정
연결됨
시스템 알림 설정
백업 설정
2026-05-21 03:00 성공
AI 자동생성 워크플로우
12단계 풀 파이프라인 자동 생성 도구 · 데이터 수집 → 학습 → 배포 원스텝
4/12 단계 완료
✓
데이터 수집
✓
전처리
✓
데이터셋 생성
✓
실험 설계
5
모델 학습
6
강화학습
7
파인튜닝
8
앙상블
9
평가·검증
10
벡터 인덱싱
11
배포
12
모니터링
STEP 5모델 학습 설정
이전 단계 결과: gnn_auto_train_v1 데이터셋 (480 GB · 38.6K 시퀀스)
🏆 GNN (AI 추천)
BiLSTM
Transformer
앙상블
AI 자동 최적 하이퍼파라미터 (HPO 결과)
학습률1e-3
배치 크기64
에포크120
히든 차원256
레이어4
드롭아웃0.2
node-01 (A100×4)
node-02 (A100×4)
node-03
node-04
예상 학습 시간
~1.8h (A100×8)
완료된 단계 요약
4/12
✓
2h 14m
STEP 1 · 데이터 수집
K-weather SFTP · AWS 2,847개소 · 45일치
✓
48m
STEP 2 · 전처리
QC·보간·정규화 · 품질 99.1%
✓
22m
STEP 3 · 데이터셋 생성
Train 70% / Val 15% / Test 15%
✓
3h 12m
STEP 4 · 실험 설계 (HPO)
Optuna 50 trial · 최적 파라미터 확정
⟳
실행중
STEP 5 · 모델 학습 — 진행 중
GNN-Forecast · 예상 완료: 1.8h
○
대기
STEP 6 · 강화학습 (PPO)
보상 함수: R = −RMSE(예보,관측)
○
대기
STEP 7 · 파인튜닝
실황 오차 30일 데이터
○
대기
STEP 8 · 앙상블 구성
GNN + LSTM 가중 평균
○
대기
STEP 9 · 평가·검증
홀드아웃 세트 · WRF 비교
○
대기
STEP 10 · 벡터 DB 인덱싱
BGE-M3 → Milvus
○
대기
STEP 11 · Canary 배포
10% → 100% 단계 승격
○
대기
STEP 12 · 모니터링 설정
알림·경보 · 드리프트 감지
워크플로우 관리
에이전트 관리
AI 자율 에이전트 운용 · 학습·수집·모니터링·RAG 에이전트 통합 관제
4개 에이전트 가동 중
새 에이전트 생성
총 에이전트
4 개
↑ 전부 활성
오늘 실행
47 회
성공 46 / 실패 1
평균 성공률
97.9 %
↑ 지난주 96.4%
총 처리 데이터
48.2 M건
오늘 기준
training-agent가동 중학습 에이전트
GNN·LSTM 일일 재학습 · Airflow DAG 오케스트레이션 · 자동 배포 판단
에이전트 설정
스케줄매일 02:30 KST
트리거 조건RMSE > 0.15°C
GPU 할당A100×8 (node-01,02)
타임아웃4h
재시도3회
현재 실행 상태
시작02:30:00
현재 작업train_gnn (epoch 67/120)
진행률56%
오늘 실행1회
마지막 성공어제 02:30
실행 이력 (최근 7일)
| 날짜 | 소요 | 결과 |
|---|---|---|
| 05-21 | 진행중 | 실행 |
| 05-20 | 2h 8m | 성공 |
| 05-19 | 1h 58m | 성공 |
| 05-18 | 4h 12m | 성공 |
| 05-17 | — | 실패 |
data-collector-agent가동 중수집 에이전트
K-weather SFTP 자동 수집 · AWS·ASOS·해상 관측 수신 · 품질 검사 자동화
에이전트 설정
스케줄매시간 정각
수집 소스SFTP kweather.mil.kr
수집 변수9개 (기온·풍·강수 등)
저장 경로/data/raw/weather
자동 QC활성
오늘 수집 현황
수집 건수48,204건
AWS 관측소2,847개
ASOS96개
QC 통과율98.4%
마지막 수신20:00 KST
수집 소스 추가
monitoring-agent가동 중모니터링 에이전트
모델 드리프트 감지 · RMSE 임계값 모니터링 · 자동 알림 발송 · 자기학습 트리거
모니터링 설정
점검 주기매 10분
RMSE 경보 임계1.60°C
드리프트 PSI> 0.2
에러율 경보> 1%
자동 학습 트리거활성
현재 감시 지표
현재 RMSE1.42°C ✓
PSI (드리프트)0.08 ✓
에러율0.06% ✓
API 응답124ms ✓
오늘 알림1건 (WARN)
알림 채널 설정
Slack #작전기상-알림
이메일 ops@mil.kr
자동 학습 트리거
rag-query-agent가동 중RAG 에이전트
자연어 기상 질의 처리 · Milvus 벡터 검색 · Llama-3-70B 응답 생성 · Hallucination 방지
파이프라인 설정
검색 Top-K5
임베딩BGE-M3 (768d)
리랭커BGE-reranker
LLMLlama-3-70B
최대 토큰2,048
오늘 통계
처리 쿼리1,284건
평균 처리284ms
P99 응답890ms
LLM 토큰2.4M
오류율0.08%
빠른 RAG 테스트