2026 HPC GPU 운영계획 — 사용자 운영교육 정리

관련: 2026 HPC 지원사업 - 시민재생에너지 사업자동화 AI | 사교원 | 시민재생에너지 AI — 정의·비전·미션·전략 | HPC 사용자 가이드 핵심 정리

섹션 1. 사용자 운영교육 핵심 요약 (2026-06-12 수령)

출처: 「2026년 고성능컴퓨팅 지원 사업 사용자 운영교육」 발표자료 (과기정통부·NIPA·KAIT, 10p)

원본 PDF: https://drive.google.com/file/d/1WOO0AeoiZ3QM97OBzmvX1GLT_-TZt8Nu/view
로컬 보관: business/grant/hpc2026/2026_HPC_사용자운영교육_발표자료_최종배포.pdf

운영 절차 5단계

업무협약 체결 — 고성능컴퓨팅 PMS 전자협약
자부담금 납부 — 세금계산서 발행·이체 완료
자원할당 및 서비스 활용 — GPU 할당 ‘26.6.1.(월)~순차
자원 관리 — 모니터링: GPU 사용률·사업 성과
자원심의위원회 — 필요시 상시, 참여제한 등 검토

사용률 산출 기준 (교육자료 p.9)

사용률 = 사용자 사용시간 / 720시간(30일 기준) × 100
사용시간 기준: 로그인 후 GPU 학습시점, nvidia-smi 상 GPU Util
사용시간 시작: 세션 기준 GPU Util 값을 1분 단위 측정
세션 회수: GPU Util 기준 6시간 미사용 시 세션 자동 회수 (동적할당 방식 — 공급사 콘텐츠브릿지 2026-06-08 안내 메일로 확정. 교육자료의 “6기간”은 6시간을 가리킴)

사용자 유형 4단계

유형	기준
우수 사용자	월 사용률 85% 이상
일반 사용자	월 사용 계획 대비 사용률 50% 이상
저사용자	월 사용 계획 대비 사용률 50% 미만 (월 사용률 10% 미만 = 월 사용시간 72시간 미만)
미사용자	월 사용시간 0시간

※ 저/미사용 3개월 지속 시 사유서 제출

관리 조치

자원 활용률 계획 대비 50% 미만 → 사유서 제출 + 자원 활용 개선 요청
중간/결과 점검 70점 미만 사용자 → 현장 컨설팅, 최종평가 따라 차년도 참여제한 등 검토
정당한 사유 없는 미·저사용자 → 자원 회수 심의 (2~3개월 주기 점검)
사업 중도포기·보고서(중간·결과·성과) 미제출 → 차년도 참여제한 심의
우수사용자 → 자원 추가 지원 심의·의결 (예산·물량 검토 후)
목적 외 부정사용 및 사용률 상시 모니터링

사업관리 홈페이지(PMS)

URL: https://pms.cloudcompute.co.kr/
기능: 접수/협약/사업수행/알림마당/공지사항
7/1 개시 예정 (현재 개발 중)

향후 일정

시기	내용
’26.6월 (진행중)	사용자 협약·자부담금 납부, GPU 컴퓨팅 자원·개발환경 제공
’26.7~8월	만족도 설문, 중간 점검
’26.11~12월	결과 점검, 성과 조사, 성과보고회

문의처

구분	연락처
운영기관(정책·진행)	KAIT 02-580-0216 / [email protected]
공급사(입금·세금계산서)	conbridge 070-4291-7005 / [email protected]
사업관리시스템 오류	010-9159-8229

교육자료 맺음말 취지: “본 사업은 사용자가 GPU 자원을 실제 연구개발에 얼마나 적극적으로 활용하여 성과를 창출하였는지를 (평가하는) 지원사업” — 사용률이 곧 평가다.

🆕 2026-06-12 — 첫날 가동 기록 (협약 확인 → 학습 검증까지)

H200 자원 수령 첫날, 환경 구축과 학습 파이프라인 검증을 완료했다.

항목	결과
세션	Interactive `exaone-train` — NGC PyTorch 25.03 (PyTorch 2.7 / CUDA 12.8), 24 Core / 192GiB / 1 fGPU
H200 실측	BF16 행렬곱 748 TFLOPS, HBM 대역폭 4.0 TB/s, 가용 메모리 139.8GB
학습 검증	EXAONE 4.0 32B LoRA 200스텝 완주 — r16 / batch 2 / seq 512 / gradient checkpointing, 최대 VRAM 61.9GB (전체의 44%), 0.56초/스텝
구성 스윕	배치×시퀀스 조합별 처리량 측정 — GPU Util 99%, 처리량 약 2,300 tok/s 포화 (본 학습 배치 산정 근거)
사용률 관리	GPU Util 분 단위 자가 기록 로거 상시 가동 (`gpu_util_YYYYMM.csv`)
환경 영속화	`.local` 자동마운트 폴더 생성 — pip 설치 환경이 세션 재생성에도 보존

베이스 모델 조정: 신청서 베이스 모델 EXAONE 4.5(33B)는 아키텍처(exaone4_5)가 transformers 정식 릴리스에 아직 미포함(개발 버전 요구)이라, 같은 계열의 EXAONE 4.0 32B로 우선 검증. 라이브러리 정식 지원 시 4.5로 전환 예정. H100→H200 배정 변경 덕에 32B LoRA 학습이 메모리 여유(44% 사용) 속에 안정 동작 — H100(80GB)이었다면 빠듯했을 구간.

세션 회수 기준 확정: 공급사 안내로 “GPU Util 기준 6시간 미사용 시 세션 자동 회수” 확인 — 잡 큐 상시 유지 수칙의 근거.

다음 과업: ① 스윕 결과로 본 학습 배치 확정 ② 시민재생에너지 학습 코퍼스 구축(법령·공고문·기존 Q&A) ③ 1차 LoRA 본 학습 ④ 평가셋·정답률 측정.

섹션 2. 우리 과제 기본 정보

항목	내용
수행기관	사회혁신교육원 사회적협동조합 (사교원)
과제명	시민재생에너지 사업자동화 AI
자원	H200 서버 1대 (GPU 트랙 — 당초 H100 신청, KAIT 5/29 H200 확정 배정. 연산 동일·메모리 141GB HBM3e)
기간	2026.6.1 ~ 12.31 (7개월, NIPA 일괄 조정)
자부담	280만원 (월 40만 × 7개월) — 납부 완료
참여인력	김일영 총괄책임자(30%) / 김민수 실무책임자(50%)
베이스 모델	EXAONE LoRA 파인튜닝 중심
협약	전자협약 체결 완료 (2026-06-12 확인)

서버 접속 환경 (2026-06-08 공급사 안내)

서비스: kt cloud AI Nexus (운영관리: ㈜콘텐츠브릿지)
접속 URL: https://www.ainexus.ktcloud.com (접속 ID·초기 PW는 6/8 콘텐츠브릿지 메일 참조 — 🔴 최초 접속 후 비밀번호 변경 필수)
제공 스펙: H200 1장 + CPU 24core / Memory 192GB / NAS 2TB
제공 방식: 컨테이너 기반 (동적할당 요건 — VM·베어메탈 불가). 기존 VM 워크플로우는 「VM → AI Nexus 환경 전환 가이드」 참조
개발환경: NVIDIA NGC 이미지 3종 — Ubuntu 24.04+PyTorch 2.10+CUDA 13.0 / Ubuntu 24.04+PyTorch 2.7+CUDA 12.8 / Ubuntu 22.04+PyTorch 2.5+CUDA 12.6 (드라이버 공통 580.126.20). H200 권장 CUDA 12.4 이상. 커스텀 이미지는 기술지원 게시판 문의
매뉴얼: 공급사 드라이브 폴더 — 「GPU 사용자 Workflow(핸즈온)」·「VM→AI Nexus 전환 가이드」 제공, 나머지 2종 업데이트 예정
기술지원: 접속 후 좌측 하단 ‘NIPA 기술 지원’ 게시판 (게시판 PW 메일 참조) / [email protected] / 070-4291-7005
스토리지: 기본 NAS 2TB, 80% 이상 사용 시 1TB 무상 추가
⚠️ “금일(6/8)부터 제공” — 6월 사용시간 카운트 이미 진행 중일 수 있음. 최초 로그인·PW 변경·첫 학습 잡 가동이 최우선

섹션 3. 사용률 관리 전략

신청서 기준 계획 가동률: 모델 학습 500h/월 + 평가·검증 150h/월 + 기타 50h/월 = 약 700h/월 (≈97%) — ⚠️ 협약 확정 사용계획 수치는 PMS에서 재확인 필요. “계획 대비 50%” 판정 기준이 이 수치에 걸림
목표선: 우수 사용자 (월 사용률 85% = 약 612h/월) → 자원 추가 지원 심의 대상
방어선: 계획 대비 50% (계획 700h 기준 월 350h) 미달 금지 — 미달 시 사유서
절대 하한: 월 72시간 (이 밑은 “사용률 10% 미만” 저사용 분류)

운영 수칙 4가지

잡 큐 상시 유지 — 학습 잡이 끝나도 다음 실험(하이퍼파라미터 탐색, 평가 배치, 데이터 증강 등 연구 목적 작업)이 이어지도록 실험 대기열 운영. GPU Util 0값 장기 지속 = 세션 회수 위험
주간 사용률 점검 — 매주 월요일 nvidia-smi 로그 기반 주간 사용시간 집계, 월 누적 추적 (모니터링 스크립트는 서버 접속 후 지미가 구축)
월말 자체 리포트 — 매월 말 사용률·수행 내용 기록 (중간·결과 보고서 재료 축적)
저사용 발생 즉시 대응 — 월중 누적이 페이스 미달이면 원인 파악·작업 보강, 불가피하면 사유서 선제 준비

실적

2026-06-12~13 — 가동 첫 주 실적

출처: business/citizen_renewable_ai/corpus/logs/배치확정_20260612.md · 평가결과_v1_20260612.md

항목	결과
환경 검증	EXAONE 4.0 32B LoRA 스모크 200스텝 + 배치·시퀀스 스윕 12조합 (H200 BF16 748 TFLOPS 실측)
본 학습 배치 확정	micro batch 8 / seq 2048 / grad accum 4 — 처리량 2,296 tok/s, VRAM 89.2GB
시민재생에너지 코퍼스 v1	80문서 / 179만 토큰 (법제처 API 법령 48건 + 행안부 햇빛소득마을 공고 전문 + 위키 정본 31노드)
1차 LoRA 학습 완주	82스텝 39분, loss 0.95 → 0.72
품에 ↔ HPC 추론 연결	chat.solarshare.kr ↔ HPC EXAONE 추론 연결 가동 (관리자 한정, Gemini 자동 폴백)

평가 결과 (100문항): 베이스 84% vs LoRA v1 82%. 도메인 영역(조직·농민안내) +8~~10pp 향상, 범용 영역(기본개념·법령·경계) -5~~8pp 후퇴로 상쇄. 결론: 원시 코퍼스 continued pretraining만으로는 총점 향상 불충분. 2단계(인스트럭션 데이터셋 구축)로 진행. (정직 기록)

다음 과업: 인스트럭션 페어 구축(사람 검토 게이트) → v2 학습 → KPI 90% 재측정.

섹션 4. 월별 실행 계획 (7개월)

신청서의 8개월(5~12월) 계획을 7개월로 재조정:

월	주요 과업
6월	서버 환경 구축, 데이터 전처리 완료, 베이스 모델 벤치마크, 1차 LoRA 파인튜닝 착수
7월	1차 LoRA 파인튜닝·학습 파이프라인 구축 + 만족도 설문 대응
8월	학습 데이터 확장, 2차 파인튜닝 실험 + 중간 점검 대응 (70점 미만 시 현장 컨설팅)
9월	평가셋 구축·정답률 측정, RAG 결합 학습
10월	파일럿 마을 3~5개 대상 성능 연구 검증
11월	검증 피드백 반영 재학습 + 결과 점검 준비
12월	최종 평가, 성과보고서 작성, 성과보고회

섹션 5. 준수사항 레드라인

상업적 AI 서비스 운영·추론 용도 활용 불가 (공고 명문) — chat.solarshare.kr 등 실서비스에 본 GPU 직결 금지. 학습·평가·연구 검증만. 실서비스 배포는 사업 종료 후 별도 인프라
목적 외 부정사용 상시 모니터링 대상
보고서 3종(중간·결과·성과) 기한 내 제출 — 미제출 시 차년도 참여제한 심의
중도포기 시 차년도 참여 제한 심의

섹션 6. 즉시 확인 필요 (2026-06-12 기준, 미확인 사항)

입금·전자협약은 완료 확인됨 (2026-06-12 후니님 확인). 아래는 잔여 미확인 사항.

PMS 계정·접속 확인 (7/1 정식 개시 예정)
협약 확정 월별 사용계획 수치 (사용률 50% 판정 기준)

품앗이 위키

탐색기