관련: 2026 HPC 지원사업 - 시민재생에너지 사업자동화 AI | 사교원 | 시민재생에너지 AI — 정의·비전·미션·전략 | HPC 사용자 가이드 핵심 정리
섹션 1. 사용자 운영교육 핵심 요약 (2026-06-12 수령)
출처: 「2026년 고성능컴퓨팅 지원 사업 사용자 운영교육」 발표자료 (과기정통부·NIPA·KAIT, 10p)
- 원본 PDF: https://drive.google.com/file/d/1WOO0AeoiZ3QM97OBzmvX1GLT_-TZt8Nu/view
- 로컬 보관:
business/grant/hpc2026/2026_HPC_사용자운영교육_발표자료_최종배포.pdf
운영 절차 5단계
- 업무협약 체결 — 고성능컴퓨팅 PMS 전자협약
- 자부담금 납부 — 세금계산서 발행·이체 완료
- 자원할당 및 서비스 활용 — GPU 할당 ‘26.6.1.(월)~순차
- 자원 관리 — 모니터링: GPU 사용률·사업 성과
- 자원심의위원회 — 필요시 상시, 참여제한 등 검토
사용률 산출 기준 (교육자료 p.9)
- 사용률 = 사용자 사용시간 / 720시간(30일 기준) × 100
- 사용시간 기준: 로그인 후 GPU 학습시점, nvidia-smi 상 GPU Util
- 사용시간 시작: 세션 기준 GPU Util 값을 1분 단위 측정
- 세션 회수: GPU Util 기준 6시간 미사용 시 세션 자동 회수 (동적할당 방식 — 공급사 콘텐츠브릿지 2026-06-08 안내 메일로 확정. 교육자료의 “6기간”은 6시간을 가리킴)
사용자 유형 4단계
| 유형 | 기준 |
|---|---|
| 우수 사용자 | 월 사용률 85% 이상 |
| 일반 사용자 | 월 사용 계획 대비 사용률 50% 이상 |
| 저사용자 | 월 사용 계획 대비 사용률 50% 미만 (월 사용률 10% 미만 = 월 사용시간 72시간 미만) |
| 미사용자 | 월 사용시간 0시간 |
※ 저/미사용 3개월 지속 시 사유서 제출
관리 조치
- 자원 활용률 계획 대비 50% 미만 → 사유서 제출 + 자원 활용 개선 요청
- 중간/결과 점검 70점 미만 사용자 → 현장 컨설팅, 최종평가 따라 차년도 참여제한 등 검토
- 정당한 사유 없는 미·저사용자 → 자원 회수 심의 (2~3개월 주기 점검)
- 사업 중도포기·보고서(중간·결과·성과) 미제출 → 차년도 참여제한 심의
- 우수사용자 → 자원 추가 지원 심의·의결 (예산·물량 검토 후)
- 목적 외 부정사용 및 사용률 상시 모니터링
사업관리 홈페이지(PMS)
- URL: https://pms.cloudcompute.co.kr/
- 기능: 접수/협약/사업수행/알림마당/공지사항
- 7/1 개시 예정 (현재 개발 중)
향후 일정
| 시기 | 내용 |
|---|---|
| ’26.6월 (진행중) | 사용자 협약·자부담금 납부, GPU 컴퓨팅 자원·개발환경 제공 |
| ’26.7~8월 | 만족도 설문, 중간 점검 |
| ’26.11~12월 | 결과 점검, 성과 조사, 성과보고회 |
문의처
| 구분 | 연락처 |
|---|---|
| 운영기관(정책·진행) | KAIT 02-580-0216 / [email protected] |
| 공급사(입금·세금계산서) | conbridge 070-4291-7005 / [email protected] |
| 사업관리시스템 오류 | 010-9159-8229 |
교육자료 맺음말 취지: “본 사업은 사용자가 GPU 자원을 실제 연구개발에 얼마나 적극적으로 활용하여 성과를 창출하였는지를 (평가하는) 지원사업” — 사용률이 곧 평가다.
🆕 2026-06-12 — 첫날 가동 기록 (협약 확인 → 학습 검증까지)
H200 자원 수령 첫날, 환경 구축과 학습 파이프라인 검증을 완료했다.
| 항목 | 결과 |
|---|---|
| 세션 | Interactive exaone-train — NGC PyTorch 25.03 (PyTorch 2.7 / CUDA 12.8), 24 Core / 192GiB / 1 fGPU |
| H200 실측 | BF16 행렬곱 748 TFLOPS, HBM 대역폭 4.0 TB/s, 가용 메모리 139.8GB |
| 학습 검증 | EXAONE 4.0 32B LoRA 200스텝 완주 — r16 / batch 2 / seq 512 / gradient checkpointing, 최대 VRAM 61.9GB (전체의 44%), 0.56초/스텝 |
| 구성 스윕 | 배치×시퀀스 조합별 처리량 측정 — GPU Util 99%, 처리량 약 2,300 tok/s 포화 (본 학습 배치 산정 근거) |
| 사용률 관리 | GPU Util 분 단위 자가 기록 로거 상시 가동 (gpu_util_YYYYMM.csv) |
| 환경 영속화 | .local 자동마운트 폴더 생성 — pip 설치 환경이 세션 재생성에도 보존 |
베이스 모델 조정: 신청서 베이스 모델 EXAONE 4.5(33B)는 아키텍처(exaone4_5)가 transformers 정식 릴리스에 아직 미포함(개발 버전 요구)이라, 같은 계열의 EXAONE 4.0 32B로 우선 검증. 라이브러리 정식 지원 시 4.5로 전환 예정. H100→H200 배정 변경 덕에 32B LoRA 학습이 메모리 여유(44% 사용) 속에 안정 동작 — H100(80GB)이었다면 빠듯했을 구간.
세션 회수 기준 확정: 공급사 안내로 “GPU Util 기준 6시간 미사용 시 세션 자동 회수” 확인 — 잡 큐 상시 유지 수칙의 근거.
다음 과업: ① 스윕 결과로 본 학습 배치 확정 ② 시민재생에너지 학습 코퍼스 구축(법령·공고문·기존 Q&A) ③ 1차 LoRA 본 학습 ④ 평가셋·정답률 측정.
섹션 2. 우리 과제 기본 정보
| 항목 | 내용 |
|---|---|
| 수행기관 | 사회혁신교육원 사회적협동조합 (사교원) |
| 과제명 | 시민재생에너지 사업자동화 AI |
| 자원 | H200 서버 1대 (GPU 트랙 — 당초 H100 신청, KAIT 5/29 H200 확정 배정. 연산 동일·메모리 141GB HBM3e) |
| 기간 | 2026.6.1 ~ 12.31 (7개월, NIPA 일괄 조정) |
| 자부담 | 280만원 (월 40만 × 7개월) — 납부 완료 |
| 참여인력 | 김일영 총괄책임자(30%) / 김민수 실무책임자(50%) |
| 베이스 모델 | EXAONE LoRA 파인튜닝 중심 |
| 협약 | 전자협약 체결 완료 (2026-06-12 확인) |
서버 접속 환경 (2026-06-08 공급사 안내)
- 서비스: kt cloud AI Nexus (운영관리: ㈜콘텐츠브릿지)
- 접속 URL: https://www.ainexus.ktcloud.com (접속 ID·초기 PW는 6/8 콘텐츠브릿지 메일 참조 — 🔴 최초 접속 후 비밀번호 변경 필수)
- 제공 스펙: H200 1장 + CPU 24core / Memory 192GB / NAS 2TB
- 제공 방식: 컨테이너 기반 (동적할당 요건 — VM·베어메탈 불가). 기존 VM 워크플로우는 「VM → AI Nexus 환경 전환 가이드」 참조
- 개발환경: NVIDIA NGC 이미지 3종 — Ubuntu 24.04+PyTorch 2.10+CUDA 13.0 / Ubuntu 24.04+PyTorch 2.7+CUDA 12.8 / Ubuntu 22.04+PyTorch 2.5+CUDA 12.6 (드라이버 공통 580.126.20). H200 권장 CUDA 12.4 이상. 커스텀 이미지는 기술지원 게시판 문의
- 매뉴얼: 공급사 드라이브 폴더 — 「GPU 사용자 Workflow(핸즈온)」·「VM→AI Nexus 전환 가이드」 제공, 나머지 2종 업데이트 예정
- 기술지원: 접속 후 좌측 하단 ‘NIPA 기술 지원’ 게시판 (게시판 PW 메일 참조) / [email protected] / 070-4291-7005
- 스토리지: 기본 NAS 2TB, 80% 이상 사용 시 1TB 무상 추가
- ⚠️ “금일(6/8)부터 제공” — 6월 사용시간 카운트 이미 진행 중일 수 있음. 최초 로그인·PW 변경·첫 학습 잡 가동이 최우선
섹션 3. 사용률 관리 전략
- 신청서 기준 계획 가동률: 모델 학습 500h/월 + 평가·검증 150h/월 + 기타 50h/월 = 약 700h/월 (≈97%) — ⚠️ 협약 확정 사용계획 수치는 PMS에서 재확인 필요. “계획 대비 50%” 판정 기준이 이 수치에 걸림
- 목표선: 우수 사용자 (월 사용률 85% = 약 612h/월) → 자원 추가 지원 심의 대상
- 방어선: 계획 대비 50% (계획 700h 기준 월 350h) 미달 금지 — 미달 시 사유서
- 절대 하한: 월 72시간 (이 밑은 “사용률 10% 미만” 저사용 분류)
운영 수칙 4가지
- 잡 큐 상시 유지 — 학습 잡이 끝나도 다음 실험(하이퍼파라미터 탐색, 평가 배치, 데이터 증강 등 연구 목적 작업)이 이어지도록 실험 대기열 운영. GPU Util 0값 장기 지속 = 세션 회수 위험
- 주간 사용률 점검 — 매주 월요일 nvidia-smi 로그 기반 주간 사용시간 집계, 월 누적 추적 (모니터링 스크립트는 서버 접속 후 지미가 구축)
- 월말 자체 리포트 — 매월 말 사용률·수행 내용 기록 (중간·결과 보고서 재료 축적)
- 저사용 발생 즉시 대응 — 월중 누적이 페이스 미달이면 원인 파악·작업 보강, 불가피하면 사유서 선제 준비
실적
2026-06-12~13 — 가동 첫 주 실적
출처: business/citizen_renewable_ai/corpus/logs/배치확정_20260612.md · 평가결과_v1_20260612.md
| 항목 | 결과 |
|---|---|
| 환경 검증 | EXAONE 4.0 32B LoRA 스모크 200스텝 + 배치·시퀀스 스윕 12조합 (H200 BF16 748 TFLOPS 실측) |
| 본 학습 배치 확정 | micro batch 8 / seq 2048 / grad accum 4 — 처리량 2,296 tok/s, VRAM 89.2GB |
| 시민재생에너지 코퍼스 v1 | 80문서 / 179만 토큰 (법제처 API 법령 48건 + 행안부 햇빛소득마을 공고 전문 + 위키 정본 31노드) |
| 1차 LoRA 학습 완주 | 82스텝 39분, loss 0.95 → 0.72 |
| 품에 ↔ HPC 추론 연결 | chat.solarshare.kr ↔ HPC EXAONE 추론 연결 가동 (관리자 한정, Gemini 자동 폴백) |
평가 결과 (100문항): 베이스 84% vs LoRA v1 82%.
도메인 영역(조직·농민안내) +810pp 향상, 범용 영역(기본개념·법령·경계) -58pp 후퇴로 상쇄.
결론: 원시 코퍼스 continued pretraining만으로는 총점 향상 불충분. 2단계(인스트럭션 데이터셋 구축)로 진행. (정직 기록)
다음 과업: 인스트럭션 페어 구축(사람 검토 게이트) → v2 학습 → KPI 90% 재측정.
섹션 4. 월별 실행 계획 (7개월)
신청서의 8개월(5~12월) 계획을 7개월로 재조정:
| 월 | 주요 과업 |
|---|---|
| 6월 | 서버 환경 구축, 데이터 전처리 완료, 베이스 모델 벤치마크, 1차 LoRA 파인튜닝 착수 |
| 7월 | 1차 LoRA 파인튜닝·학습 파이프라인 구축 + 만족도 설문 대응 |
| 8월 | 학습 데이터 확장, 2차 파인튜닝 실험 + 중간 점검 대응 (70점 미만 시 현장 컨설팅) |
| 9월 | 평가셋 구축·정답률 측정, RAG 결합 학습 |
| 10월 | 파일럿 마을 3~5개 대상 성능 연구 검증 |
| 11월 | 검증 피드백 반영 재학습 + 결과 점검 준비 |
| 12월 | 최종 평가, 성과보고서 작성, 성과보고회 |
섹션 5. 준수사항 레드라인
- 상업적 AI 서비스 운영·추론 용도 활용 불가 (공고 명문) — chat.solarshare.kr 등 실서비스에 본 GPU 직결 금지. 학습·평가·연구 검증만. 실서비스 배포는 사업 종료 후 별도 인프라
- 목적 외 부정사용 상시 모니터링 대상
- 보고서 3종(중간·결과·성과) 기한 내 제출 — 미제출 시 차년도 참여제한 심의
- 중도포기 시 차년도 참여 제한 심의
섹션 6. 즉시 확인 필요 (2026-06-12 기준, 미확인 사항)
입금·전자협약은 완료 확인됨 (2026-06-12 후니님 확인). 아래는 잔여 미확인 사항.
- PMS 계정·접속 확인 (7/1 정식 개시 예정)
- 협약 확정 월별 사용계획 수치 (사용률 50% 판정 기준)