모델구조
AI 모델이 어떻게 생겼는지 — 안에 뭐가 들어 있고, 그게 무슨 의미인지.
모델 가중치 (weights)
신경망 연결선마다 박힌 숫자들의 거대한 묶음. 학습 과정에서 결정되며, 모델의 모든 “지식”과 “판단력”이 여기 담겨 있다. 뇌의 시냅스 강도와 비유할 수 있다 — 얼마나 세게 연결되어 있느냐가 곧 기억이고 판단이다.
왜 중요한가: 가중치 파일을 손에 넣으면 그 AI를 내 서버에서 직접 돌릴 수 있다. 가중치 파일 = AI 영구 소유의 본질. API 접근권과 근본적으로 다르다.
후니님 시스템에서: HPC 지원사업에서 확보 목표로 삼은 EXAONE 32B가 이 가중치 파일 형태로 배포된다. H100에 올려 직접 구동하는 것이 목표.
파라미터
가중치의 개수. 모델 규모를 나타내는 숫자.
- EXAONE 32B = 320억 개의 가중치
- 파일 크기는 파라미터 수 × 정밀도(byte)로 결정된다
- 32B × FP16(2byte) = 약 64GB
- 32B × INT4(0.5byte) = 약 16GB
많을수록 더 복잡한 패턴을 학습할 수 있지만, 돌리는 데 더 많은 GPU 메모리가 필요하다.
후니님 시스템에서: H100 1장(80GB)에 EXAONE 32B FP16을 올리려면 64GB라서 빡빡하다. INT4 양자화 또는 LoRA 방식이 현실적이다. → 학습방법 참조
양자화 (Quantization)
가중치의 정밀도를 낮춰 파일 크기와 메모리 사용량을 줄이는 기법.
| 포맷 | 1개 가중치 크기 | EXAONE 32B 기준 |
|---|---|---|
| FP32 | 4byte | 128GB |
| FP16 | 2byte | 64GB |
| INT8 | 1byte | 32GB |
| INT4 | 0.5byte | 16GB |
숫자 표현이 거칠어지는 만큼 정확도는 약간 떨어진다. INT4까지 내려가도 실용상 품질 손실은 크지 않다 — 적어도 추론(inference) 단계에서는.
후니님 시스템에서: EXAONE 32B를 H100 1장에서 파인튜닝하려면 INT4 양자화 후 LoRA를 써야 한다. FP16 풀 파인튜닝은 H100 80GB 1장으로는 불가능하다.