모델구조

AI 모델이 어떻게 생겼는지 — 안에 뭐가 들어 있고, 그게 무슨 의미인지.


모델 가중치 (weights)

신경망 연결선마다 박힌 숫자들의 거대한 묶음. 학습 과정에서 결정되며, 모델의 모든 “지식”과 “판단력”이 여기 담겨 있다. 뇌의 시냅스 강도와 비유할 수 있다 — 얼마나 세게 연결되어 있느냐가 곧 기억이고 판단이다.

왜 중요한가: 가중치 파일을 손에 넣으면 그 AI를 내 서버에서 직접 돌릴 수 있다. 가중치 파일 = AI 영구 소유의 본질. API 접근권과 근본적으로 다르다.

후니님 시스템에서: HPC 지원사업에서 확보 목표로 삼은 EXAONE 32B가 이 가중치 파일 형태로 배포된다. H100에 올려 직접 구동하는 것이 목표.


파라미터

가중치의 개수. 모델 규모를 나타내는 숫자.

  • EXAONE 32B = 320억 개의 가중치
  • 파일 크기는 파라미터 수 × 정밀도(byte)로 결정된다
    • 32B × FP16(2byte) = 약 64GB
    • 32B × INT4(0.5byte) = 약 16GB

많을수록 더 복잡한 패턴을 학습할 수 있지만, 돌리는 데 더 많은 GPU 메모리가 필요하다.

후니님 시스템에서: H100 1장(80GB)에 EXAONE 32B FP16을 올리려면 64GB라서 빡빡하다. INT4 양자화 또는 LoRA 방식이 현실적이다. → 학습방법 참조


양자화 (Quantization)

가중치의 정밀도를 낮춰 파일 크기와 메모리 사용량을 줄이는 기법.

포맷1개 가중치 크기EXAONE 32B 기준
FP324byte128GB
FP162byte64GB
INT81byte32GB
INT40.5byte16GB

숫자 표현이 거칠어지는 만큼 정확도는 약간 떨어진다. INT4까지 내려가도 실용상 품질 손실은 크지 않다 — 적어도 추론(inference) 단계에서는.

후니님 시스템에서: EXAONE 32B를 H100 1장에서 파인튜닝하려면 INT4 양자화 후 LoRA를 써야 한다. FP16 풀 파인튜닝은 H100 80GB 1장으로는 불가능하다.


연결