사업계획서 용어사전 — 도메인특화 AI 방법론
이 문서는 AI 기술 전문가가 아닌 6법인 실무진을 위한 풀이다. 사업계획서 IRIS 본문 한 줄을 중심으로, 거기 박힌 핵심 개념을 운동의 결로 설명한다.
기준 문장
사업계획서 IRIS 본문:
“24개월 내 한국어 오픈소스 베이스 모델을 출발점으로 CPT(Continued Pre-Training) → SFT(Supervised Fine-Tuning) → DPO(Direct Preference Optimization) 3단 학습 파이프라인을 통해 사회연대경제 도메인 어휘·맥락·관계를 학습한 모델 v1·v2를 산출한다.”
이 한 줄에 박힌 개념 4개 + 도메인 AI 방법론 비교 + 우리가 풀코스 박은 이유.
1. 한국어 오픈소스 베이스 모델
베이스 모델 = 이미 사전학습 끝낸 LLM 본체. 0부터 안 만든다. 한국어·일반 상식·문법·세계지식을 갖춘 맨몸 수련자를 데려오는 자리.
한국어 오픈소스 후보:
| 모델 | 제작 | 크기 | 특징 |
|---|---|---|---|
| EXAONE 4.5 | LG AI Research | 32B / 8B / 2.4B | 한국어 최강. HPC 사업에 32B 박은 것 |
| HyperCLOVA X SEED | 네이버 | 0.5B / 1.5B | 경량 |
| Qwen 3 | Alibaba | 235B / 32B / 14B / 8B | 다국어, 한국어 강함 |
왜 오픈소스: 가중치를 직접 받아서 학습·소유 가능. ChatGPT·Gemini는 API만 씀(데이터 주권 없음).
왜 한국어 베이스: SSE·협동조합 어휘는 한국어 자료에만 있다. 영어 베이스 위에 한국어를 박으면 두 번 일.
2. CPT (Continued Pre-Training) — 계속 사전학습
자리: 베이스 모델 위에 우리 도메인 텍스트를 통째로 더 학습시킨다.
학습 데이터: 사회연대경제 정책·운동사 자료 / 사경원(사회연대경제연구원) 정책·연구·SSE 교육 자료 / 사교원(사회혁신교육원사협) 교육 도메인 자료 / 전국 로컬푸드 직매장 운영매뉴얼·암묵지·현장 실증 데이터(품앗이·대구경북이종협·진주우리먹거리협 + 전국로컬푸드협동조합네트워크) / 한밭레츠·한밭페이 27년 지역화폐·결제 자료 / OECD/ILO SSE 권고안 / 품앗이생협 ChromaDB 91,007건 정제분
효과: 모델이 사회연대경제 어휘·관계·맥락을 흡수한다. “조합원·총대·생협·사회적기업” 같은 단어를 일반인 수준이 아니라 운동가의 결로 알게 된다.
비유: 외부에서 한국어 잘하는 사람을 데려와서 우리 마을에 1년 살게 하는 자리. 분위기·관계·말투를 몸으로 흡수한다.
2-1. CPT 학습 데이터의 자리 — 암묵지와 현장 실증 데이터
CPT 학습 데이터 목록을 보면 단순히 “어느 기관 자료”가 아니라, 빅테크가 갖지 못하는 두 종류의 자산이 박혀 있다.
암묵지 (Tacit Knowledge)
출처: Michael Polanyi, Personal Knowledge (1958). 핵심 명제: “우리는 말로 표현할 수 있는 것보다 더 많은 것을 안다(We can know more than we can tell).”
자리: 매뉴얼·문서·매출 데이터로는 표현되지 않는, 몸으로 체득한 운영 노하우. 매장 운영자가 오랜 경험으로만 아는 것들 — 손님 응대 결, 발주 시점 감, 진열 결, 분쟁 해결 결.
AI 도메인에서의 의미: 빅테크 LLM은 공개 텍스트만 학습한다. 공개 텍스트에는 암묵지가 없다. 본 사업은 운영자가 직접 응답·평가하는 SFT(5만+)·DPO(1만+) 단계에서 암묵지를 형식지로 변환해 모델에 박는다.
이론적 뿌리: 노나카 이쿠지로(Nonaka)의 SECI 모델 — 암묵지 → 형식지 변환(Externalization)이 지식 창조의 핵심 단계다. 본 사업의 SFT·DPO 설계가 이 자리에 박힌다.
현장 실증 데이터 (Field-Validated Data)
자리: 실험실·시뮬레이션·합성 데이터가 아닌, 실제 매장·교육·운영 현장에서 살아 작동한 데이터.
품앗이생협 자리 (4개월 가동 데이터):
- POS 50만+ 거래 — 실제 결제 자리
- 푸드마일리지 13,794건 — 실제 출고 자리
- 자동화 16개 가동 로그 — 실제 24시간 작동 데이터
- ChromaDB 91,007건 — 매장 운영·조합원·생산자·발주 정제 자료
3법인 수요기업 자리 (사업 1년차 결합):
- 대구경북이종협동조합연합회 매장 운영 데이터
- 진주우리먹거리협동조합 매장 운영 데이터
- 사회혁신교육원사협 교육 운영 데이터
전국로컬푸드협동조합네트워크 자리 (2년차 확산): 19개 회원 매장 운영 데이터 단계 결합.
빅테크와의 차이: 빅테크 LLM의 척추는 웹 크롤링·공개 데이터다. 본 사업의 척추는 현장에서 살아 작동한 데이터다. 데이터의 질감이 다르다.
두 자리가 박힌 의미
| 자산 | 정의 | 빅테크 보유 여부 |
|---|---|---|
| 암묵지 | 사람이 알지만 글로 못 쓴 지식 | 없음 — 공개 텍스트에 없다 |
| 현장 실증 데이터 | 현장에서 일어났지만 공개되지 않은 데이터 | 없음 — 내부 운영 자료다 |
AI 도메인 모델의 진짜 차별점은 모델 크기나 기술이 아니라 학습 데이터의 질감이다. 본 사업이 박는 자리가 여기다.
2-2. 자동화 통합 플랫폼 — 「로컬푸드협동조합 OS」와 「SSE Vertical ERP」
자동화는 AI의 손발
본 사업의 자동화는 AI를 보조하는 별도 자리가 아니다. 품아이 = 두뇌, 자동화 = 손발의 결로 한 자리에서 작동한다.
| 자리 | 결 |
|---|---|
| AI (품아이) | 예측·판단·언어·관계·매개 (5차원). 사람이 묻는 자리에 응답. |
| 자동화 | 반응 (트리거→정해진 결과). 정해진 일을 정해진 대로 발화. |
| 결합 | AI 응답 → 자동화 액션. 예: 품아이가 “이 단골 SMS 보내라” 판단 → 자동화 발화. |
자동화는 AI에 비하면 단순하지만, 현장 실용성이 강한 손발이다. 매장 운영자가 직접 누르지 않아도 발화하는 자리.
기보유 + 추가 확장 + 통합
| 단계 | 결 |
|---|---|
| 기보유 (4개월 가동) | 품앗이생협 자동화 16개 — POS 파이프라인·발주·폐기·영수증·출퇴근·배달·단골매칭·경영분석·푸드마일리지·탄소포인트 등 (카테고리 A 매장 운영의 일부) |
| 사업 24개월 추가 확장 | 4축(결제·공급·환경·시민) 자동화 모듈 추가 개발 — 위즈온 결제 모듈·탄소중립실천포인트 연동·앱·SSE 입점 매칭·거버넌스 흔적 등 |
| 단일 통합 | 흩어진 자동화를 한 자리로 묶음 — 매장 운영자가 한 자리에서 4축을 다루는 통합 운영 플랫폼 |
「로컬푸드협동조합 OS」 (사업 산출, 2년차 완성)
- Vertical SaaS 결 — 로컬푸드 직매장에 특화한 통합 운영 플랫폼
- AI-native 결 — AI(품아이)가 처음부터 두뇌로 박힌 OS. 일반 ERP는 AI를 나중에 붙이는 자리, 본 사업은 AI 위에 짓는 자리.
- 위즈온협동조합(SI 공동연구기관)이 OS 통합·결제 모듈·탄소포인트 연동·앱 개발 전담.
- 사업 산출의 핵심 통합 자산. 후행 SSE 조직이 자체 적용 가능한 공유자산.
일반 ERP와의 자리 차이
| 결 | 일반 ERP (SAP·Oracle) | 「로컬푸드협동조합 OS」 |
|---|---|---|
| 대상 | 영리 기업 | 협동조합·SSE 조직 |
| 척추 | 자원·재무·인사·구매·재고 | 4축(결제·공급·환경·시민) + 협동조합 거버넌스 |
| AI 결합 | 나중에 붙이는 자리 | 처음부터 두뇌로 박힘 |
| 데이터 결 | 수치 집계 | 운동 결·암묵지·현장 실증 |
| 무게 | 무거움 (대기업 표준) | 매장 단위 가벼운 통합 |
「사회연대경제(SSE) Vertical ERP」 (후속 과제, 2028.7~)
- 본 사업의 로컬푸드협동조합 OS를 베이스 자산으로, SSE 전 영역으로 확장하는 후속 과제.
- 4축(결제·공급·환경·시민)을 SSE 전 영역(시민에너지·돌봄·교육·문화·노동 등)으로 확장.
- 사경원·사교원의 SSE 정책·교육 네트워크 + 한밭페이 결제 결합 + 후행 SSE 조직 참여.
- ILO 추산 200만+ SSE 조직의 후행 참고 자산.
단계 결 — 작은 승리 + 후속 청사진
| 시점 | 산출 |
|---|---|
| 2026.7~2028.6 (사업 24개월) | 로컬푸드협동조합 OS 완성 — 6법인 컨소시엄 검증 + 19매장 확산 협약 |
| 2028.7~ (후속 과제) | SSE Vertical ERP 청사진 — 4축에서 SSE 전 영역으로 |
→ 비현실적 야망(SSE 전체)이 아닌 현실적 1단계 + 후속 청사진. 사업 결과물이 끝이 아니라 출발. 운동의 자연스러운 결.
3. SFT (Supervised Fine-Tuning) — 지도 미세조정
자리: 질문-답변 쌍을 모델에 가르친다. “이렇게 물으면 이렇게 답해라.”
학습 데이터 (5만+ 쌍):
- 조합원이 매장 직원에게 묻는 질문 → 정답 응답
- 총대가 정관 묻는 질문 → 정답
- 생산자가 발주 묻는 질문 → 정답
효과: 모델이 대화 행동 양식을 익힌다.
비유: CPT가 “마을 사람이 됨”이면, SFT는 “도제로 일하는 법 배움”.
4. DPO (Direct Preference Optimization) — 직접 선호 정렬
자리: 한 질문에 대해 좋은 응답/나쁜 응답 두 개를 박아서 모델이 좋은 쪽으로 기울어지게 학습시킨다.
예시:
- 좋은 응답: “조합원님 안녕하세요, 그 품목은…” (결이 따뜻함)
- 나쁜 응답: “그건 모르겠는데요” (결이 차가움)
학습 데이터 (1만+ 쌍): 실무진이 직접 선호 평가.
효과: 모델이 우리 결에 맞는 응답을 선호하게 된다.
비유: SFT가 “정답 가르침”이면, DPO는 “결을 다듬음”.
왜 RLHF 아닌 DPO:
| 방식 | 방법 | 비용 |
|---|---|---|
| RLHF (ChatGPT 방식) | 보상모델 따로 학습 + 강화학습 | 비싸고 불안정 |
| DPO (우리 방식) | 선호 쌍 한 번에 학습 | 작은 컨소시엄에 맞음 |
5. 모델 v1 / v2 — 산출물 두 번
| 산출 | 시점 | 자리 |
|---|---|---|
| v1 | 1년차 끝 (2026.12) | CPT+SFT까지. 매장 4축 기본 응답 가능 |
| v2 | 2년차 끝 (2027.12) | DPO 정렬 + 데이터 추가 학습. 공개·확산 |
3년차 6개월 (2028.1~6) = 평가·확산·백서 마무리.
6. 단락2 풀이 — 실증·검증·공개·FL 아키텍처
사업계획서 IRIS 본문 두 번째 단락:
“품앗이소비자생활협동조합(공동연구기관·AI 운영자산 보유) 지족·관저점에서 1차 통합 실증을 수행하고, 3법인 수요기업(사회혁신교육원사협·대구경북이종협동조합연합회·진주우리먹거리협동조합) 매장·교육 실증을 통해 모델 성능 F1 Score 0.8 이상을 TTA·KAIC 공인 검증으로 확보하고, 일평균 업무시간 단축과 연 매장당 절감 효과를 정량 측정한다.
모델은 오픈웨이트 + 모델·데이터 카드 + 「한국 사회연대경제 AI 백서」와 함께 무료공개 플랫폼에 게시하여, 후행 SSE 조직이 자체 적용 가능한 공유자산으로 자리한다. 분산 협동학습(Federated Learning) 아키텍처로 원천 데이터의 외부 이동 없이 데이터 주권을 보장한다.”
6-1. 실증 구조 — 2단계
1차 통합 실증 (품앗이생협 지족·관저점)
- 품앗이생협 = 공동연구기관: 컨소시엄 정식 멤버. 수요기업보다 한 단 위, 데이터·인프라 자산 기여 자리.
- 자산: 자동화 16개 운영(4개월 가동) · POS 50만+ 거래 · ChromaDB 91,007건 · 푸드마일리지 13,794건
- “1차 통합”: CPT+SFT 끝난 모델 v1을 처음 매장에 박는 자리. 4축(결제·공급·환경·시민) 통합 응답을 지족·관저점에서 1차 검증.
- 왜 품앗이가 1차: AI 운영자산 이미 있는 유일한 매장. 다른 3법인은 자산 부재 — 거기서 1차 검증하면 모델 문제인지 매장 인프라 문제인지 분리 불가.
2차 확산 실증 (3법인 수요기업)
| 법인 | 도메인 | 지역 |
|---|---|---|
| 사회혁신교육원사협 | 교육 실증 | 전남 |
| 대구경북이종협동조합연합회 | 매장 실증 | 대구·경북 |
| 진주우리먹거리협동조합 | 매장 실증 | 경남 |
- 사업 요건 수요기업 3개 이상 충족. 4광역 5시도 비수도권 분포.
- 매장 + 교육 두 도메인 동시 검증.
6-2. 성능 검증 — F1 0.8 / TTA·KAIC 공인
F1 Score (사업 의무 지표 ①)
- 분류·예측 정확도. 정밀도·재현율의 조화평균. 0~1 사이, 1에 가까울수록 좋음.
- 0.8 = 상용 가능 수준. 사업 의무 (붙임 2).
- 예: 조합원 질문 100개에 모델 응답 → 80개 이상 정답 결로 답하면 F1≈0.8.
TTA (한국정보통신기술협회)
- 과기정통부 산하 공인 시험인증 기관. AI 성능 시험 표준 보유.
KAIC (한국인공지능산업협회)
- 산업통상자원부 산하 AI 표준·인증.
두 기관 공인 = 우리가 자기평가 아닌 국가 인증기관 검증.
사업 의무 지표 ② — 일평균 단축 + 연 절감
- 공고 예시: 일평균 2시간 단축 / 연 3,500만원 절감.
- 우리 자리: 자동화 16개 산출 정본 — 직원 1인 2.26h/일, 매장 11.3h/일, 19매장 연 7.84억 (
reference_automation_16_time_savings.md). - 이미 4개월 가동 데이터로 충족.
6-3. 모델 공개 — 4종 한 묶음
오픈웨이트 (Open-Weight)
- 모델 가중치 공개, 학습 데이터 비공개 가능.
- 사업 의무: 붙임 2 — “오픈소스 권장, 오픈웨이트 방식도 가능”.
- 왜 오픈웨이트(오픈소스 X): 학습 데이터에 조합원 개인정보·매출·총회록 박힘. 가중치는 공유, 원천 데이터는 보호.
- 비유: 떡 만드는 완성품은 마을에 나누되, 재료의 출처와 손맛은 우리 자리에 둠.
모델카드 (Model Card)
- 모델의 목적·한계·성능·편향·라이선스 명세서.
- 출처: Google 2018(Margaret Mitchell 등) 제안. AI 윤리 표준.
데이터카드 (Data Card)
- 학습 데이터의 출처·수집방법·동의·전처리 명세서.
- 우리 차별점: SSE 운동의 맥락이 데이터카드에 보존됨. 빅테크는 이 자리 비어있음.
「한국 사회연대경제 AI 백서」
- 사업 전 과정 정리 — 데이터·기술·현장사례·도메인 윤리·규제 대응.
- 대상: 평가위원·정책연구자·후속 SSE 컨소시엄·해외 SSE 동지.
후행 SSE 조직 공유자산
- 사업 끝난 후 다른 협동조합·사회적기업이 바로 받아 쓸 수 있음.
- 한국 SSE 진영 공유 인프라. 이 사업의 자리가 끝이 아니라 시작.
6-4. Federated Learning — 분산 협동학습
일반 학습 (Centralized)
- 모든 데이터를 *한 곳(중앙 서버)*에 모음 → 학습.
- 데이터 노출, 주권 없음. ChatGPT·Gemini·HyperCLOVA 등 빅테크 모델이 이 자리.
Federated Learning (분산 협동학습)
- 각 법인이 자기 자리에서 학습 → 학습 결과(가중치 변화량)만 중앙에 전송.
- 원천 데이터(조합원 정보·POS 거래·발주)는 외부 이동 없음.
- Google 2017 Gboard(휴대폰 입력) 첫 적용. 의료·금융에서 표준.
- IDSA(International Data Spaces Association) 참조 아키텍처.
비유
- 일반: 모든 마을 사람이 한 도서관에 책 들고 모여 같이 읽기 (책=원천 데이터)
- FL: 각 마을 사람이 자기 집에서 읽고 읽은 결만 우편으로 주고받기. 책은 자기 집에 둠.
우리 자리
- 6법인이 각자 자리에서 학습 → 가중치 업데이트만 모임.
- 조합원 개인정보·매출·총회록 외부 안 나감.
- 데이터 주권 = 선언 아닌 아키텍처로 증명 (본문1 §5 핵심).
6-5. 한 줄 결 (단락2)
1차 매장 검증(품앗이) → 3법인 확산(매장+교육) → F1 0.8 공인(TTA·KAIC) → 4종 한 묶음 공유(웨이트·모델카드·데이터카드·백서) → FL 아키텍처로 데이터 주권
이 단락이 사업의 진정성 척추 — 빅테크 도메인 AI와 결정적 차별점이 박힌 자리.
7. 한 줄 결 (단락1)
베이스 모델(맨몸) → CPT(마을 살기) → SFT(도제 수련) → DPO(결 다듬기) → 두 번 산출(v1·v2)
24개월에 박는 작업은 처음부터 만드는 게 아니라, 이미 있는 한국어 오픈소스 LLM에 우리 도메인의 결을 입히는 일이다. 그래서 25억 예산으로 가능하다. (0부터 만들면 수천억.)
도메인 AI 방법론 — 일반적인가?
학술적으론 표준 풀코스, 실무에선 풀코스 가는 곳이 적다.
학술 표준 (도메인 적응 풀 파이프라인)
| 단계 | 학계 명칭 | 우리 표기 |
|---|---|---|
| 1 | DAPT (Domain-Adaptive Pre-Training) | CPT |
| 2 | ITT (Instruction Tuning) | SFT |
| 3 | Preference Alignment (DPO/RLHF/PPO) | DPO |
2020년 Don’t Stop Pretraining 논문(Gururangan 등) 이후 박힌 자리.
실무는 4갈래
| 경로 | 빈도 | 사례 |
|---|---|---|
| RAG only (모델 안 건드림 + 외부 검색) | 가장 흔함 | 대부분 한국 법률·의료 챗봇 |
| SFT only (Q&A 쌍 미세조정) | 흔함 | LawGPT, 한국 도메인 챗봇 다수 |
| CPT + SFT | 도메인 어휘 특수할 때 | BloombergGPT(금융), K-Health(의료) |
| CPT + SFT + DPO/RLHF — 우리 | 풀코스, 비용·데이터 큼 | Med-PaLM(구글), 일부 빅테크 도메인 |
풀코스 박는 곳은 예산 100억+ 빅테크가 보통이다. 25억으로 풀코스를 박는 건 욕심 있는 자리.
우리가 풀코스 박은 이유 4가지
-
도메인 어휘가 매우 특수 — 조합원·총대·총회·로컬페이·SSE 4축 같은 어휘는 일반 LLM에 거의 없거나 잘못 박혀 있다. CPT 없이 SFT만 가면 어휘 자체가 비뚤어진다.
-
모델 공개 의무 (사업 요건) — RAG는 모델 자체가 공개되지 않는다(검색만). 사업 의무인 오픈웨이트 공개를 충족하려면 학습된 모델 결과물이어야 한다.
-
F1 0.8 성능지표 (사업 요건) — RAG는 검색기 성능이지 모델 성능이 아니다. 모델 자체 점수를 확보하려면 학습이 필요하다.
-
데이터 주권 — RAG는 검색 인프라에 의존한다. 우리 가중치에 박힌 모델이 데이터 주권의 본질이다.
함의
풀코스 = 우리 사업의 기술적 야망 자체. 학술 표준이지만 한국 도메인 AI에서 풀코스 + 비영리 컨소시엄은 거의 처음이다. 사업계획서의 경쟁력 차별화 포인트로 박을 자리.
연결
- 로컬푸드 도메인 AI 공동사업 IRIS 입력본 — 이 문장이 박힌 원문
- 로컬푸드 도메인 AI 본문1 v2 — 기술 상세 본문
- 학습방법 — RAG·LoRA·파인튜닝 일반 용어
- 2026 HPC 지원사업 - 시민재생에너지 사업자동화 AI — EXAONE 32B H100 학습 사례