사업계획서 용어사전 — 도메인특화 AI 방법론

이 문서는 AI 기술 전문가가 아닌 6법인 실무진을 위한 풀이다. 사업계획서 IRIS 본문 한 줄을 중심으로, 거기 박힌 핵심 개념을 운동의 결로 설명한다.

기준 문장

사업계획서 IRIS 본문:

“24개월 내 한국어 오픈소스 베이스 모델을 출발점으로 CPT(Continued Pre-Training) → SFT(Supervised Fine-Tuning) → DPO(Direct Preference Optimization) 3단 학습 파이프라인을 통해 사회연대경제 도메인 어휘·맥락·관계를 학습한 모델 v1·v2를 산출한다.”

이 한 줄에 박힌 개념 4개 + 도메인 AI 방법론 비교 + 우리가 풀코스 박은 이유.

1. 한국어 오픈소스 베이스 모델

베이스 모델 = 이미 사전학습 끝낸 LLM 본체. 0부터 안 만든다. 한국어·일반 상식·문법·세계지식을 갖춘 맨몸 수련자를 데려오는 자리.

한국어 오픈소스 후보:

모델	제작	크기	특징
EXAONE 4.5	LG AI Research	32B / 8B / 2.4B	한국어 최강. HPC 사업에 32B 박은 것
HyperCLOVA X SEED	네이버	0.5B / 1.5B	경량
Qwen 3	Alibaba	235B / 32B / 14B / 8B	다국어, 한국어 강함

왜 오픈소스: 가중치를 직접 받아서 학습·소유 가능. ChatGPT·Gemini는 API만 씀(데이터 주권 없음).

왜 한국어 베이스: SSE·협동조합 어휘는 한국어 자료에만 있다. 영어 베이스 위에 한국어를 박으면 두 번 일.

2. CPT (Continued Pre-Training) — 계속 사전학습

자리: 베이스 모델 위에 우리 도메인 텍스트를 통째로 더 학습시킨다.

학습 데이터: 사회연대경제 정책·운동사 자료 / 사경원(사회연대경제연구원) 정책·연구·SSE 교육 자료 / 사교원(사회혁신교육원사협) 교육 도메인 자료 / 전국 로컬푸드 직매장 운영매뉴얼·암묵지·현장 실증 데이터(품앗이·대구경북이종협·진주우리먹거리협 + 전국로컬푸드협동조합네트워크) / 한밭레츠·한밭페이 27년 지역화폐·결제 자료 / OECD/ILO SSE 권고안 / 품앗이생협 ChromaDB 91,007건 정제분

효과: 모델이 사회연대경제 어휘·관계·맥락을 흡수한다. “조합원·총대·생협·사회적기업” 같은 단어를 일반인 수준이 아니라 운동가의 결로 알게 된다.

비유: 외부에서 한국어 잘하는 사람을 데려와서 우리 마을에 1년 살게 하는 자리. 분위기·관계·말투를 몸으로 흡수한다.

2-1. CPT 학습 데이터의 자리 — 암묵지와 현장 실증 데이터

CPT 학습 데이터 목록을 보면 단순히 “어느 기관 자료”가 아니라, 빅테크가 갖지 못하는 두 종류의 자산이 박혀 있다.

암묵지 (Tacit Knowledge)

출처: Michael Polanyi, Personal Knowledge (1958). 핵심 명제: “우리는 말로 표현할 수 있는 것보다 더 많은 것을 안다(We can know more than we can tell).”

자리: 매뉴얼·문서·매출 데이터로는 표현되지 않는, 몸으로 체득한 운영 노하우. 매장 운영자가 오랜 경험으로만 아는 것들 — 손님 응대 결, 발주 시점 감, 진열 결, 분쟁 해결 결.

AI 도메인에서의 의미: 빅테크 LLM은 공개 텍스트만 학습한다. 공개 텍스트에는 암묵지가 없다. 본 사업은 운영자가 직접 응답·평가하는 SFT(5만+)·DPO(1만+) 단계에서 암묵지를 형식지로 변환해 모델에 박는다.

이론적 뿌리: 노나카 이쿠지로(Nonaka)의 SECI 모델 — 암묵지 → 형식지 변환(Externalization)이 지식 창조의 핵심 단계다. 본 사업의 SFT·DPO 설계가 이 자리에 박힌다.

현장 실증 데이터 (Field-Validated Data)

자리: 실험실·시뮬레이션·합성 데이터가 아닌, 실제 매장·교육·운영 현장에서 살아 작동한 데이터.

품앗이생협 자리 (4개월 가동 데이터):

POS 50만+ 거래 — 실제 결제 자리
푸드마일리지 13,794건 — 실제 출고 자리
자동화 16개 가동 로그 — 실제 24시간 작동 데이터
ChromaDB 91,007건 — 매장 운영·조합원·생산자·발주 정제 자료

3법인 수요기업 자리 (사업 1년차 결합):

대구경북이종협동조합연합회 매장 운영 데이터
진주우리먹거리협동조합 매장 운영 데이터
사회혁신교육원사협 교육 운영 데이터

전국로컬푸드협동조합네트워크 자리 (2년차 확산): 19개 회원 매장 운영 데이터 단계 결합.

빅테크와의 차이: 빅테크 LLM의 척추는 웹 크롤링·공개 데이터다. 본 사업의 척추는 현장에서 살아 작동한 데이터다. 데이터의 질감이 다르다.

두 자리가 박힌 의미

자산	정의	빅테크 보유 여부
암묵지	사람이 알지만 글로 못 쓴 지식	없음 — 공개 텍스트에 없다
현장 실증 데이터	현장에서 일어났지만 공개되지 않은 데이터	없음 — 내부 운영 자료다

AI 도메인 모델의 진짜 차별점은 모델 크기나 기술이 아니라 학습 데이터의 질감이다. 본 사업이 박는 자리가 여기다.

2-2. 자동화 통합 플랫폼 — 「로컬푸드협동조합 OS」와 「SSE Vertical ERP」

자동화는 AI의 손발

본 사업의 자동화는 AI를 보조하는 별도 자리가 아니다. 품아이 = 두뇌, 자동화 = 손발의 결로 한 자리에서 작동한다.

자리	결
AI (품아이)	예측·판단·언어·관계·매개 (5차원). 사람이 묻는 자리에 응답.
자동화	반응 (트리거→정해진 결과). 정해진 일을 정해진 대로 발화.
결합	AI 응답 → 자동화 액션. 예: 품아이가 “이 단골 SMS 보내라” 판단 → 자동화 발화.

자동화는 AI에 비하면 단순하지만, 현장 실용성이 강한 손발이다. 매장 운영자가 직접 누르지 않아도 발화하는 자리.

기보유 + 추가 확장 + 통합

단계	결
기보유 (4개월 가동)	품앗이생협 자동화 16개 — POS 파이프라인·발주·폐기·영수증·출퇴근·배달·단골매칭·경영분석·푸드마일리지·탄소포인트 등 (카테고리 A 매장 운영의 일부)
사업 24개월 추가 확장	4축(결제·공급·환경·시민) 자동화 모듈 추가 개발 — 위즈온 결제 모듈·탄소중립실천포인트 연동·앱·SSE 입점 매칭·거버넌스 흔적 등
단일 통합	흩어진 자동화를 한 자리로 묶음 — 매장 운영자가 한 자리에서 4축을 다루는 통합 운영 플랫폼

「로컬푸드협동조합 OS」 (사업 산출, 2년차 완성)

Vertical SaaS 결 — 로컬푸드 직매장에 특화한 통합 운영 플랫폼
AI-native 결 — AI(품아이)가 처음부터 두뇌로 박힌 OS. 일반 ERP는 AI를 나중에 붙이는 자리, 본 사업은 AI 위에 짓는 자리.
위즈온협동조합(SI 공동연구기관)이 OS 통합·결제 모듈·탄소포인트 연동·앱 개발 전담.
사업 산출의 핵심 통합 자산. 후행 SSE 조직이 자체 적용 가능한 공유자산.

일반 ERP와의 자리 차이

결	일반 ERP (SAP·Oracle)	「로컬푸드협동조합 OS」
대상	영리 기업	협동조합·SSE 조직
척추	자원·재무·인사·구매·재고	4축(결제·공급·환경·시민) + 협동조합 거버넌스
AI 결합	나중에 붙이는 자리	처음부터 두뇌로 박힘
데이터 결	수치 집계	운동 결·암묵지·현장 실증
무게	무거움 (대기업 표준)	매장 단위 가벼운 통합

「사회연대경제(SSE) Vertical ERP」 (후속 과제, 2028.7~)

본 사업의 로컬푸드협동조합 OS를 베이스 자산으로, SSE 전 영역으로 확장하는 후속 과제.
4축(결제·공급·환경·시민)을 SSE 전 영역(시민에너지·돌봄·교육·문화·노동 등)으로 확장.
사경원·사교원의 SSE 정책·교육 네트워크 + 한밭페이 결제 결합 + 후행 SSE 조직 참여.
ILO 추산 200만+ SSE 조직의 후행 참고 자산.

단계 결 — 작은 승리 + 후속 청사진

시점	산출
2026.7~2028.6 (사업 24개월)	로컬푸드협동조합 OS 완성 — 6법인 컨소시엄 검증 + 19매장 확산 협약
2028.7~ (후속 과제)	SSE Vertical ERP 청사진 — 4축에서 SSE 전 영역으로

→ 비현실적 야망(SSE 전체)이 아닌 현실적 1단계 + 후속 청사진. 사업 결과물이 끝이 아니라 출발. 운동의 자연스러운 결.

3. SFT (Supervised Fine-Tuning) — 지도 미세조정

자리: 질문-답변 쌍을 모델에 가르친다. “이렇게 물으면 이렇게 답해라.”

학습 데이터 (5만+ 쌍):

조합원이 매장 직원에게 묻는 질문 → 정답 응답
총대가 정관 묻는 질문 → 정답
생산자가 발주 묻는 질문 → 정답

효과: 모델이 대화 행동 양식을 익힌다.

비유: CPT가 “마을 사람이 됨”이면, SFT는 “도제로 일하는 법 배움”.

4. DPO (Direct Preference Optimization) — 직접 선호 정렬

자리: 한 질문에 대해 좋은 응답/나쁜 응답 두 개를 박아서 모델이 좋은 쪽으로 기울어지게 학습시킨다.

예시:

좋은 응답: “조합원님 안녕하세요, 그 품목은…” (결이 따뜻함)
나쁜 응답: “그건 모르겠는데요” (결이 차가움)

학습 데이터 (1만+ 쌍): 실무진이 직접 선호 평가.

효과: 모델이 우리 결에 맞는 응답을 선호하게 된다.

비유: SFT가 “정답 가르침”이면, DPO는 “결을 다듬음”.

왜 RLHF 아닌 DPO:

방식	방법	비용
RLHF (ChatGPT 방식)	보상모델 따로 학습 + 강화학습	비싸고 불안정
DPO (우리 방식)	선호 쌍 한 번에 학습	작은 컨소시엄에 맞음

5. 모델 v1 / v2 — 산출물 두 번

산출	시점	자리
v1	1년차 끝 (2026.12)	CPT+SFT까지. 매장 4축 기본 응답 가능
v2	2년차 끝 (2027.12)	DPO 정렬 + 데이터 추가 학습. 공개·확산

3년차 6개월 (2028.1~6) = 평가·확산·백서 마무리.

6. 단락2 풀이 — 실증·검증·공개·FL 아키텍처

사업계획서 IRIS 본문 두 번째 단락:

“품앗이소비자생활협동조합(공동연구기관·AI 운영자산 보유) 지족·관저점에서 1차 통합 실증을 수행하고, 3법인 수요기업(사회혁신교육원사협·대구경북이종협동조합연합회·진주우리먹거리협동조합) 매장·교육 실증을 통해 모델 성능 F1 Score 0.8 이상을 TTA·KAIC 공인 검증으로 확보하고, 일평균 업무시간 단축과 연 매장당 절감 효과를 정량 측정한다.

모델은 오픈웨이트 + 모델·데이터 카드 + 「한국 사회연대경제 AI 백서」와 함께 무료공개 플랫폼에 게시하여, 후행 SSE 조직이 자체 적용 가능한 공유자산으로 자리한다. 분산 협동학습(Federated Learning) 아키텍처로 원천 데이터의 외부 이동 없이 데이터 주권을 보장한다.”

6-1. 실증 구조 — 2단계

1차 통합 실증 (품앗이생협 지족·관저점)

품앗이생협 = 공동연구기관: 컨소시엄 정식 멤버. 수요기업보다 한 단 위, 데이터·인프라 자산 기여 자리.
자산: 자동화 16개 운영(4개월 가동) · POS 50만+ 거래 · ChromaDB 91,007건 · 푸드마일리지 13,794건
“1차 통합”: CPT+SFT 끝난 모델 v1을 처음 매장에 박는 자리. 4축(결제·공급·환경·시민) 통합 응답을 지족·관저점에서 1차 검증.
왜 품앗이가 1차: AI 운영자산 이미 있는 유일한 매장. 다른 3법인은 자산 부재 — 거기서 1차 검증하면 모델 문제인지 매장 인프라 문제인지 분리 불가.

2차 확산 실증 (3법인 수요기업)

법인	도메인	지역
사회혁신교육원사협	교육 실증	전남
대구경북이종협동조합연합회	매장 실증	대구·경북
진주우리먹거리협동조합	매장 실증	경남

사업 요건 수요기업 3개 이상 충족. 4광역 5시도 비수도권 분포.
매장 + 교육 두 도메인 동시 검증.

6-2. 성능 검증 — F1 0.8 / TTA·KAIC 공인

F1 Score (사업 의무 지표 ①)

분류·예측 정확도. 정밀도·재현율의 조화평균. 0~1 사이, 1에 가까울수록 좋음.
0.8 = 상용 가능 수준. 사업 의무 (붙임 2).
예: 조합원 질문 100개에 모델 응답 → 80개 이상 정답 결로 답하면 F1≈0.8.

TTA (한국정보통신기술협회)

과기정통부 산하 공인 시험인증 기관. AI 성능 시험 표준 보유.

KAIC (한국인공지능산업협회)

산업통상자원부 산하 AI 표준·인증.

두 기관 공인 = 우리가 자기평가 아닌 국가 인증기관 검증.

사업 의무 지표 ② — 일평균 단축 + 연 절감

공고 예시: 일평균 2시간 단축 / 연 3,500만원 절감.
우리 자리: 자동화 16개 산출 정본 — 직원 1인 2.26h/일, 매장 11.3h/일, 19매장 연 7.84억 (reference_automation_16_time_savings.md).
이미 4개월 가동 데이터로 충족.

6-3. 모델 공개 — 4종 한 묶음

오픈웨이트 (Open-Weight)

모델 가중치 공개, 학습 데이터 비공개 가능.
사업 의무: 붙임 2 — “오픈소스 권장, 오픈웨이트 방식도 가능”.
왜 오픈웨이트(오픈소스 X): 학습 데이터에 조합원 개인정보·매출·총회록 박힘. 가중치는 공유, 원천 데이터는 보호.
비유: 떡 만드는 완성품은 마을에 나누되, 재료의 출처와 손맛은 우리 자리에 둠.

모델카드 (Model Card)

모델의 목적·한계·성능·편향·라이선스 명세서.
출처: Google 2018(Margaret Mitchell 등) 제안. AI 윤리 표준.

데이터카드 (Data Card)

학습 데이터의 출처·수집방법·동의·전처리 명세서.
우리 차별점: SSE 운동의 맥락이 데이터카드에 보존됨. 빅테크는 이 자리 비어있음.

「한국 사회연대경제 AI 백서」

사업 전 과정 정리 — 데이터·기술·현장사례·도메인 윤리·규제 대응.
대상: 평가위원·정책연구자·후속 SSE 컨소시엄·해외 SSE 동지.

후행 SSE 조직 공유자산

사업 끝난 후 다른 협동조합·사회적기업이 바로 받아 쓸 수 있음.
한국 SSE 진영 공유 인프라. 이 사업의 자리가 끝이 아니라 시작.

6-4. Federated Learning — 분산 협동학습

일반 학습 (Centralized)

모든 데이터를 *한 곳(중앙 서버)*에 모음 → 학습.
데이터 노출, 주권 없음. ChatGPT·Gemini·HyperCLOVA 등 빅테크 모델이 이 자리.

Federated Learning (분산 협동학습)

각 법인이 자기 자리에서 학습 → 학습 결과(가중치 변화량)만 중앙에 전송.
원천 데이터(조합원 정보·POS 거래·발주)는 외부 이동 없음.
Google 2017 Gboard(휴대폰 입력) 첫 적용. 의료·금융에서 표준.
IDSA(International Data Spaces Association) 참조 아키텍처.

비유

일반: 모든 마을 사람이 한 도서관에 책 들고 모여 같이 읽기 (책=원천 데이터)
FL: 각 마을 사람이 자기 집에서 읽고 읽은 결만 우편으로 주고받기. 책은 자기 집에 둠.

우리 자리

6법인이 각자 자리에서 학습 → 가중치 업데이트만 모임.
조합원 개인정보·매출·총회록 외부 안 나감.
데이터 주권 = 선언 아닌 아키텍처로 증명 (본문1 §5 핵심).

6-5. 한 줄 결 (단락2)

1차 매장 검증(품앗이) → 3법인 확산(매장+교육) → F1 0.8 공인(TTA·KAIC) → 4종 한 묶음 공유(웨이트·모델카드·데이터카드·백서) → FL 아키텍처로 데이터 주권

이 단락이 사업의 진정성 척추 — 빅테크 도메인 AI와 결정적 차별점이 박힌 자리.

7. 한 줄 결 (단락1)

베이스 모델(맨몸) → CPT(마을 살기) → SFT(도제 수련) → DPO(결 다듬기) → 두 번 산출(v1·v2)

24개월에 박는 작업은 처음부터 만드는 게 아니라, 이미 있는 한국어 오픈소스 LLM에 우리 도메인의 결을 입히는 일이다. 그래서 25억 예산으로 가능하다. (0부터 만들면 수천억.)

도메인 AI 방법론 — 일반적인가?

학술적으론 표준 풀코스, 실무에선 풀코스 가는 곳이 적다.

학술 표준 (도메인 적응 풀 파이프라인)

단계	학계 명칭	우리 표기
1	DAPT (Domain-Adaptive Pre-Training)	CPT
2	ITT (Instruction Tuning)	SFT
3	Preference Alignment (DPO/RLHF/PPO)	DPO

2020년 Don’t Stop Pretraining 논문(Gururangan 등) 이후 박힌 자리.

실무는 4갈래

경로	빈도	사례
RAG only (모델 안 건드림 + 외부 검색)	가장 흔함	대부분 한국 법률·의료 챗봇
SFT only (Q&A 쌍 미세조정)	흔함	LawGPT, 한국 도메인 챗봇 다수
CPT + SFT	도메인 어휘 특수할 때	BloombergGPT(금융), K-Health(의료)
CPT + SFT + DPO/RLHF — 우리	풀코스, 비용·데이터 큼	Med-PaLM(구글), 일부 빅테크 도메인

풀코스 박는 곳은 예산 100억+ 빅테크가 보통이다. 25억으로 풀코스를 박는 건 욕심 있는 자리.

우리가 풀코스 박은 이유 4가지

도메인 어휘가 매우 특수 — 조합원·총대·총회·로컬페이·SSE 4축 같은 어휘는 일반 LLM에 거의 없거나 잘못 박혀 있다. CPT 없이 SFT만 가면 어휘 자체가 비뚤어진다.
모델 공개 의무 (사업 요건) — RAG는 모델 자체가 공개되지 않는다(검색만). 사업 의무인 오픈웨이트 공개를 충족하려면 학습된 모델 결과물이어야 한다.
F1 0.8 성능지표 (사업 요건) — RAG는 검색기 성능이지 모델 성능이 아니다. 모델 자체 점수를 확보하려면 학습이 필요하다.
데이터 주권 — RAG는 검색 인프라에 의존한다. 우리 가중치에 박힌 모델이 데이터 주권의 본질이다.

함의

풀코스 = 우리 사업의 기술적 야망 자체. 학술 표준이지만 한국 도메인 AI에서 풀코스 + 비영리 컨소시엄은 거의 처음이다. 사업계획서의 경쟁력 차별화 포인트로 박을 자리.

연결

로컬푸드 도메인 AI 공동사업 IRIS 입력본 — 이 문장이 박힌 원문
로컬푸드 도메인 AI 본문1 v2 — 기술 상세 본문
학습방법 — RAG·LoRA·파인튜닝 일반 용어
2026 HPC 지원사업 - 시민재생에너지 사업자동화 AI — EXAONE 32B H100 학습 사례

품앗이 위키

탐색기

사업계획서 용어사전 — 도메인특화 AI 방법론

사업계획서 용어사전 — 도메인특화 AI 방법론

기준 문장

1. 한국어 오픈소스 베이스 모델

2. CPT (Continued Pre-Training) — 계속 사전학습

2-1. CPT 학습 데이터의 자리 — 암묵지와 현장 실증 데이터

암묵지 (Tacit Knowledge)

현장 실증 데이터 (Field-Validated Data)

두 자리가 박힌 의미

2-2. 자동화 통합 플랫폼 — 「로컬푸드협동조합 OS」와 「SSE Vertical ERP」

자동화는 AI의 손발

기보유 + 추가 확장 + 통합

「로컬푸드협동조합 OS」 (사업 산출, 2년차 완성)

일반 ERP와의 자리 차이

「사회연대경제(SSE) Vertical ERP」 (후속 과제, 2028.7~)

단계 결 — 작은 승리 + 후속 청사진

3. SFT (Supervised Fine-Tuning) — 지도 미세조정

4. DPO (Direct Preference Optimization) — 직접 선호 정렬

5. 모델 v1 / v2 — 산출물 두 번

6. 단락2 풀이 — 실증·검증·공개·FL 아키텍처

6-1. 실증 구조 — 2단계

1차 통합 실증 (품앗이생협 지족·관저점)

2차 확산 실증 (3법인 수요기업)

6-2. 성능 검증 — F1 0.8 / TTA·KAIC 공인

F1 Score (사업 의무 지표 ①)

TTA (한국정보통신기술협회)

KAIC (한국인공지능산업협회)

사업 의무 지표 ② — 일평균 단축 + 연 절감

6-3. 모델 공개 — 4종 한 묶음

오픈웨이트 (Open-Weight)

모델카드 (Model Card)

데이터카드 (Data Card)

「한국 사회연대경제 AI 백서」

후행 SSE 조직 공유자산

6-4. Federated Learning — 분산 협동학습

일반 학습 (Centralized)

Federated Learning (분산 협동학습)

비유

우리 자리

6-5. 한 줄 결 (단락2)

7. 한 줄 결 (단락1)

도메인 AI 방법론 — 일반적인가?

학술 표준 (도메인 적응 풀 파이프라인)

실무는 4갈래

우리가 풀코스 박은 이유 4가지

함의

연결

그래프 뷰

목차

백링크