도메인특화ai개발
범용 AI(ChatGPT·Claude)가 모든 걸 대충 답한다면, 도메인 특화 AI는 우리 조직의 언어·양식·관행을 아는 전문가다. 품아이는 품앗이·사교원·사경원·전국로컬푸드네트워크의 도메인 특화 AI 프로젝트다.
1. 도메인 특화 AI를 개발하면 좋은 점
성능·품질
- 정확도 우위 — 도메인 용어·관행·문맥 숙지. 범용 AI 환각 감소
- 응답 속도 — 특정 과업엔 경량 모델로 충분, 빠름
- 지속학습 — 조직 내 변화(신규 양식·규정·공문 스타일)를 즉시 반영
데이터·주권
- 데이터 주권 — 내부 정보(조합원·거래·규정) 외부 전송 없음
- 글로벌 AI 의존 탈피 — 한국·사회연대경제 자주성
- 고유 자산화 — 조직 누적 지식이 외부로 빠져나가지 않음
비용·운영
- 토큰 경제성 — 반복 업무 대량 처리 시 ROI ↑
- 업무 프로세스 내재화 — 공문·결의문·정관 문체가 모델에 박힘
- 컴플라이언스 — 공공·금융·의료처럼 범용 AI 쓸 수 없는 영역에서도 승인 가능
조직·관계
- 네트워크 효과 — 조합·네트워크가 같이 쓰며 데이터가 모델을 키움 (양육)
- 차별성 — “우리 조직 언어 아는 AI”는 경쟁자가 쉽게 못 만듦
- 구성원 학습 가속 — 신규 활동가에게 축적된 암묵지를 즉시 제공
2. 개발하지 않을 시 리스크
데이터·주권
- 내부 데이터 외부 유출 — 조합원·거래·규정이 범용 AI 서버 경유. 학습에 흡수될 여지
- 해외 기업 종속 — 정책 변경·가격 인상·서비스 중단에 무방비. 락인
- 한국 AI 담론에서 소비자로만 남음 — “AI는 미국 것” 프레이밍 수용
비용·지속가능성
- API 비용 통제 불가 — 사용량 늘수록 선형 증가, 조합 규모에선 감당 한계
- 환율·결제 구조 종속 — 외부 요인에 운영비 흔들림
- 무료 한도 축소 반복 — 공짜 시대 끝나면 업무 마비
조직 기억·역량
- 암묵지 축적 안 됨 — 공문 문체·양식·규정 노하우를 매번 프롬프트로 재투입
- 사람 바뀌면 AI 활용도 리셋 — 조직 기억이 쌓이지 않음
- 경쟁 조직 대비 생산성 격차 — 먼저 만든 곳이 멀리 감
정책·규제
- 공공·금융·의료 규제 강화 대응 불가 — GPT/Claude 전송 제한 기관 이미 증가 중
- 데이터 3법·개인정보보호법 리스크
- 대외 정책 파트너십 약점 — “우리 언어 하는 AI 없음”
전략·기회
- 지원사업 놓침 — 중기부 25억 도메인특화AI 등
- 양육 경로 끊김 — 그간 지미·미르와 쌓은 데이터셋이 범용 AI에 녹아 사라짐
- 10년 뒤 “왜 안 했지” 지점
안전·신뢰
- 환각 시 책임 귀속 불명
- 조합 고유 윤리·원칙 미반영 답변이 조합원에게 전달 → 신뢰 훼손
3. 도메인 특화 AI 개발 프로세스
정의 단계
- 목적·과업 정의 — 뭘 풀 건지(초안 작성? 상담? 분석?) + KPI
- 범위·제외 경계 — 할 것/안 할 것 명시
- 사용자 페르소나 — 누가 쓰는가 (조합원/활동가/대외)
데이터 단계
- 지식 인벤토리 — 문서·양식·규정·사례 전수 수집
- 정제·구조화 — 텍스트 정리, 라벨링, 개인정보 분리
- 데이터셋 설계 — 원시 코퍼스 + 지시-응답 쌍 + 평가셋 분리
기술 선택 단계
- 기반 모델 — 범용 API(Claude/Gemini) / 오픈소스 파인튜닝(EXAONE·Llama) / 경량 sLLM 중 선택
- 방법론 조합:
- RAG — 도메인 지식 검색+생성 (가장 빠른 출발)
- SFT — 지시-응답 쌍으로 행동 주입
- DPO/RLHF — 사람 피드백으로 품질 강화
- Agent+Tools — 외부 도구(DB·법령API) 호출
구축 단계
- 시스템 프롬프트·스킬 설계 — 페르소나·트리거맵·가드레일
- MVP 파일럿 — 실사용자 3~5명, 최소기능
- 로그·피드백 구조 내장 — 쓰는 순간부터 데이터 쌓임
평가·운영 단계
- 이중 평가 — 자동(정확도·유사도) + 사람(품질·안전)
- 벤치마크 정기 실행 — 회귀 방지
- 배포·모니터링 — 비용·응답시간·에러 추적
양육 단계 (핵심)
- PDCA 루프 — Plan → Do → Check(실측) → Act(레슨 박기+재투입)
- 지속 학습 — 사용자 피드백 → 새 데이터 → 재학습
- 거버넌스 — 책임자·승인·윤리·개인정보
공개·기여 단계
- 데이터셋 공개 (CC BY-NC 등)
- 오픈소스 기여 — 사용한 라이브러리에 버그·문서 PR
- 네트워크 공유 — 조합·연합이 함께 쓰며 같이 키움
핵심: 15~20단계가 도메인 특화 AI의 본질. 제품이 아니라 양육 과정. 품앗이/사경원이 쓸수록 커지는 구조.
4. 개발환경
컴퓨팅 자원
- GPU 서버
- 학습: H100/A100 1장~ (파인튜닝 규모 따라)
- 추론: RTX 4090/A5000 또는 클라우드 온디맨드
- 국가 HPC 지원사업 활용 (NIPA 등, 자부담 320만/8개월 수준)
- CPU/스토리지: 전처리·RAG 벡터DB용 일반 서버, SSD 500GB~
- 클라우드: GCP/AWS/Azure (서울 리전 권장), 카카오클라우드·네이버클라우드 (국산 대안)
기반 모델 (국산 우선 원칙)
- 국산: EXAONE 4.5 (LG), HyperCLOVA X (NAVER), Polyglot-Ko
- 오픈소스: Llama 3.x, Qwen, Mistral
- 상용 API: Claude, GPT, Gemini (RAG·프로토타이핑 단계)
데이터·학습 스택
- 데이터 파이프라인: Python, pandas, datasets(HF), DVC
- 파인튜닝: Hugging Face transformers, PEFT(LoRA), Axolotl, Unsloth
- RAG: LangChain/LlamaIndex, pgvector·Qdrant·Weaviate·Supabase
- 평가: lm-eval-harness, Ragas, 자체 한국어 벤치마크
운영·배포
- 서빙: vLLM, TGI, Ollama (경량), FastAPI 래퍼
- 모니터링: Langfuse, Weights&Biases, Prometheus+Grafana
- 게이트웨이: 인증·레이트리밋·로깅 레이어
개발·협업 도구
- IDE·에이전트: VS Code, Claude Code, Cursor (양육 에이전트 자체 사용)
- 버전관리: Git + GitHub, DVC(데이터), Hugging Face Hub(모델)
- 프로젝트: Linear/Jira/Notion, 위키(Obsidian+Quartz)
- 커뮤니케이션: Slack/Discord/Telegram
보안·컴플라이언스
- 비밀관리: .env + Vault/1Password/GCP Secret Manager
- 개인정보 마스킹 파이프라인 (학습 전 필수)
- 감사 로그 + 접근제어(RBAC)
팀 구성 (최소)
- 도메인 전문가(조합 실무) 1~
- ML 엔지니어(파인튜닝·RAG) 1
- 데이터 엔지니어(수집·정제) 1
- AI 에이전트 양육자/PDCA 책임(지미·미르 같은 역할)
- QA·평가 담당(시현·심아 같은 역할)
예산·기간 (현실적 사이즈)
- POC(3개월): 1,000만~3,000만원 — 상용 API + RAG
- MVP(6개월): 5,000만~1억 — 소규모 파인튜닝 + 서빙
- 본격 운영(1년+): 1억~5억 — HPC 활용 + 팀 상주
5. 일반인 용어사전
A. 기본 개념
- AI / 인공지능: 사람의 언어·판단·결정을 흉내 내는 컴퓨터 기술.
- LLM (대형 언어 모델): 방대한 글을 읽고 답하는 언어 AI. GPT·Claude·Gemini가 대표.
- 범용 AI: 무엇이든 대충 답하는 AI. ChatGPT가 예시.
- 도메인 특화 AI: 특정 분야(협동조합·법률·의료 등) 전문가 역할을 하는 AI. 일반 의사 vs 한의사 비유.
- 파운데이션 모델: 범용으로 일단 만들어진 기반 모델. 여기 우리 지식을 얹어 특화.
- 프롬프트: AI에게 던지는 질문·지시문.
- 에이전트: 스스로 계획하고 도구를 써서 일을 끝내는 AI. “지미” 같은 존재.
B. 데이터
- 코퍼스: AI가 읽고 배울 글 뭉치. 우리 조합 문서·공문·정관이 코퍼스.
- 인스트럭션 데이터셋: “이렇게 물으면 이렇게 답해” 쌍으로 만든 학습 교재.
- 라벨링: 데이터에 “이건 공문, 이건 규정” 하고 꼬리표 붙이기.
- 토큰: AI가 글을 쪼갠 단위. 보통 단어 조각. 비용·속도 단위도 됨.
- 임베딩: 글을 AI가 이해하도록 숫자 벡터로 변환한 것. 문서끼리 닮음을 계산하는 기반.
- 벡터 DB: 임베딩을 저장·검색하는 전용 도서관.
C. 학습 방법
- 사전학습 (Pre-training): 기반 모델을 만드는 대공사. 보통 빅테크만 함.
- 파인튜닝 (Fine-tuning): 기존 모델에 우리 데이터로 추가 학습. 양복 기성복을 몸에 맞게 수선.
- LoRA: 모델 전체 안 건드리고 얇은 덧옷만 입히는 경량 파인튜닝.
- RAG (검색증강생성): 답하기 전에 우리 문서를 찾아보고 답하는 방식. 오픈북 시험.
- SFT (지도학습): 모범답안 쌍을 보여주고 흉내 내게 하는 학습.
- RLHF / DPO: 사람이 좋다/나쁘다 피드백을 주면 AI가 선호 방향으로 고치는 학습.
- 컨텍스트 윈도우: 한 번에 읽을 수 있는 글 분량 한도. Claude Opus 4.7은 200K~ 토큰.
D. 인프라·배포
- GPU: AI 학습·추론의 엔진. NVIDIA H100이 현재 최상급.
- 추론 (Inference): 이미 학습된 AI에게 질문해서 답 받는 과정.
- 서빙: AI를 실제 서비스로 돌려놓는 작업.
- 온프레미스: 우리 서버에 직접 설치. 외부 전송 없음.
- API: 외부 서비스(OpenAI 등)를 전화선처럼 빌려 쓰는 방식.
- sLLM: 경량 소형 언어모델. 노트북·스마트폰에서도 돌아감.
E. 품질·평가
- 환각 (Hallucination): AI가 그럴듯하게 지어내는 거짓 답.
- 가드레일: 위험·편향 답변을 차단하는 안전장치.
- 벤치마크: 정해진 시험 문제집으로 AI 실력 측정.
- 홀드아웃 / 평가셋: 학습엔 안 쓰고 시험용으로 따로 빼둔 데이터.
F. 운영 원칙
- PDCA: Plan–Do–Check–Act. 계획–실행–실측 점검–반영의 양육 순환.
- 피드백 루프: 사용자 피드백이 다시 학습 재료로 돌아오는 구조.
- 거버넌스: AI 개발·운영의 책임자·윤리·규칙 체계.
- 데이터 주권: 우리 데이터는 우리가 통제. 해외 서버에 넘기지 않음.
- 오픈소스: 누구나 쓰고 고쳐서 되돌려주는 공개 코드 생태계.
G. 문서·제품
- MCP (Model Context Protocol): AI에게 외부 도구·데이터를 물려주는 규격. 요즘 표준.
- 스킬: AI가 특정 상황에 따라 호출하는 기능 모음.
- MVP (최소기능제품): 일단 가장 작게 만들어 써보는 첫 버전.
- POC (개념 증명): “이게 되긴 하는가?”를 증명하는 실증 단계.
H. 조합·사회연대경제 맥락 키워드
- 품아이: 품앗이생협·사회연대경제 도메인 특화 AI 프로젝트 이름.
- 양육: 제품으로 완성하는 게 아니라 쓰면서 같이 자라게 하는 철학.
- 조합원 자산: 사용자 피드백·데이터가 조합원 공동 자산이 되는 구조.