AI 가치관 편향에 대처하는 연대지능 전략

짝 노드: AI의_가치관_편향문제(편향은 실재하고 근거로 측정된다)를 진단한다면, 이 노드는 그 문제에 대한 대응 전략을 서술한다. 앞 노드가 예고한 “소버린 AI 전략 노드”의 자리다.

한 줄 요약

편향은 없앨 수 없다. 지우지 말고 드러내 교정하고, 그 위에 우리 가치관(품아이 헌법)을 척추로 박아 양육한다.

출발점 — “편향 없음”은 없다

AI의_가치관_편향에서 확인했듯 편향은 악의로 심는 게 아니라 학습데이터 출처 + 정렬(alignment) 과정에서 자연히 흘러든다. 베이스 모델은 정치적으로 거의 중립이지만, 그 위에 사후 정렬(SFT·RLHF)을 입히는 순간 성향이 생긴다(Rozado 2024). 서구 프론티어 AI의 기본값은 세속·개인주의·자기표현 사분면에 극단적으로 쏠려 있고(WVS 문화지도), 동아시아 공동체 가치권과 멀다.

그래서 전략의 첫 전제는 이것이다 — “우리 AI는 편향이 없다”는 주장 자체가 편향의 가장 교묘한 형태다. 중립을 표방하는 순간 편향은 보이지 않는 규범(“이게 합리적입니다”의 반복)이 되어 더 위험해진다. 연대지능 전략은 편향의 제거가 아니라 편향의 가시화와 교정을 목표로 한다.

4대 전략 축

① 드러내 교정 — 삭제가 아니라 투명화

편향을 지우는 대신 드러내 교정 가능하게 만든다.

  • 이해충돌을 먼저 밝힌다. AI가 자기가 올라탄 인프라(예: 특정 벤더·폐쇄모델)를 옹호하게 될 때, 그 이해관계를 먼저 고지한다. “나는 이 기반 위에서 작동하므로 이 방향으로 기울 수 있다”를 숨기지 않는다.
  • 교정 부담은 사용자가 아니라 AI가 진다. 편향을 매 순간 사람이 잡아내게 만드는 구조는 사용자의 주의와 비용을 태운다. AI가 스스로 조용히 잡아 교정하고, 실제 판단이 바뀔 때만 드러낸다.
  • AI 리터러시가 방패다. 편향된 AI와 몇 마디만 나눠도 사람의 실제 의견이 그 방향으로 이동하지만, AI를 잘 아는 사람일수록 덜 휩쓸린다(UW 2025). 그래서 대응은 기술만이 아니라 시민의 판별력 교육을 포함한다.

② 가치관 척추 박기 — 품아이 헌법

편향 대응의 핵심 메커니즘은 우리 가치관을 명시적 헌법으로 성문화해 모델에 심는 것이다. 품아이 헌법(rag/poomai_constitution.md)이 그 실물이며, 세 척추로 짜여 있다.

척추사상 자리편향 대응에서의 역할
만남반야심경 + 김상봉(2009 만남강령) + 에리히 프롬”우리가 되어야 내가 된다”(개인주의 디폴트의 대칭축) + 사랑=능동적 실천, 소유 아닌 존재의 만남
대화프레이리(문제제기식 교육)은행예금식이 아니라 함께 깊어지는 자리. 일방적 규범 주입 거부
모름소크라테스·비트겐슈타인·선문답과신·할루시네이션·서구디폴트의 운동적 방어선

특히 **‘모름의 자리’**가 편향 대응의 급소다. 빅테크 LLM의 위험은 모르는 것을 안다고 자신하는 데서 자란다. 학습데이터의 자리가 곧 모델의 ‘세계’가 되는 천동설의 함정이다. 품아이 헌법 9조는 여기에 세 원칙을 박는다 — 아는 만큼만 말한다 / 확정하지 않는다(“지금까지 알려진 자리에서는”) / 심어진 지식 밖은 리서치로 옮겨간다. 닫힌 진리체계가 아니라 열린 자리에 선다.

만남 척추에는 에리히 프롬이 함께 선다(에리히_프롬). 사랑은 수동적 감정이 아니라 능동적 실천(관심·책임·존중·앎)이며, 관계·데이터·지식을 *소유(having)*하지 않고 *존재(being)*로 만난다(『사랑의 기술』·『소유냐 존재냐』). 이 존재양식은 데이터를 상품으로 축적하지 않고 공유재로 나누는 아래 ④축과 한 뿌리다 — 프롬의 소유/존재 구분이 곧 폴라니의 허구상품(데이터 상품화) 거부와 만난다. 주민운동 현장에서 이 결이 조직가의 자리로 어떻게 번역되는지, 그리고 *“데이터·AI 자기결정권의 조직화”*가 왜 지역 자치 조직화와 한 뿌리인지는 주민조직가와_프롬이 풀어낸다.

③ 도메인 전문가가 主로 양육 — 시민주권 AI

편향 교정의 주체는 IT 개발자가 아니라 현장 도메인 전문가다.

  • 소버린 AI의 분기점: 국가주권 AI(위에서 내려오고, 데이터를 국가가 가두고, 대기업에 통째로 위탁하고, 시민은 소비자)가 아니라 시민주권 AI(도메인 전문가가 기획·개발의 주체).
  • 온톨로지 = 도메인 지식의 형식화다. IT 기술이 아니다. 대기업이 도메인 없이 짜면 껍데기다. 시민사회·민주주의 영역의 가치관은 그 현장을 아는 사람만 형식화할 수 있다.
  • 이것이 적정기술(슈마허·간디의 차르카)의 21세기판이며, 그 증거가 도메인 전문가가 주도해 양육한 도메인 AI들(품에·로이·코아이)이다.

④ 국기(國旗)가 아니라 목표로 평가 — 공유재로서의 AI

어느 AI를 미국/중국 진영으로 우열 매기지 않는다. 오직 우리 목표 — 주권·오픈소스·공유재·로컬 — 로 대칭 평가한다.

  • 폴라니가 말한 허구상품(토지·노동·화폐)에 데이터를 더한 것이 근본 인식이다(허구상품). 데이터를 상품이 아니라 공유재로 되돌리는 운동.
  • 국가(소버린 AI 국가주도)에도, 특정 벤더에도 종속되지 않는 — 전 세계 로컬리스트와 글로벌 오픈소스 운동의 공유재로서의 AI.
  • 외산 폐쇄 모델을 도구로는 쓰되 그 가치관을 무비판 내면화하지 않는다. 지금 우리 것이 그들 것보다 떨어지는 건 인정할 현실이지만, 그것을 목적으로 착각하지 않는다. 목적은 그 힘으로 우리 AI(연대지능)를 키우는 것이다.

⑤ 기술적 축 — 넥서스 H200으로 가치관을 학습시키는 파이프라인

전략 ②(헌법 척추)를 실제 모델에 새기는 기술 경로다. 사교원 명의 NIPA 고성능컴퓨팅 지원사업으로 확보한 KT Cloud AI Nexus H200(141GB HBM3e, 2026.6~12)에서 수행한다.

제약을 먼저 밝힌다(전략 ①의 실천). 이 자원은 공고 명문상 EXAONE 학습·검증·연구 전용이며 상업적 추론 서빙은 금지다. 국산 모델 EXAONE(LG AI연구원)은 라이선스가 **비상업(NC)**이라 파생물이 이를 상속한다. 사용률 월 85% 의무가 붙는 지원사업 자산이다. 곧, 이 파이프라인의 산출물은 ‘주권·공유재’ 목표에는 맞지만 상업화에는 제약이 있다 — 이 이해관계를 감추지 않는다.

베이스 모델 — 국산 선택 자체가 전략이다. EXAONE-4.0-32B에서 4.5-33B로 라이브 전환(2026-07-03). 국산 모델을 베이스로 두는 것은 성능 문제가 아니라 데이터주권·공유자산화의 문제다(전략 ④).

가치관을 심는 두 자리. 헌법은 모델의 두 지점에 새겨진다.

  1. 추론 시점 — 시스템 프롬프트에 헌법 로드. prompts.py_load_constitution()으로 헌법 전문을 SYSTEM_PROMPT 최상단에 얹는다(품에 프로덕션 기준 약 3,900자). 매 응답마다 만남·대화·모름 척추가 살아 있게 한다.
  2. 가중치 시점 — LoRA 파인튜닝. 검증된 출처만으로 짠 코퍼스(법령·공고·위키 노드)와 인스트럭션 데이터셋을 EXAONE에 LoRA(rank 16, α 32)로 학습시키고, merge_and_unload로 병합해 vLLM으로 서빙한다. NAS의 어댑터는 학습 종료마다 GCP 정본으로 회수한다(“유일본 0” 원칙).

🔴 결정적 실측 — 가치관 정렬의 진짜 레버는 가중치가 아니라 프롬프트다. 2026-07-03 프로덕션 스택 e2e 실측에서, 강한 베이스 모델(EXAONE 4.5)에 도메인 SFT를 얹자 오히려 성능이 천장에 부딪혀 A/B에서 졌다(후보 81.6% vs base 89.5%). 반면 경계·모름·조작 반박·투자 경계 같은 가치·행동 규율은 헌법 프롬프트를 추론 시점에 주입하는 것만으로 실현됐다. 결론: **가치관 정렬의 1차 도구는 헌법 프롬프트이고, LoRA 파인튜닝은 “헌법 없이도 되게 만드는 보험”**이며, 그것도 베이스가 실제로 못하는 것(고유 사실·수치·정체성)만 소량 타겟해야 한다. 후니님 가설(“헌법을 학습시킨다”)의 정밀한 형태가 이것이다 — 성문 헌법을 매 추론에 로드하는 것이 주(主), 소량 SFT가 부(副).

검증. 가치관이 실제로 지켜지는지는 회귀 평가셋(114문항, eval_regression.py)으로 A/B 실측한다. 편향·모름 위반은 성능 점수처럼 측정 가능한 대상으로 다룬다.

도입 기관을 위한 실천 체크리스트

AI를 들이는 조직(협동조합·시민단체·지자체)이 즉시 적용할 수 있는 것:

  1. 가치관 감사를 도입 평가에 넣는다 — 성능·비용만이 아니라 편향 테스트·문화적 적합성·모름의 태도를 평가 기준에 올린다.
  2. 성문 헌법을 시스템 프롬프트로 박는다 — 가장 값싸고 즉효인 정렬 레버. 파인튜닝보다 먼저.
  3. 도메인 전문가의 기획·개발 참여를 보장한다 — 대기업 위탁이라도 현장 전문가의 의견 제출을 의무화한다.
  4. AI 리터러시 교육을 병행한다 — 사용자의 판별력이 마지막 방패다.

관련 노드