Pleias Common Corpus

자료원 인덱스


핵심 위치

최대 규모 오픈 다국어 LLM 학습 데이터셋. Pleias 발간. 영어 편향을 줄이고 다양한 언어로 LLM을 만들 수 있도록 설계된 정본 코퍼스. 품아이 사전학습·추가학습 후보 1번.

5대 sub-corpora

  1. OpenGovernment — 공공·정부 자료
  2. OpenCulture — 문화·예술 자료
  3. OpenScience — 과학·학술 자료
  4. OpenWeb — 웹 콘텐츠
  5. OpenSource — 오픈소스 코드

우리 사업 시사점

  • 품아이 학습 데이터 후보 1번: 한국어·다국어 자원 보강
  • 데이터 주권 운동 노선과 정합 — 빅테크 비공개 코퍼스에 의존하지 않고 공개 출처 학습
  • 도메인AI 사업 학습 파이프라인에서 외부 학습 데이터 정당성 확보 (모든 출처 공개·재현 가능)

관련 자료

정본 자료

후속 과제

  • 한국어 sub-corpus 분량·품질 확인
  • 품아이 학습 파이프라인에 통합 가능성 검토 (rag/ + finetune/ 폴더)