Pleias Common Corpus
← 자료원 인덱스
핵심 위치
최대 규모 오픈 다국어 LLM 학습 데이터셋. Pleias 발간. 영어 편향을 줄이고 다양한 언어로 LLM을 만들 수 있도록 설계된 정본 코퍼스. 품아이 사전학습·추가학습 후보 1번.
5대 sub-corpora
- OpenGovernment — 공공·정부 자료
- OpenCulture — 문화·예술 자료
- OpenScience — 과학·학술 자료
- OpenWeb — 웹 콘텐츠
- OpenSource — 오픈소스 코드
우리 사업 시사점
- 품아이 학습 데이터 후보 1번: 한국어·다국어 자원 보강
- 데이터 주권 운동 노선과 정합 — 빅테크 비공개 코퍼스에 의존하지 않고 공개 출처 학습
- 도메인AI 사업 학습 파이프라인에서 외부 학습 데이터 정당성 확보 (모든 출처 공개·재현 가능)
관련 자료
- OSCAR Project (Open Super-large Crawled Aggregated coRpus) — 다국어 ML 데이터 보완: https://oscar-project.org/
정본 자료
- 발표 글: https://thealliance.ai/blog/pleias-releases-common-corpus-open-multilingual-dataset-for-llm-training
후속 과제
- 한국어 sub-corpus 분량·품질 확인
- 품아이 학습 파이프라인에 통합 가능성 검토 (rag/ + finetune/ 폴더)