품앗이 위키

❯

❯

세계 사회연대경제와 AI

❯

❯

Pleias Common Corpus

Pleias Common Corpus

2026년 4월 30일2 min read

LLM학습데이터
코퍼스
다국어
오픈소스
Pleias
데이터주권

Pleias Common Corpus

← 자료원 인덱스

핵심 위치

최대 규모 오픈 다국어 LLM 학습 데이터셋. Pleias 발간. 영어 편향을 줄이고 다양한 언어로 LLM을 만들 수 있도록 설계된 정본 코퍼스. 품아이 사전학습·추가학습 후보 1번.

5대 sub-corpora

OpenGovernment — 공공·정부 자료
OpenCulture — 문화·예술 자료
OpenScience — 과학·학술 자료
OpenWeb — 웹 콘텐츠
OpenSource — 오픈소스 코드

우리 사업 시사점

품아이 학습 데이터 후보 1번: 한국어·다국어 자원 보강
데이터 주권 운동 노선과 정합 — 빅테크 비공개 코퍼스에 의존하지 않고 공개 출처 학습
도메인AI 사업 학습 파이프라인에서 외부 학습 데이터 정당성 확보 (모든 출처 공개·재현 가능)

관련 자료

OSCAR Project (Open Super-large Crawled Aggregated coRpus) — 다국어 ML 데이터 보완: https://oscar-project.org/

정본 자료

발표 글: https://thealliance.ai/blog/pleias-releases-common-corpus-open-multilingual-dataset-for-llm-training

후속 과제

한국어 sub-corpus 분량·품질 확인
품아이 학습 파이프라인에 통합 가능성 검토 (rag/ + finetune/ 폴더)

그래프 뷰

Pleias Common Corpus
핵심 위치
5대 sub-corpora
우리 사업 시사점
관련 자료
정본 자료
후속 과제

백링크

SSE+AI 자료원 인덱스

Created with Quartz v4.5.2 © 2026

GitHub
Discord Community