L0 데이터의 본질
두 시험 공통 기초. 가장 먼저 채울 레벨.
학습 원칙 (2026-05-15 김성훈 정정): 비유 개념만으로 이해하지 말 것. 약자는 전체 단어, 물리적 실체가 있으면 그것을 명시. 비유는 보조로만, 정확한 단어와 실체가 척추.
데이터
- 영어: Data (라틴어 datum “주어진 것”의 복수형)
- 직역: 주어진 것들
- 한 줄: 가공되지 않은, 의미가 아직 부여되지 않은 사실·기호·값
- 예시: POS row “2026-05-15 14:32 사과 3000” — 이 자체는 데이터. 무엇을 의미하는지는 아직 모름
- 시험 출제: 빅분기 1과목
- 연관: DIKW, 정보, 지식, 지혜
DIKW
- 영어: Data-Information-Knowledge-Wisdom Pyramid
- 직역: 데이터-정보-지식-지혜 피라미드
- 한 줄: 원시 데이터가 의미·패턴·판단으로 변환되는 4단계 계층 모델
- 예시:
- D(데이터): “사과 3000원” POS row
- I(정보): “5월에 사과가 가장 많이 팔렸다” (의미·맥락 부여)
- K(지식): “제철 과일은 판매량이 3배 오른다” (패턴·법칙)
- W(지혜): “다음 달 제철 과일 발주 30% 늘린다” (판단·실천)
- 시험 출제: 빅분기 1과목 단골
김성훈 통찰: “분석도 지식, 활용이 지혜” — K와 W의 경계는 패턴 발견이냐 실제 결정이냐로 나뉜다.
- 연관: 데이터, 정보, 지식, 지혜, 메타데이터, 빅데이터 5V
정보
- 영어: Information
- 직역: in(안에) + form(형태) → 형태를 부여하는 것
- 한 줄: 데이터에 의미·맥락이 부여된 것. DIKW의 I 단계
- 예시: “5월 사과 판매량 상위 3위” — 데이터 여러 개를 모아 의미를 만든 결과
- 시험 출제: 빅분기 1과목
- 연관: DIKW, 데이터, 지식
지식
- 영어: Knowledge
- 직역: 알고 있는 것 (고어 영어 cnawan “알다”에서)
- 한 줄: 정보에서 발견한 패턴·법칙·규칙. DIKW의 K 단계
- 예시: “품앗이생협에서 제철 과일은 판매량이 비제철 대비 3배 오른다” — 반복 정보에서 추출한 법칙
- 시험 출제: 빅분기 1과목
- 연관: DIKW, 정보, 지혜, SECI 모델
지혜
- 영어: Wisdom
- 직역: 고어 영어 wisdōm “현명함, 경험·판단력”
- 한 줄: 지식을 바탕으로 한 판단·결정·실천. DIKW의 W 단계
- 예시: “다음달 제철 과일 발주 30% 증가 결정” — 지식을 현장 행동으로 연결
- 시험 출제: 빅분기 1과목
김성훈 통찰: “활용이 지혜” — 분석(K)과 달리 지혜(W)는 행동을 유발한다.
- 연관: DIKW, 지식, 메타데이터
정형 데이터
- 영어: Structured Data
- 직역: 구조화된 데이터
- 한 줄: 행(row)과 열(column)로 정리된, 미리 정의된 스키마를 가진 데이터
- 예시: Supabase의 POS 판매 테이블, 엑셀 회원 명부 — 칼럼이 고정되어 있고 각 row가 같은 구조를 가짐
- 시험 출제: 빅분기 1과목, 정처기
김성훈 통찰: “Supabase는 정형. 테이블·행·열·스키마가 고정된 RDB.”
- 연관: 반정형 데이터, 비정형 데이터, RDB, ETL
반정형 데이터
- 영어: Semi-structured Data
- 직역: 반(半)구조화된 데이터
- 한 줄: 키-값(key-value) 쌍은 있지만 행·열의 고정 스키마는 없는 데이터
- 예시: POS 영수증 JSON
{"date":"2026-05-15","item":"사과","price":3000}, XML, HTML, 서버 로그 - 시험 출제: 빅분기 1과목
김성훈 통찰: “코딩(프로그램 코드)은 반정형이자, 비정형↔정형의 브릿지. ETL의 T(Transform)가 이 변환을 담당.”
- 연관: 정형 데이터, 비정형 데이터, JSON, XML, ETL
비정형 데이터
- 영어: Unstructured Data
- 직역: 구조 없는 데이터
- 한 줄: 행·열·키-값 어느 것도 없는, 자유 형식의 데이터. 빅데이터의 약 80% 차지
- 예시: 매장 CCTV 영상, 인스타그램 사진, 고객 문자 “오늘 사과 싱싱하던데요”
- 시험 출제: 빅분기 1과목
김성훈 통찰: “ChromaDB는 비정형(텍스트·벡터)을 정형화한 것. 벡터 임베딩이 비정형→정형 브릿지.”
- 연관: 정형 데이터, 반정형 데이터, ETL, 빅데이터 5V
메타데이터
- 영어: Metadata (meta + data)
- 직역: meta(그리스어: ~위에, ~넘어서) + data → 데이터에 관한 데이터
- 한 줄: 데이터의 속성·맥락·구조를 기술하는 데이터
- 3종:
- Descriptive(기술적): 찾기 위한 정보 (파일명, 태그, 카테고리)
- Structural(구조적): 조립 방식 (페이지 순서, 테이블 관계)
- Administrative(관리적): 관리 정보 (생성일, 권한, 버전)
- 목적 4개: 검색 → 분석 → 활용 → 관리 (DIKW 계층과 대응)
- 예시: 상품 바코드 스캔 → “사과/관저점/2026-05-15/3000원” 메타데이터가 POS 데이터를 의미있게 만듦
- 시험 출제: 빅분기 1과목
김성훈 통찰: “카테고리·라벨로 분석 → 메타데이터가 DIKW의 I(정보) 단계를 가능하게 하는 기반.”
- 연관: DIKW, 정형 데이터, 빅데이터 5V
빅데이터 5V
- 영어: Big Data 5V (Volume·Velocity·Variety·Veracity·Value)
- 직역: 규모·속도·다양성·진실성·가치
- 한 줄: 빅데이터를 정의하는 5가지 특성. 이 5V가 충족될 때 가치를 만들 수 있음
- 시험 출제: 빅분기 1과목 단골
김성훈 통찰: “거꾸로 보면 스몰데이터 환경. 5V 부족 → 가치 못 만듦 → 암묵지를 형식지로 만드는 것이 과제.” → SECI 모델의 Externalization(표출화)이 해법.
- 연관: Volume, Velocity, Variety, Veracity, Value, SECI 모델, 정형/반정형/비정형
Volume (규모)
- 영어: Volume
- 직역: 부피, 양
- 한 줄: 데이터의 크기·양. TB(테라바이트)·PB(페타바이트) 단위
- 예시: 품앗이생협 19개 매장 POS 누적 거래 데이터 수백만 row
- 시험 출제: 빅분기 1과목
- 연관: 빅데이터 5V
Velocity (속도)
- 영어: Velocity
- 직역: 속도 (라틴어 velocitas)
- 한 줄: 데이터가 생성·처리·분석되는 속도. 실시간 스트리밍 처리 필요
- 예시: 매장 CCTV 영상 초당 30프레임, POS 결제 즉시 Supabase 저장
- 시험 출제: 빅분기 1과목
- 연관: 빅데이터 5V, RTOS
Variety (다양성)
- 영어: Variety
- 직역: 다양성, 종류
- 한 줄: 정형·반정형·비정형 등 다양한 형식의 데이터가 혼재함
- 예시: POS 정형 + 영수증 JSON 반정형 + CCTV 비정형이 동시에 발생
- 시험 출제: 빅분기 1과목
- 연관: 빅데이터 5V, 정형/반정형/비정형
Veracity (진실성)
- 영어: Veracity
- 직역: 라틴어 verax(진실한) → 진실성, 정확성
- 한 줄: 데이터의 신뢰성·정확성. 노이즈·오류·편향이 없어야 가치 있음
- 예시: POS 오입력(사과를 배로 잘못 스캔) → Veracity 낮음 → 분석 결과 왜곡
- 시험 출제: 빅분기 1과목
- 연관: 빅데이터 5V, 데이터 품질
Value (가치)
- 영어: Value
- 직역: 가치 (라틴어 valere “강하다, 가치 있다”)
- 한 줄: 빅데이터 분석의 최종 목적. 비즈니스·사회적 가치 창출
- 예시: POS 데이터 분석 → 발주 최적화 → 폐기율 감소 → 매출 증가 = Value 실현
- 시험 출제: 빅분기 1과목
김성훈 통찰: “5V가 부족하면 가치를 만들 수 없다. 스몰데이터 환경에서 암묵지를 형식지로 만드는 것이 Value 창출의 첫 단계.”
- 연관: 빅데이터 5V, DIKW (W=지혜), SECI 모델
SECI 모델
- 영어: SECI Model (Socialization · Externalization · Combination · Internalization)
- 직역: 사회화·표출화·연결화·내면화
- 만든 사람: 노나카 이쿠지로 (野中郁次郎, Nonaka Ikujiro)
- 한 줄: 암묵지와 형식지가 4단계를 순환하며 조직 지식이 창출되는 모델
| 단계 | 방향 | 어원 접두사 | 설명 |
|---|---|---|---|
| Socialization (사회화) | 암묵지 → 암묵지 | socio-(함께) | 도제, 관찰, 현장 체험 |
| Externalization (표출화) | 암묵지 → 형식지 | ex-(밖으로) | 말·글·도식으로 꺼냄 |
| Combination (연결화) | 형식지 → 형식지 | co-(같이) | 문서·데이터 분석·재조합 |
| Internalization (내면화) | 형식지 → 암묵지 | in-(안으로) | 읽고 배워 몸에 체화 |
- 예시:
- S: 신입 직원이 베테랑 옆에서 물건 진열 방식을 몸으로 배움
- E: 베테랑이 진열 노하우를 메뉴얼로 작성 (품아이 핵심)
- C: 메뉴얼을 모아 교육 자료 제작
- I: 신입이 자료 읽고 직접 해보며 체화
- 시험 출제: 빅분기 1과목 (지식경영)
김성훈 통찰: “E(표출화)가 품아이의 핵심. 매장 암묵지를 형식지로 만드는 것.” / “socio-(함께), ex-(밖), co-(같이), in-(안) 접두사 패턴으로 ETL의 E(Extract, 밖으로 꺼냄)도 같은 어원.”
- 연관: 빅데이터 5V, 암묵지, 형식지, ETL
ETL
- 영어: Extract · Transform · Load
- 직역: 추출 · 변환 · 적재
- 한 줄: 원본 데이터를 가져와(E) 가공하고(T) 목적지에 저장하는(L) 데이터 파이프라인 3단계
| 단계 | 어원 | 하는 일 |
|---|---|---|
| Extract | ex-(밖으로) + trahere(당기다) | 원본 DB·파일·API에서 데이터 꺼냄 |
| Transform | trans-(가로질러) + formare(형태 만들다) | 정제·변환·형식 통일 |
| Load | 라틴어 ladere “싣다” | 목적지 DB·창고에 저장 |
- 예시: 넷포스 POS 데이터(E) → 카테고리 정리·NULL 제거(T) → Supabase 저장(L)
김성훈 통찰: “코딩이 하는 일이 ETL. 비정형↔정형 사이의 브릿지.”
- 시험 출제: 빅분기 2과목, 정처기
- 연관: 정형/반정형/비정형, SECI 모델, 데이터 파이프라인