L0 데이터의 본질

두 시험 공통 기초. 가장 먼저 채울 레벨.

학습 원칙 (2026-05-15 김성훈 정정): 비유 개념만으로 이해하지 말 것. 약자는 전체 단어, 물리적 실체가 있으면 그것을 명시. 비유는 보조로만, 정확한 단어와 실체가 척추.


데이터

  • 영어: Data (라틴어 datum “주어진 것”의 복수형)
  • 직역: 주어진 것들
  • 한 줄: 가공되지 않은, 의미가 아직 부여되지 않은 사실·기호·값
  • 예시: POS row “2026-05-15 14:32 사과 3000” — 이 자체는 데이터. 무엇을 의미하는지는 아직 모름
  • 시험 출제: 빅분기 1과목
  • 연관: DIKW, 정보, 지식, 지혜

DIKW

  • 영어: Data-Information-Knowledge-Wisdom Pyramid
  • 직역: 데이터-정보-지식-지혜 피라미드
  • 한 줄: 원시 데이터가 의미·패턴·판단으로 변환되는 4단계 계층 모델
  • 예시:
    • D(데이터): “사과 3000원” POS row
    • I(정보): “5월에 사과가 가장 많이 팔렸다” (의미·맥락 부여)
    • K(지식): “제철 과일은 판매량이 3배 오른다” (패턴·법칙)
    • W(지혜): “다음 달 제철 과일 발주 30% 늘린다” (판단·실천)
  • 시험 출제: 빅분기 1과목 단골

김성훈 통찰: “분석도 지식, 활용이 지혜” — K와 W의 경계는 패턴 발견이냐 실제 결정이냐로 나뉜다.

  • 연관: 데이터, 정보, 지식, 지혜, 메타데이터, 빅데이터 5V

정보

  • 영어: Information
  • 직역: in(안에) + form(형태) → 형태를 부여하는 것
  • 한 줄: 데이터에 의미·맥락이 부여된 것. DIKW의 I 단계
  • 예시: “5월 사과 판매량 상위 3위” — 데이터 여러 개를 모아 의미를 만든 결과
  • 시험 출제: 빅분기 1과목
  • 연관: DIKW, 데이터, 지식

지식

  • 영어: Knowledge
  • 직역: 알고 있는 것 (고어 영어 cnawan “알다”에서)
  • 한 줄: 정보에서 발견한 패턴·법칙·규칙. DIKW의 K 단계
  • 예시: “품앗이생협에서 제철 과일은 판매량이 비제철 대비 3배 오른다” — 반복 정보에서 추출한 법칙
  • 시험 출제: 빅분기 1과목
  • 연관: DIKW, 정보, 지혜, SECI 모델

지혜

  • 영어: Wisdom
  • 직역: 고어 영어 wisdōm “현명함, 경험·판단력”
  • 한 줄: 지식을 바탕으로 한 판단·결정·실천. DIKW의 W 단계
  • 예시: “다음달 제철 과일 발주 30% 증가 결정” — 지식을 현장 행동으로 연결
  • 시험 출제: 빅분기 1과목

김성훈 통찰: “활용이 지혜” — 분석(K)과 달리 지혜(W)는 행동을 유발한다.

  • 연관: DIKW, 지식, 메타데이터

정형 데이터

  • 영어: Structured Data
  • 직역: 구조화된 데이터
  • 한 줄: 행(row)과 열(column)로 정리된, 미리 정의된 스키마를 가진 데이터
  • 예시: Supabase의 POS 판매 테이블, 엑셀 회원 명부 — 칼럼이 고정되어 있고 각 row가 같은 구조를 가짐
  • 시험 출제: 빅분기 1과목, 정처기

김성훈 통찰: “Supabase는 정형. 테이블·행·열·스키마가 고정된 RDB.”

  • 연관: 반정형 데이터, 비정형 데이터, RDB, ETL

반정형 데이터

  • 영어: Semi-structured Data
  • 직역: 반(半)구조화된 데이터
  • 한 줄: 키-값(key-value) 쌍은 있지만 행·열의 고정 스키마는 없는 데이터
  • 예시: POS 영수증 JSON {"date":"2026-05-15","item":"사과","price":3000}, XML, HTML, 서버 로그
  • 시험 출제: 빅분기 1과목

김성훈 통찰: “코딩(프로그램 코드)은 반정형이자, 비정형↔정형의 브릿지. ETL의 T(Transform)가 이 변환을 담당.”

  • 연관: 정형 데이터, 비정형 데이터, JSON, XML, ETL

비정형 데이터

  • 영어: Unstructured Data
  • 직역: 구조 없는 데이터
  • 한 줄: 행·열·키-값 어느 것도 없는, 자유 형식의 데이터. 빅데이터의 약 80% 차지
  • 예시: 매장 CCTV 영상, 인스타그램 사진, 고객 문자 “오늘 사과 싱싱하던데요”
  • 시험 출제: 빅분기 1과목

김성훈 통찰: “ChromaDB는 비정형(텍스트·벡터)을 정형화한 것. 벡터 임베딩이 비정형→정형 브릿지.”

  • 연관: 정형 데이터, 반정형 데이터, ETL, 빅데이터 5V

메타데이터

  • 영어: Metadata (meta + data)
  • 직역: meta(그리스어: ~위에, ~넘어서) + data → 데이터에 관한 데이터
  • 한 줄: 데이터의 속성·맥락·구조를 기술하는 데이터
  • 3종:
    • Descriptive(기술적): 찾기 위한 정보 (파일명, 태그, 카테고리)
    • Structural(구조적): 조립 방식 (페이지 순서, 테이블 관계)
    • Administrative(관리적): 관리 정보 (생성일, 권한, 버전)
  • 목적 4개: 검색 → 분석 → 활용 → 관리 (DIKW 계층과 대응)
  • 예시: 상품 바코드 스캔 → “사과/관저점/2026-05-15/3000원” 메타데이터가 POS 데이터를 의미있게 만듦
  • 시험 출제: 빅분기 1과목

김성훈 통찰: “카테고리·라벨로 분석 → 메타데이터가 DIKW의 I(정보) 단계를 가능하게 하는 기반.”

  • 연관: DIKW, 정형 데이터, 빅데이터 5V

빅데이터 5V

  • 영어: Big Data 5V (Volume·Velocity·Variety·Veracity·Value)
  • 직역: 규모·속도·다양성·진실성·가치
  • 한 줄: 빅데이터를 정의하는 5가지 특성. 이 5V가 충족될 때 가치를 만들 수 있음
  • 시험 출제: 빅분기 1과목 단골

김성훈 통찰: “거꾸로 보면 스몰데이터 환경. 5V 부족 → 가치 못 만듦 → 암묵지를 형식지로 만드는 것이 과제.” → SECI 모델의 Externalization(표출화)이 해법.

  • 연관: Volume, Velocity, Variety, Veracity, Value, SECI 모델, 정형/반정형/비정형

Volume (규모)

  • 영어: Volume
  • 직역: 부피, 양
  • 한 줄: 데이터의 크기·양. TB(테라바이트)·PB(페타바이트) 단위
  • 예시: 품앗이생협 19개 매장 POS 누적 거래 데이터 수백만 row
  • 시험 출제: 빅분기 1과목
  • 연관: 빅데이터 5V

Velocity (속도)

  • 영어: Velocity
  • 직역: 속도 (라틴어 velocitas)
  • 한 줄: 데이터가 생성·처리·분석되는 속도. 실시간 스트리밍 처리 필요
  • 예시: 매장 CCTV 영상 초당 30프레임, POS 결제 즉시 Supabase 저장
  • 시험 출제: 빅분기 1과목
  • 연관: 빅데이터 5V, RTOS

Variety (다양성)

  • 영어: Variety
  • 직역: 다양성, 종류
  • 한 줄: 정형·반정형·비정형 등 다양한 형식의 데이터가 혼재함
  • 예시: POS 정형 + 영수증 JSON 반정형 + CCTV 비정형이 동시에 발생
  • 시험 출제: 빅분기 1과목
  • 연관: 빅데이터 5V, 정형/반정형/비정형

Veracity (진실성)

  • 영어: Veracity
  • 직역: 라틴어 verax(진실한) → 진실성, 정확성
  • 한 줄: 데이터의 신뢰성·정확성. 노이즈·오류·편향이 없어야 가치 있음
  • 예시: POS 오입력(사과를 배로 잘못 스캔) → Veracity 낮음 → 분석 결과 왜곡
  • 시험 출제: 빅분기 1과목
  • 연관: 빅데이터 5V, 데이터 품질

Value (가치)

  • 영어: Value
  • 직역: 가치 (라틴어 valere “강하다, 가치 있다”)
  • 한 줄: 빅데이터 분석의 최종 목적. 비즈니스·사회적 가치 창출
  • 예시: POS 데이터 분석 → 발주 최적화 → 폐기율 감소 → 매출 증가 = Value 실현
  • 시험 출제: 빅분기 1과목

김성훈 통찰: “5V가 부족하면 가치를 만들 수 없다. 스몰데이터 환경에서 암묵지를 형식지로 만드는 것이 Value 창출의 첫 단계.”

  • 연관: 빅데이터 5V, DIKW (W=지혜), SECI 모델

SECI 모델

  • 영어: SECI Model (Socialization · Externalization · Combination · Internalization)
  • 직역: 사회화·표출화·연결화·내면화
  • 만든 사람: 노나카 이쿠지로 (野中郁次郎, Nonaka Ikujiro)
  • 한 줄: 암묵지와 형식지가 4단계를 순환하며 조직 지식이 창출되는 모델
단계방향어원 접두사설명
Socialization (사회화)암묵지 → 암묵지socio-(함께)도제, 관찰, 현장 체험
Externalization (표출화)암묵지 → 형식지ex-(밖으로)말·글·도식으로 꺼냄
Combination (연결화)형식지 → 형식지co-(같이)문서·데이터 분석·재조합
Internalization (내면화)형식지 → 암묵지in-(안으로)읽고 배워 몸에 체화
  • 예시:
    • S: 신입 직원이 베테랑 옆에서 물건 진열 방식을 몸으로 배움
    • E: 베테랑이 진열 노하우를 메뉴얼로 작성 (품아이 핵심)
    • C: 메뉴얼을 모아 교육 자료 제작
    • I: 신입이 자료 읽고 직접 해보며 체화
  • 시험 출제: 빅분기 1과목 (지식경영)

김성훈 통찰: “E(표출화)가 품아이의 핵심. 매장 암묵지를 형식지로 만드는 것.” / “socio-(함께), ex-(밖), co-(같이), in-(안) 접두사 패턴으로 ETL의 E(Extract, 밖으로 꺼냄)도 같은 어원.”

  • 연관: 빅데이터 5V, 암묵지, 형식지, ETL

ETL

  • 영어: Extract · Transform · Load
  • 직역: 추출 · 변환 · 적재
  • 한 줄: 원본 데이터를 가져와(E) 가공하고(T) 목적지에 저장하는(L) 데이터 파이프라인 3단계
단계어원하는 일
Extractex-(밖으로) + trahere(당기다)원본 DB·파일·API에서 데이터 꺼냄
Transformtrans-(가로질러) + formare(형태 만들다)정제·변환·형식 통일
Load라틴어 ladere “싣다”목적지 DB·창고에 저장
  • 예시: 넷포스 POS 데이터(E) → 카테고리 정리·NULL 제거(T) → Supabase 저장(L)

김성훈 통찰: “코딩이 하는 일이 ETL. 비정형↔정형 사이의 브릿지.”

  • 시험 출제: 빅분기 2과목, 정처기
  • 연관: 정형/반정형/비정형, SECI 모델, 데이터 파이프라인