ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • [빅데이터분석기사 필기 요약] I.빅데이터 분석 기획 - 01. 빅데이터의 이해 (1)
    자격증/빅데이터분석기사-필기 2021. 3. 10. 12:35
    728x90
    반응형

    빅데이터분석기사 필기 요약

    🔑 빅데이터/ DIKW피라미드/ 3V/ 5V/ 7V/ 정형/ 반정형/ 비정형/ 암묵지/ 형식지/
           책임원칙/ 빅데이터조직/ 하드스킬/ 소프트스킬

     

    I. 빅데이터 분석 기획

       01. 빅데이터의 이해

          1. 빅데이터 개요 및 활용

          

     



     

    1. 빅데이터 개요 및 활용

     

    [1] 빅데이터 특징

     

    (1) 빅데이터 개념 | 수십 TB의 데이터 및 데이터 분석 기술/ DIKW pyramid

    • 빅데이터
      - 수십 테라바이트(TB) 이상의 막대한 양의 정형/비정형 데이터
      - 데이터로부터 가치를 추출하고, 결과를 분석하는 기술

    • DIKW 피라미드: 데이터 → 정보 → 지식 → 지혜
      - Data (데이터): 객관적 사실/ 순수한 수치나 기호
      - Information (정보): 데이터를 가공 및 처리 → 연관관계&의미가 도출된 데이터
      - Knowledge (지식): 정보를 구조화분류&일반화시킨 결과물, 규칙
      - Wisdom (지혜): 근본 원리에 대한 깊은 이해를 바탕으로 도출되는 창의적 아이디어/ 상황,
                                       맥락에 맞게 규칙을 적용하는 요소

    • Byte 크기 비교 (KMGT PEZY)
      - KB < MB < GB < TB < PB < EB < ZB < YB
      - 킬로 < 메가 < 기가 < 테라 < 페타 < 엑사 < 제타 < 요타
      - 테라바이트 = 10^12 바이트

     

     

    (2) 빅데이터 특징 | 규모, 다양성, 속도 + 신뢰성, 가치 + 정확성, 휘발성

    • 3V: Volume, Variety, Velocity
      - Volume (규모): 빅데이터 분석 규모
      - Variety (다양성): 자원 유형 ⇒ 정형/ 반정형/ 비정형
      - Velocity (속도): 수집/ 분석/ 활용속도 ⇒ 실시간성/ 처리속도 가속화

    • 5V: 3V + Veracity, Value
      - Veracity (신뢰성): 데이터가 가지는 신뢰 및 품질
      - Value (가치): 데이터를 통해 얻을 수 있는 가치 (정확성, 시간성과 관련됨)

    • 7V: 5V + Validity, Volatility
      - Validity (정확성): 데이터가 가지는 유효성 및 정확성
      - Volatility (휘발성): 데이터가 의미가 있는 기간 (장기적인 관점에서 유용한 가치를 창출해야 함)

     

     

    (3) 빅데이터의 유형 | 구조적 관점에서 정형, 반정형, 비정형으로 구분

    • 정형: 스키마 구조/ 고정필드(속성)/ DBMS에 저장
      - Oracle, MS-SQL 등의 관계형 데이터베이스

    • 반정형: 고정필드X / 메타 데이터 or 스키마 정보 포함
      - XML, HTML, JSON 등

    • 비정형: 고정필드X / 메타 데이터X / 스키마X
      - 데이터 각각이 객체로 구분됨
      - 텍스트, 문서, 이진 파일, 이미지, 동영상 등

     

    (︶^︶)스키마란, DB에서 자료의 구조, 표현방법, 자료 간 관계를 형식언어로 정의한 구조

     

     

    (4) 데이터 지식경영 | 데이터 기반 지식격영의 핵심 이슈는 암묵지와 형식지의 상호작용에 있음

    • 지식구분: 암묵지, 형식지
      - 암묵지: 학습 및 경험으로 개인에게 체화되어 있음/ 겉으로 드러나지 않음/ 공유되기 어려움
      - 형식지: 문서 및 매뉴얼/ 형상화된 지식/ 전달 및 공유하기 쉬움

    • 상호작용: 내면화, 공통화, 표출화, 연결화
      - 공통화: 암묵지 → 암묵지/ 다른사람과 대화 등의 상호작용 (인수인계..)
      - 내면화: 형식지 → 암묵지/ 교육 등을 통해 체화 (공부..)
      - 표출화: 암묵지 → 형식지/ 내재된 경험을 문서화 및 매체화 (논문 퍼블리시..)
      - 연결화: 형식지가 상호결합하여 새로운 형식지 창출 (후속 연구..)

     

     


     

    [2] 빅데이터의 가치

     

    (1) 빅데이터의 가치

    • 경제적 자산/ 불확실성 제거/ 리스크 감소/ 스마트한 경쟁력/ 타 분야 융합

     

     

    (2) 빅데이터 가치 산정이 어려운 이유 | 다양함 & 새로움..

    • 데이터 활용 방식의 다양화: 특정 데이터를 언제, 어디서, 누가 활용할 지 알 수 없음/ 기존에 풀 수 없던 문제해결
    • 새로운 가치 창출: 기존에 없던 가치를 창출
    • 분석기술의 급속한 발전: 분석 비용이 저렴해지면서 활용도가 증가함

     

     

    (3) 빅데이터 영향

    • 기업: 비즈니스 모델 혁신/ 신사업 발굴/ 경쟁우위 확보/ 생산성 향상
    • 정보: 사회변화 추정/ 환경 탐색/ 상황 분석/ 미래 의제 도출 및 대응
    • 개인: 빅데이터 서비스를 저렴하게 활용/ 적시에 필요한 정보 획득

     

     

    (4) 빅데이터 위기 요인 및 통제 방안 | 책임 원칙/ 사용자 책임

    • 빅데이터 위기 요인: 사생활 침해/ 책임원칙 훼손/ 데이터 오용
      - 사생활 침해: 인스타에 여행 간다고 자랑함 → 집에 강도 침입ㅠ
      - 책임원칙 훼손: 민주주의 국가 원리는 잠재적 위협이 아니라, 명확한 결과에 대한 책임을 물음
      - 데이터 오용: 언제나 맞을 수는 없다는 오류, 잘못된 지표를 사용하는 오용

    • 위기 요인에 대한 통제 방안: 알고리즘에 대한 접근 허용/ 책임의 강조/ 결과 기반의 책임 적용
      - 알고리즘에 대한 접근 허용: 알고리즘을 통해 불이익 당한 사람들을 위해 "알고리즈미스트"라는 전문가 필요
      - 책임의 강조: 개인정보를 사용하는 "사용자"의 책임을 강조

     


     

    [3] 빅데이터 산업의 이해

     

    (1) 빅데이터 산업 개요

    • 클라우드 컴퓨팅 기술의 발전 → 데이터 처리 비용 급감 → 빅데이터 발전
    • 주요국, 글로벌 기업: 산업 육성 및 "활용"에 주력
    • 우리나라: 데이터 생산량은 많음/ "활용"은 저조

     

    (︶^︶)클라우드 컴퓨팅이란, 인터넷을 통해 다수의 사용자들에게
                         가상화된 컴퓨터의 시스템 리소스를 요구하는 즉시 '서비스'로 제공하는 컴퓨팅 기술

     

     

    (2) 산업별 빅데이터 활용: 의료 및 건강/ 과학기술/ 정보보안/ 제조 및 공정/ 소비 및 거래/ 교통 및 물류

     

     


     

    [4] 빅데이터 조직 및 인력

     

    (1) 빅데이터 조직 설계

    • 빅데이터 업무 프로세스: 빅데이터 도입 → 구축 → 운영

    • 조직 구조 설계 요소: 업무 활동/ 부서화/ 보고 체계
      - 수직 업무 활동: 우선순위 결정
      - 수평 업무 활동: 업무 프로세스 절차별로 배분

    • 조직 구조 유형: 집중 구조(별도)/ 기능 구조(각자)/ 분산 구조(배치)
      - 집중: 전사의 분석 업무를 별도 조직에서 담당 (한 부서에서 옴팡 뒤집어씀..)
      - 기능: 해당 부서에서 각자 분석 수행 (전사적인 분석 어려움..)
      - 분산: 분석 조직 인력들을 현업 부서로 배치 (업무 과다..베스트 프랙티스 공유 가능)

    • 조직 구조의 설계 특성: 공식화(기준설정)/ 분업화/ 직무 전문화/ 통제 범위(인원수)/ 의사소통 및 조정

     

     

    (2) 조직 역량 | 지속적인 경영과 성과 달성을 위해 중요한 요소

    • 역량 모델링: 목표 달성을 위해 우수 성과자의 기여가 중요함
      - 직무별 역량 모델: 우수 성과자의 직무 역량 요소들을 도출하여 만든다

    • 데이터 사이언티스트의 요구역량: 하드 스킬, 소프트 스킬
      - 하드 스킬(Hard skill):
         이론적 지식(기법, 방법론 습득)/ 분석기술의 숙련도(노하우)
      - 소프트 스킬(Soft skill):
         통찰력(논리적 비판, 호기심 등)/ 협력(커뮤니케이션)/ 전달력(스토리텔링, 비주얼라이제이션)

      - 가트너(Gartner): 분석 모델링, 데이터 관리, 소프트 스킬, 비즈니스 분석

     

    (︶^︶)데이터 사이언티스트란, 복잡한 비즈니스 문제를 모델링, 인사이트를 도출하여
                        통계학, 알고리즘, 데이터 마이닝, 시각화 기법 등을 통해 가치를 찾아내는 사람

     

     

    • 역량 모델 개발 절차:
      조직의 미션,성과목표,핵심성공요인 검토 → 조직 구성원의 행동특성 도출 → 역량 도출 → 역량 모델 확정
    • 역량 교육 체계 설계 절차:
      요구사항 분석 → 직무별 역량모델 검토 → 역량 차이 분석 → 직무 역량 매트릭스 → 교육 체계 설계

     

     

    (3) 조직성과 평가 | 개인성과 관리가 중요 →  목표설정 위한 핵심성공요인(CSF), 목표달성 위한 핵심성과지표(KPI) 정의

    • 조직성과 평가 절차: 목표 설정 → 모니터링 → 목표 조정 → 평가 실시 → 결과의 피드백
    • 균형 성과표(BSC; Balanced Score Card) 4가지 관점: 재무/ 고객/ 내부 프로세스/ 학습 및 성장

     


     

    참고 도서: 빅데이터분석기사 필기_수제비 2021

     

     

    728x90
    반응형