ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • [빅데이터분석기사 필기 요약] [빅분기 1과목 요약] I.빅데이터 분석 기획 - 요약 (1)
    자격증/빅데이터분석기사-필기 2021. 4. 10. 00:12
    728x90
    반응형

     


     

    [빅데이터분석기사 필기 1과목] I. 빅데이터 분석 기획

     

    01. 빅데이터의 이해

     

    • 빅데이터: 수십 TB 이상의 정형/비정형 데이터 & 데이터에서 가치추출&결과분석하는 기술
    • DIKW 피라미드: Data - Information - Knowledge - Wisdom
    Data 데이터 Information 정보 Knowledge 지식 Wisdom 지혜
    객관적 사실 데이터간 연관관계&의미도출 정보를 구조화&일반화 깊은이해 → 창의적 아이디어
    제품X가 사이트A에서 10,000원 제품X는 사이트A보다
    사이트B에서 더 비싸게 판매함
    사이트A에서 더 싸므로
    제품X를 구매할 계획임
    사이트B의 타제품들도 사이트A보다 더 비쌀 것으로 예측됨

     

     

    • 바이트 크기 비교: 킬로 < 메가 < 기가 < 테라(=10^12바이트) < 페타 < 엑사 < 제타 < 요타바이트 (KMGT PEZY)
    • 빅데이터 특징: 3V (규모/ 다양성/ 속도) - 5V (신뢰성/ 가치) - 7V (정확성/ 휘발성)
    규모     Volume
    다양성  Variety
    속도    Velocity
    뢰성  Veracity
    치           Value
    확성     Validity
    발성  Volatility
    - 규모: 정보량의 기하급수적 증가
    - 다양성: 정형/ 비정형/ 반정형
    - 속도: 실시간성/ 가속화 요구
    - 신뢰성: 노이즈&오류 제거로 품질향상
    - 가치: 정확성&시간성 관련
    - 정확성: 유효성/ 질높은 데이터
    - 휘발성: 데이터가 의미있는 기간

     

     

    • 구조적 관점의 빅데이터 유형: 정형/ 반정형/ 비정형
    정형 데이터 반정형 데이터 비정형 데이터
    스키마구조 O
    고정필드     O
    스키마구조 O
    메타데이터 O
    고정필드     X
    스키마구조 X
    메타데이터 X
    고정필드     X
    RDBMS (Oracle, MS-SQL)
    스프레드시트
    XML, JSON, HTML, RSS
    웹/시스템 로그, 알람, 센서 데이터
    텍스트, 이미지, 동영상, 오디오
    SNS, 이진파일

     

     

    • 데이터 지식경영 상호작용: 암묵지/ 형식지/ 내면화/ 공통화/ 표출화/ 연결화
    • 암묵지-형식지 간 4단계 지식전환단계: 공통화 - 표출화 - 연결화 - 내면화 (SECI)
    암묵지 형식지 내면화 공통화 표출화 연결화
    개인
    체화
    문서/매뉴얼
    형상화
    행동/실천교육
    형식 → 암묵
    대화/상호작용
    암묵 → 암묵
    문서화/매체화
    암묵 → 형식
    형식지
    상호결합

     

     

    • 빅데이터 위기요인: 사생활 침해/ 책임원칙 훼손/ 데이터 오용
    • 위기요인에 대한 통제방안: 알고리즘 접근 허용/ 책임 강조/ 결과기반 책임 적용

     

    • 빅데이터 산업
      - 클라우드 컴퓨팅 기술 발전으로 데이터 처리 비용 감소
      - 주요국&글로벌 기업은 빅데이터 산업육성&활용에 주력 → But 우리나라는 활용저조↓

     

    • 빅데이터 조직: 집중구조/ 기능구조/ 분산구조
    수직 업무활동 수평 업무활동 집중 구조 기능 구조 분산 구조
    우선순위 결정 프로세스별로
    업무 배분
    별도 전담부서
    우선순위 지정가능
    해당 부서에서 분석
    전사적 분석 어려움
    각 부서로 배치
    베스트 프랙티스 공유

     

     

    • 데이터 사이언티스트: 복잡한 비즈니스 문제를 모델링하고 인사이트를 도출하여
      통계학, 알고리즘, 데이터마이닝, 시각화 기법 등을 통해, 그 속에서 가치를 찾아내는 사람
    소프트 스킬 하드 스킬 가트너(Gartner)
    통찰력
    협력
    전달력
    이론적 지식
    기술 숙련도
    비즈니스 분석
    분석 모델링
    데이터 관리

    소프트 스킬

     

     

    • 역량 모델 개발 절차: 조직 미션&성과목표&CSF 검토 - 조직 구성원 행동특성 도출 - 역량 도출 - 역량 모델 확정
    • 핵심성공요인 (CSF): 목표성취를 위해 필요한 요소/ 기업 경쟁력 향상을 위한 핵심 내부역량
    • 핵심성과지표 (KPI): 목표가 달성되었는지 실적을 추적하기 위한 정량화된 측정지표
    • 균형 성과표(BSC)의 4가지 관점: 재무/ 고객/ 내부프로세스/ 학습&성장 → BSC를 통한 KPI 도출

     

     

     

    • 빅데이터 플랫폼: 빅데이터에서 가치를 추출하기 위한 수집-저장-처리-분석-시각화 과정을 규격화한 기술
    • 빅데이터 플랫폼 데이터 형식: HTML, XML, CSV, JSON
    HTML XML CSV JSON
    웹페이지 만들 때 사용
    구성: 텍스트, 태그, 스크립트
    SGML 문서형식
    다목적 마크업 언어
    쉼표로 필드 구분
    텍스트 데이터&파일
    JavaScript Object Notation
    <키-값>형태로 전달

     

     

    • 빅데이터 플랫폼 구축 소프트웨어 & 분산컴퓨팅 환경 소프트웨어 구성요소
    빅데이터 플랫폼 구축 소프트웨어 분산 컴퓨팅 환경 소프트웨어 구성요소
     R  - 오픈소스 프로그래밍 언어
    - 강력한 시각화 기능
    맵리듀스 
    Map Reduce
    - 맵: Key-Value 형태로 취합
    - 셔플: 통합/ - 리듀스: 정리
    우지 
    Oozie
    맵리듀스,피그 등으로
    구성된 워크플로우 제어
     얀  
    YARN
    - 자원 관리 플랫폼
    - 리소스 매니저/ 노드 매니저
    플럼 
    Flume
    - 대량 로그 수집
    - 이벤트&에이전트
    아파치
    스파크
    - 실시간 데이터 처리
    - 대규모 분산처리시스템
    HBase - 컬럼기반 저장소
    - HDFS와 인터페이스 제공
    HDFS - 분산된 서버에 저장/ 처리
    - 네임 노드/ 데이터 노드
    스쿱 
    Sqoop
    - SQL to Hadoop
    - RDBMS ↔ HDFS
    아파치
    하둡
    클라우드 플랫폼 위에서
    클러스터를 구성해 데이터 분석

     

     

    • 하둡 에코시스템: 수집/ 저장/ 처리기술 & 가공/ 분석/ 관리기술
    비정형 데이터 수집 정형 데이터 수집 분산 데이터 저장 및 처리
    척와
    Chukwa
    HDFS에 저장
    에이전트&컬렉터
    스쿱
    Sqoop
    대용량 전송 솔루션
    커넥터 사용
    저장: HDFS 분산서버에 저장,
    데이터 빠르게 처리
    플럼
    Flume
    대량 로그 수집
    에이전트&이벤트
    히호
    Hiho
    대용량 전송 솔루션
    깃허브에 공개됨
    처리: 맵리듀스 대용량 데이터셋
    분산 병렬 컴퓨팅
    스크라이브
    Scribe
    실시간 스트리밍
    대용량 로그 수집
        DB: HBase 컬럼기반 저장소

     

    기술 설명
    피그
    Pig
    - 대용량 데이터 집합 분석을 위한 플랫폼
    - 피그 라틴: 데이터 흐름을 표현하기 위한 언어
    하이브
    Hive
    - 하둡기반 DW(데이터 웨어하우스) 솔루션
    - HiveQL: SQL과 매우 유사한 쿼리
    머하웃
    Mahout
    - 하둡기반 데이터마이닝 알고리즘을 구현한 오픈소스
    - 주요 알고리즘: 분류, 클러스터링, 추천 및 협업 필터링, 패턴 마이닝, 회귀분석, 진화 알고리즘 등
    임팔라
    Impala
    - 하둡기반 SQL 질의 시스템
    - 수초 내에 결과 확인 가능/ HBase와 연동 가능
    주키퍼
    Zookeeper
    - 분산 코디네이션
    - 분산환경에서 서버들 간에 상호조정이 필요한 다양한 서비스를 제공함

     

     

    • 인공지능: 컴퓨터가 인간의 지능적인 행동&사고를 모방할 수 있도록 하는 소프트웨어
    • 딥러닝: 기존 지도학습보다 더 능동적인 비지도 학습이 결합되어, 컴퓨터가 스스로 학습할 수 있는 인공지능 기술

     

    • 개인정보보호: 정보주체(개인)의 개인정보 자기 결정권을 철저히 보장하는 활동
    • 개인정보 자기 결정권: 자신에 관한 정보가 언제/어떻게/어느 범위까지 타인에게 전달/이용될 수 있는지
      정보주체가 스스로 결정할 수 있는 권리

     

    • 개인정보보호 관련 법령: 개인정보 보호법/ 정보통신망법/ 신용정보법
    개인정보 보호법 정보통신망법 신용정보법
    개인정보 처리 과정상의 정보주체와
    개인정보 처리자의 권리, 의무들 규정
    정보통신망을 통해 수집/ 처리/ 보관/ 이용
    되는 개인정보의 보호에 관한 규정
    개인 신용정보의 취급 단계별 보호조치,
    의무사항에 관한 규정

     

     


     

    02. 데이터 분석 계획

     

     

    • 하향식/ 상향식 접근방식
    하향식 접근방식
    문제는 정함 → 해결방안 탐색
    상향식 접근방식
    데이터 기반으로 → 지속적 문제 개선
    - 문제탐색→문제정의→해결방안 탐색→타당성검토→선택
    - 문제탐색: 비즈니스 모델기반/ 기회발굴 범위확장/ 
                         외부참조 모델기반/ 분석 유스케이스 정의 
    - 문제 정의 자체가 어려운 경우
    - 기존 하향식 접근방식의 한계 극복

    - 디자인사고 접근법/ 비지도학습 방법/ 프로토타이핑 접근법

     

     

    • 빅데이터 분석 기획 유형: 최적화/ 솔루션/ 통찰/ 발견
    최적화 솔루션 통찰 발견
    분석 대상&방법
    둘 다 알고있음 OO
    대상 알고 O
    방법 모름 X
    대상 모름 X
    방법 안다 O
    분석 대상&방법
    둘 다 모른다 XX

     

     

    • 빅데이터 분석 방법론: 문제를 정의하고 답을 도출하기 위한 체계적인 절차와 방법
    • 빅데이터 분석 방법론 계층: 단계/ 태스크/ 스텝
    단계  Phase 태스크  Task 스텝  Step
    - 단계별 산출물 생성
    - 기준선으로 설정 관리
    - 버전관리 등으로 통제
    - 단계를 구성하는 단위활동
    - 물리적 or 논리적 단위
    - 품질검토 가능
    - 구성: 입력자료/ 처리&도구/ 출력자료
    - 단위 프로세스

     

     

    • 빅데이터 분석 방법론 유형: KDD/ CRISP-DM/ SEMMA
    KDD CRISP-DM SEMMA
    선택-전처리-변환-데이터마이닝-평가 업무이해-데이터이해-데이터준비
    -모델링-평가-전개
    샘플링-탐색-수정-모델링-검증
    - 1996, Fayyad, 프로파일링 기술기반
    - 통계적 패턴&지식 찾기위함
    - 전처리: 노이즈/ 이상값/ 결측값 제거
    - 변환: 변수 찾음/ 데이터 차원 축소
    - 1996, 유럽연합 ESPRIT
    - 비즈니스 이해 바탕
    - 단계간 피드백
    - 모델링: 기법/ 알고리즘/ 매개변수
    - SAS 주도, 통계중심
    - 탐색: 기초통계/ 그래프/ 클러스터링 등
    - 수정: 수량화/ 표준화/ 그룹화 등
                 변수 생성/ 선택/ 변형

     

     

    • 데이터 확보 계획 수립 절차: 목표정의 - 요구사항도출 - 예산안수립 - 계획수립
    • 빅데이터 분석 절차: 문제인식 - 연구조사 - 모형화-자료수집 - 자료분석 - 분석결과공유

     

    참고 도서: 빅데이터분석기사 필기_수제비 2021

     

     

    728x90
    반응형