-
[빅데이터분석기사 필기 요약] [빅분기 1과목 요약] I.빅데이터 분석 기획 - 요약 (1)자격증/빅데이터분석기사-필기 2021. 4. 10. 00:12728x90반응형
[빅데이터분석기사 필기 1과목] I. 빅데이터 분석 기획
01. 빅데이터의 이해
- 빅데이터: 수십 TB 이상의 정형/비정형 데이터 & 데이터에서 가치추출&결과분석하는 기술
- DIKW 피라미드: Data - Information - Knowledge - Wisdom
Data 데이터 Information 정보 Knowledge 지식 Wisdom 지혜 객관적 사실 데이터간 연관관계&의미도출 정보를 구조화&일반화 깊은이해 → 창의적 아이디어 제품X가 사이트A에서 10,000원 제품X는 사이트A보다
사이트B에서 더 비싸게 판매함사이트A에서 더 싸므로
제품X를 구매할 계획임사이트B의 타제품들도 사이트A보다 더 비쌀 것으로 예측됨 - 바이트 크기 비교: 킬로 < 메가 < 기가 < 테라(=10^12바이트) < 페타 < 엑사 < 제타 < 요타바이트 (KMGT PEZY)
- 빅데이터 특징: 3V (규모/ 다양성/ 속도) - 5V (신뢰성/ 가치) - 7V (정확성/ 휘발성)
규모 Volume
다양성 Variety
속도 Velocity신뢰성 Veracity
가치 Value정확성 Validity
휘발성 Volatility- 규모: 정보량의 기하급수적 증가
- 다양성: 정형/ 비정형/ 반정형
- 속도: 실시간성/ 가속화 요구- 신뢰성: 노이즈&오류 제거로 품질향상
- 가치: 정확성&시간성 관련- 정확성: 유효성/ 질높은 데이터
- 휘발성: 데이터가 의미있는 기간- 구조적 관점의 빅데이터 유형: 정형/ 반정형/ 비정형
정형 데이터 반정형 데이터 비정형 데이터 스키마구조 O
고정필드 O스키마구조 O
메타데이터 O
고정필드 X스키마구조 X
메타데이터 X
고정필드 XRDBMS (Oracle, MS-SQL)
스프레드시트XML, JSON, HTML, RSS
웹/시스템 로그, 알람, 센서 데이터텍스트, 이미지, 동영상, 오디오
SNS, 이진파일- 데이터 지식경영 상호작용: 암묵지/ 형식지/ 내면화/ 공통화/ 표출화/ 연결화
- 암묵지-형식지 간 4단계 지식전환단계: 공통화 - 표출화 - 연결화 - 내면화 (SECI)
암묵지 형식지 내면화 공통화 표출화 연결화 개인
체화문서/매뉴얼
형상화행동/실천교육
형식 → 암묵대화/상호작용
암묵 → 암묵문서화/매체화
암묵 → 형식형식지
상호결합- 빅데이터 위기요인: 사생활 침해/ 책임원칙 훼손/ 데이터 오용
- 위기요인에 대한 통제방안: 알고리즘 접근 허용/ 책임 강조/ 결과기반 책임 적용
- 빅데이터 산업
- 클라우드 컴퓨팅 기술 발전으로 데이터 처리 비용 감소
- 주요국&글로벌 기업은 빅데이터 산업육성&활용에 주력 → But 우리나라는 활용저조↓
- 빅데이터 조직: 집중구조/ 기능구조/ 분산구조
수직 업무활동 수평 업무활동 집중 구조 기능 구조 분산 구조 우선순위 결정 프로세스별로
업무 배분별도 전담부서
우선순위 지정가능해당 부서에서 분석
전사적 분석 어려움각 부서로 배치
베스트 프랙티스 공유- 데이터 사이언티스트: 복잡한 비즈니스 문제를 모델링하고 인사이트를 도출하여
통계학, 알고리즘, 데이터마이닝, 시각화 기법 등을 통해, 그 속에서 가치를 찾아내는 사람
소프트 스킬 하드 스킬 가트너(Gartner) 통찰력
협력
전달력이론적 지식
기술 숙련도비즈니스 분석
분석 모델링
데이터 관리
소프트 스킬- 역량 모델 개발 절차: 조직 미션&성과목표&CSF 검토 - 조직 구성원 행동특성 도출 - 역량 도출 - 역량 모델 확정
- 핵심성공요인 (CSF): 목표성취를 위해 필요한 요소/ 기업 경쟁력 향상을 위한 핵심 내부역량
- 핵심성과지표 (KPI): 목표가 달성되었는지 실적을 추적하기 위한 정량화된 측정지표
- 균형 성과표(BSC)의 4가지 관점: 재무/ 고객/ 내부프로세스/ 학습&성장 → BSC를 통한 KPI 도출
- 빅데이터 플랫폼: 빅데이터에서 가치를 추출하기 위한 수집-저장-처리-분석-시각화 과정을 규격화한 기술
- 빅데이터 플랫폼 데이터 형식: HTML, XML, CSV, JSON
HTML XML CSV JSON 웹페이지 만들 때 사용
구성: 텍스트, 태그, 스크립트SGML 문서형식
다목적 마크업 언어쉼표로 필드 구분
텍스트 데이터&파일JavaScript Object Notation
<키-값>형태로 전달- 빅데이터 플랫폼 구축 소프트웨어 & 분산컴퓨팅 환경 소프트웨어 구성요소
빅데이터 플랫폼 구축 소프트웨어 분산 컴퓨팅 환경 소프트웨어 구성요소 R - 오픈소스 프로그래밍 언어
- 강력한 시각화 기능맵리듀스
Map Reduce- 맵: Key-Value 형태로 취합
- 셔플: 통합/ - 리듀스: 정리우지
Oozie맵리듀스,피그 등으로
구성된 워크플로우 제어얀
YARN- 자원 관리 플랫폼
- 리소스 매니저/ 노드 매니저플럼
Flume- 대량 로그 수집
- 이벤트&에이전트아파치
스파크- 실시간 데이터 처리
- 대규모 분산처리시스템HBase - 컬럼기반 저장소
- HDFS와 인터페이스 제공HDFS - 분산된 서버에 저장/ 처리
- 네임 노드/ 데이터 노드스쿱
Sqoop- SQL to Hadoop
- RDBMS ↔ HDFS아파치
하둡클라우드 플랫폼 위에서
클러스터를 구성해 데이터 분석- 하둡 에코시스템: 수집/ 저장/ 처리기술 & 가공/ 분석/ 관리기술
비정형 데이터 수집 정형 데이터 수집 분산 데이터 저장 및 처리 척와
ChukwaHDFS에 저장
에이전트&컬렉터스쿱
Sqoop대용량 전송 솔루션
커넥터 사용저장: HDFS 분산서버에 저장,
데이터 빠르게 처리플럼
Flume대량 로그 수집
에이전트&이벤트히호
Hiho대용량 전송 솔루션
깃허브에 공개됨처리: 맵리듀스 대용량 데이터셋
분산 병렬 컴퓨팅스크라이브
Scribe실시간 스트리밍
대용량 로그 수집DB: HBase 컬럼기반 저장소 기술 설명 피그
Pig- 대용량 데이터 집합 분석을 위한 플랫폼
- 피그 라틴: 데이터 흐름을 표현하기 위한 언어하이브
Hive- 하둡기반 DW(데이터 웨어하우스) 솔루션
- HiveQL: SQL과 매우 유사한 쿼리머하웃
Mahout- 하둡기반 데이터마이닝 알고리즘을 구현한 오픈소스
- 주요 알고리즘: 분류, 클러스터링, 추천 및 협업 필터링, 패턴 마이닝, 회귀분석, 진화 알고리즘 등임팔라
Impala- 하둡기반 SQL 질의 시스템
- 수초 내에 결과 확인 가능/ HBase와 연동 가능주키퍼
Zookeeper- 분산 코디네이션
- 분산환경에서 서버들 간에 상호조정이 필요한 다양한 서비스를 제공함- 인공지능: 컴퓨터가 인간의 지능적인 행동&사고를 모방할 수 있도록 하는 소프트웨어
- 딥러닝: 기존 지도학습보다 더 능동적인 비지도 학습이 결합되어, 컴퓨터가 스스로 학습할 수 있는 인공지능 기술
- 개인정보보호: 정보주체(개인)의 개인정보 자기 결정권을 철저히 보장하는 활동
- 개인정보 자기 결정권: 자신에 관한 정보가 언제/어떻게/어느 범위까지 타인에게 전달/이용될 수 있는지
정보주체가 스스로 결정할 수 있는 권리
- 개인정보보호 관련 법령: 개인정보 보호법/ 정보통신망법/ 신용정보법
개인정보 보호법 정보통신망법 신용정보법 개인정보 처리 과정상의 정보주체와
개인정보 처리자의 권리, 의무들 규정정보통신망을 통해 수집/ 처리/ 보관/ 이용
되는 개인정보의 보호에 관한 규정개인 신용정보의 취급 단계별 보호조치,
의무사항에 관한 규정
02. 데이터 분석 계획
- 하향식/ 상향식 접근방식
하향식 접근방식
문제는 정함 → 해결방안 탐색상향식 접근방식
데이터 기반으로 → 지속적 문제 개선- 문제탐색→문제정의→해결방안 탐색→타당성검토→선택
- 문제탐색: 비즈니스 모델기반/ 기회발굴 범위확장/
외부참조 모델기반/ 분석 유스케이스 정의- 문제 정의 자체가 어려운 경우
- 기존 하향식 접근방식의 한계 극복
- 디자인사고 접근법/ 비지도학습 방법/ 프로토타이핑 접근법- 빅데이터 분석 기획 유형: 최적화/ 솔루션/ 통찰/ 발견
최적화 솔루션 통찰 발견 분석 대상&방법
둘 다 알고있음 OO대상 알고 O
방법 모름 X대상 모름 X
방법 안다 O분석 대상&방법
둘 다 모른다 XX- 빅데이터 분석 방법론: 문제를 정의하고 답을 도출하기 위한 체계적인 절차와 방법
- 빅데이터 분석 방법론 계층: 단계/ 태스크/ 스텝
단계 Phase 태스크 Task 스텝 Step - 단계별 산출물 생성
- 기준선으로 설정 관리
- 버전관리 등으로 통제- 단계를 구성하는 단위활동
- 물리적 or 논리적 단위
- 품질검토 가능- 구성: 입력자료/ 처리&도구/ 출력자료
- 단위 프로세스- 빅데이터 분석 방법론 유형: KDD/ CRISP-DM/ SEMMA
KDD CRISP-DM SEMMA 선택-전처리-변환-데이터마이닝-평가 업무이해-데이터이해-데이터준비
-모델링-평가-전개샘플링-탐색-수정-모델링-검증 - 1996, Fayyad, 프로파일링 기술기반
- 통계적 패턴&지식 찾기위함
- 전처리: 노이즈/ 이상값/ 결측값 제거
- 변환: 변수 찾음/ 데이터 차원 축소- 1996, 유럽연합 ESPRIT
- 비즈니스 이해 바탕
- 단계간 피드백
- 모델링: 기법/ 알고리즘/ 매개변수- SAS 주도, 통계중심
- 탐색: 기초통계/ 그래프/ 클러스터링 등
- 수정: 수량화/ 표준화/ 그룹화 등
변수 생성/ 선택/ 변형- 데이터 확보 계획 수립 절차: 목표정의 - 요구사항도출 - 예산안수립 - 계획수립
- 빅데이터 분석 절차: 문제인식 - 연구조사 - 모형화-자료수집 - 자료분석 - 분석결과공유
참고 도서: 빅데이터분석기사 필기_수제비 2021
728x90반응형'자격증 > 빅데이터분석기사-필기' 카테고리의 다른 글
[빅데이터분석기사 필기 요약] [빅분기 2과목 요약] II. 빅데이터 탐색 - 요약 (1) (0) 2021.04.11 [빅데이터분석기사 필기 요약] [빅분기 1과목 요약] I. 빅데이터 분석 기획 - 요약 (2) (1) 2021.04.10 [빅데이터분석기사 필기 요약] IV.빅데이터 결과 해석 - 02. 분석 결과 해석 및 활용 (4) (0) 2021.04.06 [빅데이터분석기사 필기 요약] IV.빅데이터 결과 해석 - 02. 분석 결과 해석 및 활용 (3) (0) 2021.04.05 [빅데이터분석기사 필기 요약] IV.빅데이터 결과 해석 - 02. 분석 결과 해석 및 활용 (2) (1) 2021.04.03