[빅데이터분석기사 필기 요약] I.빅데이터 분석 기획 - 01. 빅데이터의 이해 (2)

자격증/빅데이터분석기사-필기 2021. 3. 10. 18:55

728x90

빅데이터분석기사 필기 요약

🔑 빅데이터 플랫폼/ 하둡 에코시스템/ R/ 우지/ 플럼/ HBase/ 스쿱/ 맵리듀스/ 얀/ 스파크/ HDFS/

척와/ 스크라이브/ 히호/ 피그/ 하이브/ 머하웃/ 임팔라/ 주키퍼

I. 빅데이터 분석 기획

01. 빅데이터의 이해

1. 빅데이터 개요 및 활용

2. 빅데이터 기술 및 제도

2. 빅데이터 기술 및 제도

[1] 빅데이터 플랫폼

(1) 빅데이터 플랫폼의 개념 | 빅데이터에서 가치를 추출하기 위해 일련의 과정을 규격화한 기술

여기서 일련의 과정은: 수집 → 저장 → 처리 → 분석 → 시각화
의료, 환경, 범죄, 자동차 등 특화된 분석을 지원하는 플랫폼이 발전 추세

(2) 빅데이터 플랫폼 구성요소 | 데이터 수집 → 저장 → 분석 → 활용

수집: ETL(Extract Transform Load), 크롤러(Crawler), EAI(Enterprise Architecture Integration) 등
저장: RDBMS(Relational DBMS, 관계형 데이터베이스), NoSQL(Not Only SQL) 등
분석: 텍스트 마이닝, 머신러닝, 통계, 데이터 마이닝, SNS 분석, 예측 분석 등
활용: 데이터 가시화, 비즈니스 인텔리전스(BI), Open API 연계, 히스토그램, 인포그래픽 등

（︶^︶）NoSQL이란, 전통적인 RDBMS와 다른 DBMS를 지칭하기 위한 용어를 말한다.
(고정된 테이블 스키마 X 조인 연산 X 수평적 확장 O)

(3) 빅데이터 플랫폼 데이터 형식

HTML: 웹페이지 만들 때 사용/ 텍스트, 태그, 스크립트로 구성
XML: 다목적 마크업 언어/ 데이터 표현을 위해 태그 사용
CSV: 필드를 쉼표로 구분한 텍스트 데이터, 텍스트 파일
JSON: Key-Value로 이루어진 데이터 오브젝트를 전달하기 위해, 텍스트를 사용하는 개방형 표준 포맷

(4) 빅데이터 플랫폼 구축 소프트웨어 | R/ 우지/ 플럼/ HBase/ 스쿱

R: 빅데이터 분석
- S언어를 기반으로 만들어짐/ 강력한 시각화 기능
- r-project.org: R is a free software environment for statistical computing and graphics

우지(Oozie): 워크플로우 관리
- 하둡 작업(job) 관리/ 워크플로우 및 코디네이터 시스템/ 스케줄링 및 모니터링
- oozie.apache.org: Oozie is a workflow scheduler system to manage Apache Hadoop jobs.
- 우지가 대체 뭔 뜻인가 했더니 버마어로 코끼리 운전자를 의미한다고..

플럼(Flume): 데이터 수집
- Event, Agent 활용/ 대량 로그데이터를 수집, 집계, 이동
- 여러 서버에서 생산된 대용량 로그 데이터를 수집하여 원격 목적지에 데이터를 전송하는 기능!
- flume.apache.org: service for collecting, aggregating, and moving large amounts of log data.
- 플럼은 개방형수로, 벌목된 통나무(log)를 운반하는 수로를 의미한다고..! 오지는 작명

HBase: 분산 데이터베이스
- 컬럼 기반 저장소/ HDFS, 인터페이스 제공
- 큰 테이블에 대한 빠른 조회 가능/ HDFS 위에 구축되어, HDFS에 있는 데이터에 랜덤 엑세스 및 읽기
- hbase.apache.org: Hadoop database. Random, realtime read/write access to bigdata.

스쿱(Sqoop): 정형 데이터 수집
- SQL to Hadoop/ SQL ↔ HDFS/ Connector를 사용
- 동작 2가지 import(SQL → HDFS), export(HDFS → SQL)
- sqoop.apache.org: tool designed for transferring bulk data between Hadoop and structured datastores.

(5) 분산 컴퓨팅 환경 소프트웨어 구성요소 | 맵리듀스/ 얀/ 스파크/ HDFS/ 하둡

맵리듀스(Map Reduce): 맵 → 셔플 → 리듀스 순서대로 데이터 처리
- 맵: Key-Value로 데이터 취합 (입력된 데이터를 가공하여 Key-Value 쌍으로 변환)
- 셔플: 데이터 통합 처리
- 리듀스: 맵 처리된 데이터 정리 (Key를 기준으로 결과물을 모아서 집계)
- 대용량 데이터를 위한 분산 병렬 처리 소프트웨어 프레임워크
얀(YARN): 자원 관리 플랫폼/ Master(리소스매니저)-Slave(노드매니저)
- 리소스 매니저: 스케줄러/ 클러스터 이용률 최적화 수행
- 노드 매니저: 노드 내 자원 관리/ 리소스 매니저에 보고
- 애플리케이션 마스터: 자원 교섭/ 컨테이너 실행
- 컨테이너: 프로그램 구동을 위한 격리 환경 지원
아파치 스파크(Apache Spark): 대규모 데이터 분산처리시스템
- 실시간 데이터 처리 (스트리밍 데이터, 온라인 머신러닝 등)
- 저장이 아니라 데이터 프로세싱하는 역할!
하둡 분산 파일 시스템(HDFS): 대용량 파일을 분산된 서버에 저장, 처리/ Master(네임노드)-Slave(데이터노드)
- 네임 노드: 속성 기록 (파일 이름, 권한 등)/ 메타 데이터 관리/ 데이터 노드 모니터링
- 데이터 노드: 데이터 저장/ 일정한 크기로 나눈 블럭 형태로 저장함
아파치 하둡(Apache Hadoop): HDFS, 맵리듀스를 중심으로 하둡 에코시스템을 가진다.
- 클라우드 플랫폼 상에서 클러스터를 구성하여 데이터 분석

(5) 하둡 에코시스템 (Hadoop Ecosystem) | 수집, 저장, 처리 기술 / 가공, 분석, 관리 기술

수집, 저장, 처리 기술
- 비정형 데이터 수집: 척와/ 플럼/ 스크라이브
  - 척와 (Chukwa): 분산된 서버에서 에이전트 실행 → 컬렉터가 데이터 받아서 HDFS 저장
  - 플럼 (Flume): 대량 로그데이터 수집, 집계, 이동/ 이벤트, 에이전트를 활용하는 기술
  - 스크라이브 (Scribe): 대용량 실시간 스트리밍 로그 데이터 수집 기술
- 정형 데이터 수집: 스쿱/ 히호
  - 스쿱 (Sqoop): 대용량 데이터 전송 솔루션/ 커넥터를 사용하여 RDBMS ↔ HDFS
  - 히호 (Hiho): 대용량 데이터 전송 솔루션/ 깃허브에 공개되어 있음
- 분산 데이터 저장: HDFS
  - HDFS: 대용량 파일을 분산된 서버에 저장, 저장된 데이터를 빠르게 처리할 수 있게 하는 시스템
  범용 하드웨어, 서버 기반/ 데이터 접근 패턴을 스트리밍 방식으로 지원/ 자동복구
- 분산 데이터 처리: 맵리듀스
- 분산 데이터베이스: HBase

데이터 가공, 분석, 관리를 위한 주요 기술
- 데이터 가공: 피그/ 하이브
  - 피그 (Pig): 대용량 데이터 집합을 분석하기 위한 플랫폼/ 맵리듀스 API 매우 단순화/ SQL과 유사한 형태
  - 하이브 (Hive): 하둡 기반 DW 솔루션/ SQL과 유사한 HiveQL 쿼리 제공
- 데이터마이닝: 머하웃
  - 머하웃 (Mahout): 하둡 기반 데이터 마이닝 알고리즘을 구현한 오픈 소스 (분류, 클러스터링, 추천 및 협업 필터링 등)
  확장성을 가진 머신러닝용 라이브러리 (mahout.apache.org) (머하웃은 코끼리 조련사를 뜻한다고 한당..)
- 실시간 SQL 질의: 임팔라
  - 임팔라 (Impala): 하둡 기반 실시간 SQL 질의 시스템/ 인터페이스로 HiveQL 사용/ 수초 내에 결과 확인 가능
  오픈소스 대규모 병렬 처리 SQL 쿼리 엔진(impala.apache.org)
- 워크플로우 관리: 우지
  - 우지 (Oozie): 하둡 잡 관리용 워크플로우 및 코디네이터 시스템/ 자바 웹 애플리케이션 서버
- 분산 코디네이션: 주키퍼
  - 주키퍼 (Zookeeper): 분산 환경에서 서버 간 상호조정이 필요한 다양한 서비스를 제공하는 시스템
  한 서버에만 서비스가 분산되지 않도록 분산, 한 서버에서 처리한 결과를 다른 서버들과 동기화
  (zookeeper.apache.org)

（︶^︶）데이터 웨어하우스(DW; Data Warehouse)란, 데이터를 공통 형식으로 변환하여 관리하는 데이터베이스
사용자 의사결정에 도움을 주기 위해, 기간시스템의 DB에 축적된 데이터를

효율적으로 분석 가능한 형태로 변환해놓은 저장소

참고 도서: 빅데이터분석기사 필기_수제비 2021

728x90

'자격증 > 빅데이터분석기사-필기' 카테고리의 다른 글

[빅데이터분석기사 필기 요약] I.빅데이터 분석 기획 - 03. 데이터 수집 및 저장 계획 (2) (2)	2021.03.11
[빅데이터분석기사 필기 요약] I.빅데이터 분석 기획 - 03. 데이터 수집 및 저장 계획 (1) (0)	2021.03.11
[빅데이터분석기사 필기 요약] I.빅데이터 분석 기획 - 02. 데이터 분석 계획 (0)	2021.03.11
[빅데이터분석기사 필기 요약] I.빅데이터 분석 기획 - 01. 빅데이터의 이해 (3) (0)	2021.03.10
[빅데이터분석기사 필기 요약] I.빅데이터 분석 기획 - 01. 빅데이터의 이해 (1) (1)	2021.03.10

ABOUT ME

서윤로그

'자격증 > 빅데이터분석기사-필기' 카테고리의 다른 글

티스토리툴바

ABOUT ME

'자격증 > 빅데이터분석기사-필기' 카테고리의 다른 글

관련글 관련글 더보기

티스토리툴바