-
[빅데이터분석기사 필기 요약] I.빅데이터 분석 기획 - 03. 데이터 수집 및 저장 계획 (5)자격증/빅데이터분석기사-필기 2021. 3. 13. 01:17728x90반응형
빅데이터분석기사 필기 요약
🔑 빅데이터 저장 시스템/ 분산 파일 시스템/ 데이터베이스 클러스터/ NoSQL/ BASE/ CAP 이론
I. 빅데이터 분석 기획
03. 데이터 수집 및 저장 계획
1. 데이터 수집 및 전환
2. 데이터 적재 및 저장
2. 데이터 적재 및 저장
[2] 데이터 저장
(1) 빅데이터 저장기술
- 빅데이터 저장 시스템: 대용량 데이터 집합을 저장, 관리하는 시스템
- 대용량 저장공간/ 빠른 처리성능/ 확장성/ 신뢰성/ 가용성 등을 보장해야 함 - 비대칭성(Asymmetric) 클러스터 파일 시스템:
메타데이터를 별도의 전용서버로 관리함 (접근 경로가 분리되어 있음)
(2) 빅데이터 저장기술 분류
⇒ 분산 파일 시스템/ 데이터베이스 클러스터/ NoSQL/
병렬 DBMS/ 네트워크 구성 저장 시스템/ 클라우드 파일 저장 시스템
(3) 빅데이터 저장기술 - 분산 파일 시스템
컴퓨터 네트워크를 통해, 공유하는 여러 호스트 컴퓨터의 파일에 접근할 수 있게 하는 시스템- 구글 파일 시스템(GFS): 구글 대규모 클러스터 서비스 플랫폼의 기반이 되는 파일 시스템
- 고정된 크기 64MB의 청크들로 파일을 나눔 → 각 청크와 여러 복제본을 청크 서버에 분산 저장
- 구성요소: 클라이언트/ 마스터/ 청크 서버
- 구조: 클라이언트가 마스터에게 파일 요청 → 마스터는 청크 서버에 요청
→ 청크 서버는 클라이언트에게 청크 데이터 전송
- 하둡 분산 파일 시스템(HDFS): 대용량 파일을 분산된 서버에 저장 → 데이터를 빠르게 처리할 수 있게 하는 시스템
- 저사양 서버를 다수 이용하여 스토리지 구성 → 비용 관점에서 효율적
- 블록 구조의 파일 시스템: 파일을 특정 크기의 블록(하둡 2.0에서 128MB)으로 나누어 분산 서버에 저장함
- 구성: 하나의 네임노드 + 하나 이상의 보조 네임노드 + 다수의 데이터노드
- 구성요소
- 네임노드: 마스터 역할/ 모든 메타데이터 관리/ 데이터노드들로부터 하트비트를 받아 상태 체크
- 보조 네임노드: 상태 모니터링을 보조함
- 데이터노드: 슬레이브 역할/ 데이터 입출력 요청/ 데이터 유실방지를 위해 블록을 3중 복제
- 러스터(Lustre): 객체 기반의 클러스터 파일 시스템
- 구성요소: 고속 네트워크로 연결된 클라이언트 파일 시스템/ 메타데이터 서버/ 객체 저장 서버
- 계층화된 모듈 구조로 TCP/IP, 인피니밴드와 같은 네트워크를 지원함
(︶^︶)노드(Node)란, 컴퓨터 과학에 쓰이는 기초적인 단위이며,
대형 네트워크에선 장치나 데이터 지점(포인트)를 의미한다.예를 들면, 개인용 컴퓨터, 휴대전화, 프린터, 서버 같은 장치들을 말한다.
(4) 빅데이터 저장기술 - 데이터베이스 클러스터
- 하나의 데이터베이스를 여러 개의 서버 상에 분산하여 구축
- 성능, 가용성 향상을 위해 데이터베이스 파티셔닝 또는 클러스터링을 이용함
- 데이터베이스 파티셔닝: 데이터베이스를 여러 부분으로 분할하는 것 - 데이터베이스 클러스터 구분: 리소스 공유 관점에서 공유 디스크/ 무공유 디스크로 구분함
- 공유 디스크 클러스터: 모든 데이터에 접근 가능/ 모든 노드가 데이터 수정 가능/ 높은 수준의 고가용성 제공
- 무공유 디스크 클러스터: 데이터 파일을 로컬 디스크에 저장/ 파일을 노드 간 공유하지 않음 - 데이터베이스 클러스터 종류: Oracle RAC/ IBM DB2 ICE/ SQL Server/ MySQL
- Oracle RAC: 공유 클러스터/ 고가용성/ 쉬운 확장
- IBM DB2 ICE: 무공유 클러스터/ 한 노드에 장애 발생 시 복구할 수 있도록 공유 디스크 방식 사용
- SQL Server: 연합 데이터베이스 형태/ 여러 노드로 확장할 수 있는 기능 제공
- MySQL: 비 공유형/ 메모리 기반 데이터베이스의 클러스터링을 지원함
(5) 빅데이터 저장기술 - NoSQL
- NoSQL: 전통적인 RDBMS와 다른 DBMS를 지칭하기 위한 용어
- 데이터를 저장하는 데에 고정된 테이블 스키마가 필요없고
- 조인 연산을 사용할 수 없으며
- 수평적으로 확장이 가능하다! - NoSQL 일반적 특성
- 관계형 모델을 사용하지 않음
- 대규모 데이터를 처리하기 위한 기술
- 확장성/ 가용성/ 높은 성능 제공
- Schema-less: 자유롭게 필드 추가 가능 - NoSQL의 특성 "BASE"
- Basically Available: 언제든지 접근 가능 (항상 가용성)
- Soft-state: 노드의 상태는 "외부"에서 전송된 정보를 통해 결정되는 속성
→ 특정 시점에는 데이터 일관성이 보장되지 않음
- Eventually consistently: 일정 시간이 지나면 데이터 일관정이 유지됨 - NoSQL의 유형: 저장되는 데이터 구조에 따라 Key-Value/ Column Family Data/ Document/ Graph Store
- Key-Value Store: 유니크한 Key에 하나의 Value를 가진 형태
- Column Family Data Store: Key 안에 (Column, Value) 조합의 여러 필드를 가진 형태
- Document Store: Value의 데이터 타입이 Document 타입
- Graph Store: 시맨틱 웹과 온톨로지 분야에서 활용되는 그래프로 데이터를 표현
- CAP 이론: Availability/ Consistency/ Partition Tolerance
- 분산 컴퓨팅 환경은 유효성/ 일관성/ 분산 가능성 3가지 특성을 가지는데, 이 중 2가지만 만족할 수 있다!
- NoSQL은 CAP이론을 기반으로 함
- 일관성: 모든 사용자에게/ 같은 시간에는/ 같은 데이터를 보여줘야 한다!
- 유효성: 모든 클라이언트가 읽기/쓰기가 가능해야 한다!
- 분산 가능: 물리적 네트워크 분산환경에서 시스템이 원활하게 동작해야 한다! - NoSQL 제품 종류: 구글 BigTable/ 아파치 HBase/ 아마존 SimpleDB/ 마이크로소프트 SSDS ...
(6) 빅데이터 저장 고려사항
- 요구사항 분석 절차: 요구사항 수집(도출) → 분석 → 명세 → 검증
- 사용자 요구사항을 분석하여 → 빅데이터 저장을 위한 제품 검토 - 기존 시스템 기술 검토 절차 수립
- 데이터가 대부분 테이블로 정의될 수 있는 형태 & 기존에 RDBMS 도입된 형태 → 기존 시스템 그대로 활용
- 기존에 HDFS만 활용함 & SQL-like 분석환경 구축하고자 함 → HBase 추가 도입 권장~ - 데이터 저장의 안정성, 신뢰성 확보 방안 수립: 용량 산정/ 데이터 파악/ 시스템 구축 방안
- 유형별 데이터 저장방식 수립
데이터 유형 요구 데이터 종류 저장 시스템 정형 RDB/ 스프레드시트 RDB 반정형 HTML/ XML/ JSON/ 웹 문서/ 웹 로그/ 센서 데이터 RDB, NoSQL 비정형 소셜 데이터/ 문서/ 이미지/ 오디오/ 비디오/ IoT NoSQL, HDFS - 저장방식 결정
- 저장방식 선정 시 고려요소: 저장기술의 기능성/ 분석방식 및 환경/ 분석 대상 데이터 유형/ 기존 시스템과의 연계
참고 도서: 빅데이터분석기사 필기_수제비 2021
728x90반응형'자격증 > 빅데이터분석기사-필기' 카테고리의 다른 글
[빅데이터분석기사 필기 요약] II.빅데이터 탐색 - 01. 데이터 전처리 (2) (0) 2021.03.14 [빅데이터분석기사 필기 요약] II.빅데이터 탐색 - 01. 데이터 전처리 (1) (1) 2021.03.13 [빅데이터분석기사 필기 요약] I.빅데이터 분석 기획 - 03. 데이터 수집 및 저장 계획 (4) (0) 2021.03.12 [빅데이터분석기사 필기 요약] I.빅데이터 분석 기획 - 03. 데이터 수집 및 저장 계획 (3) (0) 2021.03.12 [빅데이터분석기사 필기 요약] I.빅데이터 분석 기획 - 03. 데이터 수집 및 저장 계획 (2) (2) 2021.03.11 - 빅데이터 저장 시스템: 대용량 데이터 집합을 저장, 관리하는 시스템