ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • [빅데이터분석기사 필기 요약] [빅분기 1과목 요약] I. 빅데이터 분석 기획 - 요약 (2)
    자격증/빅데이터분석기사-필기 2021. 4. 10. 18:03
    728x90
    반응형

     


     

    [빅데이터분석기사 필기 1과목] I. 빅데이터 분석 기획

     

    03. 데이터 수집 및 저장 계획

     

     

    • 데이터 처리기술: 필터링/ 변환/ 정제/ 통합/ 축소
    필터링 변환 정제 통합 축소
    목적에 맞지 않는 정보
    - 보정/ 삭제/ 중복성 등
    일관성 있는 형식
    - 평활화/집계/정규화 등
    불일치성 교정
    - 결측값/ 잡음 처리 등
    출처 다름, 상호연관성
    있는 데이터 결합
    불필요한 데이터 축소
    고유한 특성은 손상 X

     

     

    • 데이터 수집 프로세스:
      수집데이터 도출 - 목록작성 - 소유기관 파악&협의 - 데이터 유형분류&확인 - 수집기술 선정 - 수집주기 결정 - 수집실행
    • 수집 데이터의 대상: 내부 데이터 - 서비스/ 네트워크/ 마케팅 & 외부 데이터 - 소셜/ 네트워크/ 공공
    내부 데이터 - 주로 정형 데이터 외부 데이터 - 주로 비정형 데이터
    서비스 네트워크 마케팅 소셜 네트워크 공공
    - SCM/ ERP/ CRM
    - 인증/ 거래시스템
    - 포털 등
    - 백본/ 방화벽
    - IPS/ IDS
    - 스위치 등
    - VOC 접수 데이터
    - 고객 포털 시스템
    - SNS
    - 게시판
    - 커뮤니티 등
    - 센서 데이터
    - 장비간 발생로그
       (M2M) 등
    정부에서 공개한
    공공 데이터
    (LOD)

     

     

    • 공급사슬관리 SCM
      - 부품 제공업자로부터 생산자/ 배포자/ 고객에 이르는 물류 흐름을 하나의 가치사슬 관점에서 파악하고,   
         필요한 정보가 원활히 흐르도록 지원하는 시스템을 말한다.
      - 기업이 외부 공급업체 또는 제휴업체와 통합된 정보시스템으로 연계하여 시간과 비용을 최적화시키기 위한 것으로,    
         자재구매, 생산/재고, 유통/판매, 고객데이터로 구성된다.

    • 전사적 자원관리 ERP: 회사의 모든 정보/ 공급사슬관리/ 고객 주문정보까지 포함하여 통합적으로 관리하는 시스템
    • 고객 관계관리 CRM
      - 소비자들을 자신의 고객으로 만들고 장기간 유지하고자 하는 경영방식
      - 고객에 대한 정보를 분석/저장하는 데에 사용하는 넓은 분야를 아우름

    • 데이터 웨어하우스 DW
      - DB에 축적된 데이터를 공통 형식으로 변환해서 관리하는 저장소
      - 사용자의 의사결정에 도움을 주기 위해, 정보를 기반으로 제공하는 하나의 통합된 데이터 저장 공간
      - 여기서 관리하는 데이터들은 시간의 흐름에 따라 변화하는 값을 유지
    • 데이터 마트 DM
      - 데이터 웨어하우스에서 데이터를 꺼내 사용자에게 제공하는 역할(접근 계층)
      - 특정 사용자가 관심을 가지고 있는 데이터를 담은 비교적 작은 규모의 데이터 웨어하우스
      - 재무/ 생산/ 운영 등과 같이 특정 조직의 특정 업무 분야에 초점을 맞추어 구축됨
    SCM ERP CRM DW DM
    물류흐름을 하나의
    가치사슬 관점에서 파악
    회사의 모든정보 + 공급
    사슬관리 + 고객주문정보
    고객을 만들고
    장기간 유지하고자 함
    데이터를 공통형식으로
    변환&관리하는 저장소
    DW에서 데이터를 꺼내
    사용자에게 제공함
    외부&제휴업체와 통합된 정보시스템 연계 통합적 관리 시스템 고객정보를 분석&저장 시간흐름에 따라 값 변화 특정업무 분야에 초점
    작은 규모의 DW

     

     

    • 정형/ 비정형/ 반정형 데이터 유형별 수집방식&기술
    정형 데이터 수집 비정형 데이터 수집 반정형 데이터 수집
    ETL 추출 - 변환 - 적재 크롤링 웹사이트에서 수집 센싱 센서 데이터
    FTP 파일송수신프로토콜 RSS XML기반 프로토콜 스트리밍 미디어 실시간 수집
    API 실시간 인터페이스 Open API 실시간 데이터 수신 플럼 분산형 대량 로그
    DBToDB DB간 동기화 스크래파이 파이썬기반 크롤링 스크라이브 실시간 대량 로그
    Rsync 일대일 동기화 아파치 카프카 실시간 대량 로그 척와 분산 모니터링
    Sqoop RDBMS↔Hadoop        

     

     

    • 정형 데이터 수집: ETL/ FTP/ Sqoop/ API/ DBToDB/ Rsync
    ETL FTP Sqoop API DBToDB Rsync
    추출-변환-적재
    DW,DM에 저장
    TCP/IP 프로토콜
    서버-클라이언트간
    파일 송수신
    RDBMS↔Hadoop
    커넥터를 사용함
    자동화/ 병렬처리
    실시간 데이터수신
    인터페이스 기술
    3rd party 소프트
    데이터베이스 
    시스템 간의
    데이터 동기화
    일대일 동기화
    서버-클라이언트
    (Remote Sync)

     

     

    • 비정형 데이터 수집: 스크래파이/ 아파치 카프카/ 크롤링/ Open API/ RSS
    스크래파이 아파치 카프카 크롤링 Open API RSS
    파이썬기반 크롤링
    다양한 애플리케이션에
    사용되는 수집기술
    대용량 실시간 로그처리
    메시징 시스템
    분산 스트리밍 플랫폼
    웹사이트로부터
    웹문서&콘텐츠 수집
    응용 프로그램을 통해
    실시간 데이터수집
    XML기반으로
    정보를 배포하는
    프로토콜 활용

     

     

    • 반정형 데이터 수집: 플럼/ 스크라이브/ 척와/ 스트리밍/ 센싱
    플럼 스크라이브 척와 스트리밍 센싱
    분산형 대용량 로그 수집
    이벤트-에이전트
    풀방식&고가용성
    대용량 로그 수집
    실시간 스트리밍
    다양성&고가용성
    대규모 분산시스템
    모니터링을 위한 기술
    에이전트-컬렉터
    HDFS저장&실시간분석
    네트워크로부터
    미디어 데이터
    실시간 수집
    네트워크를 통해
    센서 데이터
    수집&활용

     

     

    • 데이터 속성 및 측정척도: 명목형/ 순서형/ 이산형/ 연속형 & 명목척도/ 서열척도/ 등간척도/ 비율척도
    데이터 속성 데이터 측정척도
    명목형
    Nominal
    명사형/ 이름만 의미부여
    크기&순서 상관없음
    명목척도 범주 분류만!
    기호&숫자 부여
    순서형
    Ordinal
    순서에 의미부여O
    (ex. 만족, 보통, 불만족)
    서열척도
    순서척도
    분류&서열 순서
    비계량적 변수 관측&비교
    이산형
    Discrete
    변수값을 하나하나
    개수로 셀 수 있는 경우
    등간척도
    간격척도
    동일 간격화/ 크기간 차이 비교
    비계량적 변수를 정량적 측정
    연속형
    Continuous
    변수가 구간내 모든값을
    가질 수 있는 경우
    비율척도 비율계산O 절대영점O
    (ex. 나이, 키, 거리, 소득 등)

     

     

    • 데이터 변환 기술: 평활화/ 집계/ 일반화/ 정규화(최소-최대, Z-score, 소수스케일링)/ 속성생성
    평활화 집계 일반화 정규화 속성 생성
    - 잡음 제거
    - 추세 벗어나는 값 변환
    - 데이터 요약
    - 속성 하나로 줄임
    - 스케일 변경
    - 특정 구간
       분포하도록

    - 범용적 데이터에 적합
    - 정해진 구간내에 분포
    - 최소-최대/ Z-score
    - 소수 스케일링
    - 데이터 통합을 위해
      새로운 속성/특징을
      만드는 방법

     

     

    • 데이터 비식별화: 개인정보 일부/전부를 삭제/대체하여, 다른 정보와 결합해도 특정 개인을 식별하기 어렵도록 하는 조치
    • 데이터 비식별화 처리기법: 가명처리/ 총계처리/ 데이터값 삭제/ 범주화/ 데이터 마스킹
    가명처리 총계처리 데이터값 삭제 범주화 데이터 마스킹
    다른값으로 대체 통곗값 적용 특정 데이터값 삭제 대표값/구간값 변환 전체/부분 대체
    - 휴리스틱 익명화
    - K-익명화
    - 암호화
    - 교환방법
    - 기본방식(총합,평균 등)
    - 부분집계
    - 라운딩(올림,내림)
    - 데이터 재배열
    - 속성값 삭제
    - 속성값 부분삭제
    - 데이터 행 삭제
    - 준식별자 제거
    - 기본방식
    - 랜덤올림/ 제어올림
    - 범위방법
    - 세분정보 제한방법
    - 공백, 노이즈, '∗'
    - 임의 잡음 추가
    - 공백과 대체 방법
    ex) 홍길동, 25세
     → 김가명, 20대
    ex) 김-50kg, 이-60kg
     → 몸무게합=110kg 
    ex) 901212-2000000
     → 90년대생, 여성
    ex) 홍길동, 55세
     → 홍씨, 50-60세
    ex) 홍길동, 한국대학교
     → 홍OO, OO대학교

     

     

    • 개인정보 비식별 조치 단계: 사전검토 - 비식별조치 - 적정성평가 - 사후관리
    • 적정성 평가: k-익명성/ l-다양성/ t-근접성

    • 데이터 유효성과 활용성
    데이터
    정확성
    데이터
    일관성
    데이터
    활용성
    정확성
    사실성
    적합성
    필수성
    연관성
    정합성
    일치성
    무결성


    유용성
    접근성
    적시성
    보안성

     

     

    • 데이터 적재: 빅데이터 유형, 실시간 처리 여부에 따라 RDBMS, HDFS, NoSQL 저장 시스템에 적재함
    • 데이터 적재 도구: 플루언티드/ 플럼/ 스크라이브/ 로그스태시
    플루언티드 플럼 스크라이브 로그스태시
    크로스 플랫폼 오픈소스
    데이터 수집 소프트웨어
    각 서버에서 수집→중앙 전송
    대용량 로그 수집/집계/이동
    실시간 스트리밍
    이벤트-에이전트 활용
    대용량 로그 수집
    실시간 스트리밍
    분산시스템에 데이터 저장
    모든 로그 정보를 수집하여
    하나의 저장소에
    출력해주는 시스템

     

     

    • 빅데이터 저장 시스템: 대용량 데이터 집합을 저장&관리하는 시스템
    • 빅데이터 저장기술:
      분산 파일 시스템/ 데이터베이스 클러스터/ NoSQL/ 병렬 DBMS/ 네트워크 구성/ 클라우드 파일 저장시스템
    분산 파일시스템 데이터베이스
    클러스터
    NoSQL 병렬 DBMS 네트워크 구성
    저장 시스템
    클라우드 파일
    저장 시스템
    네트워크를 통해
    여러 호스트 컴퓨터
    파일에 접근
    하나의 DB를
    여러개 서버상
    분산하여 구축
    스키마X 조인X
    수평적 확장이
    가능한 DBMS
    다수의
    마이크로프로세서
    동시에 여러개 처리
    다른 저장장치
    데이터서버 하나에
    연결하여 저장
    클라우드컴퓨팅환경
    분산 파일시스템
    - GFS
    - HDFS
    - 러스터
    - 오라클 RAC
    - IBM DB2 ICE
    - MSSQL
    - MySQL
    - 구글 빅테이블
    - HBase
    - SimpleDB
    - SSDS
    - Cloudata
    - Cassandra
    - VoltDB
    - SAP HANA
    - Verica
    - Greenplum
    - Netezza
    - SAN
    - NAS
    - Amazon S3
    - OpenStack Swift

     

     

    • 분산 파일 시스템: 구글 파일 시스템(GFS)/ HDFS/ 러스터
    구글 파일 시스템 (GFS) 하둡 분산 파일 시스템 (HDFS) 러스터 (Lustre)
    청크 (64MB)
    청크&복제본을 분산 저장
    블록 (64→128MB)
    분산된 서버에 대용량 파일 저장
    객체기반 클러스터 파일 시스템
    계층화된 모듈 구조
    클라이언트-마스터-청크서버 네임/ 보조네임/ 데이터 노드 POSIX 지원 / 파일 수정 가능

     

     

    • NoSQL: 전통적인 RDBMS와 다름/ 수평적 확장/ 고정된 테이블 스키마 X 조인연산 X / BASE
    • BASE: Basically Available/ Soft-State/ Eventually Consistency
    Basically Available Soft-State Eventually Consistency
    언제든지 데이터에 접근 가능 노드 상태는 외부 정보로 결정됨 일정 시간이 지나면 데이터 일관성 유지

     

     

    • NoSQL의 유형: 저장되는 데이터 구조에 따라서 나눔
    Key-Value Store Column Family Data Store Document Store Graph Store
    유니크한 키 하나에 값 하나 키 안에 (Column, Value) 조합 데이터 타입이 Document 그래프로 데이터를 표현
    Redis, DynamoDB HBase, Cassandra MongoDB, Couchbase Neo4j, AllegroGraph

     

     

    • CAP 이론:
      분산 컴퓨팅 환경은 Availability, Consistency, Partition Tolerance 3가지 특징 중 2가지만 만족할 수 있다는 이론
    Consistency Availability Partition Tolerance
    일관성 유효성 분산 가능
    모든 사용자에게
    같은 시간에 같은 데이터 제공
    모든 클라이언트가
    읽기&쓰기 가능해야 함
    물리적 네트워크 분산환경에서
    시스템이 원활하게 동작해야 함

     

    • 빅데이터 저장 제품을 검토하기 위한 사용자 요구사항 분석 절차: 요구사항 수집 - 분석 - 명세 - 검증

     

    참고 도서: 빅데이터분석기사 필기_수제비 2021

     

     

    728x90
    반응형