ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • [빅데이터분석기사 필기 요약] [빅분기 4과목 요약] IV. 빅데이터 결과 해석 - 요약 (2)
    자격증/빅데이터분석기사-필기 2021. 4. 16. 15:06
    728x90
    반응형

     


     

     

    [빅데이터분석기사 필기 4과목] IV. 빅데이터 결과 해석

     

    02. 분석 결과 해석 및 활용

     

     

    • 데이터 시각화 (Data Visualization)
      데이터에 대한 이해를 돕기 위해, 그림/도형 등의 그래픽 요소들을 이용하여 데이터를 묘사/표현
    • 기하/도형 양식을 이용하여, 데이터 특징을 설명할 수 있는 모양으로 만든다
    데이터 시각화 기능: 설명/ 탐색/ 표현 데이터 시각화 목적: 정보전달/ 설득 데이터 시각화 절차
    - 설명: 분석 결과를 설명 사용자가 주제에 대해 더 잘 이해! ① 구조화
    - 탐색: 숨겨진 관계/패턴 찾음 - 정보 전달 (실용적/과학적 측면) ② 시각화
    - 표현: 이야기 전달/표현/공감 - 설득 (추상적/예술적 측면) ③ 시각표현

     

     

    • 데이터 시각화 유형: 시간/ 분포/ 관계/ 비교/ 공간 시각화
    시간 시각화 분포 시각화 관계 시각화 비교 시각화 공간 시각화
    시간 흐름에 따른
    경향/트렌드 파악
    분류에 따른 변화
    전체에서 부분간 관계
    집단간 상관관계
    연관성/분포/패턴을 찾음
    각각의 데이터 간
    차이점/유사성 관계
    지도를 통해
    시점에 따른 경향/차이
    - 막대 그래프
    - 점 그래프
    - 파이 차트
    - 도넛 차트
    - 트리 맵
    - 산점도
    - 버블차트
    - 히스토그램
    - 히트맵
    - 평행좌표 그래프
    - 체르노프 페이스
    - 등치선도
    - 도트맵
    - 카토그램

     

     

    • 시간 시각화: 시간에 따른 데이터 변화/경향성/트렌드
    • 시간 시각화 유형: 막대 그래프/ 누적 막대 그래프/ 선 그래프/ 영역 차트/ 계단식 차트
    막대 그래프 누적 막대 그래프 선 그래프 영역 차트 계단식 차트
    동일너비 막대 여러개
    막대는 특정범주
    전체 비율을 보여줌
    여러 범주를 동시에
    시간에 따른 크기변화
    점은 수량을 나타냄
    시간에 따른 크기변화
    Y축값은 0부터 시작
    변화가 생길 때까지
    X축과 평행한 선 유지

     

     

    • 공간 시각화: 위도&경도 사용 ⇒ 등치지역도/ 등치선도/ 도트맵/ 도트 플롯맵/ 버블맵/ 버블 플롯맵/ 카토그램
    등치지역도 등치선도 도트맵/ 도트 플롯맵 버블맵/ 버블 플롯맵 카토그램
    색상으로 구분
    채도/밝기 변화
    등치지역도 결점 극복
    색상/농도 변화
    산점도처럼 점 표현
    시간경과에 따른 확산
    점에 의미 부여
    서로다른 크기의 원형
    면적 왜곡시킴
    지리적 형상크기 조절

     

     

    • 관계 시각화: 다변량 데이터 사이에 존재하는 변수간 연관성/분포/패턴
    • 관계 시각화 유형: 산점도/ 산점도 행렬/ 버블차트/ 히스토그램
    산점도 산점도 행렬 버블차트 히스토그램
    두 변수의 좌표평면
    (X,Y) 순서쌍이 한 점으로
    상관관계/군집화/이상값파악
    다변량 변수 데이터
    가능한 모든 변수 쌍에 대한
    산점도를 행렬형태로 표현
    산점도의 점에
    여러 의미를 부여(확장)
    직사각형 형태로 분포시각화
    특정변수에 대한 구간별 빈도수

     

     

    • 비교 시각화 유형: 플로팅 바 차트/ 히트맵/ 체르노프 페이스/ 스타 차트/ 평행 좌표 그래프
     플로팅 바 차트 히트맵 체르노프 페이스 스타 차트 평행 좌표 그래프
    최소-최대 수치까지
    막대가 걸쳐있음
    다양성/중복/이상값
    여러 변수를 비교
    칸별로 색상 구분
    각 변수는 열 방향
    얼굴 하나로 표현
    눈코입 등과
    일대일 대응
    각 변수와 연결
    최솟값은 중심점
    최댓값은 가장 먼 끝점
    다변량 데이터를
    2차원 평면에 표현

     

     

    • 시각화 분석을 위한 데이터 유형: 범주 및 비율/ 추세 및 패턴/ 관계 및 연결
    범주 및 비율 추세 및 패턴 관계 및 연결
    범위
    분포
    순위
    측정
    추세 방향/ 추세 패턴/ 추세 속도
    변동 패턴
    중요도
    교차
    예외
    상관성
    연관성
    계층 관계

     

     

    • 빅데이터 시각화 도구: 태블로/ 인포그램/ 차트블록/ 데이터래퍼
    태블로 Tableau 인포그램 Infogram 차트블록 Chart Blocks 데이터래퍼 Data Wrapper
    - 클라우드 저장
    - 다양한 그래픽 기능
    - 실시간 인포그래픽 연동
    - 자료 제작에 유용
    - 코딩 없이 쉽게 시각화
    - 웹 기반 차트 구현 + 공유
    - 쉽게 데이터 업로드
    - 레이아웃 제공

     

     

    • 인포그래픽: 중요한 정보를 하나의 그래픽으로 표현함 (그래픽과 텍스트가 균형을 이루도록 조합)
    • 복잡하고 어려운 정보를 쉽게 명확하게 이해할 수 있게 해줌
    • 인포그래픽 유형: 지도형/ 도표형/ 스토리텔링형/ 타임라인형/ 비교분석형/ 만화형

     


     

    • 비즈니스 기여도 평가: 사업수행에 영향을 주는 요소를 수치화된 자료형태로 산출하는 평가방법
    • 비즈니즈 기여도 평가지표: 총소유비용/ 투자대비효과/ 순현재가치/ 내부수익률/ 투자회수기간
    • 고려사항: 효과/ 성능/ 중복/ 최적화 검증
    총소유비용 TCO 투자대비효과 ROI 순현재가치 NPV 내부수익률 IRR 투자회수기간 PP
    한 자산을 획득하려 할때,
    주어진 기간동안
    모든 연관비용을 고려
    자본 투자에 따른
    순 효과의 비율
    (투자 타당성)
    특정 시점의
    투자금액과 매출금액의
    차이를 이자율로 고려
    순현재가치 = 0 으로
    만드는 할인율
    (연단위 기대수익 규모)
    누계 투자금액과 매출의 합이 같아지는 기간
    (흑자전환시점)

     


     

    • 빅데이터 모형 운영 시스템 적용방안: 모형개발 및 운영 - 적용방안 - 적용단계
    • 빅데이터 모형 개발 및 운영:
      분석목적 정의 - 가설검토 - 데이터 준비 및 처리 - 모델링 및 분석 - 정확도 및 성능 평가 - 운영

     

    • 운영 단계에서 분석모형을 운영시스템과 통합하여 활용한다~
    • 모형과 운영시스템에 사용된 언어가 다른 경우 or 통계패키지로 모형이 개발된 경우: 호환 인터페이스 필요함
    • 인터페이스: 서로 다른 2개의 시스템/장치간 정보/신호를 주고 받는 경우의 접점이나 시스템

     

    • 개선방안 수립: 시간이 지남에 따라 성능이 저하될 수 있으므로, 지속적인 성능추적이 필요함
    ① 예측오차 계산 ② 예측모형의 점검여부 결정 ③ 예측모형 개선방향 결정
    모형을 실행할 때마다,
    예측오차를 계산하고 기록
    예측오차로 추적신호 다시 계산
    관리도를 활용하여 추적
    <개선방법1> 최근 데이터&같은 모형
    예측모형을 업데이트하여 다시 적용
    예측오차 = 모형예측값 - 실제값 추적신호 = (예측 오차들의 합)
                          / (예측 오차 절댓값들의 평균)
    <개선방법2> 다른 모형 교체
    상호 비교평가로 선정된 모형으로 교체

     

     

    • 분석 결과에 따른 활용분야 파악&분류
    • 분야 파악: 직접(1차) / 파생(2차) 활용 가능한 업무와 가치사슬 파악
    • 분야 분류: 초기 아이디어 개발 관점/ 가치사슬 관점에서 관련있는 아이디어를 그룹화하여 분류
    초기 아이디어 개발 관점 가치사슬 관점
    마인드맵 친화도표 피라미드 새로운 가치사슬 발견
    마음속에 지도 그리듯
    줄거리를 이해하며 정리
    관련있는 아이디어끼리
    같이 묶어서 분류
    계층구조가 중요한 경우 자신의 경쟁적 지위 파악
    향상 지점 찾기 위함

     

     

    • 분류 결과를 토대로, 신규 서비스에 대한 사용자와 제공가치 도출:
      초기 아이디어 개발 관점 / 서비스 품질 관점(SERVQUAL)/ 일반적인 관점/ 시장 전체 관점에서 고객분류

    • 사업화 추진&수익 창출하기 위한 빅데이터 비즈니스 모형
    빅데이터 비즈니스의
    핵심 성공 요인 CSF
    빅데이터 비즈니스의
    주요 실패 요인
    신규 빅데이터 비즈니스 모형 사례
    <비즈니스 모델 캔버스>
    목표 성취를 위해 필수적인 요소
    경쟁력 향상을 위한 핵심내부역량
    - 목적/사용자/활용방안 불명확
    - 분석대상 데이터 품질의 저하
    - 분석 목적을 명확하게!
    - 분석 결과가 타당해야!
    - 목적 및 참여요소 측면
    - 프로세스 측면 (Start Small)
    ※ 모형에 대한 정의 없이
    인프라 우선 도입한 경우
    소규모로 시작하여, 성공경험을 공유하고,
    영역을 확대해나가는 것이 바람직함

     


     

    • 분석모형 모니터링: 분석모형이 운영시스템에 적용되면,
      실시간/배치 스케줄러가 시행되고, 주기별로 예상했던 수준의 성과가 나오고 있는지 모니터링
    • 자동 모니터링: DBMS에 성과자료를 누적, 자동으로 모니터링하고, 이상 시에만 확인

     

    • 모니터링 솔루션 예시: R Shiny
      - 모델링 결과를 간단히 배포 가능 (URL접속하여 모델 실행)
      - 사용자 작업파일(ui.R), 서버 파일(server.R)

     

    • 분석모형 성능 모니터링: 측정 항목별 임계치 & 이벤트 등급별 알람을 통해 성능 관리
    • 고려사항: 자동화는 전용 도구에서 기능을 제공할 때만 적용하는 것이 바람직

    • 분석 주기별 모니터링 기준: 일간/ 주간/ 월간(분기)/ 연간
    일간 성능분석 주간 성능분석 월간(분기) 성능분석 연간 성능분석
    시간대별 성능추이 주간단위 성능변화 일간/주간 취합하여 집계
    월간/분기별 현황보고 등
    연간 업무계획 및 반영
    연간 리포트 작성 등

     

     

    • 성능 모니터링을 위한 측정 항목: 응답시간/ 사용률/ 가용성/ 정확성
    응답시간
    Response Time
    사용률
    Utilization
    가용성
    Availability
    정확성
    Accuracy
    서비스 요청시점부터
    사용자 응답시점까지
    걸리는 시간
    일정 시간 동안
    정상적으로
    자원을 사용한 비율
    서비스 장애 없이
    정상적으로 지속하여
    제공할 수 있는 능력
    정보시스템 처리결과의
    정확성에 영향을 주는 요인

     

     

    • 성능 이벤트: 설정한 임계치가 초과되는 것
    • 빅데이터 플랫폼을 구성하는 각 구성요소의 특징에 따라서, 별도로 임계치를 설정하여 관리
    임계치 (Threshold) 임계치 설정 및 관리
    - 성능 모니터링 시, 장애상황 및 성능상태의 경계선
    - 임계치에 따른 등급 설정
    - 정상 상태를 기준치로 설정
    - 비정상 상태를 판단하는 경계
    - 임계치 설정: 서비스 형태&시스템 특성을 고려하여 설정
    - 임계치 관리: 다양한 요소를 반영하여 조정
      운영하면서도 주변요소의 영향을 받아 조정

     

     

    • 분석모형 리모델링
      빅데이터 모형의 지속적인 성과 모니터링을 통하여,

      편차가 일정 수준 이상으로 지속적으로 하락하는 경우,
      기존 모형에 대하여 데이터마이닝/시뮬레이션/최적화를 적용하는 개조작업

    • 리모델링 업무&주기:
      - 분기/ 반기/ 연 단위가 바람직
      - 일/주 단위는 특수분야만!
    데이터 마이닝 시뮬레이션 최적화
    분기 반기 or 주요변경이 이루어지는 시점 연 단위
    - 동일한 데이터로 다시 학습
    - 변수를 추가하여 다시 학습
    이벤트 발생 패턴변화, 시간 지연변화,
    큐잉 우선순위 변화 등을 처리
    - 목적함수(오브젝트 함수)의 계수 변경
    - 제약조건의 제약 값 변화 & 추가

     

     

    • 리모델링 절차: 개선용 데이터 수집/처리 - 분석모델 개선 - 분석결과 평가/모델등록
    ① 개선용 데이터 수집/처리 ② 분석모델 개선 ③ 분석결과 평가/모델등록
    현황분석 - 성능검토 - 개선필요성 결정 기존보다 성능이 높아지도록,
    파라미터 조정하여 다시 개발
    평가기준 선정 - 분석결과 검토
    - 알고리즘별 결과 비교

     

     

    • 리모델링 고려사항: 결과를 정기적(분기/반기/연단위)으로 재평가하여, 필요하다면 모형을 재조정해야 함
    • 재조정 주기 설정 및 자동화
    재조정 주기 업무 자동화 리모델링 고려사항
    - 초기에 주기 짧게: 자주 재조정
    - 점진적으로 길게: 갈수록 가끔 재조정
    - 관리 모델이 월 20개 이상인 경우
    - 다른 업무와 함께 수행해야 하는 경우
    - 데이터마이닝: 최신데이터 적용/ 변수추가
    - 시뮬레이션: KPI 변경/ 원칙 변경
    - 최적화: 조건&가중치 변화/ 계수값 조정

     


     

    참고 도서: 빅데이터분석기사 필기_수제비 2021

     

     

    728x90
    반응형