ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • [빅데이터분석기사 필기 요약] [빅분기 2과목 요약] II. 빅데이터 탐색 - 요약 (2)
    자격증/빅데이터분석기사-필기 2021. 4. 11. 23:09
    728x90
    반응형

     


     

    [빅데이터분석기사 필기 2과목] II. 빅데이터 탐색

     

    02. 데이터 탐색

     

     

    • 데이터 탐색: 데이터 분석 전, 그래프/통계적 방법으로 다양한 각도에서 데이터 특징 파악&직관적으로 보는 분석방법
    • 탐색적 데이터 분석(EDA)의 4가지 주제: 저항성/ 잔차해석/ 자료재표현/ 현시성 (Four R's)
    저항성 잔차 해석 자료 재표현 현시성
    Resistance Residuals Re-expression Representation
    이상값에 영향 적게 받음 주 경향으로부터 벗어난 정도 적당한 척도로 바꾸는 것 쉽게 이해할 수 있도록 시각화

     

     

    • 개별 변수/ 다차원 데이터 탐색 방법
    범주형 (질적) 수치형 (양적) 범주형-범주형 수치형-수치형 범주형-수치형
    - 명목척도&순위척도
    - 빈도수/ 최빈값/ 비율
    - 막대형 그래프
    - 등간척도&비율척도
    - 평균/ 분산/ 표준편차
    - 박스플롯/히스토그램
    - 교차 빈도
    - 백분율/비율
    - 상관성&추세성
    - 피어슨 상관계수
    - 산점도/기울기
    - 그룹별 비교
    - 박스플롯

     

     

    • 상관관계 분석: 2개 이상의 변수간 상호연관성의 존재여부&강도를 측정하는 분석방법
      - 공분산 (경향)
      - 상관계수 (방향성&경향)
    공분산 Covariance 피어슨 상관계수 카이제곱 검정 (교차분석) 스피어만 순위 상관계수
    두 변수간 상관정도&경향 수치적 데이터 명목적 데이터 순서적 데이터
    0보다 크면 상승/ 작으면 하강 범위: (-1, +1) (ex) 지역, 종교, 성별 등 (ex) 성적 순위, 만족도 등

     

     

    • 기초통계량
      - 중심경향성: 평균/ 중위수/ 최빈값
      - 산포도: 범위/ 분산/ 표준편차/ 변동계수/ 사분위수범위
      - 분포: 왜도/ 첨도

      - 변동계수(CV): 측정단위가 서로 다른 자료의 흩어진 정도를 상대적으로 비교하기 위함
    중심 경향성 산포도 (흩어진 정도) 분포
    평균 총합 / 변수개수 범위 Max - Min 왜도 좌/우 치우친 정도
    중위수 중앙에 위치한 값 분산 평균으로부터 편차 첨도 뾰족한 정도
    최빈값 가장 많이 관측됨 표준편차 분산의 양의제곱근    
        변동계수 CV 표준편차 / 평균    
        사분위수 범위 IQR Q3-Q1    

     

     

    • 데이터 분포: 왜도 & 첨도
    왜도 Skewness 첨도 Kurtosis
    왼쪽 편포
    Negative Skew
    왜도 < 0 첨도 < 0 납작
    Mean < Median < Mode 첨도 > 0 뾰족
    오른쪽 편포
    Positive Skew
    왜도 > 0 첨도 = 0 정규분포
    Mode < Median < Mean    

     

     

    • 시공간 데이터: 시간에 따라 위치/형상이 변하는 데이터 (공간적 객체에 시간의 개념이 추가됨)
      - 이산적 변화: 수집주기 일정하지 않음
      - 연속적 변화: 수집주기 일정함/ 일종의 함수로 표현
    • 문자열 처리 함수들: split, find, left, mid
    split(문자열,구분자) find(찾는문자, 문자열) left(문자열, n) mid(문자열, 시작위치, n)
    공백/쉼표 등으로 나눔 찾는문자의 문자열 반환 가장 왼쪽부터 문자열 n개 시작위치부터 문자열 n개

     

     


     

    03. 통계기법 이해

     

     

    • 기술 통계 (Descriptive Statistics):
      수집된 데이터를 확률/통계적으로 정리/요약하는 기초적인 통계 (분포의 특징을 파악)

    • 기초 통계량: 평균/ 중위수/ 최빈값/ 범위/ 분산/ 표준편차/ 평균의 표준편차/ 첨도/ 왜도
      - 평균: 이상값 민감/ 중위수: 특이값 영향 X
    분산 Variance 평균의 표준오차 SE
                                          평균으로부터 흩어진 정도
                                          - 모분산     = (편차 제곱합) / n
                                          - 표본분산 = (편차 제곱합) / (n-1)
                                               표본평균의 표준편차
                                               각 표본마다 평균계산
                                               → 각 평균들의 전체평균 계산

     

     

    • 회귀 분석/ 분산 분석/ 주성분 분석/ 판별 분석
    • 판별 분석: 집단에 대한 정보 → 판별규칙/함수 생성 → 새로운 개체가 어떤 집단에 속하는지 판별
    회귀분석 분산분석 ANOVA 주성분분석 PCA
    독립변수가 종속변수에 미치는 영향 추정 2개 이상의 집단간 비교 일부 주성분으로 원래변수 변동을 설명
    결정계수 모형 설명력 확인 F-검정통계량 분산비교 최소의 주성분으로 분산의 최대량 설명
    전제조건 형성/ 분산성/
    립성/ 상관성/
    규성
    일원
    이원
    다변량
    독립변수 1개
    독립변수 2개
    종속변수 2개이상
    주성분변수 원래변수들의
    선형결합
    독립변수 선택 전진/ 후진/ 단계 공분산 분석 외생변수 영향제거    

     

     

    • 표본 추출: 단순 무작위 추출/ 계통 추출/ 층화 추출/ 군집 추출
    계통 추출 층화 추출 군집 추출
    일정한 간격으로 추출 여러 계층별로 무작위 추출
    계층: 내부동질/ 외부이질
    일부 군집의 전체/일부를 추출
    군집: 성질 고려하지 않음!
    (ex) 번호 끝자리 5로 끝나는 사람 선정 (ex) 지역별/도별로 무작위 100명 선정 (ex) 검정/노랑/파랑 공 100개→파랑 추출 

     

     

    • 자료 측정: 질적속성 - 명목척도/ 순서척도 & 양적속성 - 구간척도/ 비율척도
    질적 속성 양적 속성
    명목척도 순서척도 구간척도 비율척도
    분류목적 대소관계 서열과 의미있는 차이 구간척도 + 비율 의미있음
    등호연산(=,≠) 비교연산(>,<) (ex) 온도 승제연산(÷,×)

     

     

    • 확률분포: 이산확률분포/ 연속확률분포
    이산확률분포 하나씩 셀 수 있는 값 연속확률분포 실수와 같은 연속적인 값
    포아송 분포 주어진 시간동안 사건 발생횟수 정규분포 종모양 분포 
    베르누이 분포 1번 시행 → 성공/실패 표준정규분포 Z(0,1) ⇒ X를 Z로 정규화
    이항 분포 n번 시행 → k번 성공확률 T-분포 모집단이 정규분포
    모표준편차는 모름~
        카이제곱분포 표준정규 확률변수 제곱합
        F-분포 카이제곱분포 두 확률변수 비

     

     

    • 표본분포: 표본이 가지는 추정량의 확률분포
    • 표본의 특성을 보여주는 통계량에 의해, 모집단의 특성을 보여주는 모수를 추론
    용어 의미
    모집단 분석 대상 집단 전체
    모수 모집단 특성을 나타내는 대표값
    표본(샘플) 모집단 특성을 추정하기 위해 추출/조사하는 모집단의 일부분
    통계량 표본의 특성을 나타냄 (확률변수) (표본에서 얻은 평균, 표준오차 등)
    추정량 모수 추정을 위해 구한 통계량
    표준오차 통계량의 변동 정도
    표본오차 모집단을 대표할 수 있는 것들이 추출되지 못해서 발생하는 오차
    비표본오차 표본오차를 제외한 모든오차 (부주의, 실수 등)
    큰 수의 법칙 표본 개수(n)가 커질수록, 표본평균과 모평균이 비슷해짐
    중심극한정리(CLT) 표본 개수(n)가 커질수록, 모집단 분포와 상관없이, 표본분포가 정규분포와 근사

     

     

    • 추론 통계: 점 추정/ 구간 추정
    점 추정 모수를 하나의 값으로 추정 구간 추정 범위로 모수 추정 & 신뢰도 제시
    점 추정
    조건
    불편성/ 효율성/
    일치성/ 충족성
    신뢰 수준 - 구간에 모수가 포함될 확률
    - 귀무가설이 참일때 참으로 판단하는 확률

    - 신뢰수준 = 1 - α  (유의수준 = α)
    사용되는
    통계
    표본평균/ 표본분산/
    중위수/ 최빈값
    신뢰 구간 신뢰수준 기준으로 추정됨
    통계적으로 유의미한 모수 범위

     

     

    • 가설 (Hypothesis): 모수에 대한 가정/ 잠정적인 결론
    귀무가설 H0 대립가설 H1
    현재까지 주장되어 온 것
    기존과 비교하여 변화/차이가 없음
    표본을 통해 확실한 근거를 가지고
    입증하고자 하는 가설 (연구가설)

     

     

    • 가설 검정: 대립가설을 채택할 수 있는지 평가하는 과정
      - 모집단에 대한 통계적 가설(대립가설) 수립 → 표본 추출 → 통계적 가설(대립가설)의 진위를 판단
      - 가설 설정 → 유의수준α 설정 → 검정방법 설정 → p-value 산출 → 유의수준과 p-value 비교
      - p-value > α : 귀무가설 채택- p-value < α : 귀무가설 기각 (대립가설 채택)

     

    • 검정 통계량: 가설검정의 대상이 되는 모수를 추론하기 위해 사용하는 표본 통계량
      - 귀무가설이 이라는 전제 하에, 모집단으로부터 추출된 확률표본의 정보를 이용함
    • 가설 검정 오류: 모집단 일부인 표본을 기반으로 모집단에 대해 판단하므로, 오류 발생 가능성이 항상 존재함
    제 1종 오류 (α = 유의수준)
    제 2종 오류 (β = 베타수준)
    귀무가설이     참인데, 기각하게 되는 오류 (H0 T → F)
    귀무가설이 거짓인데, 채택하게 되는 오류 (H0 F → T)
    p-value 
    유의확률
    - 제 1종 오류를 범할 확률 (귀무가설이 참인데 기각하게 될 확률)
    - 귀무가설이 맞다고 가정할 때 얻은 결과보다, 극단적인 결과가 실제로 관측될 확률
    - 귀무가설이 맞다고 가정할 때, 얻은 검정통계량보다 크거나 같은 값을 얻을 수 있는 확률
    - 귀무가설을 맞다고 가정할 때, 표본 이상으로 극단적인 결과를 얻을 확률
    - 귀무가설을 지지하는 방향으로 검정통계량이 나올 확률

     


     

    참고 도서: 빅데이터분석기사 필기_수제비 2021

     

     

    728x90
    반응형