ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • [빅데이터분석기사 필기 요약] II.빅데이터 탐색 - 03. 통계기법 이해 (3)
    자격증/빅데이터분석기사-필기 2021. 3. 17. 14:57
    728x90
    반응형

    빅데이터분석기사 필기 요약

    🔑 추론통계/ 점추정/ 불편성/ 효율성/ 일치성/ 충족성/

           구간추정/ 신뢰수준/ 신뢰구간/ 가설검정/ 귀무가설/ 대립가설/
           제 1종 오류/ 제 2종 오류/ 검정통계량/ p-value

     

    II. 빅데이터 탐색

       03. 통계기법 이해

          1. 기술 통계

          2. 추론 통계

          

     

     

     


     

    2. 추론 통계

     

    [1] 점 추정

     

    (1) 점 추정 (Point Estimation) | 모수를 하나의 값으로 추정

    • 점 추정
      - 표본의 정보로부터
      - 모집단의 모수를
      - 하나의 값으로 추정하는 기법

    • 점 추정 조건: 불편성/ 효율성/ 일치성/ 충족성
      - 불편성 (Unbiasedness): 모든 표본의 추정량들의 기댓값 = 모수
      - 효율성 (Efficiency): 추정량의 분산이 작을수록 좋다~
      - 일치성 (Consistency): 표본 크기 아주 커짐 → 추정량 ≈ 모수
      - 충족성 (Sufficient): 추정량은 모수에 대한 모든 정보를 제공

     

    (2) 점 추정에 사용되는 통계 | 표본평균/ 표본분산/ 중위수/ 최빈값

    • 표본평균 (Sample Mean): 모평균의 추정량/ 확률표본의 평균값
    • 표본분산 (Sample Variance): 모분산의 추정량

     

    [2] 구간 추정

     

    (1) 구간 추정 (Interval Estimation) | 범위로 모수를 추정

    • 구간 추정
      - 추정값에 대한 신뢰도를 제시하면서, 범위로 모수를 추정하는 방법
      - 추정량의 분포에 대한 전제와
      - 구간 안에 모수가 있을 신뢰수준이 주어져야 함

    • 구간 추정 용어: 신뢰수준/ 신뢰구간
      - 95% 신뢰수준에서 모집단의 분포를 알고 있는 경우 → P(-1.96 ≤ Z ≤ 1.96) = 0.95, α = 0.05

     

    신뢰수준
    Confidence Level
    신뢰구간
    Confidence Interval
    구간에 모수가 포함될 확률
    •어떠한 값이 알맞은 추정값
     이라고 믿을 수 있는 정도



    - α = 오차수준, 유의수준
    - 100×(1-α) % = 신뢰수준
    •신뢰수준 기준으로 추정
    •통계적으로 유의미한
     모수가 어느 범위 안에
     있는지를 확률적으로
     보여주는 방법

    {표본평균 - (z × SE)}
    ~ {표본평균 + (z × SE)}

     


     

    [3] 가설검정

     

    (1) 가설 (Hypothesis) | 모수에 대한 가정 or 잠정적인 결론

    • 귀무가설 (H₀): 기존과 차이 없음/ 현재까지와 변화 없음

    • 대립가설 (H₁): 입증하고자 하는 가설/ 기존과 다른 내용
      - 표본을 통해 확실한 근거를 가지고 입증하고자 함
      - 대립가설 = 연구가설

    모집단 평균에 대한 가설검정

     

     

     

    (2) 가설검정 (Statistical Hypothesis Test) | 대립가설을 채택할 수 있는지 평가하는 과정

    • 가설검정
      - 모집단에 대한 통계적 가설(대립가설)을 세우고
      - 추출한 표본에서 얻은 정보를 이용하여
      - 통계적 가설의 진위를 판단하는 과정

    • p-value = 유의확률: H₀이 맞다고 가정할 때 얻은 결과보다 극단적인 결과가 실제로 관측될 확률
      - 귀무가설이 참이라는 전제 하에,
      - 표본에서 실제로 관측된 통계치와
      - 같거나, 더 극단적인 통계치가 관측될 확률
      • p-value < α : H₀ 기각, H₁ 채택
      • p-value > α : H₀ 채택 (기각할 수 없다~)

    • 가설검정 절차: 가설 설정  → 유의수준 설정 → 검정방법 설정 → p-value 산출 → p-value 와 유의수준 비교

    • 가설검정 방법: 양측검정/ 단측검정
      • 양측검정: 모수가 특정값과 통계적으로 같은지 여부
        - H₀ : θ = θ₀
      • 단측검정: 모수가 특정값보다 통계적으로 큰지/작은지 여부
        - H₀ : θ ≥ θ₀
        - H₀ : θ ≤ θ₀

     

     

     


     

    (3) 가설검정의 오류 | 제 1종 오류/ 제 2종 오류

    • 가설검정 오류
      - 가설을 검증할 때
      - 모집단이 아닌, 추출된 표본을 기반으로
      - 모집단에 대한 결론을 내리는 것!
      - 따라서 통계적인 오류 발생 가능성이 항상 존재한다...ㅜ

    • 제 1종 오류: 귀무가설이 인데, 기각하게 되는 오류 (H₀ T → F)
    • 제 2종 오류: 귀무가설이 거짓인데, 채택하게 되는 오류 (H₀ F → T)

    • 기각역: 대립가설이 맞을 때 그것을 받아들이는 확률
    🔎 실제 현상
    (참)
    H₀ H₁
    통계적 결정
    (채택)
    H₀ 올바른 결정
    1 - α
    신뢰수준
    제 2종 오류
    β
    베타수준
    H₁ 제 1종 오류
    α
    유의수준
    올바른 결정
    1 - β
    검정력

     

     

    (4) 검정 통계량 | 모수를 추론하기 위해 사용하는 표본의 통계량

     

    (5) p-value | 제 1종 오류를 범할 확률

    • 검정 통계량에 근거하여, 귀무가설이 참인데 기각하게 될 확률
    • 귀무가설을 가정하였을 때, 표본 이상으로 극단적인 결과를 얻을 확률
    • 귀무가설을 지지하는 방향으로 검정 통계량이 나올 확률
    • 제 1종 오류에서 연구자가 내린 판정이 잘못되었을 실제 확률
    • 귀무가설이 이라는 가정에 따라 주어진 표본 데이터를 희소 또는 극한값으로 얻을 확률값
    • 귀무가설이 참이라는 가정 하에서, 연구자가 얻은 검정통계량보다 크거나 같은 값을 얻을 수 있는 확률

    검정통계량과 p-value의 관계


     

    참고 도서: 빅데이터분석기사 필기_수제비 2021

     

    728x90
    반응형