-
항상 헷갈리는 명목척도 서열척도 등간척도 비율척도 뜻 차이 예시위키/데이터분석 2024. 5. 18. 17:19728x90반응형
데이터 척도 범주 순위 같은 간격 절대 영점 범주형 데이터 명목척도 O 순위척도 O O 연속형 데이터 등간척도 O O O 비율척도 O O O O 데이터 척도 비교 연산 통계 시각화 범주형 데이터 명목척도 같다, 다르다 X 비모수 통계 막대그래프,
원그래프 등순위척도 대소비교 X 비모수 통계 연속형 데이터 등간척도 대소비교 연산가능 모수 통계 히스토그램,
시계열그래프 등비율척도 대소비교 연산가능 모수 통계 ✅ 데이터 변수는 질적변수인 범주형 데이터, 양적변수인 수치형 데이터로 나누어집니다.
- 범주형 데이터: 임의의 "범주"로 분류하여 측정합니다. 혈액형, 국적, 직업, 만족도 등등을 예로 들 수 있습니다.
✔️ 따라서 이 자체로는 연산할 수 없는 데이터입니다.
✔️ 각 범주에 속한 개수나 퍼센트 등을 뽑아내서, 같다/다르다/크다/작다 정도로 비교할 수 있습니다.
✔️ 간단한 예를 들면 이렇습니다. "우리팀원들 중 한국국적은 7명, 미국국적은 3명으로 한국국적인 사람이 더 많다."
팀원1, 팀원2, ..., 팀원10까지 10개의 데이터가 있긴 하지만, 팀원1은 한국국적 팀원2는 미국국적이라는 데이터로
더하기 빼기 연산은 할 수 없습니다. 위와 같이 어떤 "범주"로 구분해서 비교할 수만 있습니다.
✔️ 일반적으로 막대그래프, 원그래프, 파이그래프 등으로 시각화합니다.
- 수치형 데이터: 범주형과 달리 연산할 수 있습니다. 키, 몸무게, 인원 수, 매출액 등등을 예로 들 수 있습니다.
✔️ 양적인 수치로 측정되므로 이 자체로 연산할 수 있습니다.
✔️ 간단한 예를 들면 이렇습니다. "우리팀원 10명의 키를 평균내면 172.5cm이다."
팀원 10명의 키 데이터로 평균을 계산했습니다. 팀원1의 키와 팀원2의 키로 더하기 빼기같은 연산도 가능합니다.
✔️ 일반적으로 히스토그램, 시계열그래프 등으로 시각화합니다.
✅ 범주형 데이터의 척도는 순서에 의미가 있느냐에 따라 명목척도, 순서척도으로 나눕니다.
- 명목척도는 단어 그대로 의미있는 것은 "이름" 뿐입니다. 순서/순위도 없으므로 같다, 다르다만 구분할 수 있습니다.
✔️ 혈액형, 국적, 직업, 주거형태 등이 명목척도로 측정되는 데이터입니다. - 순서척도(순위척도)는 순서에도 의미가 있습니다. 따라서 대소관계를 비교할 수 있습니다.
✔️ 맛집 리뷰별점(1~5점), 메달(금/은/동), 선호도조사, 이용자등급 등이 순서척도로 측정되는 데이터입니다.
✔️ 별점은 1점, 2점 등으로 표현하기 때문에 수치형으로 오해하기 쉽지만, 불만족 1점~만족 5점으로 표현한 순위척도입니다.
✅ 수치형 데이터의 척도는 절대적인 영점이 있느냐에 따라 등간척도, 비율척도로 나눕니다.
- 등간척도(간격척도)는 대소관계가 의미있을 뿐만 아니라, 각 구간의 간격이 동일합니다(등간).
✔️ 온도, 시간, 미세먼지 수치, 당뇨 수치 등이 등간척도로 측정되는 데이터입니다.
✔️ 위 순서척도의 간격은 사실 완전히 동일하다고 보기 어렵습니다. 상황에 따라, 사람에 따라 다르게 간주할 수 있습니다.
그러나 등간척도의 간격은 "동일한 간격으로 약속"된 것입니다. 온도와 시간을 생각해보면 이해하기 쉽습니다.
✔️ 다만, 모두의 편의를 위해 "등간을 약속"했을 뿐, 절대적인 영점은 없습니다.
온도가 0도라고 아예 "온도가 존재하지 않는 것"은 아닙니다. 0도라고 표기하면 전세계적으로 "약속된 0도"로 이해하죠.
- 비율척도는 대소관계가 의미있으며, 절대영점도 있는 경우입니다.
✔️ 키, 몸무게, 거리, 넓이, 질량, 금액 등이 비율척도로 측정되는 데이터입니다.
✔️ 위 등간척도처럼 간격이 같으면서 절대적인 영점도 존재합니다.
따라서 금액이 0원이라면 정말 금액이 없는 것이고, 질량이 0이라면 정말 질량이 존재하지 않는 것입니다.
✔️ 보통 사칙연산을 했을 때 가장 의미있는 데이터입니다. A~B간 거리 3m, B~C간 거리 5m라면 둘이 합쳐 거리는 8m입니다.
사칙연산이 별 의미가 없다면 등간척도로 측정해야 하는 경우가 대부분입니다.
예를 들어 A의 온도가 30도, B의 온도가 40도입니다. 두 온도를 합쳐도 70도엔 아무 의미도 없습니다.
728x90반응형'위키 > 데이터분석' 카테고리의 다른 글
분류모델 평가지표 - 오차행렬 혼동행렬, 정확도 재현율 정밀도 F1-score, ROC곡선 AUC (0) 2024.07.04 데이터분석 기획 유형 - 최적화, 솔루션, 통찰, 발견 / 데이터분석 하향식 상향식 접근방식 (1) 2024.06.03 정형데이터 반정형데이터 비정형데이터 뜻 구분, DB 스키마 뜻 (1) 2024.05.16 암묵지 형식지 뜻 의미 예시, 암묵지 형식지 상호작용 예시 (0) 2024.05.15 DIKW 피라미드 뜻 의미 예시 - 데이터/정보/지식/통찰 (2) 2024.05.13 - 범주형 데이터: 임의의 "범주"로 분류하여 측정합니다. 혈액형, 국적, 직업, 만족도 등등을 예로 들 수 있습니다.