-
[빅데이터분석기사 필기 요약] I.빅데이터 분석 기획 - 03. 데이터 수집 및 저장 계획 (3)자격증/빅데이터분석기사-필기 2021. 3. 12. 11:33728x90반응형
빅데이터분석기사 필기 요약
🔑 데이터 보안관리/ 비식별화/ 가명처리/ 총계처리/ 데이터값 삭제/ 범주화/ 데이터 마스킹/ 적정성 평가/ 데이터 품질검증
I. 빅데이터 분석 기획
03. 데이터 수집 및 저장 계획
1. 데이터 수집 및 전환
1. 데이터 수집 및 전환
[4] 데이터 비식별화
(1) 데이터 보안 관리
- 수집 데이터 보안: 개인정보/ 데이터 연계/ 빅데이터 보안 관점에서 고려해야 한다.
- 개인정보 보안 관점: 개인정보가 포함되어 있을 경우 삭제 혹은 비식별 조치
- 데이터 연계 보안 관점: 다양한 데이터의 연계 처리 시 보안 취약점 제거
- 빅데이터 보안 관점: 데이터 흐름에 대한 보안 고려/ 암호화를 통해 유출 시 무결성 유지 필요 - 빅데이터 수명 주기별 보안 관리: 수집/ 저장/ 분석 단계별!
- 수집 보안 관리: 데이터 수집 기술 취약성/ 수집 서버 및 네트워크 보안/ 개인정보 및 기밀정보 유출 방지
- 저장 보안 관리: 데이터 저장소 취약성/ 보안 등급 분류/ 보안 모니터링
- 보안 등급: 기밀 수준(Confidential)/ 민감 수준(Sensitive)/ 공개 수준(Public) 등 - 분석 보안 관리: 내부 사용자는 데이터 유출 방지/ 외부 침입자의 유출행위 차단/ 접근기록 등의 보안로그 관리
- 분석가의 윤리의식 중요/ 분석목적에 따라 분석가의 접근권한, 접근통제 등을 관리해야 함!
- 빅데이터 보안 대응 방안: 빅데이터 수명 주기 전반(수집 → 저장 → 분석 → 활용)에 걸쳐서 보안 적용 방안 고려
- 개인정보 처리/ 사용자 인증/ 접근 제어/ 암호화/ 보안 모니터링/ 보안 인프라 등을 수명 주기에 따라 관리한다~
(2) 데이터 비식별화
- 데이터 비식별화
- 수집된 개인정보의 일부 or 전부를
- 삭제 or 다른 정보로 대체하여
- 다른 정보와 결합해도 특정 개인 식별이 어렵도록 한다! - 데이터 비식별화 적용 대상
- 그 자체로 개인을 식별할 수 있는 정보: 이름/ 생년월일/ 사진/ 주민등록번호/ 여권번호/ 생체정보/ 계좌번호 등
- 다른 정보와 함께 결합하여 개인을 알아볼 수 있는 정보: 성별/ 나이/ 국적/ 신체특성/ 신용특성/ 경력특징 등 - 데이터 비식별화 처리 기법: 가명처리/ 총계처리/ 데이터값 삭제/ 범주화/ 데이터 마스킹
⇒ 데이터 활용성 고려하여 기법 선택!
< 데이터 비식별화의 처리 기법에 활용되는 세부 기술 >
- 가명처리 (Psuedonymisation): 다른 값으로 대체 → 완전 비식별화 가능/ 데이터 변형 수준 낮지만/ 분석에 한계 존재
⇒ 세부기술: 휴리스틱 익명화/ K-익명화/ 암호화/ 교환방법
- 휴리스틱 익명화 (Heuistic Anonymization): 정해진 규칙에 따라서 or 사람의 판단에 따라서 개인정보 숨김
- K-익명화 (K-anonymity)
- 같은 속성값 가지는 데이터를 K개 이상으로 유지
- 지정된 속성이 가질 수 있는 값을 K개 이상으로 유지 - 암호화 (Encryption): 일정 규칙의 알고리즘을 적용하여 암호화하여 대체
- 복호화 값(key)에 대한 보안 방안도 함께 필요 - 교환방법 (Swapping): 추출된 표본 레코드에 대해 교환
- 총계처리 (Aggregation): 통곗값 적용 → 통계분석용 데이터셋 작성에 유리하지만/ 정밀한 분석 어려움
⇒ 세부기술: 기본 방식/ 부분집계/ 라운딩/ 데이터 재배열
- 총계처리 기본 방식: 데이터 집합 or 부분적으로 총합 or 평균 처리
- 부분 집계 (Micro Aggregation): 부분 그룹만 처리 (다른 속성값에 비해 오차범위가 큰 항목 등)
- 라운딩 (Rounding): 올림 or 내림 기준을 적용
- 데이터 재배열 (Rearrangement): 기존 정보값은 유지/ 개인정보와 연관되지 않도록 재배열
- 개인 정보와 타인 정보가 뒤섞임 → 전체 정보의 손상없이 비식별 처리
- 데이터값 삭제 (Data Reduction): 특정 데이터값을 삭제 → 분석 다양성/ 결과의 유효성/ 신뢰성 저하 가능성
⇒ 세부기술: 속성값 삭제/ 속성값 부분 삭제/ 데이터 행 삭제/ 준 식별자 제거를 통한 단순 익명화
- 속성값 삭제 (Reducing Variables): 개인식별항목 단순 제거
- 속성값 부분 삭제 (Reducing Partial Variables): 일부 값 삭제 → 대표성을 가진 값으로 보이도록 함
- 데이터 행 삭제 (Reducing Records): 민감한 속성값을 가진 개인정보 내용 전체를 제거함
- 준식별자 제거: 식별자 뿐만 아니라 준 식별자를 모두 제거 → 프라이버시 침해 위협 줄임
- 범주화 (Data Suppression): 범주화(대푯값 변환) or 범위화(구간값 변환) → 정확한 수치 분석은 어려움
⇒ 세부기술: 기본 방식/ 랜덤 올림/ 제어 올림/ 범위 방법/ 세분 정보 제한
- 범주화 기본 방식(은폐화): 평균 or 범주의 값으로 변환 → 명확한 값을 숨김
- 랜덤 올림 (Random Rounding): 임의의 수 기준으로 올림(Round up) or 절사(Round down)
- 제어 올림 (Controlled Rounding): 랜덤 올림의 단점 해결 → 행과 열이 맞지 않는 것을 제어하여 일치시킴
- 범위 방법 (Data Range): 해당 값의 분포(범위, 구간)으로 표현
- 세분 정보 제한 방법 (Sub-divide Level Controling): 민감 항목, 높은 시각 항목을 상한, 하한 코딩, 구간 재코딩
- 데이터 마스킹 (Data Masking): 전체 or 부분적으로 대체값으로 변환 → 완전비식별화 가능/ 원시데이터 구조변형 적음
⇒ 세부기술: 임의 잡음 추가/ 공백과 대체
- 임의 잡음 추가 방법 (Adding Random Noise): 임의의 숫자 등의 잡음을 더하거나 곱하여 노출 방지
- 공백(Blank)과 대체(Impute) 방법: 비식별 항목을 공백으로 바꿈 → 대체법 적용하여 공백을 채움
(3) 개인정보 비식별 조치 가이드라인
- 개인정보 비식별 조치 가이드라인
- 정보 일부 or 전부를 삭제 or 대체하거나
- 다른 정보와 쉽게 결합하지 못하도록 하여
- 특정 개인을 알아볼 수 없도록 하는 수행지침! - 단계별로 조치 기준 있음: 사전검토 → 비식별 조치 → 적정성 평가 → 사후 관리
- 사전 검토: 개인정보 해당 여부 검토
- 비식별 조치
- 식별자 조치 기준: 식별자는 원칙적으로 삭제!
- 속성자 조치 기준: 이용 목적과 관련없는 속성자도 원칙적으로 삭제!
- 비식별 조치 방법: 여러 조치 방법을 단독 or 복합적으로 활용
- 적정성 평가: 기초 자료 작성 → 평가단 구성(3명 이상) → 평가 수행 → 추가 비식별 조치 → 데이터 활용
- 평가 수행: 프라이버시 보호 모델을 활용하여 비식별 수준 적성성 평가
- k-익명성: 주어진 데이터 집합에서 준식별자 속성들이 동일한 레코드가 적어도 k개 존재하도록 하는 모델
- l-다양성: k-익명성의 동질성 문제, 배경지식의 문제를 극복하여 익명성을 향상시키는 보완기술
- t-근접성: (동질 집합에서 민감정보의 분포)와 (전체 데이터 집합에서 민감정보의 분포)가
유사한 차이를 보이게 하는 모델
- 사후 관리: 비식별 정보 안전조치/ 재식별 가능성 모니터링
[5] 데이터 품질 검증
(1) 데이터 품질 특성 | 유효성 & 활용성
- 데이터 유효성: 정확성/ 일관성으로 정의함
- 데이터 정확성: 정확성/ 사실성/ 적합성/ 필수성/ 연관성
- 데이터 일관성: 정합성/ 일치성/ 무결성 - 데이터 활용성: 유용성/ 접근성/ 적시성/ 보안성으로 정의함
- 데이터 유용성: 충분성/ 유연성/ 사용성/ 추적성
- 데이터 보안성: 보호성/ 책임성/ 안정성
(2) 데이터 변환 후 품질 검증 프로세스
- 수집 데이터 분석 프로세스: 빅데이터 수집 → 메타데이터 수집 → 메타데이터 분석 → 데이터 속성 분석
- 메타데이터 수집: 테이블 정의서/ 컬럼 정의서/ 도메인 정의서/ 데이터 사전/ ERD(ER-Diagram) 등
- 메타데이터를 통한 데이터 속성(유효성) 분석 방안
- 누락값 분석: NULL/ 공백/ 숫자 0 의 분포 확인
- 값의 허용 범위 분석: 해당 속성의 도메인 유형에 따라서 범위 결정
- 허용 값 목록 분석: 허용 값 목록, 집합에 포함되지 않는 값을 발견
- 문자열 패턴 분석: 컬럼 속성값의 특성을 문자열로 도식화 → 특성을 파악하기 쉽게 해 놓은 표현 방법
- 날짜 유형 분석: DATETIME 유형, 문자형 날짜 유형을 활용
- 유일 값 분석: 유일해야 하는 컬럼에 중복이 있는지 확인
- 구조 분석: 관계 분석/ 참조 무결성 분석/ 구조 무결성 분석기 등을 활용하여 구조 결함 발견
(︶^︶)참조 무결성 (Referential Integrity) 이란, 관계형 데이터베이스 모델에서
참조 관계에 있는 두 테이블의 데이터가 항상 일관된 값을 가지도록 유지되는 것을 말한다.- 데이터 유효성 여부를 검증할 수 있는 규칙 설정 기능 개발 → 일반적으로 정형 데이터에 대해 수행
- 정규표현식을 활용한 검증 수행 → 값 유무, 중복 여부 검증 외에도/ 데이터 양식, 규칙을 적용할 수 있음
표현기호 기능 예시 ∖ 특수 문자 표기 ∖t (탭), ∖s (스페이스), ∖d (숫자) | OR a|b → a 혹은 b가 존재하면 참 ^ 시작 ^abc → abc로 시작하는 문자열 등장 $ 종료 def$ → def로 종료되는 문자열 등장 ( ) 묶음 처리 a(bc)+ → a 뒤에 bc가 1번 이상 등장 [ ] [ ] 에 있는 문자열 중 1개와 매칭 [a-d] → a, b, c, d 중 1개 이상 등장 * 0개 이상의 문자열 매칭 a(bc)* → a 뒤에 bc가 0번 이상 등장 + 1개 이상의 문자열 매칭 d(ef)+ → d 뒤에 ef가 1번 이상 등장 {n} n개 이상의 문자열 매칭 ∖s{1,3} → 공백이 1번 이상 3번 이상 등장
(3) 품질 검증 방안
- 빅데이터 수집 시스템의 요구사항 관련 자료 수집: 수집 단계에서 품질관리를 해야 하는 요건 도출
- 수집된 빅데이터의 특성을 고려한 품질 검증 기준 정의:
수집 데이터의 복잡성/ 완전성/ 유용성 등에 대한 품질 검증 기준 정의- 복잡성 기준 정의: 데이터 구조/ 형식/ 자료/ 계층 측면에서 정의함
- 완정성 기준 정의: 메타데이터/ 개체 단위/ 변수 정의 등을 기준으로 → 질이 충분하고 완전한가
- 유용성 기준 정의: 처리 용이성/ 자료 크기/ 하드웨어 및 소프트웨어의 제약 사항 측면에서 정의함
- 시간적 요소 및 일관성 기준 정의: 시간적 요소/ 일관성/ 타당성/ 정확성을 기준으로 품질 관리
- 시간적 요소: 수집 기간/ 수집방법의 변화가 과거 자료 사용에 제약을 주는지 여부 등
- 데이터 변환 수 빅데이터 품질 검증 기준에 따라 검증 수행 → 검증 후 잘못된 데이터는 다시 변환하여 저장~
참고 도서: 빅데이터분석기사 필기_수제비 2021
728x90반응형'자격증 > 빅데이터분석기사-필기' 카테고리의 다른 글
[빅데이터분석기사 필기 요약] I.빅데이터 분석 기획 - 03. 데이터 수집 및 저장 계획 (5) (1) 2021.03.13 [빅데이터분석기사 필기 요약] I.빅데이터 분석 기획 - 03. 데이터 수집 및 저장 계획 (4) (0) 2021.03.12 [빅데이터분석기사 필기 요약] I.빅데이터 분석 기획 - 03. 데이터 수집 및 저장 계획 (2) (2) 2021.03.11 [빅데이터분석기사 필기 요약] I.빅데이터 분석 기획 - 03. 데이터 수집 및 저장 계획 (1) (0) 2021.03.11 [빅데이터분석기사 필기 요약] I.빅데이터 분석 기획 - 02. 데이터 분석 계획 (0) 2021.03.11 - 수집 데이터 보안: 개인정보/ 데이터 연계/ 빅데이터 보안 관점에서 고려해야 한다.