-
[빅데이터분석기사 필기 요약] III.빅데이터 모델링 - 02. 분석기법 적용 (10) 비정형 데이터 분석자격증/빅데이터분석기사-필기 2021. 3. 26. 13:28728x90반응형
빅데이터분석기사 필기 요약
🔑 사회연결망분석(SNA)/ 연결정도/ 포괄성/ 밀도/ 연결정도 중심성/ 근접 중심성/ 매개 중심성/
감성분석/ 오피니언마이닝/ 텍스트마이닝/ 웹마이닝
III. 빅데이터 모델링
02. 분석기법 적용
1. 분석기법
2. 고급 분석기법
2. 고급 분석기법
[6] 비정형 데이터 분석
(1) 비정형 데이터 분석
- 비정형 데이터 분석
- 비정형 데이터 안에서
- 통계적 규칙/ 패턴을 탐색하고
- 의미있는 정보로 변환하여
- 기업의 의사결정에 적용하는 분석기법
(2) 비정형 데이터 분석기법: 사회 연결망 분석/ 감성 분석/ 오피니언 마이닝/ 텍스트 마이닝/ 웹 마이닝
사회 연결망 분석
SNA감성 분석
Sentiment Analysis오피니언 마이닝
Opinion Mining텍스트 마이닝
Text Mining웹 마이닝
Web Mining그룹에 속한 사람들 간
네트워크 특성/구조를
파악/분석/시각화텍스트로부터
어떤 주제에 대한
주관적 인상/감정/태도를
뽑아내는 분석주관적 의견 포함 데이터
사용자가 게시한
의견/감정을 나타내는
패턴 분석텍스트 데이터에서
자연어 처리방식으로
정보 추출웹에서 발생하는
고객 행위/특성 데이터
분석/추출/정제하여
의사결정에 활용- 개인과 집단간 관계
- 노드/링크로 분석
- 연결정도/포괄성/밀도- 제품 평판 분석
- 측정 주체에 따라
달라질 수 있음
- 문장에서 긍정/부정
단어 발생 빈도 파악- 선호도 판별
- 긍정/부정/중립
- 특징추출/문장인식- 문서에서 정보 습득
- 단어/구/절로 전처리
- 정보추출/문서요약
문서분류/문서군집화- 노드: 정보단위
- 링크: 연결점
- 유형: 내용/사용/구조
(3) 텍스트 마이닝 (Text Analysis)
- 텍스트 마이닝
- 텍스트 형태의 비정형 데이터들을
- 자연어처리 방식을 이용하여
- 정보를 추출하는 분석기법 - 자연어처리 (NLP): 인간이 이해할 수 있는 언어를 기계가 이해할 수 있게 하는 기술
- 절차: 텍스트 수집 → 의미 추출 → 패턴 분석 → 정보 생성
- 텍스트 수집: DB, 문서 등에서 수집 → 단어/구/절을 가공할 수 있도록 전처리
- 의미 추출: 복잡한 표현을 단순화 → 의미 데이터로 저장
- 패턴 분석: 의미 데이터 기반으로 문서 자동 군집화/분류
- 정보 생성: 시각화 도구로 정보 표현
- 기능: 정보 추출/ 문서 요약/ 문서 분류/ 문서 군집화
- 정보 추출 (Extraction): 문장 or 질의 포맷에 맞추어 원하는 정보를 추출
- 문서 요약 (Summarization): 문서의 중요 내용을 글로 요약
- 문서 분류 (Classification): 주어진 키워드 집합에 따라 문서를 카테고리로 분류
- 문서 군집화 (Clustering): 동일한 내용의 문서들을 묶음
(4) 오피니언 마이닝 (Opinion Mining)
- 오피니언 마이닝
- 주관적 의견이 포함된 데이터에서
- 사용자가 게재한 의견/감정을 나타내는
- 패턴을 분석하는 기법
- 특정 제품/서비스를 좋아하는/싫어하는 이유 분석 → 실시간 여론 변화 확인 - 절차: 특징 추출 → 문장 인식 → 요약 및 전달
- 특징 추출: 긍정/부정 단어 정보 추출
- 문장 인식: 규칙기반/통계기반 방법 → 세부 평가요소&오피니언으로 구성된 문장 인식
- 요약 및 전달
- 긍정/부정 표현 통계
- 주요 문장 추출/요약
(5) 웹 마이닝 (Web Mining)
- 웹 마이닝
- 웹상의 문서/서비스들로부터
- 정보를 자동으로 추출/발견하는 기법 - 유형: 웹 내용/사용/구조 마이닝
- 노드: 정보단위
- 링크: 연결점웹 내용 마이닝
Contents웹 사용 마이닝
Usage웹 구조 마이닝
Structure웹 페이지의
내용 중
유용한 정보추출웹 로그를 통해
사용자 행위 패턴
분석 및 정보추출웹 사이트의
구조적인 요약
정보를 마이닝(ex) 텍스트,
이미지, 사운드 등(ex) 사용자프로필,
페이지 접근패턴 등(ex) 웹 페이지,
하이퍼링크 등
(6) 사회 연결망 분석 (SNA; Social Network Analysis)
- 사회 연결망 분석
- 개인과 집단간 관계를
- 노드와 링크로
- 그룹에 속한 사람들간의
- 네트워크 특성&구조를 분석&시각화 - 절차: 데이터 수집 → 분석 → 시각화
- 데이터 수집: SNS에서 데이터 수집
- 웹 크롤러, NodeXL 등 활용 - 데이터 분석: R, Python, NodeXL 등 활용
- 데이터 시각화: 분석 방향, 필요한 정보에 따라 시각화
- 데이터 수집: SNS에서 데이터 수집
- 주요 속성: 응집력/ 구조적등위성/ 명성/ 범위/ 중계
응집력
Cohension구조적 등위성
Equivalence명성
Prominence범위
Range중계
Brokerage사람들 간의
강한 사회화 관계의 존재네트워크의 구조적 지위,
그 지위가 주는 역할이
동일한 사람들 간 관계네트워크에서
권력을 갖고 있는
사람이 누군가를 확인네트워크 규모 다른 네트워크와
연결해주는 정도- 측정지표: 연결정도/ 포괄성/ 밀도/ 연결정도 중심성/ 근접 중심성/ 매개 중심성
연결정도 포괄성 밀도 연결정도
중심성근접
중심성매개
중심성한 노드가
몇개의 노드와
연결되어 있는가
(연결 관계 개수)네트워크 내
서로 연결된
노드의 개수네트워크 내
노드 간 전반적인
연결정도 수준
(전체구성원 관계)한 노드가
연결하고 있는
다른 노드들의 합각 노드간 거리를
바탕으로
중심성 측정
(모든 노드간 거리)네트워크 내
한 노드가
다른 노드들 사이에
위치하는 정도
(한 노드의 영향력)
참고 도서: 빅데이터분석기사 필기_수제비 2021
728x90반응형'자격증 > 빅데이터분석기사-필기' 카테고리의 다른 글
[빅데이터분석기사 필기 요약] III.빅데이터 모델링 - 02. 분석기법 적용 (12) 비모수 통계 (1) 2021.03.27 [빅데이터분석기사 필기 요약] III.빅데이터 모델링 - 02. 분석기법 적용 (11) 앙상블 분석 (1) 2021.03.27 [빅데이터분석기사 필기 요약] III.빅데이터 모델링 - 02. 분석기법 적용 (9) 딥러닝 분석 (0) 2021.03.25 [빅데이터분석기사 필기 요약] III.빅데이터 모델링 - 02. 분석기법 적용 (8) 베이지안 기법 (0) 2021.03.25 [빅데이터분석기사 필기 요약] III.빅데이터 모델링 - 02. 분석기법 적용 (7) 시계열 분석 (0) 2021.03.25 - 비정형 데이터 분석