ABOUT ME

-

Today
-
Yesterday
-
Total
-
  • [빅데이터분석기사 필기 요약] III.빅데이터 모델링 - 02. 분석기법 적용 (10) 비정형 데이터 분석
    자격증/빅데이터분석기사-필기 2021. 3. 26. 13:28
    728x90
    반응형

    빅데이터분석기사 필기 요약

    🔑 사회연결망분석(SNA)/ 연결정도/ 포괄성/ 밀도/ 연결정도 중심성/ 근접 중심성/ 매개 중심성/

           감성분석/ 오피니언마이닝/ 텍스트마이닝/ 웹마이닝 

     

    III. 빅데이터 모델링

       02. 분석기법 적용

          1. 분석기법

          2. 고급 분석기법

          



     

    2. 고급 분석기법

     

    [6] 비정형 데이터 분석

     

    (1) 비정형 데이터 분석

    • 비정형 데이터 분석
      - 비정형 데이터 안에서
      - 통계적 규칙/ 패턴을 탐색하고
      - 의미있는 정보로 변환하여
      - 기업의 의사결정에 적용하는 분석기법

     

    (2) 비정형 데이터 분석기법: 사회 연결망 분석/ 감성 분석/ 오피니언 마이닝/ 텍스트 마이닝/ 웹 마이닝

    사회 연결망 분석
    SNA
    감성 분석
    Sentiment Analysis
    오피니언 마이닝
    Opinion Mining
    텍스트 마이닝
    Text Mining
    웹 마이닝
    Web Mining
    그룹에 속한 사람들 간
    네트워크 특성/구조
    파악/분석/시각화
    텍스트로부터
    어떤 주제에 대한
    주관적 인상/감정/태도
    뽑아내는 분석
    주관적 의견 포함 데이터
    사용자가 게시한

    의견/감정을 나타내는
    패턴 분석
    텍스트 데이터에서
    자연어 처리방식으로
    정보 추출
     웹에서 발생하는
    고객 행위/특성 데이터
    분석/추출/정제하여
    의사결정에 활용
    - 개인과 집단간 관계
    - 노드/링크로 분석
    - 연결정도/포괄성/밀도


    - 제품 평판 분석
    - 측정 주체에 따라
      달라질 수 있음
    - 문장에서 긍정/부정
      단어 발생 빈도 파악
    - 선호도 판별
    - 긍정/부정/중립
    - 특징추출/문장인식


    - 문서에서 정보 습득
    - 단어/구/절로 전처리
    - 정보추출/문서요약
      문서분류/문서군집화

    - 노드: 정보단위
    - 링크: 연결점
    - 유형: 내용/사용/구조


     

     

     


     

    (3) 텍스트 마이닝 (Text Analysis)

    • 텍스트 마이닝
      - 텍스트 형태의 비정형 데이터들을
      - 자연어처리 방식을 이용하여
      - 정보를 추출하는 분석기법

    • 자연어처리 (NLP): 인간이 이해할 수 있는 언어를 기계가 이해할 수 있게 하는 기술


    • 절차: 텍스트 수집 → 의미 추출 → 패턴 분석 → 정보 생성
      • 텍스트 수집: DB, 문서 등에서 수집 → 단어/구/절을 가공할 수 있도록 전처리
      • 의미 추출: 복잡한 표현을 단순화 → 의미 데이터로 저장
      • 패턴 분석: 의미 데이터 기반으로 문서 자동 군집화/분류
      • 정보 생성: 시각화 도구로 정보 표현

    • 기능: 정보 추출/ 문서 요약/ 문서 분류/ 문서 군집화
      • 정보 추출 (Extraction): 문장 or 질의 포맷에 맞추어 원하는 정보를 추출
      • 문서 요약 (Summarization): 문서의 중요 내용을 글로 요약
      • 문서 분류 (Classification): 주어진 키워드 집합에 따라 문서를 카테고리로 분류
      • 문서 군집화 (Clustering): 동일한 내용의 문서들을 묶음

     

    (4) 오피니언 마이닝 (Opinion Mining)

    • 오피니언 마이닝
      - 주관
      적 의견이 포함된 데이터에서
      - 사용자가 게재한 의견/감정을 나타내는
      - 패턴을 분석하는 기법

      - 특정 제품/서비스를 좋아하는/싫어하는 이유 분석 → 실시간 여론 변화 확인


    • 절차: 특징 추출 → 문장 인식 → 요약 및 전달
      • 특징 추출: 긍정/부정 단어 정보 추출
      • 문장 인식: 규칙기반/통계기반 방법 → 세부 평가요소&오피니언으로 구성된 문장 인식
      • 요약 및 전달
        - 긍정/부정 표현 통계
        - 주요 문장 추출/요약

     

     

     


     

    (5) 웹 마이닝 (Web Mining)

    • 웹 마이닝
      - 웹상의 문서/서비스들로부터
      - 정보를 자동으로 추출/발견하는 기법

    • 유형: 웹 내용/사용/구조 마이닝


    - 노드: 정보단위
    - 링크: 연결점   
    웹 내용 마이닝
    Contents
    웹 사용 마이닝
    Usage
    웹 구조 마이닝
    Structure
    웹 페이지의
    내용 중

    유용한 정보추출
    웹 로그를 통해
    사용자 행위 패턴
    분석 및 정보추출
    웹 사이트의
    구조적인 요약
    정보를 마이닝
    (ex) 텍스트,
    이미지, 사운드 등
    (ex) 사용자프로필,
    페이지 접근패턴 등
    (ex) 웹 페이지,
    하이퍼링크 등

     


     

    (6) 사회 연결망 분석 (SNA; Social Network Analysis)

    • 사회 연결망 분석
      - 개인과 집단간 관계를
      - 노드와 링크
      - 그룹에 속한 사람들간의
      - 네트워크 특성&구조를 분석&시각화

    • 절차: 데이터 수집 → 분석 → 시각화
      • 데이터 수집: SNS에서 데이터 수집
        - 웹 크롤러, NodeXL 등 활용
      • 데이터 분석: R, Python, NodeXL 등 활용
      • 데이터 시각화: 분석 방향, 필요한 정보에 따라 시각화

    • 주요 속성: 응집력/ 구조적등위성/ 명성/ 범위/ 중계
    응집력
    Cohension
    구조적 등위성
    Equivalence
    명성
    Prominence
    범위
    Range
    중계
    Brokerage
    사람들 간의
    강한 사회화 관계의 존재
    네트워크의 구조적 지위,
    그 지위가 주는 역할이
    동일한 사람들 간 관계
    네트워크에서
    권력을 갖고 있는
    사람이 누군가를 확인
    네트워크 규모 다른 네트워크와
    연결해주는 정도

     

     

    • 측정지표: 연결정도/ 포괄성/ 밀도/ 연결정도 중심성/ 근접 중심성/ 매개 중심성
    연결정도 포괄성 밀도 연결정도
    중심성
    근접
    중심성
    매개
    중심성
    한 노드가
    몇개의 노드와
    연결되어 있는가
    (연결 관계 개수)
    네트워크 내
    서로 연결된
    노드의 개수
    네트워크 내
    노드 간 전반적인
    연결정도 수준
    (전체구성원 관계)
    한 노드가
    연결하고 있는
    다른 노드들의
    각 노드간 거리
    바탕으로
    중심성 측정
    (모든 노드간 거리)
    네트워크 내
    한 노드가
    다른 노드들 사이에
    위치하는 정도
    (한 노드의 영향력)

     


     

    참고 도서: 빅데이터분석기사 필기_수제비 2021

     

    728x90
    반응형