-
[khaiii] 카카오 형태소분석기 khaiii 간단 사용법 (형태소 분석)직접 해보기/NLP 2021. 4. 24. 15:33728x90반응형
khaiii (Kakao Hangul Analyzer III) (카이) 사용법
khaiii로 한글 텍스트 형태소 분석하기
아래 링크의 포스트를 참고하여 테스트해보았다.
jeongwookie.github.io/2019/11/17/191117-khaiii-korean-tokenizer/
1. 문장 테스트
# 카이 형태소분석기 불러오기 from khaiii import KhaiiiApi api = KhaiiiApi() # 문장 형태소분석 테스트 sentence = "카이 설치하느라 이틀 걸렸고 이건 고통이다." analyzed = api.analyze(sentence) # 테스트 결과 출력 for word in analyzed: print(word)
- "analyze" 메소드로 한글 텍스트에 대한 형태소 분석을 할 수 있음. 결과를 보면,
- (1) 문장을 띄어쓰기 단위로 토크나이징하고,
- (2) 토큰마다 형태소단위로 쪼개서,
- (3) 형태소마다 품사(POS)를 붙인 형태로 결과를 출력한다.
# 형태소들을 넣을 빈 리스트 morphs_list = [] # 형태소단위로 튜플을 생성하여 한 리스트로 합치기 for word in analyzed: for morph in word.morphs: morphs_list.append((morph.lex, morph.tag)) morphs_list
- 분석에 쓸 수 있는 형태로 만들기!
- analyzed가 쪼개준 형태소 단위로 튜플을 만들고,
- 한 문장(혹은 구문)을 한 리스트로 합친다.
2. 오타와 띄어쓰기 오류 테스트
- 일부러 띄어쓰기를 틀리게 하고 오타를 넣어보았다.
- (1) "까느라"를 NNG(일반명사)로 잘못 인식함.
- (2) "이틀걸렷고"는 둘이 아니라 하나의 토큰이 되었지만, "이틀"은 제대로 형태소 인식됨.
- (3) "걸렷고"는 "걸렸고"처럼 VV(동사)로 인식되지 않고, 형태소도 다르게 쪼개짐.
- (4) "이거슨"도 "이것은"처럼 NP(대명사)로 인식되지 않고, 다르게 쪼개짐..
- 오타는 반영하기 힘들 것 같다.
- Hanspell 같은 맞춤법 수정 처리 거친 다음, 형태소 분석을 하는 게 좋겠다!
- 띄어쓰기에 대해서는 강건한 모델을 만들기 위해 실험을 거쳤다고 한다.
github.com/kakao/khaiii/wiki/%EB%9D%84%EC%96%B4%EC%93%B0%EA%B8%B0-%EC%98%A4%EB%A5%98%EC%97%90-%EA%B0%95%EA%B1%B4%ED%95%9C-%EB%AA%A8%EB%8D%B8%EC%9D%84-%EC%9C%84%ED%95%9C-%EC%8B%A4%ED%97%98
728x90반응형'직접 해보기 > NLP' 카테고리의 다른 글
[nbextensions] Ubuntu 18.04 환경에서 Jupyter Notebook Nbextensions 설치 (0) 2021.05.13 [khaiii] khaiii 품사 리스트 (khaiii POS list) (0) 2021.04.24 [Ubuntu] 우분투에서 한글 csv 파일 불러오기 (permission denied 해결) (0) 2021.04.23 [khaiii 설치] 우분투Ubuntu 설치부터 khaiii 설치 및 주피터노트북 테스트까지! (0) 2021.04.22