한국어 형태소 분석기(POS) 분석 - 3편. 형태소 분석기 비교

Written by metterian
on March 05, 2021

코모란

개발: Shin285 (github에 공개), shinware
개발언어: java
알고리즘: HMM

장점

여러 어절을 하나의 품사로 분석 가능함으로써 형태소 분석기의 적용 분야에 따라 공백이 포함된 고유명사(영화 제목, 음식점명, 노래 제목, 전문 용어 등)를 더 정확하게 분석할 수 있다. 개발자가 지속적으로 업데이트 KOMORAN만 유일하게 자소가 분리된 문장이나 오탈자에 대해서도 괜찮은 분석 품질을 보여준다. 한계점 다른 형태소 분석기에 비해 로딩시간이 길다. 하지만 분석속도는 빠름, 띄어쓰기 없는 문장 분석에 취약한편

업데이트 (2016)

속도 개선

버전 2.0: 초당 0.4MB 분석 (MB/sec)
버전 3.0: 초당 1.0MB 분석 (MB/sec)
기능 추가
형태소 분석 결과로 입력 문장 내 형태소 위치 정보 제공
형태소 분석 결과 중 명사 추출 기능 제공
형태소 분석 결과를 plain text로 제공
Training 모듈 추가
특징
빠른 속도와 보통의 분석 품질
자바가 설치된 환경이라면 어디서든 사용가능
자체 제작한 library들만 사용해 외부 library와의 의존성 문제가 없음
자소 단위 처리, TRIE 사전 등으로 약 50MB 메모리 상에서도 동작 가능
사전 관리 용이
타 형태소 분석기와 달리 공백이 포함된 형태소 단위로 분석 가능

한나눔

개발: KAIST CILab
개발언어: java
알고리즘: HMM
사전: 시스템 사전(카이스트 코퍼스를 기반으로 구축), 사용자 사전, 숫자 사전(오토마타를 이용한 프로그램)

한계점

띄어쓰기가 없는 문장은 분석 품질이 좋지 않다. 정제된 언어가 사용되지 않는 문서에 대한 형태소 분석 정확도가 높지 않은 문제점

특징

전체 시스템은 각 모듈들의 조합으로 구성되며, 현재까지 개발된 모듈은 입력 필터, 문장 분리기, 형태소 분석기, 미등록어 처리기, 형태소 분석 후처리기, 그리고 태거가 있다.

Kkma(꼬고마)

개발: Seoul University IDSLab
개발언어: Java
사전: 세종계획 산출물
태그집합: 총56개의 확장된 세종 태그셋을 기본으로 사용

장점

띄어쓰기 오류에 덜 민감한 한글 형태소 분석기

알고리즘

기본적으로 동적 프로그래밍을 이용해서 모든 가능한 형태소 분석 후보를 생성하고 적합하다고 판단되는 순서대로 분석 후보들을 정렬 상용 형태소 분석기에 뒤지지 않는 성능을 보이기 위해서 다양한 최적화 방법을 이용함

기분석 사전을 이용한 인접 조건 검사 방식을 이용(속도를 위해)
몇 가지 휴리스틱, 히든 마르코프 모델(HMM: Hidden Markov Model)에 기반한 확률 모델을 이용(품질을 위해)
특징

구분분석기 일부 탑재되었다. 세종품사태그에 가장 가깝고 분석 범주 또한 가장 많다.

한계점

분석시간이 Knlpy 중에서 가장 오래 걸린다. 정제된 언어가 사용되지 않는 문서에 대한 형태소 분석 정확도가 높지 않은 문제이 있다.

Mecab

개발 은전한닢 프로젝트
개발언어 C/C++

한나눔이나 꼬꼬마(kkma) 분석기 프로젝트 등이 진행되고 있긴 하지만, 형태소 분석기임에도 띄어기 구분의 오류나 공개 소스를 구하기 어렵다는 문제등의 문제들이 있어 이런 문제에 어떤 기여를 할 수 있을 것인지 고민하는 차원에서 은전한닢(mecab) 프로젝트가 시작 되었다.

장점

새로운 사전 추가 기능: 지능형 형태소 분석기(분석 결과를 수작업으로 수정가능), MACH, HAM, KKMA, UTagger는 분석 사전이 분석기에 포함 되어 있어 새로운 단어 추가 불가능 → Mecab이 이를 해결

CRF 채용하여 HMM 보다 성능 향상 CRF 값 추정 가능, 추가적으로 Twitter가 공개 되기 전, 띄어쓰기에서 가장 좋은 성능과 속도 정확도 모두 좋은 성능을 보여 주었다.

한계점

미등록어 처리 문제점, 동음이의어 처리문제

Twitter

개발: 트위터
개발언어: 스칼라/자바
장점

기존에 미캡이 띄어쓰기에서 가장 좋은 성능을 보여주었지만 트위터 등장 후 트위터가 가장 좋은 성능을 보여준다. 또한 어근화(stemming)이 가능하다. Kkma(꼬꼬마) 대비 분석 범주가 다소 적은 편이지만 이모티콘이나 해쉬태그 같은 인터넷 텍스트에 특화된 범주가 추가 되었다. 이로 인해 이모티콘이나 비표준어, 비속어 등이 많이 포함되어 있는 정제되지 않은 데이터에 대해서 강점을 갖는다.

한계점

미등록어 처리 문제점, 동음이의어 처리문제, 분석 범주(사용가능한 태그)가 다른 형태소 분석기들에 적음,

특징

정규화, 토큰화, 어근화(Stemming),

Twitter 형태소 분석기만이 유일하게 어간화(stemming)기능을 제공한다.

아직 KoNLPy 단에서 dictionary를 업데이트 하는 방법을 제공하고 있지는 않지만 전처리 또는 후처리를 통해 처리하면 될 것이다. 처리하는 양이 GB인 경우 속도가 빠른 Mecab을 사용하는 것이 좋다.

Khaiii

입력된 각 음절에 대해 하나의 출력 태그를 결정하는 분류 문제로 접근한 딥러닝 모델이다.

개발: 카카오
개발언어: C++

장점

음절 기반 모델

한국어 형태소 분석 결과는 원형 복원, 불규칙 활용 등의 이유로 입력 문자와는 형태와 길이가 달라짐. ex) ‘져줄래’와 같은 입력 어절의 분석 결과는 ’지/VV + 어/EC + 주/VX + ㄹ래/EF’와 같이 출력의 길이와 형태 모두 쉽게 예측이 가능하지 않음 이러한 길이의 불일치 문제가 있기에 기계학습 분류기에 기반한 모델의 출력을 설계하는 부분이 중요

알고리즘

신경망 알고리즘들 중 CNN(Convolutional Neural Network)을 사용한다.

자연어 처리에 많이 사용하는 LSTM(Long-Short Term Memory, 장단기 메모리)와 같은 RNN(Recurrent Neural Network, 순환 신경망) 알고리즘은 속도 면에서 활용도가 떨어질 수 있다.

업데이트

데이터 기반으로 동작하므로 기계학습 알고리즘(딥러닝) 사용
기존의 분석기(dha1, dha2)는 규칙 기반으로 동작하기 때문에 사람이 직접 지속적으로 규칙 입력, 사전과 규칙 기반
첫번째 버전: dha1
두번째 버전: dha2

특징

Kakao Hangul Analyzer III”의 첫 글자들만 모아 만든 이름으로 카카오에서 개발한 세 번째 형태소 분석기

세종 코퍼스를 이용하여 CNN(Convolutional Neural Network, 합성곱 신경망) 기술을 적용해 학습한 형태소 분석기
디코더를 C++로 구현하여 GPU 없이도 비교적 빠르게 동작하며, Python 바인딩을 제공하고 있어서 편리하게 사용할 수 있다.
학습에 사용한 코퍼스는 국립국어원에서 배포한 21세기 세종계획 최종 성과물을 카카오에서 일부 내용을 추가하거나 오류를 수정한 것, 전처리 과정에서 오류가 발생하는 문장을 제외하고 약 85만 개의 문장, 그리고 1천만 개 어절의 코퍼스를 사용하여 학습을 진행하였다.

Conclusion

형태소 분석기의 각 장점과 단점에 따라 프로젝트에서 사용할 형태소 분석기를 사용해야 한다. Konlpy(코모란, 한나눔, kkma, mecab, twitter)에서 선택하여 사용 하는 것을 추천한다. Konlpy 안에서 각 형태소의 장단점을 표로 정리 하면 다음과 같다.

	코모란	한나눔	Kkma	Mecab	Twitter
장점	자소 분리 가능, 오탈자 분석 가능, 고유명사 분석 가능	로딩시간이 빠른편	띄어쓰기 오류에 덜 민감	새로운 사전 추가 가능, (twitter 공개전) 띄어쓰기에서 가장 좋은 성능, 속도, 정확도	띄어쓰기 성능이 가장 좋다, stemming 가능, 이모티콘, 해쉬태그 같은 인터넷 텍스트에 강함 , 비속어, 비표준어도 분석 가능
한계점	로딩 속도가 길다, 띄어쓰기 없는 문장분석에 취약하다	띄어쓰기 없는 문장 분석에 매우 취약, 정제된 언어가 사용되지 않는 문서에 대한 형태소 분석 정확도가 높지 않은 문제점	분석 시간 오래 걸림, 정제된 언어가 사용되지 않는 문서에 대한 형태소 분석 정확도가 높지 않은 문제점	미등록어 처리 문제, 동음의어 처리 문제	미등록어 처리 문제, 동음의어 처리문제, 분석 범주 적은편

Twitter를 제외한 나머지는 어간화(stemming)을 제공하고 있지 않다.

예를 들어, 리뷰 데이터의 경우 띄어쓰기 오류, 줄임말, 이모티콘, 비속어 등이 많고, ‘‘좋은데’’, ‘‘좋아요”, “좋아”, “좋지만” 등 같은 의미를 가지는 단어의 어근화(stemming)이 필요하다. 그러므의 Twitter를 사용하는 것이 좋다. 하지만, 어근화 기능이 필요하지 않다면 Mecab 사용을 권장한다. 일반적인 상황에서 띄어쓰기가 되지 않은 문장에서 가장 좋은 형태소 분석 성능과 높은 정확도를 보여 주기 때문이다.

Reference

“한국어 자동 형태소 분석 사전의 개발”, 스가이 요시노리, 2015
“형태소 분석 및 품사 태깅”, KoNLPy, 2015
“중의성 해결을 위한 말뭉치 기반의 한국어 형태소분석기의 설계 및 구현”, 정희연, 2001
“온톨로지 지식베이스를 활용한 의미기반 콘텐츠 검색 기술에 관한 연구”, Xiuyan Cai et. al, 2012
“형태소 분석 결과를 사용한 통사 지표 자동 부여”, 박정열 외, 2013
“워드임베딩과 그래프 기반 준지도학습을 통한 한국어 어휘 감성 점수 산출”, 서덕성 외, 2017
형태소 분석 ‘은전한닢’ 프로젝트와 MeCab(메카브),
“인스타그램 기반의 전이학습과 게시글 메타 정보를 활용한 페이스북 스팸 게시글 판별”, 2017, 김준홍 외

← → Top

한국어 형태소 분석기(POS) 분석 - 3편. 형태소 분석기 비교

코모란

장점

업데이트 (2016)

속도 개선

기능 추가

특징

한나눔

태그

한계점

특징

Kkma(꼬고마)

장점

알고리즘

특징

한계점

Mecab

장점

한계점

Twitter

장점

한계점

특징

Khaiii

장점

음절 기반 모델

알고리즘

최신의 딥러닝 방법

업데이트

특징

Conclusion

Reference