한국어 자연어처리 소프트웨어 목록
루씬 한글 분석기
말뭉치 기반 한글 형태소 분석기
파이썬 워드 클라우드 라이브러리 한국어 wrapper
한국어 형태소 분석을 기반으로 하여 자동색인 및 철자검사 기능까지 가능한 HAM(Hangul Analysis Module)은 자동색인에 매우 적합한 형태소 분석기를 이용하기 때문에 문서의 종류나 유형에 관계없이 문서에 나타난 keyword를 추출한다.
Hannanum is a morphological analyzer and a POS tagger which is plug-in component architecture-based tool.
khaiii는 “Kakao Hangul Analyzer III”의 첫 글자들만 모아 만든 이름으로 카카오에서 개발한 세 번째 형태소분석기입니다. 기존 버전이 사전과 규칙에 기반해 분석을 하는 데 반해 khaiii는 데이터(혹은 기계학습) 기반의 알고리즘을 이용하여 분석을 합니다.
지능형 한국어 형태소 분석기(Korean Intelligent Word Identifier)
Kiwi는 C++기반의 한국어 형태소 분석기 라이브러리입니다. 입력한 단어나 문장을 세종 품사 태그에 따라 분석하고 그 태그를 붙여줍니다. 분석기는 문어 텍스트의 경우 평균 94%의 정확도로 해당 텍스트를 분석해 낼 수 있습니다. C++기반으로 최적화되었으며 멀티스레딩을 지원하기에, 대량의 텍스트를 분석해야하는 경우 멀티코어를 활용하여 좀 더 빠르게 분석이 가능합니다.
꼬꼬마 한국어 형태소 분석기
한국어 언어분석 프로그램
KoalaNLP는 한국어 처리의 통합 인터페이스를 지향하는 Java/Kotlin/Scala Library입니다. 서로 다른 형태의 형태소 분석기를 모아, 동일한 인터페이스 아래에서 사용할 수 있도록 하는 것이 목적입니다.
Korean Morphological Analyzer
POS Tagger and Morphological Analyzer for Korean text based research. It provides tools for corpus linguistics research such as Keystroke converter, Hangul automata, Concordance, and Mutual Information. It also provides a convenient interface for users to apply, edit and add morphological dictionary selectively.
A project to build a Korean syntactic parser
Korean XTAG is an on-going project to develop a wide-coverage grammar for Korean using Feature-Based Lexicalized Tree Adjoining Grammar (LTAG) formalism.
한국어 인터넷 트렌드 스트리밍과 처리를 위하여 만들어진 파이썬 패키지
Automatic Korean word spacing
KoSpacing has fairly accurate automatic word spacing performance, especially good for online text originated from SNS or SMS.
KRISTAL은 과학기술문헌 정보서비스를 목적으로 개발을 시작한 정보검색관리시스템입니다. 정보검색엔진에서 출발하여 IRMS의 틀을 잡아가고 있으며 최종적으로는 DB-IR 통합을 지향하고 있습니다.
공개 한글 형태소 분석기
KTS는 EUC-KR, 이성진코드 기반의 한글 형태소분석기로서 1995년에 만들어진 것이 2002년에 GPL2 라이센스로 정식 공개되었습니다.
초고속 한국어 형태소 분석기
mecab-ko는 은전한닢 프로젝트에서 사용하기 위한 MeCab의 fork 프로젝트 입니다.
최소한의 변경으로 한국어의 특성에 맞는 기능을 추가하는 것이 목표입니다.
딥러닝을 이용한 한글 자연어 처리
Nori Korean Morphological Analyzer
Official Fork of twitter-korean-text
스칼라로 쓰여진 한국어 처리기입니다. 현재 텍스트 정규화와 형태소 분석, 스테밍을 지원하고 있습니다. 짧은 트윗은 물론이고 긴 글도 처리할 수 있습니다.
Korean Morphological Analyzer
pyeunjeon은 은전한닢 프로젝트와 mecab 기반의 한국어 형태소 분석기의 독립형 python 인터페이스입니다.
RHINO parses Korean words by morpheme and part-of-speech. The newly developed Dynamic Dictionary, a programmed database, can make words to react with their context.
mecab-ko-dic
기반으로 만들어진 JVM 상에서 돌아가는 한국어 형태소분석기입니다. 복합명사 분해와 활용어 원형 찾기가 가능합니다.
한국어 자연어처리를 위한 파이썬 라이브러리입니다. 학습데이터를 이용하지 않으면서 데이터에 존재하는 단어를 찾거나, 문장을 단어열로 분해, 혹은 품사 판별을 할 수 있는 비지도학습 접근법을 지향합니다.
Soyspacing은 한국어 띄어쓰기 문제를 해결하기 위한 휴리스틱 알고리즘을 제공합니다. Conditional Random Field와 비교하여 가벼운 모델 사이즈와 빠른 학습이 가능합니다.
깜짝새: 통합형 한글 자료 처리기 [미러]
한국어 형태소 분석기 API (Mecab Wrapper)
한국어 형태소 분석기