awesome-korean-nlp

Awesome Korean NLP

한국어 자연어처리 소프트웨어 목록

Index

Summary


Arirang

루씬 한글 분석기

Daon

말뭉치 기반 한글 형태소 분석기

Goorm

파이썬 워드 클라우드 라이브러리 한국어 wrapper

HAM

한국어 형태소 분석 라이브러리

한국어 형태소 분석을 기반으로 하여 자동색인 및 철자검사 기능까지 가능한 HAM(Hangul Analysis Module)은 자동색인에 매우 적합한 형태소 분석기를 이용하기 때문에 문서의 종류나 유형에 관계없이 문서에 나타난 keyword를 추출한다.

HanNanum

Hannanum is a morphological analyzer and a POS tagger which is plug-in component architecture-based tool.

khaiii

khaiii는 “Kakao Hangul Analyzer III”의 첫 글자들만 모아 만든 이름으로 카카오에서 개발한 세 번째 형태소분석기입니다. 기존 버전이 사전과 규칙에 기반해 분석을 하는 데 반해 khaiii는 데이터(혹은 기계학습) 기반의 알고리즘을 이용하여 분석을 합니다.

Kiwi

지능형 한국어 형태소 분석기(Korean Intelligent Word Identifier)

Kiwi는 C++기반의 한국어 형태소 분석기 라이브러리입니다. 입력한 단어나 문장을 세종 품사 태그에 따라 분석하고 그 태그를 붙여줍니다. 분석기는 문어 텍스트의 경우 평균 94%의 정확도로 해당 텍스트를 분석해 낼 수 있습니다. C++기반으로 최적화되었으며 멀티스레딩을 지원하기에, 대량의 텍스트를 분석해야하는 경우 멀티코어를 활용하여 좀 더 빠르게 분석이 가능합니다.

kkma

꼬꼬마 한국어 형태소 분석기

K-LIWC

한국어 언어분석 프로그램

KoalaNLP

KoalaNLP는 한국어 처리의 통합 인터페이스를 지향하는 Java/Kotlin/Scala Library입니다. 서로 다른 형태의 형태소 분석기를 모아, 동일한 인터페이스 아래에서 사용할 수 있도록 하는 것이 목적입니다.

KOMORAN

Korean Morphological Analyzer

KoNLP

POS Tagger and Morphological Analyzer for Korean text based research. It provides tools for corpus linguistics research such as Keystroke converter, Hangul automata, Concordance, and Mutual Information. It also provides a convenient interface for users to apply, edit and add morphological dictionary selectively.

KoreanParser

A project to build a Korean syntactic parser

Korean XTAG

Korean XTAG

Korean XTAG is an on-going project to develop a wide-coverage grammar for Korean using Feature-Based Lexicalized Tree Adjoining Grammar (LTAG) formalism.

Koshort

한국어 인터넷 트렌드 스트리밍과 처리를 위하여 만들어진 파이썬 패키지

KoSpacing

Automatic Korean word spacing

KoSpacing has fairly accurate automatic word spacing performance, especially good for online text originated from SNS or SMS.

KRISTAL-IRMS

오픈소스 정보검색관리시스템

KRISTAL은 과학기술문헌 정보서비스를 목적으로 개발을 시작한 정보검색관리시스템입니다. 정보검색엔진에서 출발하여 IRMS의 틀을 잡아가고 있으며 최종적으로는 DB-IR 통합을 지향하고 있습니다.

KTS

공개 한글 형태소 분석기

KTS는 EUC-KR, 이성진코드 기반의 한글 형태소분석기로서 1995년에 만들어진 것이 2002년에 GPL2 라이센스로 정식 공개되었습니다.

MATCH

초고속 한국어 형태소 분석기

mecab-ko

mecab-ko는 은전한닢 프로젝트에서 사용하기 위한 MeCab의 fork 프로젝트 입니다.

최소한의 변경으로 한국어의 특성에 맞는 기능을 추가하는 것이 목표입니다.

nlp4kor

딥러닝을 이용한 한글 자연어 처리

NLP HUB

Nori

Nori Korean Morphological Analyzer

Open Korean Text Processor

Official Fork of twitter-korean-text

스칼라로 쓰여진 한국어 처리기입니다. 현재 텍스트 정규화와 형태소 분석, 스테밍을 지원하고 있습니다. 짧은 트윗은 물론이고 긴 글도 처리할 수 있습니다.

POSTAG/K

Korean Morphological Analyzer

Pyeunjeon

pyeunjeon은 은전한닢 프로젝트와 mecab 기반의 한국어 형태소 분석기의 독립형 python 인터페이스입니다.

Rhino

RHINO parses Korean words by morpheme and part-of-speech. The newly developed Dynamic Dictionary, a programmed database, can make words to react with their context.

Rouzeta

유한 상태 기반의 한국어 형태소 분석기

Seunjeon

mecab-ko-dic 기반으로 만들어진 JVM 상에서 돌아가는 한국어 형태소분석기입니다. 복합명사 분해와 활용어 원형 찾기가 가능합니다.

soynlp

한국어 자연어처리를 위한 파이썬 라이브러리입니다. 학습데이터를 이용하지 않으면서 데이터에 존재하는 단어를 찾거나, 문장을 단어열로 분해, 혹은 품사 판별을 할 수 있는 비지도학습 접근법을 지향합니다.

soyspacing

Soyspacing은 한국어 띄어쓰기 문제를 해결하기 위한 휴리스틱 알고리즘을 제공합니다. Conditional Random Field와 비교하여 가벼운 모델 사이즈와 빠른 학습이 가능합니다.

SynKDP

깜짝새: 통합형 한글 자료 처리기 [미러]

UMorpheme

한국어 형태소 분석기 API (Mecab Wrapper)

Utagger

한국어 형태소 분석기