소개
KokoaNLP는 “Korean Kernel Object Analyzer Natural Language Processor”의 약자로 비지도 학습 기반의 한국어 자연어 처리 도구입니다. 간결함과 실용성을 지향하는 KokoaNLP는 단어 추출, 어절 분석, 키워드 추출, 띄어쓰기 교정 등의 한국어 문서 처리에 필요한 기능을 지원합니다. 프로그램의 자체 사용보다는 다른 프로그램에 이식되어 사용될 수 있는 라이브러리 형태로 제작되어 다양한 프로그램에서 쉽게 적용할 수 있습니다. 특히, Javascript를 이용하여 상대적으로 웹 서비스 적용이 쉬우며, API 문서를 제공과 오픈소스로 코드를 공개함에 따라 쉽게 개발에 참여할 수 있습니다.
시작하기
KokoaNLP를 사용하기 위해서는 적절한 데이터를 학습시켜야 합니다. KokoaNLP는 사용자가 직접 학습시킬 수도 있지만, 미리 학습시킨 모델을 불러올 수 있습니다.
여기 신문기사 1000여 개를 학습시킨 모델을 준비했습니다.
어떤 방식으로 KokoaNLP를 사용하시겠습니까?
학습시킬 문서를 아래 상자에 입력하고 Run 버튼을 눌러주세요.
KokoaNLP는 한글만 학습할 수 있습니다. 숫자, 로마자, 특수문자 등은 자동으로 학습대상에서 제외됩니다.
Load 버튼을 눌러서 미리 학습시킨 모델을 불러오세요
KokoaNLP: 43MB모델을 불러온 뒤에도 추가로 학습을 시킬 수 있습니다. 정확도를 높이고 싶으시다면 더 많은 문서를 학습시켜 주세요.
이 데모는 Firefox Quantum 61에서 테스트 되었습니다. 문제가 발생한다면 브라우저를 최신 버전으로 업데이트하십시오. Internet Explore는 지원하지 않습니다.
사용하기
KokoaNLP를 시작하셨다면 이제 다양한 기능을 사용하실 수 있습니다.
아래에서 원하는 기능을 선택하면 됩니다!
데모의 출력값의 min count는 10으로 설정되었습니다. 단어의 학습된 횟수가 10보다 작다면 그 단어는 출력하지 않습니다.
- 핵심문장 추출
Input
Output
- 키워드 추출
Input
Output
- 어절 분석
Input
Output
- 띄어쓰기 수정
Input
Output
- 단어 추출
Input
Output