algorithm - procesos - ¿Hay algún buen algoritmo de segmentación chino de código abierto o disponible gratuitamente?
paginacion (4)
Como se expresa en la pregunta, estoy buscando un algoritmo de segmentación de texto libre y / o de código abierto para el chino, entiendo que es una tarea muy difícil de resolver, ya que existen muchas ambigüedades. Sé que hay una API de Google, pero bueno, es más bien una caja negra, es decir, no hay mucha información de lo que está haciendo.
La búsqueda en Google de "código abierto chino de segmentación de texto" revela esta biblioteca, que puede o no ser lo que estás buscando ...:
http://sourceforge.net/projects/ktdictseg/
Los resultados apuntan a algunos lugares alternativos para buscar una biblioteca de código abierto, también:
- Buscando una implementación de búsqueda de código abierto que pueda funcionar con chino.
- La búsqueda de una implementación de detección de plagio de código abierto que podría con el chino.
Segmento de Stanford utilizando algoritmos CRF.
Está bajo GPL
La página de enlace es: http://nlp.stanford.edu/software/segmenter.shtml
ICU tiene detalles sobre la segmentación de texto universal: http://userguide.icu-project.org/boundaryanalysis
La palabra clave text-segmentation for Chinese
debe ser 中文分词
en chino.
Buen y activo algoritmo de segmentación de texto de código abierto :
- 盘古 分 词 (Segmento Pan Gu) :
C#
,Snapshot
- ik-analyzer :
Java
- ICTCLAS :
C/C++, Java, C#
,Demo
- NlpBamboo :
C, PHP, PostgreSQL
- HTTPCWS : basado en
ICTCLAS
,Demo
- mmseg4j :
Java
- fudannlp :
Java
,Demo
- smallseg :
Python, Java
,Demo
- nseg : NodeJS
- mini-segmenter :
python
Otro
- Código de Google : http://code.google.com/query/#q=中文分词
- OSChina (Open Source China)
Muestra
Google Chrome (Chromium) :
src
,cc_cedict.txt (73,145 Chinese words/pharases)
En el
text field
otext field
de Google Chrome con oraciones en chino, presione Ctrl + ← o Ctrl + →Double click
en中文分词指的是将一个汉字序列切分成一个一个单独的词