sistemas procesos planificacion paginacion operativos memoria gestion ejemplos asignacion algoritmos administracion algorithm open-source cjk text-segmentation

algorithm - procesos - ¿Hay algún buen algoritmo de segmentación chino de código abierto o disponible gratuitamente?



paginacion (4)

Como se expresa en la pregunta, estoy buscando un algoritmo de segmentación de texto libre y / o de código abierto para el chino, entiendo que es una tarea muy difícil de resolver, ya que existen muchas ambigüedades. Sé que hay una API de Google, pero bueno, es más bien una caja negra, es decir, no hay mucha información de lo que está haciendo.


La búsqueda en Google de "código abierto chino de segmentación de texto" revela esta biblioteca, que puede o no ser lo que estás buscando ...:

http://sourceforge.net/projects/ktdictseg/

Los resultados apuntan a algunos lugares alternativos para buscar una biblioteca de código abierto, también:

  • Buscando una implementación de búsqueda de código abierto que pueda funcionar con chino.
  • La búsqueda de una implementación de detección de plagio de código abierto que podría con el chino.



La palabra clave text-segmentation for Chinese debe ser 中文分词 en chino.

Buen y activo algoritmo de segmentación de texto de código abierto :

  1. 盘古 分 词 (Segmento Pan Gu) : C# , Snapshot
  2. ik-analyzer : Java
  3. ICTCLAS : C/C++, Java, C# , Demo
  4. NlpBamboo : C, PHP, PostgreSQL
  5. HTTPCWS : basado en ICTCLAS , Demo
  6. mmseg4j : Java
  7. fudannlp : Java , Demo
  8. smallseg : Python, Java , Demo
  9. nseg : NodeJS
  10. mini-segmenter : python

Otro

  1. Código de Google : http://code.google.com/query/#q=中文分词
  2. OSChina (Open Source China)

Muestra

  1. Google Chrome (Chromium) : src , cc_cedict.txt (73,145 Chinese words/pharases)

    • En el text field o text field de Google Chrome con oraciones en chino, presione Ctrl + o Ctrl +

    • Double click en 中文分词指的是将一个汉字序列切分成一个一个单独的词