tutorial texto spanish sentimientos procesamiento natural mineria machine lenguaje learning language instalar ejemplos con como analisis language-agnostic nlp

language-agnostic - texto - spacy machine learning



¿Qué es una buena biblioteca de lenguaje natural para parafrasear? (5)

Te estás adentrando en un dominio de tipo AI muy alejado. He realizado un trabajo extenso en la transformación de texto en conocimiento de máquina principalmente usando Attempto Controlled English (ver: http://attempto.ifi.uzh.ch/site/ ), es un lenguaje natural (inglés) que es completamente procesable por computadora en varios diferentes ontologías, como OWLDL.

Parece que eso sería demasiado exagerado ...

¿Hay alguna razón para no solo tomar las primeras oraciones de tu publicación de blog y luego agregar una elipse para tu resumen?

Estoy buscando una biblioteca existente para resumir o parafrasear el contenido (estoy apuntando a las publicaciones de blog): ¿alguna experiencia con bibliotecas de procesamiento de lenguaje natural existentes?

Estoy abierto a una variedad de idiomas, por lo que estoy más interesado en las habilidades y la precisión.


Gracias por esos enlaces. Parece que GROK está muerto, pero puede funcionar aún para mis propósitos.

2 enlaces más:

El Attempto Controlled English es un concepto interesante: ya que es una forma completamente inversa de ver el problema. No es realmente práctico para lo que estoy tratando de hacer.

@mmattax En cuanto a la sugerencia de tomar algunas frases, no estoy tratando de presentar un resumen: de lo contrario, sería una buena solución de judo . Estoy buscando realmente resumir el contenido para utilizarlo con otros fines de evaluación.


Creo que quiere generar publicaciones de blog al parafrasear automáticamente lo que sea que sean los blogs que este sistema está monitoreando.

Esto sería realmente interesante si pudiera combinar de 2 a 10 publicaciones de blog que son similares, pero de diferentes fuentes y luego hacer un resumen "real" parafraseado automáticamente (el tamaño de 1 publicación de blog).

También podría ser genial para Homeworks. Desafortunadamente no es tan fácil de hacer.

La única forma en que podía ver era descomponer cada oración en "significado", y luego cambiar aleatoriamente la estructura de la oración y algunas palabras conservando el significado.

Estas oraciones significan lo mismo:

  • Odio a este tipo, es tan tonto.
  • Este tipo es estúpido, lo odio.
  • Desprecio a este tonto.
  • Él es tonto, lo odio.

No sería trivial escribir un programa para transformar una de estas oraciones a las otras, y estas son oraciones simples, las oraciones reales de los blogs son mucho más complicadas.


Es posible que desee probar GATE o la API COM de TextAnalyst de fuente cerrada, propietaria y costosa.


Hubo una discusión sobre Grok. Esto ahora se admite como OpenCCG, y se volverá a implementar en OpenNLP también.

Puede encontrar OpenCCG en http://openccg.sourceforge.net/ . También sugeriría el analizador Curran y Clark CCG disponible aquí: http://svn.ask.it.usyd.edu.au/trac/candc/wiki

Básicamente, para parafrasear, lo que vas a tener que hacer es escribir algo que primero analice las oraciones de las publicaciones de blog, extraiga el significado semántico de estas publicaciones y luego busque en el espacio de las palabras de vocabulario que crearán composicionalmente la misma semántica es decir, y luego elige uno que no concuerde con la oración actual. Esto llevará mucho tiempo y puede que no tenga mucho sentido. No olvides que para hacer esto, necesitarás una resolución de anáfora casi perfecta y la capacidad de deducir inferencias a nivel de discurso.

Si solo busca hacer publicaciones de blogs que no tengan contenido duplicado identificable por la máquina, siempre puede usar transformaciones de tema y enfoque y sinónimos de WordNet. Definitivamente, ha habido sitios que han hecho dinero con AdWords que lo han hecho antes.