tutorial graphs ejemplo concordance python nlp text-processing

python - graphs - Resumir texto o simplificar texto



nltk tutorial (7)

¿Hay alguna biblioteca, preferiblemente en python pero al menos de código abierto, que pueda resumir o simplificar el texto en lenguaje natural?


Eche un vistazo a este article que hace un estudio detallado de estos métodos y paquetes:

  1. Lex_rank ( sumy )
  2. LSA (sumy)
  3. Luhn (sumy)
  4. PyTeaser
  5. Gensim TextRank
  6. PyTextRank
  7. Google TextSum

El final del artículo hace un '' summary ''.

El autor de sumy @ ha dado una descripción en la respuesta anterior.

Varias otras técnicas de ML han aumentado, como Facebook/NAMAS y Google / TextSum, pero aún necesitan una amplia capacitación en Gigaword Dataset y alrededor de 7000 horas de GPU. El conjunto de datos en sí es bastante costoso.

En conclusión, diría que sumy es la mejor opción en el mercado en este momento si no tiene acceso a máquinas de alta gama. Muchas gracias @ miso.belica por este maravilloso paquete.


Hace un tiempo, escribí una biblioteca de resumen para python usando NLTK, usando un algoritmo de la biblioteca Classifier4J. Es bastante simple pero puede satisfacer las necesidades de cualquier persona que necesite un resumen: https://github.com/thavelick/summarize


No estoy seguro de si actualmente hay bibliotecas que hagan esto, ya que el resumen de texto, o al menos un resumen de texto comprensible, no es algo que se pueda realizar fácilmente con una simple biblioteca plug & play.

Aquí hay algunos enlaces que logré encontrar con respecto a proyectos / recursos relacionados con el resumen de texto para comenzar:

Espero que ayude :)


No python pero MEAD hará resumen de texto (está en Perl). Por lo general, lo que sale es comprensible, aunque no siempre suena particularmente fluido. También revise summarization.com para obtener mucha información útil sobre la tarea de resumen de texto.


Pruebe Open Text Summarizer, que se publica bajo la licencia de código abierto GPL. Funciona razonablemente bien, pero no ha habido ningún trabajo de desarrollo desde 2007.

El código original está escrito en C (tanto una biblioteca como una utilidad de línea de comandos) pero hay envoltorios en varios idiomas:


Tal vez puedas probar sumy . Es una biblioteca bastante pequeña que escribí en Python. Se implementan los enfoques de Luhn y Edmundson, el método LSA, los algoritmos SumBasic, KL-Sum, LexRank y TextRank. Tiene licencia Apache2 y es compatible con los idiomas checo, eslovaco, inglés, francés, japonés, chino, portugués, español y alemán.

Siéntase libre de abrir un problema o enviar una solicitud de extracción si falta algo.


También necesitaba lo mismo pero no pude encontrar nada en Python que me ayudara a obtener un resultado integral .

Así que encontré este servicio web realmente útil, y tienen una API gratuita que da un resultado JSON, y quería compartirlo con ustedes.

Échale un vistazo aquí: http://smmry.com