artificial-intelligence - pricing - google vision api android
¿Cómo extraer automáticamente el contenido generado por el usuario? (10)
Tengo un sitio web que permite a los usuarios escribir publicaciones de blog, me gustaría resumir el contenido escrito y usarlo para completar el <meta name="description".../>
-tag, por ejemplo.
¿Qué métodos puedo emplear para resumir / describir automáticamente los contenidos del contenido generado por el usuario?
¿Hay algún método (preferiblemente gratuito) que haya resuelto este problema?
(He visto otros sitios web solo copie las primeras 100 palabras, pero esto me parece una solución subóptima).
Esto limita con la inteligencia artificial, por lo que no va a haber una solución "fácil", pero hay productos que se enfocan en este problema.
Mira Copernic Summarizer , por ejemplo.
Otro elemento para verificar, un proyecto de SourceForge, AutoSummary Semantic Analysis Engine
Podría intentar usar Mechanical Turk o cualquier cantidad de otras opciones de crowdsourcing.
No es una tarea trivial ... Debes buscar artículos o libros sobre " resumen extractivo "
Algunos principiantes podrían ser:
Libros:
- Procesamiento de lenguaje natural con Python
- Fundamentos del procesamiento estadístico del lenguaje natural
Artículos:
Haz que sea predecible
Desde la perspectiva de los usuarios, simplemente usar el primer párrafo no está nada mal. El uso de cualquier automatización está destinado a fallar en algunos casos. Así que sugiero que se muestre el primer párrafo (tal vez truncar en algún momento) como un resumen y ofrecer la posibilidad de anularlo por un campo opcional.
Piense en la tarea de resumir como un desafío para "seleccionar las oraciones más importantes" del documento.
El método descrito en The Automatic Creation of Literature Abstracts de HP Luhn (1958) describe un método ingenuo que realmente funciona bastante bien. Intenta darle una oportunidad.
Si su sitio web está en Python, la codificación de este algoritmo con NLTK (Natural Language Toolkit) es una tarea divertida.
Alternativamente, cuando el autor publica el artículo, el autor puede resaltar cuáles son las palabras clave que se pueden usar en la descripción y que luego se pueden incluir automáticamente en la etiqueta de metadescripción.
Las frases sustantivas suelen ser elementos importantes de una oración. Escoger frases con una alta densidad de sintagmas nominales podría arrojar un buen resumen. Puede obtener frases nominales usando un etiquetador POS.
Para un buen resumen, es deseable que sea una oración significativa. Leer una oración rota es ligeramente discordante.
Yahoo tiene una API gratuita para esto: http://developer.yahoo.com/search/content/V1/termExtraction.html
Patente de Apple 6424362 - Resumen automático del contenido del documento contiene código de ejemplo que podría ser útil ...