tutorial traduccion machine learning examples course book algorithms python statistics machine-learning wikipedia summarization

python - traduccion - Resumiendo un artículo de Wikipedia



machine learning traduccion (2)

Me encuentro teniendo que aprender cosas nuevas todo el tiempo. He estado tratando de pensar en maneras en que podría acelerar el proceso de aprendizaje de nuevas materias. Pensé que podría estar bien si pudiera escribir un programa para analizar un artículo de wikipedia y eliminar todo menos la información más valiosa.

Comencé tomando el artículo de Wikipedia en PDFs y extrayendo las primeras 100 oraciones. Le di a cada oración una puntuación basada en lo valiosa que pensé que era Terminé creando un archivo siguiendo este formato:

<sentence> <value> <sentence> <value> etc.

Luego analicé este archivo e intenté encontrar varias funciones que relacionaran cada oración con el valor que le había dado. Acabo de comenzar a aprender sobre el aprendizaje automático y las estadísticas y otras cosas, por lo que estoy haciendo muchas molestias por aquí. Este es mi último intento: https://github.com/JesseAldridge/Wikipedia-Summarizer/blob/master/plot_sentences.py .

Intenté un montón de cosas que no parecían producir mucha correlación en absoluto: la longitud promedio de las palabras, la posición en el artículo, etc. Casi todo lo que produjo algún tipo de relación útil fue la longitud de la cadena (más específicamente, contar el número de letras en minúscula que parecen funcionar mejor). Pero eso parece un poco cojo, porque parece obvio que es más probable que las oraciones más largas contengan información útil.

En un momento pensé que había encontrado algunas funciones interesantes, pero luego, cuando intenté eliminar los valores atípicos (solo contando los cuartiles internos), resultaron para producir peores resultados y luego volvieron a 0 para cada oración. Esto me hizo preguntarme acerca de cuántas otras cosas podría estar haciendo mal ... También me pregunto si esta es incluso una buena manera de abordar este problema.

¿Crees que estoy en el camino correcto? ¿O es esto sólo una tarea de tontos? ¿Hay alguna deficiencia evidente en el código vinculado? ¿Alguien sabe de una mejor manera de abordar el problema de resumir un artículo de Wikipedia? Prefiero tener una solución rápida y sucia a algo perfecto que toma mucho tiempo en armarse. Cualquier consejo general también sería bienvenido.


Sólo mis dos centavos ...

Cada vez que estoy navegando por un nuevo tema en Wikipedia, normalmente realizo una búsqueda "primero en amplitud"; Me niego a pasar a otro tema hasta que haya escaneado todos y cada uno de los enlaces a los que se conecta la página (lo que introduce un tema con el que aún no estoy familiarizado). Leí la primera oración de cada párrafo , y si veo algo en ese artículo que parece estar relacionado con el tema original, repito el proceso.

Si tuviera que diseñar la interfaz para un "resumen" de Wikipedia, lo haría

  1. Siempre imprima el párrafo introductorio completo.

  2. Para el resto del artículo, imprima cualquier oración que tenga un enlace.

    2a. Imprima cualquier lista de enlaces separados por comas como una lista de viñetas.

  3. Si el enlace al artículo está "expandido", imprima el primer párrafo de ese artículo.

  4. Si ese párrafo introductorio está expandido, repita la lista de oraciones con enlaces.

Este proceso podría repetirse indefinidamente.

Lo que estoy diciendo es que resumir artículos de Wikipedia no es lo mismo que resumir un artículo de una revista o una publicación en un blog. El hecho de rastrear es una parte importante de aprender conceptos introductorios rápidamente a través de Wikipedia, y creo que es lo mejor. Normalmente, la mitad inferior de los artículos es donde las etiquetas de citation needed comienzan a aparecer, pero la primera mitad de cualquier artículo se considera conocimiento dado por la comunidad.


Teniendo en cuenta que su pregunta se relaciona más con una actividad de investigación que con un problema de programación, probablemente debería consultar la literatura científica. Aquí encontrará los detalles publicados de una serie de algoritmos que realizan exactamente lo que desea. Una búsqueda en Google de "resumen de palabras clave" encuentra lo siguiente:

Resumen de documento único basado en el coeficiente de agrupación y análisis de transitividad

Resumen de documentos múltiples para el sistema de e-learning de respuesta a consultas

Correo electrónico inteligente: ayudando a los usuarios con IA

Si lees lo anterior, luego sigue las referencias que contienen, encontrarás una gran cantidad de información. Sin duda lo suficiente para construir una aplicación funcional.