name keywords etiquetas ejemplos description dbpedia named-entity-extraction

dbpedia - keywords - meta tags ejemplos



¿Cómo usar DBPedia para extraer etiquetas/palabras clave del contenido? (2)

DBpedia es un recurso fantástico, de alta calidad. Sin embargo, para convertir su contenido en un conjunto de conceptos relevantes de DBpedia, deberá identificarlos con precisión en su texto, lo que implica al menos dos pasos:

  1. Identifique los conceptos de DBpedia en su contenido: esto incluye el reconocimiento de nombres de conceptos (y nombres alternativos) en el texto, y también la falta de ambigüedad entre todos los significados posibles de cada frase. El término "Sol" puede referirse a docenas de conceptos posibles de acuerdo con su página de desambiguación que incluye una estrella, periódicos, nombres de personas, etc. Esto implica la identificación, clasificación y enlace de la entidad.

  2. Identifique cuáles de esos conceptos son interesantes: por ejemplo, ¿quiere que aparezca el concepto "Artículo definido" cuando el texto incluye el término "el" (al cual se redirige)?

Es posible que desee considerar una biblioteca o servicio de análisis de texto preexistente, que admita que la entidad se vincule a DBpedia. Una gran herramienta para la indización de temas es Maui , que fue desarrollada por Alyona Medelyan durante su doctorado. Otra gran solución de código abierto es Wikipedia Miner por David Milne en la misma universidad.

Dos servicios comerciales que proporcionan enlaces a los conceptos de DBpedia son Zemanta y Extractiv (permiten cierto nivel de uso gratuito). Opción de proyector DBpedia . Otros que pueden proporcionar estas capacidades se enumeran en: https://stackoverflow.com/questions/2119279/is-there-a-better-tool-than-opencalais

Divulgación: yo [solía trabajar] en Extractiv (inactivo), que funciona con la PNL de Language Computer Corporation .

Estoy explorando cómo puedo usar la información de taxonomía de Wikipedia para extraer etiquetas / palabras clave de mi contenido.

He encontrado artículos sobre DBPedia. DBpedia es un esfuerzo comunitario para extraer información estructurada de Wikipedia y hacer que esta información esté disponible en la Web.

¿Alguien ha usado sus servicios web? ¿Sabes cómo funcionan y qué tan confiable es?


Puedes usar Apache Stanbol para este proceso. Entityhub componente Entityhub de Apache Stanbol proporciona la producción de índices DBPedia personalizados según sus necesidades. Luego puede usar el componente Enhancer para extraer entidades de Lugares, Personas, Ubicaciones de su texto.

El siguiente hilo de correo puede ser útil para usted.
http://markmail.org/message/52266yl5ohijxiof

Puede acceder a las demostraciones en ejecución de Apache Stanbol desde el siguiente enlace:
http://dev.iks-project.eu/

También puede hacer sus preguntas adicionales a stanbol-dev AT incubator.apache.org .