¿Entidades con nombre como una característica en la categorización de texto?

machine-learning classification (1)

Depende mucho del dominio en el que está trabajando. Debe definir las funciones en función del dominio. Diga en un buscador que está trabajando para aprender a clasificar el problema, generando un rango dinámico, los NE no le darán ningún beneficio aquí. Depende en gran medida del dominio en el que esté trabajando y también de las etiquetas de categorización de salida (aprendizaje supervisado) definidas.

Ahora diga que está trabajando en la clasificación de documentos relacionados con el fútbol o la película o la política, y así sucesivamente. En este caso, las entidades con nombre pueden funcionar. Le daré un ejemplo aquí, digamos que está usando una red neuronal que categoriza documentos en fútbol, películas, política, etc. Ahora diga que viene un documento "Lionel Messi fue invitado a asistir al estreno de" The Social Network ", también presente fueron el elenco y el equipo incluyendo Jesse Eisenberg, Andrew Garfield y Justin Timberlake "Aquí la conexión entre las entidades nombradas (características de entrada) y la película (salida definida) será más fuerte y, por lo tanto, se clasificará como un documento en la película.

Otro ejemplo, por ejemplo nuestro documento es "Tom Cruise retrata el personaje de Lionel Messi en la película" El último juego de fútbol ". Aquí viene el beneficio decir que su red neuronal ha aprendido que cuando un actor y un futbolista se unen en un documento hay alta probabilidad de que sea una película. De nuevo depende de los datos y la capacitación también puede ser de otra forma (pero eso es lo que se está aprendiendo, ver los datos del pasado)

Entonces mi respuesta sería probarlo, nadie te impide tener entidades nombradas como características. Podría ser útil para el dominio en el que está trabajando.

Con las técnicas de categorización de texto existentes (supervisadas), ¿por qué no consideramos las entidades con nombre (NE) en el texto como una característica en el entrenamiento y las pruebas? ¿Crees que podemos mejorar la precisión con el uso de NE como característica?