math - usar - el sacaleche ayuda a la produccion de leche

¿Cómo empezar a extraer información? (8)

Recomendaría el excelente libro Introducción a la recuperación de información de Christopher D. Manning, Prabhakar Raghavan y Hinrich Schütze. Cubre una amplia área de problemas que forman una base excelente y actualizada (2008) para la extracción de información y está disponible en línea en texto completo (en el enlace indicado).

¿Podría recomendar una ruta de entrenamiento para comenzar y llegar a ser muy bueno en extracción de información? Empecé a leer sobre él para hacer uno de mis proyectos de hobby y pronto me di cuenta de que tendría que ser bueno en matemáticas (Algebra, Stats, Prob). He leído algunos de los libros introductorios sobre diferentes temas de matemáticas (y es muy divertido). Buscando alguna orientación. Por favor ayuda.

Actualización: solo para responder uno de los comentarios. Estoy más interesado en la extracción de información de texto.

Solo para responder uno de los comentarios. Estoy más interesado en la extracción de información de texto.

Dependiendo de la naturaleza de su proyecto, el procesamiento del lenguaje natural y la lingüística computacional pueden ser útiles: brindan herramientas para medir y extraer características de la información textual y aplicar capacitación, calificación o clasificación. Los buenos libros introductorios incluyen la Inteligencia Colectiva de Programación de OReilly (capítulos sobre "búsqueda y clasificación", filtrado de documentos y tal vez árboles de decisión).

Proyectos sugeridos que utilizan este conocimiento: etiquetado POS (parte del discurso) y reconocimiento de entidad nombrada (capacidad para reconocer nombres, lugares y fechas del texto sin formato). Puede usar Wikipedia como un corpus de entrenamiento, ya que la mayoría de la información del objetivo ya se extrae en las cajas de información, esto podría proporcionarle una cantidad limitada de retroalimentación de medición.

El otro gran martillo en IE es la búsqueda, un campo que no debe subestimarse. Nuevamente, el libro de OReilly proporciona alguna introducción en el ranking básico; una vez que tiene un gran corpus de texto indexado, puede hacer algunas tareas realmente de IE con él. Eche un vistazo a Peter Norvig: Teorizar a partir de los datos como punto de partida y muy buen motivador, quizás podría volver a implementar algunos de sus resultados como un ejercicio de aprendizaje.

Como aviso previo, creo que estoy obligado a decirte que la extracción de información es difícil . El primer 80% de cualquier tarea dada suele ser trivial; sin embargo, la dificultad de cada porcentaje adicional para las tareas de IE generalmente crece exponencialmente: en desarrollo y tiempo de investigación. También es bastante poco documentada, la mayoría de la información de alta calidad se encuentra actualmente en libros blancos oscuros ( Google Scholar es tu amigo), échales un vistazo una vez que hayas quemado la mano un par de veces. Pero lo más importante es que no dejes que estos obstáculos te desanimen; ciertamente hay grandes oportunidades para avanzar en esta área.

El artículo de Wikipedia Information Extraction es una introducción rápida.

En un nivel más académico, es posible que desee leer un documento como Integración de modelos de extracción probabilística y Minería de datos para descubrir relaciones y patrones en el texto .

Esto es un poco fuera de tema, pero es posible que desee leer Programación de inteligencia colectiva de O''Reilly. Trata indirectamente con la extracción de información de texto, y no asume mucho de un fondo matemático.

Sugeriría que eche un vistazo al Natural Language Toolkit (nltk) y al libro NLTK . Ambos están disponibles de forma gratuita y son excelentes herramientas de aprendizaje.

Eche un vistazo aquí si necesita servicio NER de grado empresarial. Desarrollar un sistema NER (y conjuntos de entrenamiento) es una tarea muy lenta y altamente especializada.

No estoy de acuerdo con las personas que recomiendan leer la Inteligencia Colectiva de Programación. Si quieres hacer algo incluso de complejidad moderada, debes ser bueno en matemáticas aplicadas y PCI te da una falsa sensación de confianza. Por ejemplo, cuando habla de SVM, solo dice que libSVM es una buena forma de implementarlos. Ahora libSVM es definitivamente un buen paquete, pero a quién le importan los paquetes. Lo que necesita saber es por qué SVM brinda los resultados maravillosos que brinda y cómo es fundamentalmente diferente de la forma de pensar Bayesiana (y cómo Vapnik es una leyenda).

En mi humilde opinión, no hay una sola solución para ello. Debes tener un buen control sobre Algebra Lineal y la probabilidad y la teoría bayesiana. Bayes, debo agregar, es tan importante para esto como el oxígeno para los seres humanos (es un poco exagerado, pero entiendes lo que quiero decir, ¿no?). Además, obtenga un buen control del aprendizaje automático. Solo usar el trabajo de otras personas está perfectamente bien, pero en el momento en que quieras saber por qué se hizo algo de la forma en que fue, tendrás que saber algo sobre ML.

Verifique estos dos para eso:

http://pindancing.blogspot.com/2010/01/learning-about-machine-learniing.html

http://measuringmeasures.com/blog/2010/1/15/learning-about-statistical-learning.html

http://measuringmeasures.com/blog/2010/3/12/learning-about-machine-learning-2nd-ed.html

De acuerdo, ahora son tres de ellos :) / Cool

No es necesario ser bueno en matemáticas para hacer IE. Simplemente entienda cómo funciona el algoritmo, experimente en los casos para los que necesita un rendimiento de resultado óptimo y la escala con la que necesita alcanzar el nivel de precisión objetivo y trabaje con eso. Básicamente estás trabajando con algoritmos y programación y aspectos de CS / AI / teoría de aprendizaje automático no escribiendo un documento de phd sobre la construcción de un nuevo algoritmo de aprendizaje automático donde tienes que convencer a alguien mediante principios matemáticos por qué funciona el algoritmo, entonces estoy totalmente en desacuerdo esa noción. Existe una diferencia entre práctica y teoría, ya que todos sabemos que los matemáticos están más atrapados en la teoría que en la viabilidad de los algoritmos para producir soluciones comerciales factibles. Sin embargo, necesitaría leer un poco sobre los dos libros en PNL, así como los diarios para saber qué encontraron las personas a partir de sus resultados. IE es un dominio muy específico del contexto, por lo que necesitaría definir primero en qué contexto está tratando de extraer información. ¿Cómo definiría esta información? ¿Cuál es tu modelo estructurado? Supongamos que extrae conjuntos de datos semi y no estructurados. También querrás evaluar si deseas acercarte a tu IE desde un enfoque humano estándar que involucre cosas como expresiones regulares y concordancia de patrones, o te gustaría hacerlo usando métodos estadísticos de aprendizaje automático como Markov Chains. Incluso puedes ver enfoques híbridos.

Un modelo de proceso estándar que puede seguir para realizar su extracción es adaptar un enfoque de minería de datos / texto:

preprocesamiento: defina y estandarice sus datos para extraerlos de fuentes variadas o específicas limpiando su segmentación de datos / clasificación / agrupamiento / asociación - su blackbox donde se realizará la mayor parte de su trabajo de extracción posterior al procesamiento - limpiando sus datos nuevamente donde desee para almacenarlo o representarlo como información

Además, debe comprender la diferencia entre qué es información y qué es información. Como puede reutilizar su información descubierta como fuentes de datos para construir más mapas de información / árboles / gráficos. Todo está muy contextualizado.

pasos estándar para: entrada-> proceso-> salida

Si está utilizando Java / C ++, hay muchos frameworks y bibliotecas disponibles con los que puede trabajar. Perl sería un lenguaje excelente para hacer su trabajo de extracción de PNL con si desea hacer una gran cantidad de extracción de texto estándar.

Es posible que desee representar sus datos como XML o incluso como gráficos RDF (Web Semántica) y para su modelo contextual definido puede construir relaciones y gráficos de asociación que muy probablemente cambien a medida que realiza más y más solicitudes de extracciones. Impleméntelo como un servicio relajante, ya que desea tratarlo como un recurso para documentos. Incluso puede vincularlo a conjuntos de datos taxonomizados y las búsquedas con facetas dicen usar Solr.

Buenas fuentes para leer son:

Manual de Lingüística de la Conducción y Procesamiento del Lenguaje Natural
Fundamentos del procesamiento estadístico del lenguaje natural
Aplicaciones de extracción de información en Prospect
Una introducción al procesamiento del lenguaje con Perl y Prolog
Procesamiento del habla y el lenguaje (Jurafsky)
Programación de aplicaciones de minería de textos
El manual de minería de textos
Domar el texto
Algoritmos de Web Inteligente
Creación de aplicaciones de búsqueda
Revista IEEE

Asegúrese de realizar una evaluación exhaustiva antes de implementar tales aplicaciones / algoritmos en la producción, ya que pueden aumentar recursivamente sus requisitos de almacenamiento de datos. Puede usar AWS / Hadoop para clustering, Mahout para clasificación a gran escala, entre otros. Almacene sus conjuntos de datos en MongoDB o vertederos no estructurados en jackrabbit, etc. Pruebe primero con prototipos. Hay varios archivos que puede usar para basar su entrenamiento en decir reuters corpus, tipster, TREC, etc. Incluso puede consultar alchemyapi, GATE, UIMA, OpenNLP, etc.

Crear extracciones a partir de texto estándar es más fácil que decir un documento web, por lo que la representación en el paso de preprocesamiento se vuelve aún más crucial para definir qué es exactamente lo que está tratando de extraer de una representación de documento estandarizada.

Las medidas estándar incluyen: precisión, recuperación, medida f1 entre otras.