tipo - Documentos de Word/PDF de índice desde el sistema de archivos a SQL Server

subir pdf a sql (1)

SQL Server tiene búsqueda de texto completo (http://msdn.microsoft.com/en-us/library/ms142571.aspx); esto es compatible con archivos PDF y Word (aunque con algunas arrugas, la instalación puede ser un poco complicada). El enlace es a SQL Server 2008, pero la función ha estado presente desde SQL Server 2000.

Por lo tanto, súper simplista: su solución requeriría que cargue los documentos en SQL Server y modifique su procuración almacenada para consultarlos utilizando las funciones integradas de búsqueda de texto libre.

Mantener el sistema de archivos y las versiones de la base de datos del documento sincronizados podría ser un desafío, pero aparte de eso, creo que la solución debería ser bastante sencilla.

¡Estoy tratando de encontrar una solución simple a un problema que tengo porque todos los que he encontrado hasta ahora me parecen demasiado complicados!

La situación es que utilizamos una aplicación patentada para administrar la mayoría de los aspectos de nuestro negocio. Tiene una base de datos back-end de SQL Server 2005, que es bastante grande. La aplicación también permite adjuntar documentos de Word y PDF a registros, que utilizamos extensamente, y estos se almacenan en el sistema de archivos en el servidor, con los nombres de archivo referenciados en la base de datos. Lamentablemente, los recursos de búsqueda en la aplicación son deficientes, por lo que estoy intentando crear mi propia versión.

Hasta ahora tengo una página aseada de ASP.NET con un cuadro de búsqueda que permitirá a los usuarios ingresar palabras para buscar, así como filtrar sus resultados en otros campos, como el departamento, la fecha, etc. El procedimiento almacenado I '' Si está escrito en la base de datos, busca las palabras que están buscando en varios campos diferentes en la base de datos. Lo que realmente pretendo es un efecto de "búsqueda para controlarlos a todos", al estilo de Google, donde el usuario no tiene que especificar dónde esperan encontrar la palabra que está buscando, solo obtendrá éxitos en cualquier lugar que aparece en la base de datos. Y esto está funcionando.

Lo que quiero agregar ahora es la capacidad de la búsqueda para incluir el texto de los documentos que están ''adjuntos'' a los registros. Todos son archivos .doc o .pdf, pero si no pudiera buscar los archivos .pdf, no sería el fin del mundo.

En mi mundo ideal, lo que haría es buscar algún software que indexe la carpeta que contiene los documentos (actualmente hay alrededor de 100.000, con un promedio de 100k) y llenar una tabla en mi base de datos existente con este índice para que yo pudiera entonces solo incluye esa tabla en mi búsqueda. Me encantaría que solo contenga un registro para cada palabra única indexada y una tabla de combinación que haga referencia a documentos en el sistema de archivos que contiene esa palabra.

Dado que esto parece fantasioso y no hay ningún software que lo haga, ni nada parecido, por lo que puedo ver, ¿qué solución recomendaría? El servidor ya tiene dtSearch ejecutándose en él, indexando los mismos archivos que me interesan. Sin embargo, mientras podía navegar por la documentación tratando de descubrir cómo implementar una búsqueda de este índice a través de mi propia página web (que comencé) hacer, y encontró pesado ir), que tendría que ser una búsqueda separada a la de la base de datos SQL. No pude devolver los resultados del índice del archivo y la base de datos de una manera unificada.

Por lo tanto, a partir del deseo último de tener las palabras indexadas almacenadas en la base de datos, con miras a implementar búsquedas de texto completo sobre eso, ¿qué sugieres?