Minería de datos - Minería World Wide Web

La World Wide Web contiene grandes cantidades de información que proporciona una rica fuente para la minería de datos.

Desafíos en la minería web

La web plantea grandes desafíos para el descubrimiento de recursos y conocimientos basados ​​en las siguientes observaciones:

  • The web is too huge- El tamaño de la web es enorme y está aumentando rápidamente. Parece que la web es demasiado grande para el almacenamiento y la minería de datos.

  • Complexity of Web pages- Las páginas web no tienen estructura unificadora. Son muy complejos en comparación con los documentos de texto tradicionales. Hay una gran cantidad de documentos en la biblioteca digital de la web. Estas bibliotecas no están organizadas según ningún orden de clasificación en particular.

  • Web is dynamic information source- La información en la web se actualiza rápidamente. Los datos como noticias, mercados de valores, clima, deportes, compras, etc., se actualizan periódicamente.

  • Diversity of user communities- La comunidad de usuarios en la web se está expandiendo rápidamente. Estos usuarios tienen diferentes antecedentes, intereses y propósitos de uso. Hay más de 100 millones de estaciones de trabajo que están conectadas a Internet y siguen aumentando rápidamente.

  • Relevancy of Information - Se considera que una persona en particular generalmente está interesada en solo una pequeña parte de la web, mientras que el resto de la parte de la web contiene información que no es relevante para el usuario y puede inundar los resultados deseados.

Estructura de diseño de página web de minería

La estructura básica de la página web se basa en el Modelo de objetos de documento (DOM). La estructura DOM se refiere a una estructura en forma de árbol donde la etiqueta HTML en la página corresponde a un nodo en el árbol DOM. Podemos segmentar la página web utilizando etiquetas predefinidas en HTML. La sintaxis HTML es flexible, por lo tanto, las páginas web no siguen las especificaciones del W3C. No seguir las especificaciones de W3C puede causar errores en la estructura del árbol DOM.

La estructura DOM se introdujo inicialmente para su presentación en el navegador y no para la descripción de la estructura semántica de la página web. La estructura DOM no puede identificar correctamente la relación semántica entre las diferentes partes de una página web.

Segmentación de páginas basada en visión (VIPS)

  • El propósito de VIPS es extraer la estructura semántica de una página web en base a su presentación visual.

  • Tal estructura semántica corresponde a una estructura de árbol. En este árbol, cada nodo corresponde a un bloque.

  • Se asigna un valor a cada nodo. Este valor se llama grado de coherencia. Este valor se asigna para indicar el contenido coherente en el bloque en función de la percepción visual.

  • El algoritmo VIPS primero extrae todos los bloques adecuados del árbol DOM de HTML. Después de eso, encuentra los separadores entre estos bloques.

  • Los separadores se refieren a las líneas horizontales o verticales en una página web que se cruzan visualmente sin bloques.

  • La semántica de la página web se construye sobre la base de estos bloques.

La siguiente figura muestra el procedimiento del algoritmo VIPS: