Minería de datos: tareas

La minería de datos se ocupa del tipo de patrones que se pueden extraer. Sobre la base del tipo de datos que se extraerán, hay dos categorías de funciones involucradas en Data Mining:

  • Descriptive
  • Clasificación y predicción

Función descriptiva

La función descriptiva se ocupa de las propiedades generales de los datos en la base de datos. Aquí está la lista de funciones descriptivas:

  • Descripción de clase / concepto
  • Minería de patrones frecuentes
  • Minería de Asociaciones
  • Minería de correlaciones
  • Minería de clústeres

Descripción de clase / concepto

Clase / Concepto se refiere a los datos que se asociarán con las clases o conceptos. Por ejemplo, en una empresa, las clases de artículos para la venta incluyen computadoras e impresoras, y los conceptos de clientes incluyen grandes gastadores y gastadores de presupuesto. Estas descripciones de una clase o un concepto se denominan descripciones de clase / concepto. Estas descripciones pueden derivarse de las siguientes dos formas:

  • Data Characterization- Se refiere a resumir datos de la clase en estudio. Esta clase en estudio se denomina Clase objetivo.

  • Data Discrimination - Se refiere al mapeo o clasificación de una clase con algún grupo o clase predefinida.

Minería de patrones frecuentes

Los patrones frecuentes son aquellos que ocurren con frecuencia en los datos transaccionales. Aquí está la lista de tipos de patrones frecuentes:

  • Frequent Item Set - Se refiere a un conjunto de elementos que frecuentemente aparecen juntos, por ejemplo, leche y pan.

  • Frequent Subsequence - Una secuencia de patrones que ocurren con frecuencia, como la compra de una cámara, es seguida por la tarjeta de memoria.

  • Frequent Sub Structure - Subestructura se refiere a diferentes formas estructurales, como gráficos, árboles o celosías, que se pueden combinar con conjuntos de elementos o subsecuencias.

Minería de Asociación

Las asociaciones se utilizan en las ventas minoristas para identificar patrones que se compran juntos con frecuencia. Este proceso se refiere al proceso de descubrir la relación entre los datos y determinar las reglas de asociación.

Por ejemplo, un minorista genera una regla de asociación que muestra que el 70% de las veces la leche se vende con pan y solo el 30% de las veces que las galletas se venden con pan.

Minería de correlaciones

Es una especie de análisis adicional que se realiza para descubrir correlaciones estadísticas interesantes entre pares asociados-atributo-valor o entre dos conjuntos de elementos para analizar si tienen un efecto positivo, negativo o nulo entre sí.

Minería de clústeres

Clúster se refiere a un grupo de objetos similares. El análisis de conglomerados se refiere a la formación de un grupo de objetos que son muy similares entre sí, pero que son muy diferentes de los objetos de otros conglomerados.

Clasificación y predicción

La clasificación es el proceso de encontrar un modelo que describa los conceptos o clases de datos. El propósito es poder utilizar este modelo para predecir la clase de objetos cuya etiqueta de clase se desconoce. Este modelo derivado se basa en el análisis de conjuntos de datos de entrenamiento. El modelo derivado se puede presentar en las siguientes formas:

  • Reglas de clasificación (SI-ENTONCES)
  • Árboles de decisión
  • Fórmulas matemáticas
  • Redes neuronales

La lista de funciones involucradas en estos procesos es la siguiente:

  • Classification- Predice la clase de objetos cuya etiqueta de clase se desconoce. Su objetivo es encontrar un modelo derivado que describa y distinga clases de datos o conceptos. El modelo derivado se basa en el conjunto de análisis de datos de entrenamiento, es decir, el objeto de datos cuya etiqueta de clase es bien conocida.

  • Prediction- Se utiliza para predecir valores de datos numéricos faltantes o no disponibles en lugar de etiquetas de clase. El análisis de regresión se utiliza generalmente para la predicción. La predicción también se puede utilizar para identificar tendencias de distribución basadas en los datos disponibles.

  • Outlier Analysis - Los valores atípicos pueden definirse como los objetos de datos que no cumplen con el comportamiento general o modelo de los datos disponibles.

  • Evolution Analysis - El análisis de evolución se refiere a la descripción y modelo de regularidades o tendencias de objetos cuyo comportamiento cambia con el tiempo.

Primitivas de tareas de minería de datos

  • Podemos especificar una tarea de minería de datos en forma de consulta de minería de datos.
  • Esta consulta se ingresa al sistema.
  • Una consulta de minería de datos se define en términos de primitivas de tareas de minería de datos.

Note- Estas primitivas nos permiten comunicarnos de forma interactiva con el sistema de minería de datos. Aquí está la lista de primitivas de tareas de minería de datos:

  • Conjunto de datos relevantes para la tarea que se extraerán.
  • Tipo de conocimiento a extraer.
  • Conocimientos previos que se utilizarán en el proceso de descubrimiento.
  • Medidas de interés y umbrales para la evaluación de patrones.
  • Representación para visualizar los patrones descubiertos.

Conjunto de datos relevantes para la tarea que se extraerán

Esta es la parte de la base de datos en la que está interesado el usuario. Esta porción incluye lo siguiente:

  • Atributos de la base de datos
  • Dimensiones de interés del almacén de datos

Tipo de conocimiento a extraer

Se refiere al tipo de funciones a realizar. Estas funciones son:

  • Characterization
  • Discrimination
  • Análisis de asociación y correlación
  • Classification
  • Prediction
  • Clustering
  • Análisis de valores atípicos
  • Análisis de evolución

Conocimiento de fondo

El conocimiento previo permite extraer datos en múltiples niveles de abstracción. Por ejemplo, las jerarquías de conceptos son uno de los conocimientos previos que permiten extraer datos en múltiples niveles de abstracción.

Medidas de interés y umbrales para la evaluación de patrones.

Se utiliza para evaluar los patrones que se descubren mediante el proceso de descubrimiento de conocimientos. Hay diferentes medidas interesantes para diferentes tipos de conocimiento.

Representación para visualizar los patrones descubiertos

Esto se refiere a la forma en que se mostrarán los patrones descubiertos. Estas representaciones pueden incluir lo siguiente. -

  • Rules
  • Tables
  • Charts
  • Graphs
  • Árboles de decisión
  • Cubes