Minería de datos: temas

Fundamentos teóricos de la minería de datos

Los fundamentos teóricos de la minería de datos incluyen los siguientes conceptos:

  • Data Reduction- La idea básica de esta teoría es reducir la representación de datos que intercambia precisión por velocidad en respuesta a la necesidad de obtener respuestas rápidas aproximadas a consultas en bases de datos muy grandes. Algunas de las técnicas de reducción de datos son las siguientes:

    • Valor singular de descomposición

    • Wavelets

    • Regression

    • Modelos log-lineales

    • Histograms

    • Clustering

    • Sampling

    • Construcción de árboles de índice

  • Data Compression - La idea básica de esta teoría es comprimir los datos dados mediante la codificación en términos de lo siguiente:

    • Bits

    • Reglas de asociación

    • Árboles de decisión

    • Clusters

  • Pattern Discovery- La idea básica de esta teoría es descubrir patrones que ocurren en una base de datos. Las siguientes son las áreas que contribuyen a esta teoría:

    • Aprendizaje automático

    • Red neuronal

    • Asociación Minera

    • Coincidencia de patrones secuenciales

    • Clustering

  • Probability Theory- Esta teoría se basa en la teoría estadística. La idea básica detrás de esta teoría es descubrir distribuciones de probabilidad conjunta de variables aleatorias.

  • Probability Theory - Según esta teoría, la minería de datos encuentra los patrones que son interesantes solo en la medida en que pueden utilizarse en el proceso de toma de decisiones de alguna empresa.

  • Microeconomic View- Según esta teoría, un esquema de base de datos consta de datos y patrones que se almacenan en una base de datos. Por tanto, la minería de datos es la tarea de realizar inducción en bases de datos.

  • Inductive databases- Además de las técnicas orientadas a bases de datos, existen técnicas estadísticas disponibles para el análisis de datos. Estas técnicas pueden aplicarse a datos científicos y también a datos de las ciencias económicas y sociales.

Minería de datos estadísticos

Algunas de las técnicas de minería de datos estadísticos son las siguientes:

  • Regression- Los métodos de regresión se utilizan para predecir el valor de la variable de respuesta a partir de una o más variables predictoras donde las variables son numéricas. A continuación se enumeran las formas de regresión:

    • Linear

    • Multiple

    • Weighted

    • Polynomial

    • Nonparametric

    • Robust

  • Generalized Linear Models - El modelo lineal generalizado incluye -

    • Regresión logística

    • Regresión de Poisson

    La generalización del modelo permite que una variable de respuesta categórica se relacione con un conjunto de variables predictoras de una manera similar al modelado de la variable de respuesta numérica mediante regresión lineal.

  • Analysis of Variance - Esta técnica analiza -

    • Datos experimentales para dos o más poblaciones descritas por una variable de respuesta numérica.

    • Una o más variables categóricas (factores).

  • Mixed-effect Models- Estos modelos se utilizan para analizar datos agrupados. Estos modelos describen la relación entre una variable de respuesta y algunas covariables en los datos agrupados según uno o más factores.

  • Factor Analysis- El análisis factorial se utiliza para predecir una variable de respuesta categórica. Este método asume que las variables independientes siguen una distribución normal multivariante.

  • Time Series Analysis - A continuación se muestran los métodos para analizar datos de series de tiempo -

    • Métodos de autoregresión.

    • Modelado univariante ARIMA (media móvil integrada autorregresiva).

    • Modelado de series de tiempo de memoria larga.

Minería de datos visual

Visual Data Mining utiliza técnicas de visualización de datos y / o conocimientos para descubrir conocimientos implícitos de grandes conjuntos de datos. La minería de datos visual se puede ver como una integración de las siguientes disciplinas:

  • Visualización de datos

  • Procesamiento de datos

La minería de datos visual está estrechamente relacionada con lo siguiente:

  • Gráficos de computadora

  • Sistemas multimedia

  • La interacción persona-ordenador

  • Reconocimiento de patrones

  • Computación de alto rendimiento

Generalmente, la visualización de datos y la minería de datos se pueden integrar de las siguientes maneras:

  • Data Visualization - Los datos en una base de datos o un almacén de datos se pueden ver en varias formas visuales que se enumeran a continuación -

    • Boxplots

    • Cubos 3-D

    • Gráficos de distribución de datos

    • Curves

    • Surfaces

    • Vincular gráficos, etc.

  • Data Mining Result Visualization- La visualización de resultados de minería de datos es la presentación de los resultados de la minería de datos en formas visuales. Estas formas visuales pueden ser diagramas de dispersión, diagramas de caja, etc.

  • Data Mining Process Visualization- La visualización del proceso de minería de datos presenta los diversos procesos de minería de datos. Permite a los usuarios ver cómo se extraen los datos. También permite a los usuarios ver desde qué base de datos o almacén de datos se limpian, integran, preprocesan y extraen los datos.

Minería de datos de audio

La minería de datos de audio utiliza señales de audio para indicar los patrones de datos o las características de los resultados de la minería de datos. Al transformar patrones en sonido y meditación, podemos escuchar tonos y melodías, en lugar de mirar imágenes, para identificar algo interesante.

Minería de datos y filtrado colaborativo

Los consumidores de hoy encuentran una variedad de bienes y servicios mientras compran. Durante las transacciones de los clientes en vivo, un sistema de recomendación ayuda al consumidor al hacer recomendaciones de productos. El enfoque de filtrado colaborativo se utiliza generalmente para recomendar productos a los clientes. Estas recomendaciones se basan en las opiniones de otros clientes.