Big Data Analytics: ciclo de vida de los datos
Ciclo de vida de la minería de datos tradicional
Con el fin de proporcionar un marco para organizar el trabajo que necesita una organización y brindar información clara de Big Data, es útil pensar en él como un ciclo con diferentes etapas. De ninguna manera es lineal, lo que significa que todas las etapas están relacionadas entre sí. Este ciclo tiene similitudes superficiales con el ciclo de minería de datos más tradicional como se describe enCRISP methodology.
Metodología CRISP-DM
los CRISP-DM methodologyque son las siglas de Cross Industry Standard Process for Data Mining, es un ciclo que describe los enfoques comúnmente utilizados que los expertos en minería de datos utilizan para abordar problemas en la minería de datos de BI tradicional. Todavía se utiliza en equipos tradicionales de minería de datos de BI.
Eche un vistazo a la siguiente ilustración. Muestra las principales etapas del ciclo descritas por la metodología CRISP-DM y cómo están interrelacionadas.
CRISP-DM fue concebido en 1996 y al año siguiente se puso en marcha como un proyecto de la Unión Europea bajo la iniciativa de financiación ESPRIT. El proyecto fue dirigido por cinco empresas: SPSS, Teradata, Daimler AG, NCR Corporation y OHRA (una compañía de seguros). El proyecto finalmente se incorporó al SPSS. La metodología es extremadamente detallada orientada a cómo se debe especificar un proyecto de minería de datos.
Aprendamos ahora un poco más sobre cada una de las etapas involucradas en el ciclo de vida de CRISP-DM -
Business Understanding- Esta fase inicial se centra en comprender los objetivos y requisitos del proyecto desde una perspectiva empresarial y luego convertir este conocimiento en una definición de problema de minería de datos. Se diseña un plan preliminar para lograr los objetivos. Se puede utilizar un modelo de decisión, especialmente uno creado con el modelo de decisión y el estándar de notación.
Data Understanding - La fase de comprensión de datos comienza con una recopilación inicial de datos y continúa con actividades para familiarizarse con los datos, identificar problemas de calidad de los datos, descubrir los primeros conocimientos sobre los datos o detectar subconjuntos interesantes para formar hipótesis sobre información oculta.
Data Preparation- La fase de preparación de datos cubre todas las actividades para construir el conjunto de datos final (datos que se incorporarán a las herramientas de modelado) a partir de los datos en bruto iniciales. Es probable que las tareas de preparación de datos se realicen varias veces y no en ningún orden prescrito. Las tareas incluyen la selección de tablas, registros y atributos, así como la transformación y limpieza de datos para herramientas de modelado.
Modeling- En esta fase se seleccionan y aplican diversas técnicas de modelado y se calibran sus parámetros a valores óptimos. Normalmente, existen varias técnicas para el mismo tipo de problema de minería de datos. Algunas técnicas tienen requisitos específicos sobre la forma de los datos. Por lo tanto, a menudo es necesario volver a la fase de preparación de datos.
Evaluation- En esta etapa del proyecto, ha creado un modelo (o modelos) que parece tener alta calidad, desde la perspectiva del análisis de datos. Antes de proceder a la implementación final del modelo, es importante evaluarlo a fondo y revisar los pasos ejecutados para construir el modelo, para asegurarse de que logre adecuadamente los objetivos comerciales.
Un objetivo clave es determinar si hay algún problema comercial importante que no se haya considerado suficientemente. Al final de esta fase, se debe tomar una decisión sobre el uso de los resultados de la minería de datos.
Deployment- La creación del modelo generalmente no es el final del proyecto. Incluso si el propósito del modelo es aumentar el conocimiento de los datos, el conocimiento adquirido deberá organizarse y presentarse de una manera que sea útil para el cliente.
Dependiendo de los requisitos, la fase de implementación puede ser tan simple como generar un informe o tan compleja como implementar una puntuación de datos repetible (por ejemplo, asignación de segmentos) o un proceso de minería de datos.
En muchos casos, será el cliente, no el analista de datos, quien llevará a cabo los pasos de implementación. Incluso si el analista implementa el modelo, es importante que el cliente comprenda de antemano las acciones que deberán llevarse a cabo para poder hacer uso de los modelos creados.
Metodología SEMMA
SEMMA es otra metodología desarrollada por SAS para el modelado de minería de datos. Lo que representaSamplio, Explore, Modiar Model, y Asses. Aquí hay una breve descripción de sus etapas:
Sample- El proceso comienza con el muestreo de datos, por ejemplo, seleccionando el conjunto de datos para modelar. El conjunto de datos debe ser lo suficientemente grande como para contener suficiente información para recuperar, pero lo suficientemente pequeño para ser utilizado de manera eficiente. Esta fase también se ocupa de la partición de datos.
Explore - Esta fase cubre la comprensión de los datos mediante el descubrimiento de relaciones anticipadas y no anticipadas entre las variables, y también anomalías, con la ayuda de la visualización de datos.
Modify - La fase Modificar contiene métodos para seleccionar, crear y transformar variables en preparación para el modelado de datos.
Model - En la fase de Modelo, el foco está en aplicar varias técnicas de modelado (minería de datos) en las variables preparadas para crear modelos que posiblemente proporcionen el resultado deseado.
Assess - La evaluación de los resultados del modelado muestra la confiabilidad y utilidad de los modelos creados.
La principal diferencia entre CRISM-DM y SEMMA es que SEMMA se centra en el aspecto de modelado, mientras que CRISP-DM da más importancia a las etapas del ciclo antes del modelado, como comprender el problema empresarial que se va a resolver, comprender y preprocesar los datos que se van a resolver. utilizado como entrada, por ejemplo, algoritmos de aprendizaje automático.
Ciclo de vida de Big Data
En el contexto actual de big data, los enfoques anteriores son incompletos o subóptimos. Por ejemplo, la metodología SEMMA ignora por completo la recopilación de datos y el preprocesamiento de diferentes fuentes de datos. Estas etapas normalmente constituyen la mayor parte del trabajo en un proyecto de big data exitoso.
Un ciclo de análisis de big data se puede describir en la siguiente etapa:
- Definición de problema empresarial
- Research
- Evaluación de recursos humanos
- Adquisición de datos
- Munging de datos
- Almacenamiento de datos
- Análisis exploratorio de datos
- Preparación de datos para modelado y evaluación
- Modeling
- Implementation
En esta sección, arrojaremos algo de luz sobre cada una de estas etapas del ciclo de vida de Big Data.
Definición de problema empresarial
Este es un punto común en el ciclo de vida tradicional de BI y análisis de big data. Normalmente, es una etapa no trivial de un proyecto de big data definir el problema y evaluar correctamente cuánta ganancia potencial puede tener para una organización. Parece obvio mencionar esto, pero hay que evaluar cuáles son las ganancias y los costos esperados del proyecto.
Investigación
Analiza lo que han hecho otras empresas en la misma situación. Se trata de buscar soluciones que sean razonables para su empresa, aunque suponga adecuar otras soluciones a los recursos y requerimientos que tiene su empresa. En esta etapa se debe definir una metodología para las etapas futuras.
Evaluación de recursos humanos
Una vez definido el problema, es razonable seguir analizando si el personal actual es capaz de completar el proyecto con éxito. Es posible que los equipos de BI tradicionales no sean capaces de ofrecer una solución óptima para todas las etapas, por lo que se debe considerar antes de comenzar el proyecto si es necesario subcontratar una parte del proyecto o contratar a más personas.
Adquisición de datos
Esta sección es clave en un ciclo de vida de big data; define qué tipo de perfiles serían necesarios para entregar el producto de datos resultante. La recopilación de datos no es un paso trivial del proceso; normalmente implica la recopilación de datos no estructurados de diferentes fuentes. Para dar un ejemplo, podría implicar escribir un rastreador para recuperar opiniones de un sitio web. Esto implica tratar con texto, quizás en diferentes idiomas que normalmente requieren una cantidad significativa de tiempo para completarse.
Munging de datos
Una vez que se recuperan los datos, por ejemplo, de la web, es necesario almacenarlos en un formato fácil de usar. Para continuar con los ejemplos de revisiones, supongamos que los datos se recuperan de diferentes sitios donde cada uno tiene una visualización diferente de los datos.
Suponga que una fuente de datos brinda reseñas en términos de calificación en estrellas, por lo tanto, es posible leer esto como un mapeo para la variable de respuesta y ∈ {1, 2, 3, 4, 5}. Otra fuente de datos proporciona reseñas utilizando un sistema de dos flechas, una para votación positiva y otra para votación negativa. Esto implicaría una variable de respuesta de la formay ∈ {positive, negative}.
Para combinar ambas fuentes de datos, se debe tomar una decisión para que estas dos representaciones de respuesta sean equivalentes. Esto puede implicar convertir la representación de respuesta de la primera fuente de datos a la segunda forma, considerando una estrella como negativa y cinco estrellas como positiva. Este proceso a menudo requiere una gran asignación de tiempo para entregarse con buena calidad.
Almacenamiento de datos
Una vez que se procesan los datos, a veces es necesario almacenarlos en una base de datos. Las tecnologías de big data ofrecen muchas alternativas en este punto. La alternativa más común es utilizar el sistema de archivos Hadoop para el almacenamiento que proporciona a los usuarios una versión limitada de SQL, conocida como lenguaje de consulta HIVE. Esto permite que la mayoría de las tareas de análisis se realicen de manera similar a como se haría en los almacenes de datos de BI tradicionales, desde la perspectiva del usuario. Otras opciones de almacenamiento a considerar son MongoDB, Redis y SPARK.
Esta etapa del ciclo está relacionada con el conocimiento de los recursos humanos en términos de sus habilidades para implementar diferentes arquitecturas. Las versiones modificadas de los almacenes de datos tradicionales todavía se utilizan en aplicaciones a gran escala. Por ejemplo, teradata e IBM ofrecen bases de datos SQL que pueden manejar terabytes de datos; Las soluciones de código abierto como postgreSQL y MySQL todavía se utilizan para aplicaciones a gran escala.
Aunque existen diferencias en cómo funcionan los diferentes almacenamientos en segundo plano, desde el lado del cliente, la mayoría de las soluciones proporcionan una API SQL. Por lo tanto, tener una buena comprensión de SQL sigue siendo una habilidad clave para el análisis de big data.
Esta etapa a priori parece ser el tema más importante, en la práctica esto no es cierto. Ni siquiera es una etapa imprescindible. Es posible implementar una solución de big data que estaría trabajando con datos en tiempo real, por lo que en este caso, solo necesitamos recopilar datos para desarrollar el modelo y luego implementarlo en tiempo real. Por lo tanto, no sería necesario almacenar formalmente los datos.
Análisis exploratorio de datos
Una vez que los datos se han limpiado y almacenado de manera que se pueda recuperar información de ellos, la fase de exploración de datos es obligatoria. El objetivo de esta etapa es comprender los datos, esto normalmente se hace con técnicas estadísticas y también graficando los datos. Esta es una buena etapa para evaluar si la definición del problema tiene sentido o es factible.
Preparación de datos para modelado y evaluación
Esta etapa implica remodelar los datos limpiados recuperados previamente y utilizar el preprocesamiento estadístico para la imputación de valores perdidos, detección de valores atípicos, normalización, extracción de características y selección de características.
Modelado
La etapa anterior debería haber producido varios conjuntos de datos para entrenamiento y prueba, por ejemplo, un modelo predictivo. Esta etapa implica probar diferentes modelos y esperar resolver el problema empresarial en cuestión. En la práctica, normalmente se desea que el modelo proporcione información sobre el negocio. Finalmente, se selecciona el mejor modelo o combinación de modelos evaluando su desempeño en un conjunto de datos excluido.
Implementación
En esta etapa, el producto de datos desarrollado se implementa en el flujo de datos de la empresa. Esto implica configurar un esquema de validación mientras el producto de datos está funcionando, para rastrear su desempeño. Por ejemplo, en el caso de implementar un modelo predictivo, esta etapa implicaría aplicar el modelo a nuevos datos y una vez que la respuesta esté disponible, evaluar el modelo.