warehouse sirve similitudes science que para mineria entre diferencias diferencia datos data big analisis hadoop machine-learning bigdata data-mining data-science

hadoop - similitudes - que es big data y para que sirve



¿Cuál es la diferencia entre Big Data y Data Mining? (6)

Big Data es todo

Big data es un término de marketing , no un término técnico. Todo es big data en estos días. Mi memoria USB es ahora una "nube personal" y mi disco duro es un gran archivo. Seriamente. Este es un término totalmente inespecífico que se define en gran medida por lo que los departamentos de comercialización de varias compañías muy optimistas pueden vender, y los C * Os de las principales compañías compran, para hacer que la magia suceda.

La minería de datos es el viejo big data

En realidad, la minería de datos fue tan usada en exceso ... podría significar algo como

  • recolectando datos (piense en NSA)
  • almacenamiento de datos
  • machine learning / AI (que es anterior al término minería de datos)
  • minería de datos sin ML (como en "descubrimiento de conocimiento", donde se acuñó el término minería de datos, pero donde el foco está en el conocimiento nuevo, no en el aprendizaje del conocimiento existente)
  • reglas de negocio y análisis
  • visualización
  • cualquier cosa que involucre datos que quiera vender para camiones llenos de dinero

Es solo que el marketing necesitaba un nuevo término. "Inteligencia de negocios", "análisis de negocios", ... todavía siguen vendiendo lo mismo , ahora se renombra como "gran información" ahora.

La mayoría de la minería de datos "grande" no es grande

Como la mayoría de los métodos, al menos los que dan resultados interesantes, simplemente no se escalan, la mayoría de los datos "extraídos" no son realmente grandes. Es claramente mucho más grande que hace 10 años, pero no tan grande como en Exabytes. Una encuesta de KDnuggets tenía algo así como 1-10 GB siendo el "conjunto de datos más grande analizado" promedio. Eso no es un gran dato por ningún medio de gestión de datos; solo es grande según lo que se puede analizar utilizando métodos complejos . (No estoy hablando de algoritmos triviales como k-means).

La mayoría de los "grandes datos" no son minería de datos

Ahora, "Big data" es real. Google tiene Big data, y CERN también tiene big data. La mayoría de los otros probablemente no. Los datos comienzan a ser grandes, cuando necesitas 1000 computadoras solo para almacenarlos .

Las tecnologías de Big Data como Hadoop también son reales. No siempre se usan con sensatez (no se moleste en ejecutar clústeres de hadoop con menos de 100 nodos, ya que es probable que pueda obtener un rendimiento mucho mejor de máquinas no agrupadas bien elegidas), pero, por supuesto, las personas escriben dicho software.

Pero la mayoría de lo que se está haciendo no es extracción de datos. Es Extraer, Transformar, Cargar (ETL) , por lo que reemplaza el almacenamiento de datos. En lugar de utilizar una base de datos con estructura, índices y consultas aceleradas, los datos se vuelcan en hadoop, y cuando haya descubierto qué hacer, volverá a leer todos sus datos y extraerá la información que realmente necesita, la transformará y cárgalo en tu hoja de cálculo de Excel. Porque después de la selección, extracción y transformación, por lo general ya no es "grande".

La calidad de los datos sufre de tamaño

Muchas de las promesas de marketing de Big Data no se cumplirán. Twitter produce mucha menos información para la mayoría de las empresas de lo anunciado (a menos que seas una estrella de rock adolescente); y la base de usuarios de Twitter es muy parcial . La corrección de tal sesgo es difícil y necesita estadísticos con mucha experiencia.

El sesgo de los datos es un problema: si solo recopila datos aleatorios de Internet o de una aplicación, generalmente no será representativo; en particular, no de usuarios potenciales. En su lugar, estará sobreajustando a los usuarios pesados ​​existentes si no logra cancelar estos efectos.

El otro gran problema es solo ruido. Tienes bots de spam, pero también otras herramientas (piensa en Twitter como "temas de tendencia" que provocan el refuerzo de las "tendencias") que hacen que los datos sean mucho más ruidosos que otras fuentes. Limpiar esta información es difícil , y no una cuestión de tecnología sino de experiencia en el dominio de las estadísticas. Por ejemplo, Google Flu Trends fue repetidamente bastante inexacto. Funcionó en algunos de los años anteriores (¿quizás debido a la sobreajuste?) Pero ya no es de buena calidad.

Desafortunadamente, muchos usuarios de big data le prestan muy poca atención a esto; que es probablemente una de las muchas razones por las que la mayoría de los proyectos de Big Data parecen fallar (los otros son administración incompetente, expectativas infladas y poco realistas, y falta de cultura de la empresa y personas calificadas).

Hadoop! = Extracción de datos

Ahora para la segunda parte de tu pregunta. Hadoop no hace minería de datos. Hadoop administra el almacenamiento de datos (a través de HDFS, un tipo muy primitivo de base de datos distribuida) y programa las tareas de computación, lo que le permite ejecutar el cálculo en las mismas máquinas que almacenan los datos. No hace ningún análisis complejo.

Hay algunas herramientas que intentan llevar la extracción de datos a Hadoop. En particular, Apache Mahout se puede llamar el intento oficial de Apache de hacer minería de datos en Hadoop . Excepto que se trata principalmente de una herramienta de aprendizaje automático (machine learning! = Data mining; data mining a veces utiliza métodos de aprendizaje automático). Algunas partes de Mahout (como la agrupación) están lejos de ser avanzadas. El problema es que Hadoop es bueno para problemas lineales, pero la mayoría de la extracción de datos no es lineal . Y los algoritmos no lineales no solo se escalan a datos de gran tamaño; debe desarrollar cuidadosamente las aproximaciones de tiempo lineal y vivir con pérdidas de precisión, pérdidas que deben ser más pequeñas de lo que perdería simplemente trabajando en datos más pequeños.

Un buen ejemplo de este problema de compensación es k-means. K-means en realidad es un problema (mayormente) lineal; por lo que se puede ejecutar algo en Hadoop. Una única iteración es lineal, y si tuvieras una buena implementación, escalaría bien a big data. Sin embargo, el número de iteraciones hasta la convergencia también crece con el tamaño del conjunto de datos, y por lo tanto no es realmente lineal. Sin embargo, como este es un método estadístico para encontrar "medios", los resultados en realidad no mejoran mucho con el tamaño del conjunto de datos. Entonces, si bien puede ejecutar k-means en big data, no tiene mucho sentido; puede tomar una muestra de sus datos, ejecutar una versión de k-means de un solo nodo altamente eficiente, y los resultados serán ser tan bueno Debido a que los datos adicionales solo le dan algunos dígitos adicionales de precisión de un valor que no necesita ser tan preciso.

Dado que esto se aplica a un gran número de problemas, la extracción de datos reales en Hadoop no parece comenzar. Todos intentan hacerlo, y muchas compañías venden estas cosas. Pero en realidad no funciona mucho mejor que la versión no grande. Pero mientras los clientes quieran comprar esto, las compañías venderán esta funcionalidad. Y mientras obtenga una subvención, los investigadores escribirán documentos sobre esto. Si funciona o no. Así es la vida.

Hay algunos casos donde estas cosas funcionan. La búsqueda de Google es un ejemplo, y Cern. Pero también el reconocimiento de imágenes (pero no el uso de Hadoop, los clústeres de GPU parecen ser el camino a seguir) se ha beneficiado recientemente de un aumento en el tamaño de los datos. Pero en cualquiera de estos casos, tiene datos bastante limpios. Google lo indexa todo; Cern descarta cualquier dato no interesante, y solo analiza medidas interesantes - no hay spammers alimentando su correo no deseado en Cern ... y en el análisis de imágenes, entrenas en imágenes relevantes preseleccionadas, no en cámaras web o imágenes aleatorias de Internet (y si es así, los trata como imágenes aleatorias, no como datos representativos).

Como dice Wikpedia

El objetivo general del proceso de minería de datos es extraer información de un conjunto de datos y transformarla en una estructura comprensible para su posterior uso.

¿Cómo se relaciona esto con Big Data? ¿Es correcto si digo que Hadoop está haciendo minería de datos de forma paralela?


Big Data es el término que las personas usan para decir cómo el almacenamiento es barato y fácil en estos días y cómo los datos están disponibles para ser analizados.

Data Mining es el proceso de tratar de extraer información útil de los datos.

Usualmente, Data Mining está relacionado con Big Data por 2 razones

  1. cuando tienes muchos datos, los patrones no son tan evidentes, por lo que alguien no puede simplemente inspeccionar y decir "hah". Él / ella necesita herramientas para eso.
  2. muchas veces, muchos datos pueden mejorar la estadística significativa para su análisis porque su muestra es más grande.

¿Podemos decir que hadoop es la extracción de datos dois en paralelo? ¿Qué es hadoop? Su sitio dice

The Apache Hadoop software library is a framework that allows for the distributed processing of large data sets across clusters of computers using simple programming models

Entonces, la parte "paralela" de su declaración es verdadera. La parte de "minería de datos" no es necesariamente. Simplemente puede usar hadoop para resumir toneladas de datos y esto no es necesariamente extracción de datos, por ejemplo. Pero en la mayoría de los casos, puede apostar que las personas están tratando de extraer información útil de big data usando hadoop, por lo que este es un sí.


Big Data es un TERM que consiste en la recopilación de marcos y herramientas que podrían hacer milagros con los muy grandes conjuntos de datos, incluida la minería de datos.

Hadoop es un framework que dividirá los grandes conjuntos de datos en bloques (por defecto 64 mb) y luego lo almacenará en HDFS (Hadoop Distributed File System) y luego cuando su lógica de ejecución ( MapReduce ) llegue con cualquier bytecode para procesar los datos almacenado en HDFS . Tomará la división basada en el bloque (se pueden configurar divisiones) e impondrá la extracción y el cálculo a través del proceso de Mapper y Reducer. De esta forma puede hacer un proceso ETL, Minería de Datos, Computación de Datos, etc.,

Me gustaría concluir que Big Data es una terminología que podría jugar con conjuntos de datos muy grandes. Hadoop es un framework que puede hacer un procesamiento en paralelo muy bien con sus componentes y servicios. De esta forma, también puedes adquirir Data mining ...


Diría que BigData es un marco modernizado para abordar las nuevas necesidades empresariales. Como mucha gente sabe, BigData tiene más o menos el volumen, la variedad y la velocidad de 3 v. BigData es una necesidad de aprovechar una variedad de datos (estructurados y no estructurados) y utilizar la técnica de agrupación para abordar el problema del volumen y también obtener resultados en menos tiempo, es decir, la velocidad.

Donde Datamining está en el principio de ETL. Encontrar información útil de grandes conjuntos de datos usando técnicas de modelado. Hay muchas herramientas de BI disponibles en el mercado para lograr esto.


¿Cuál es la diferencia entre big data y Hadoop?

R: La diferencia entre big data y el programa de software de código abierto Hadoop es distinta y fundamental. El primero es un activo, a menudo complejo y ambiguo, mientras que el segundo es un programa que logra un conjunto de metas y objetivos para tratar con ese activo.

Los grandes datos son simplemente los grandes conjuntos de datos que las empresas y otras partes reúnen para cumplir objetivos y operaciones específicos. Big data puede incluir muchos tipos diferentes de datos en muchos tipos diferentes de formatos. Por ejemplo, las empresas pueden dedicar mucho trabajo a recopilar miles de datos en compras en formatos de moneda, en identificadores de clientes como nombre o número de Seguridad Social, o en información de productos en forma de números de modelo, números de ventas o números de inventario. Todo esto, o cualquier otra gran cantidad de información, se puede llamar big data. Como regla general, es crudo y sin clasificar hasta que se somete a varios tipos de herramientas y manipuladores.

Hadoop es una de las herramientas diseñadas para manejar big data. Hadoop y otros productos de software trabajan para interpretar o analizar los resultados de las búsquedas de big data a través de algoritmos y métodos patentados específicos. Hadoop es un programa de código abierto bajo la licencia de Apache que mantiene una comunidad global de usuarios. Incluye varios componentes principales, incluido un conjunto de funciones MapReduce y un sistema de archivos distribuido Hadoop (HDFS).

La idea detrás de MapReduce es que Hadoop puede primero asignar un gran conjunto de datos y luego realizar una reducción en ese contenido para obtener resultados específicos. Una función de reducción se puede considerar como un tipo de filtro para datos sin formato. El sistema HDFS actúa para distribuir datos a través de una red o migrarlos según sea necesario.

Los administradores de bases de datos, los desarrolladores y otros pueden usar las diversas funciones de Hadoop para manejar grandes cantidades de datos de muchas maneras. Por ejemplo, Hadoop puede utilizarse para buscar estrategias de datos como la agrupación y la segmentación con datos no uniformes o datos que no se ajustan perfectamente a una tabla tradicional o responden bien a consultas simples.

Vea el artículo publicado en http://www.shareideaonline.com/cs/what-is-the-difference-between-big-data-and-hadoop/

Gracias Ankush


Esta respuesta realmente pretende agregar algo de especificidad a la excelente respuesta de Anony-Mousse.

Existe un gran debate sobre exactamente qué es Big Data. Anony-Mousse mencionó muchos de los problemas aquí relacionados con el uso excesivo de términos como análisis, big data y minería de datos, pero hay algunas cosas sobre las que quiero proporcionar más detalles.

Big Data

A efectos prácticos, la mejor definición que he escuchado sobre big data es que es incómoda o no funciona en una base de datos relacional tradicional. Esto podría ser datos de 1PB con los que no se puede trabajar, o incluso solo datos de 1GB pero que tienen 5,000 columnas.

Esta es una definición flexible y flexible. Siempre habrá configuraciones o herramientas de administración de datos que pueden evitarlo, pero aquí es donde herramientas como Hadoop, MongoDB y otras pueden usarse de manera más eficiente que la tecnología anterior.

¿Qué podemos hacer con los datos con los que esto es inconveniente / grande / difícil de trabajar? Es difícil simplemente mirar una hoja de cálculo y encontrar significado aquí, por lo que a menudo usamos minería de datos y aprendizaje automático.

Minería de datos

Esto se mencionó ligeramente a la ligera, mi objetivo aquí es ser más específico y, con suerte, proporcionar más contexto. La minería de datos generalmente se aplica a métodos analíticos o estadísticos algo supervisados ​​para el análisis de datos. Estos pueden encajar en la regresión, clasificación, clustering o filtrado colaborativo. Existe una gran cantidad de superposición con el aprendizaje automático, sin embargo, esto generalmente sigue siendo impulsado por un usuario en lugar de la ejecución no supervisada o automatizada, que define el aprendizaje automático bastante bien.

Aprendizaje automático

A menudo, el aprendizaje automático y la minería de datos se usan indistintamente. El aprendizaje automático abarca muchas de las mismas áreas que la minería de datos, pero también incluye inteligencia artificial, visión artificial y otras tareas no supervisadas. La principal diferencia, y esto es definitivamente una simplificación, es que la entrada del usuario no solo es innecesaria, sino generalmente no deseada. El objetivo es que estos algoritmos o sistemas se optimicen a sí mismos y mejoren, en lugar de un ciclo iterativo de desarrollo.