tablas recomendaciones porque para optimización lenta las grandes dañan datos cuello consultas cantidades botella bases database

database - recomendaciones - porque se dañan las tablas en mysql



Base de datos para cantidades ENORMES de datos? (14)

Algunas de las bases de datos más grandes del mundo se ejecutan en el servidor SQL de Microsoft: http://www.microsoft.com/sql/prodinfo/compare/wintercorp.mspx

Y aquí hay una lista de las 10 bases de datos más grandes del mundo (aunque no tengo idea de qué tan precisa es):

http://www.scribd.com/doc/83088207/The-Top-Ten-Largest-Databases-in-the-World

La parte superior es el World Data Center para el clima con 220 terabytes de datos web y 6 petabytes de datos adicionales

¿Qué base de datos debería usar si necesito almacenar una gran cantidad de datos?


Como DBA, esta es la verdadera respuesta.

La mejor plataforma de base de datos del mundo puede ser incapaz de manejar las cargas más pequeñas si no cuenta con personal que sepa cómo usarla.

Una plataforma de base de datos bastante baja puede escalar a grandes cargas si tiene personal que la conoce por dentro y por fuera, y soluciona sus debilidades.

Es por eso que algunas personas dicen que Oracle no puede escalar, y por qué otras personas dicen que MySQL puede gobernar el mundo. Un buen músico todavía puede hacer algunos sonidos hermosos con un instrumento horrible, y los músicos malvados no pueden hacer que los mejores instrumentos suenen bien.

Cuando esté decidiendo qué plataforma usar para su próximo proyecto, no arroje dados y use una solución con la que no tenga experiencia. Si realmente necesita ampliar, use la solución que conoce por dentro y por fuera, o contrate a alguien que conozca la nueva solución por dentro y por fuera.



Depende de lo que quieres decir con enorme. Los índices estarán en orden y las consultas realizadas deberán optimizarse de la mejor manera posible . He trabajado con lo que considero grandes bases de datos en Microsoft SQL Server (11 millones de registros diarios de eventos en una gran empresa automotriz mundial) y en PostGRES (varios millones de registros también para datos GIS).



Para la base de datos NoSQL puede considerar MongoDB o HBase . Pero realmente depende de la cantidad de datos que tenga y cómo se usarán.


Para obtener una respuesta significativa, puede ser útil saber qué considera una cantidad muy grande de datos. También ayudaría saber para qué se usaría y cómo se organizaría.

Si se trata de gigabytes de datos, la mayoría de las bases de datos estarían bien.

Si se trata de terabytes de datos, estoy bastante seguro de que Oracle o SQL Server no tendrán problemas. Si están configurados y diseñados correctamente.

Si es más grande ... algo así como bigtable.


Probablemente más importante que saber qué tan grande es lo grande es saber qué quieres hacer con la base de datos. Si se trata de un OLTP, entonces estarás bien con cualquiera de los jugadores principales como se contestó anteriormente, pero si se trata de una herramienta de informes, es posible que quieras investigar Alterian y Sybase IQ en su lugar.


Realmente depende de cuál es tu idea de enorme y qué quieres hacer con ella. Para acceso de tipo SQL:

  • Gigabytes de datos pueden ser manejados fácilmente por cualquier producto comercial o FOSS.
  • Cientos de gigabytes + generalmente significan algo como Teradata

Para un procesamiento más especializado, Hadoop y HBase son apropiados. (Existen varios productos similares, incluidos Sector / Sphere y GridGain, por nombrar algunos.) Hadoop es una arquitectura de computación en la nube basada en el sistema de archivos de Google, y puede albergar cientos de petabytes. HBase es una "base de datos" que se ejecuta en Hadoop, con capacidades similares. Digo "base de datos" porque está orientado a columnas, un modelo muy diferente de las bases de datos orientadas a filas como MySQL, PostreSQL, Oracle, etc.

Hadoop / HBase son más adecuados para el almacenamiento de datos, o situaciones en las que puede precomputar las consultas que necesitará ejecutar y ejecutarlas fuera de banda a través de MapReduce .


Recuerde que una base de datos grande es mucho más difícil que simplemente elegir la base de datos. Todas las consultas deberán optimizarse, la indexación es crítica y usted debe tener el hardware capaz de entregar los datos. Es posible que deba diseñar un esquema de partición para separar los datos de manera adecuada para garantizar un mejor acceso. Las técnicas y los diseños deficientes que puede utilizar en bases de datos más pequeñas causan problemas enormes en bases de datos grandes. ¡No hagas esto sin invertir en un buen libro de ajuste de rendimiento! Comprenda la optimización del rendimiento antes de diseñar la base de datos.

Independientemente de la base de datos que elijas, asegúrate de obtener la versión completa de Enterprise. Probablemente necesites características que tienen estas versiones que las versiones menos destacadas y más baratas no tienen.

Oracle, SQL Server, db2, etc. manejarán grandes bases de datos de enterpise. Si los maneja bien dependerá de su hardware, su diseño y sus consultas. Esta no es una tarea de diseño para los inexpertos.



Sybase IQ es una excelente opción siempre que esté leyendo más que escribiendo. IQ no es particularmente rápido para escribir, pero es increíblemente rápido para leer. IQ alberga el almacén de datos más grande del mundo (1 petabyte)

En comparación con Oracle, DB2 y SQL Server, las tarifas de licencia también son bastante bajas y los requisitos de hardware también son más bajos. La desventaja es que el soporte, la documentación y las herramientas son un poco delgados (como lo son los desarrolladores de IQ con experiencia y los DBA)


Esta publicación que publiqué hace unas semanas discute los méritos relativos de Oracle y SQL Server para aplicaciones VLDB con una transición a sistemas de nada compartido (de los cuales el ejemplo más conocido es Teradata ) que le dan el mejor grado de escalabilidad al no tener I central / O cuello de botella.

Podría ser un buen comienzo.