database - recomendaciones - porque se dañan las tablas en mysql
Base de datos para cantidades ENORMES de datos? (14)
Algunas de las bases de datos más grandes del mundo se ejecutan en el servidor SQL de Microsoft: http://www.microsoft.com/sql/prodinfo/compare/wintercorp.mspx
Y aquí hay una lista de las 10 bases de datos más grandes del mundo (aunque no tengo idea de qué tan precisa es):
http://www.scribd.com/doc/83088207/The-Top-Ten-Largest-Databases-in-the-World
La parte superior es el World Data Center para el clima con 220 terabytes de datos web y 6 petabytes de datos adicionales
¿Qué base de datos debería usar si necesito almacenar una gran cantidad de datos?
Como DBA, esta es la verdadera respuesta.
La mejor plataforma de base de datos del mundo puede ser incapaz de manejar las cargas más pequeñas si no cuenta con personal que sepa cómo usarla.
Una plataforma de base de datos bastante baja puede escalar a grandes cargas si tiene personal que la conoce por dentro y por fuera, y soluciona sus debilidades.
Es por eso que algunas personas dicen que Oracle no puede escalar, y por qué otras personas dicen que MySQL puede gobernar el mundo. Un buen músico todavía puede hacer algunos sonidos hermosos con un instrumento horrible, y los músicos malvados no pueden hacer que los mejores instrumentos suenen bien.
Cuando esté decidiendo qué plataforma usar para su próximo proyecto, no arroje dados y use una solución con la que no tenga experiencia. Si realmente necesita ampliar, use la solución que conoce por dentro y por fuera, o contrate a alguien que conozca la nueva solución por dentro y por fuera.
Consulte también qué db debería seleccionar si el rendimiento de Postgres es bajo
Yahoo usa PostgeSQL - http://postgresqldbnews.blogspot.com/2008/05/world-largest-database-runs-on-postgres.html
Google usa MySQL - http://www.mysql.com/customers/customer.php?id=75
He visto bases de datos de Oracle en los cientos de conciertos a rango de terabyte
Del mismo modo con DB2
Personalmente, no he visto nada en SQL Server en el rango de terabytes, pero es muy posible que sea capaz de hacerlo
Depende de lo que quieres decir con enorme. Los índices estarán en orden y las consultas realizadas deberán optimizarse de la mejor manera posible . He trabajado con lo que considero grandes bases de datos en Microsoft SQL Server (11 millones de registros diarios de eventos en una gran empresa automotriz mundial) y en PostGRES (varios millones de registros también para datos GIS).
El servidor SQL correctamente configurado o el servidor SQL de Microsoft debería ser capaz de manejar cualquier cosa que le arroje.
Para obtener una respuesta significativa, puede ser útil saber qué considera una cantidad muy grande de datos. También ayudaría saber para qué se usaría y cómo se organizaría.
Si se trata de gigabytes de datos, la mayoría de las bases de datos estarían bien.
Si se trata de terabytes de datos, estoy bastante seguro de que Oracle o SQL Server no tendrán problemas. Si están configurados y diseñados correctamente.
Si es más grande ... algo así como bigtable.
Probablemente más importante que saber qué tan grande es lo grande es saber qué quieres hacer con la base de datos. Si se trata de un OLTP, entonces estarás bien con cualquiera de los jugadores principales como se contestó anteriormente, pero si se trata de una herramienta de informes, es posible que quieras investigar Alterian y Sybase IQ en su lugar.
Realmente depende de cuál es tu idea de enorme y qué quieres hacer con ella. Para acceso de tipo SQL:
- Gigabytes de datos pueden ser manejados fácilmente por cualquier producto comercial o FOSS.
- Cientos de gigabytes + generalmente significan algo como Teradata
Para un procesamiento más especializado, Hadoop y HBase son apropiados. (Existen varios productos similares, incluidos Sector / Sphere y GridGain, por nombrar algunos.) Hadoop es una arquitectura de computación en la nube basada en el sistema de archivos de Google, y puede albergar cientos de petabytes. HBase es una "base de datos" que se ejecuta en Hadoop, con capacidades similares. Digo "base de datos" porque está orientado a columnas, un modelo muy diferente de las bases de datos orientadas a filas como MySQL, PostreSQL, Oracle, etc.
Hadoop / HBase son más adecuados para el almacenamiento de datos, o situaciones en las que puede precomputar las consultas que necesitará ejecutar y ejecutarlas fuera de banda a través de MapReduce .
Recuerde que una base de datos grande es mucho más difícil que simplemente elegir la base de datos. Todas las consultas deberán optimizarse, la indexación es crítica y usted debe tener el hardware capaz de entregar los datos. Es posible que deba diseñar un esquema de partición para separar los datos de manera adecuada para garantizar un mejor acceso. Las técnicas y los diseños deficientes que puede utilizar en bases de datos más pequeñas causan problemas enormes en bases de datos grandes. ¡No hagas esto sin invertir en un buen libro de ajuste de rendimiento! Comprenda la optimización del rendimiento antes de diseñar la base de datos.
Independientemente de la base de datos que elijas, asegúrate de obtener la versión completa de Enterprise. Probablemente necesites características que tienen estas versiones que las versiones menos destacadas y más baratas no tienen.
Oracle, SQL Server, db2, etc. manejarán grandes bases de datos de enterpise. Si los maneja bien dependerá de su hardware, su diseño y sus consultas. Esta no es una tarea de diseño para los inexpertos.
Revisamos Sybase IQ ( http://en.wikipedia.org/wiki/Sybase_IQ ), pero decidimos que nuestro almacén de datos no es lo suficientemente grande como para garantizarlo.
Sybase IQ es una excelente opción siempre que esté leyendo más que escribiendo. IQ no es particularmente rápido para escribir, pero es increíblemente rápido para leer. IQ alberga el almacén de datos más grande del mundo (1 petabyte)
En comparación con Oracle, DB2 y SQL Server, las tarifas de licencia también son bastante bajas y los requisitos de hardware también son más bajos. La desventaja es que el soporte, la documentación y las herramientas son un poco delgados (como lo son los desarrolladores de IQ con experiencia y los DBA)
Esta publicación que publiqué hace unas semanas discute los méritos relativos de Oracle y SQL Server para aplicaciones VLDB con una transición a sistemas de nada compartido (de los cuales el ejemplo más conocido es Teradata ) que le dan el mejor grado de escalabilidad al no tener I central / O cuello de botella.
Podría ser un buen comienzo.