una soporta segundo por para optimizar lentas grandes enmascaramiento ejemplo datos data cuantas consultas consulta como cantidades agilizar sql test-data sample-data

sql - soporta - Base de datos de muestra para el ejercicio



optimizar consultas lentas mysql (7)

¿Por qué no descargar la Wikipedia en inglés? Hay archivos comprimidos de SQL de varios tamaños, y sin duda debe ser lo suficientemente grande para usted

Los artículos principales son XML, por lo que insertarlos en el archivo db es un problema un poco mayor, pero es posible que haya otros archivos que le convengan. Por ejemplo, el archivo SQL de enlaces entre páginas está comprimido en 2.3GB. Eche un vistazo a https://en.wikipedia.org/wiki/Wikipedia:Database_download para obtener más información.

Oskar

Me gustaría jugar con una base de datos más grande para poner a prueba mis conocimientos sobre SQL.

¿Hay un enorme .sql por ahí que pueda usar para jugar con consultas SQL?


¿Quieres enorme?

Aquí hay una tabla pequeña: create table foo (id int not null clave primaria auto_increment, crap char (2000));

insertar en foo (mierda) valores ('''');

- cada vez que ejecutas la siguiente línea, el número de filas en foo se duplica. insertar en foo (mierda) seleccionar * de foo;

ejecutarlo veinte veces más, tiene más de un millón de filas para jugar.

Sí, si está buscando la apariencia de las relaciones para navegar, esta no es la respuesta. Pero si por grande quiere probar el rendimiento y su capacidad para optimizar , esto lo hará. Hice exactamente esto (y luego lo actualicé con valores aleatorios) para probar una posible respuesta que tenía para otra pregunta. (Y no lo respondí, porque no pude obtener un mejor rendimiento que el que tenía ese asker).

Si hubiera pedido "complejo", habría recibido una respuesta diferente. Para mí, "enorme" implica "muchas filas".

Porque no necesitas mucho para jugar con tablas y relaciones. Considere una tabla, por sí misma, sin columnas con nulos. ¿Cuántos tipos diferentes de filas puede haber? Solo uno, ya que todas las columnas deben tener algún valor, ya que ninguna puede ser nula.

Cada columna que admite nulos puede multiplicar por dos el número de diferentes tipos de filas posibles: una fila donde esa columna es nula, una fila donde no es nula.

Ahora considera la tabla, no de forma aislada. Considere una tabla que es una tabla secundaria: para cada hijo que tiene un FK para el padre, eso es un uno a uno, puede haber 0, 1 o muchos hijos. Así que multiplicamos por tres el conteo que obtuvimos en el paso anterior (no hay filas para cero, una para exactamente una, dos filas para muchas). Para cualquier abuelo al que el padre sea muchos, otros tres.

Para las relaciones de muchos a muchos, no podemos tener ninguna relación, uno-a-uno, uno-a-muchos, muchos-a-uno o muchos-a-muchos. Entonces, para cada uno de muchos a muchos que podemos alcanzar en un gráfico de la tabla, multiplicamos las filas por nueve, o como dos uno por manys. Si el muchos-a-muchos también tiene datos, multiplicamos por el número de nulabilidad.

Las tablas que no podemos ver en nuestro gráfico, aquellas para las que no tenemos FK directo o indirecto, no multiplican las filas en nuestra tabla.

Al multiplicar recursivamente cada una de las tablas a las que podemos llegar, podemos calcular el número de filas necesarias para proporcionar una de cada "clase", y no necesitamos más que esas para probar todas las relaciones posibles en nuestro esquema. Y no estamos cerca de lo enorme.




Esto es lo que estoy usando para aprender sql: employees-db

Esta es una base de datos de muestra con un conjunto de pruebas integrado, que se usa para probar sus aplicaciones y servidores de bases de datos.

Edición de terceros

Según launchpad.net, la base de datos se ha movido a github .

La base de datos contiene aproximadamente 300,000 registros de empleados con 2,8 millones de entradas de salario. La exportación de datos es de 167 MB, que no es enorme, pero lo suficientemente pesada como para que no sea trivial para las pruebas.

Los datos se generaron y, como tal, hay inconsistencias y problemas sutiles. En lugar de eliminarlos, decidimos dejar el contenido intacto y usar estos problemas como ejercicios de limpieza de datos.



Si desea una gran base de datos con datos reales, puede inscribirse en el concurso del Premio Netflix y obtener acceso a sus datos, que son bastante grandes (algunas gigas de entradas).

Edición de terceros

La URL anterior no contiene el conjunto de datos anylonger (octubre de 2016). La página de wikipedia sobre el Premio Netflix informa que se resolvió un juicio por cuestiones de privacidad.