porque informacion como almacena almacen adn bioinformatics

bioinformatics - informacion - ¿Cuánta memoria se necesitaría para almacenar el ADN humano?



como se almacena el adn (10)

Básicamente, cada par de bases toma 2 bits (puede usar 00, 01, 10, 11 para T, G, C y A). Dado que hay alrededor de 2.9 mil millones de pares de bases en el genoma humano, (2 * 2.9 mil millones) bits ~ = 691 megabytes.

No soy un experto, sin embargo, la página del http://en.wikipedia.org/wiki/Human_genome#Information_content en Wikipedia dice lo siguiente:

Raw MB:

  • Hombre (XY): 770MB
  • Mujer (XX): 756MB

No estoy seguro de dónde proviene su variación, pero estoy seguro de que puedes averiguarlo.

Estoy buscando la cantidad de memoria en bytes (MB, GB, TB, lo que sea) requerida para almacenar un solo ADN humano. Leí algunos artículos en Wikipedia sobre el ADN, los cromosomas, los pares de bases, los genes y tengo algunas conjeturas, pero antes de revelar algo me gustaría ver cómo otros abordan este tema.

La pregunta alternativa sería cuántos átomos hay en el ADN humano, pero eso no sería tema para este sitio.

Entiendo que esto será una aproximación, así que estoy buscando un valor mínimo que pueda almacenar el ADN de cualquier humano.


El genoma humano contiene 2.9 mil millones de pares de bases. Entonces, si representara cada par de bases como un byte, se necesitarían 2.9 billones de bytes o 2.9 GB. Probablemente podría encontrar una forma más creativa de almacenar pares de bases, ya que cada par de bases solo requiere 2 bits. Por lo tanto, es probable que pueda almacenar 4 pares de bases por byte reduciendo el total de menos de un GB.


Hay 4 bases de nucleótidos que forman nuestro ADN, estas son A, C, G, T, por lo tanto, para cada base en el ADN ocupa 2 bits. Hay alrededor de 2.9 billones de bases, eso es alrededor de 700 megabytes. Lo extraño es que llenaría un cd de datos normal! ¿¡¿coincidencia?!?


La mayoría de las respuestas, excepto los usuarios slayton, rauchen y Paul Amstrong, están totalmente equivocadas si se trata de almacenamiento puro uno a uno sin técnicas de compresión.

El genoma humano con 3Gb de nucleótidos corresponde con 3Gb de bytes y no ~ 750MB. El genoma "hpaloid" construido según NCBI tiene actualmente un tamaño de 3436687kb o 3.436687 Gb. Comprueba here por ti mismo.

Haploide = copia única de un cromosoma. Diploide = dos versiones de haploid. Los seres humanos tienen 22 cromosomas únicos x 2 = 44. El cromosoma 23 masculino es X, Y y hace 46 en total. Las hembras del cromo 23. Es X, X y por lo tanto hace 46 en total.

Para los hombres, sería 23 + 1 cromosoma en el almacenamiento de datos en un disco duro y para las mujeres 23 cromosomas, explicando las pequeñas diferencias mencionadas de vez en cuando en las respuestas. El cromo x de los machos es igual a X chrom. de las hembras.

De este modo, la carga del genoma (23 + 1) en la memoria se realiza en partes a través de BLAST utilizando bases de datos construidas a partir de archivos fasta. Independientemente de las versiones comprimidas o no, los nucleótidos difícilmente se comprimen. En los primeros días, uno de los trucos utilizados fue reemplazar las repeticiones en tándem (GACGACGAC con codificación más corta, por ejemplo, "3GAC"; 9byte a 4byte). El motivo fue ahorrar espacio en el disco duro (área de los discos HDDD de 500bm-2GB con 7.200 rpm y conectores SCSI). Para la búsqueda de secuencias esto también se hizo con la consulta.

Si el almacenamiento de "nucleótido codificado" sería de 2 bits por letra, obtendría un byte:

A = 00
C = 01
G = 10
T = 11

Solo de esa manera usted se beneficiará completamente de las posiciones 1,2,3,4,5,6,7 y 8 para 1 byte de codificación. Por ejemplo, la combinación 00.01.10.11 correspondiente a "ACTG". Esto solo es responsable de la reducción 4 veces mayor en el tamaño del archivo, como vemos en otras respuestas. Por lo tanto, se reducirá el tamaño de 3.4Gb a 0.85917175 Gb ... ~ 860MB incluyendo un programa de conversión entonces requerido (23kb-4mb).

Pero ... en biología quieres poder leer algo, por lo que la compresión gzip es más que suficiente. Sin comprimir todavía puedes leerlo. Si se usó este relleno de bytes, se vuelve más difícil leer los datos. Es por eso que los archivos fasta son archivos de texto plano en realidad.


No almacena todo el ADN en una secuencia ... la mayoría del tiempo es almacenado por el cromosoma

Un cromosoma grande toma alrededor de 300 MB y uno pequeño alrededor de 50 MB.

Editar:

Creo que la primera razón por la que no se guarda en 2 bits por par de bases es porque causaría un obstáculo para trabajar con los datos. La mayoría de la gente no sabría cómo convertirlo. E incluso cuando se otorgara un programa de conversión, muchas personas en grandes empresas o institutos de investigación no tienen permiso para preguntar o no saben cómo instalar programas ...

El almacenamiento de 1GB no cuesta nada ... incluso la descarga de 3 GB toma solo 4 minutos con 100 MBit y la mayoría de las compañías tienen una conexión más rápida.

Otro punto es que los datos no son tan simples como siempre te dicen.

Por ejemplo, el método para secuenciar inventado por Craig_Venter fue un gran avance, pero también tiene sus sitios bajos. No se pueden separar las cadenas largas del mismo par de bases, por lo que no siempre está claro al 100% si hay 8 A o 9 A. Cosas que tenías que cuidar más tarde.

Otro ejemplo es la metilación del ADN . Dicha información no se puede almacenar en una representación de 2 bits.


Sí, la memoria RAM mínima necesaria para el ADN humano completo es de unos 770 MB. Sin embargo, la representación de 2 bits es in-práctica. Es difícil buscar o realizar algunos cálculos en él. Por lo tanto, algunos matemáticos diseñaron una forma más efectiva de almacenar esas secuencias de bases ... y las utilizan en algoritmos de búsqueda y comparación como, por ejemplo, GARLI (www.bio.utexas.edu/faculty/antisense/garli/garli.html). Esta aplicación se ejecuta en mi PC ahora mismo, así que puedo decirte ... que prácticamente tiene el ADN almacenado en aproximadamente: 1 563 MB .


Si confía en esas cosas, esto es lo que afirma Wikipedia (de http://en.wikipedia.org/wiki/Human_genome#Information_content ):

Los 2,9 mil millones de pares de bases del genoma humano haploide corresponden a un máximo de aproximadamente 725 megabytes de datos, ya que cada par de bases puede codificarse por 2 bits. Dado que los genomas individuales varían en menos de un 1% entre sí, pueden comprimirse sin pérdidas hasta aproximadamente 4 megabytes.


Solo hay 2 tipos de pares de bases, la citosina solo se puede unir a la guanina y la adenina solo se puede unir a la timina, por lo que cada par de bases se puede considerar como un solo bit. Esto significa que una cadena completa de ADN humano ~ 3 mil millones de "Bits" estaría alrededor de unos 350 megabytes.


Una base - T, C, A, G (en el sistema numérico de base 4: 0, 1, 2, 3) - se codifica como dos bits (no uno), por lo que un par de bases se codifica con cuatro bits .


simplemente lo hizo también la secuencia en bruto es ~ 700 MB. si se usa una secuencia de almacenamiento fija o un algoritmo de almacenamiento de secuencia fija, y el hecho de que los cambios son del 1%, se calculó en ~ 120 MB con un almacenamiento de perelromatismo de secuencia-conjunto-estado-conjunto. Eso es todo para el almacenamiento.