texto sheets numeros letras ingles google especificos contar conjunto con celdas caracteres google-sheets count character bioinformatics

google-sheets - sheets - contar letras y numeros en excel



Contar las ocurrencias de caracteres dados por celda (3)

Pregunta

Por ejemplo, si quisiera contar el número de N s en una columna de cadenas, ¿cómo puedo hacer esto en las hojas de cálculo de Google por celda (es decir, una fórmula que apunta a una celda a la vez que puedo arrastrar hacia abajo)?

Fondo

Tengo que decidir un umbral -min-overlap <integer> para un programa llamado TOMTOM ** que compara la similitud entre PWMs *** de pequeños motivos de ADN ****, N es una expresión regular para cualquier combinación lineal de letras A, C, G y T. Sería bueno si pudiera hacerme una idea de la distribución de longitudes no-N de mis motivos de ADN para ayudarme a informarme de un -min-overlap <integer> apropiado para TOMTOM.

Y aquí hay algunos ejemplos reales:

** TOMTOM es una herramienta para comparar un motivo de ADN con una base de datos de motivos conocidos. Vea here para más información.

*** PWM significa Matriz de peso de posición:

  • Según Wiki : Una matriz de peso de posición (PWM), también conocida como matriz de peso de posición específica (PSWM) o matriz de puntuación de posición específica (PSSM), es una representación comúnmente utilizada de motivos (patrones) en secuencias biológicas.
  • Según este artículo , podría definirse como:

Los modelos de matriz de peso de posición (PWM) o de tipo PWM se usan ampliamente para representar las preferencias de unión de ADN de las proteínas (Stormo, 2000). En estos modelos, se utiliza una matriz para representar el sitio de unión a TF (TFBS), donde cada elemento representa la contribución a la afinidad de unión global de un nucleótido en la posición correspondiente. Un supuesto inherente de los modelos PWM tradicionales es la independencia de posición; es decir, se supone que la contribución de diferentes posiciones de nucleótidos dentro de un TFBS a la afinidad de unión global es aditiva. Aunque esta aproximación es ampliamente válida, no obstante, no es válida para varias proteínas (Man & Stormo, 2001; Bulyk et al, 2002). Para mejorar el modelado cuantitativo, los modelos de PWM se han ampliado para incluir parámetros adicionales, como las características de k-mer, para tener en cuenta las dependencias de posición dentro de los TFBS (Zhao et al, 2012; Mathelier & Wasserman, 2013; Mordelet et al, 2013; Weirauch et al, 2013; Riley et al, 2015). Las interdependencias entre las posiciones de los nucleótidos tienen un origen estructural. Por ejemplo, las interacciones de apilamiento entre pares de bases adyacentes forman la estructura de ADN tridimensional local. Los TF tienen preferencias por la conformación del ADN dependiente de la secuencia, lo que llamamos lectura de la forma del ADN (Rohs et al, 2009, 2010).

O, más contemporáneamente:

Basado en este razonamiento, un enfoque alternativo para aumentar los modelos tradicionales de PWM es la inclusión de características estructurales del ADN. Los modelos de especificidad de unión de TF-ADN que incorporan estas características de forma de ADN alcanzaron niveles de rendimiento comparables a los modelos que incorporan características k-mer de orden superior, mientras que requieren un número mucho más pequeño de parámetros (Zhou et al, 2015). Anteriormente, revelamos la importancia de la lectura de la forma del ADN para los miembros de las familias básicas helix-loop-hélice (bHLH) y homeodominio TF (Dror et al, 2014; Yang et al, 2014; Zhou et al, 2015). También pudimos, para los Hox TF, identificar qué regiones de los TFBS utilizaban la lectura de la forma del ADN, lo que demuestra el poder del enfoque para revelar información mecanicista sobre el reconocimiento del TF-ADN (Abe et al, 2015). Esta capacidad se mostró ampliamente para solo dos familias de proteínas, debido a la falta de datos de unión de TF-ADN de alta calidad a gran escala. Con la reciente abundancia de mediciones de alto rendimiento de la unión proteína-ADN, ahora es posible analizar el papel de la lectura de la forma del ADN para muchas familias de TF.

**** Motivo de ADN: wiki : en genética, un motivo de secuencia es un patrón de secuencia de nucleótidos o aminoácidos que está muy extendido y tiene, o se supone que tiene, un significado biológico. Para las proteínas, un motivo de secuencia se distingue de un motivo estructural, un motivo formado por la disposición tridimensional de aminoácidos, que puede no ser adyacente.


No sé si esto va a ayudar, pero digamos que tienes esas cadenas en el rango A2: A6 y entras

=ArrayFormula(LEN(REGEXREPLACE(A2:A6, "[^N]", "")))

en B2, eso debería generar el recuento de N para todo el rango.


Una alternativa para una celda a la vez (fórmula para copiar):

=len(A2)-len(SUBSTITUTE(A2,"N",""))


=len(A2)-len(SUBSTITUTE(A2,"N",""))

esto funciona, pero si desea encontrar todos los números que coincidan con un patrón específico, diga 3. Luego:

=ArrayFormula(LEN(REGEXREPLACE(A2:A6, "[^N]", "")))

Es lo que necesitas.