suena parlantes parlante mercadolibre izquierdo homepod apple iphone android audio audio-recording pcm

iphone - parlantes - Valores de amplitud de audio PCM?



parlante homepod (5)

Estoy comenzando con la grabación de audio usando mi teléfono inteligente Android.

Grabé con éxito las grabaciones de voz en un archivo PCM. Cuando analizo los datos e imprimo los valores firmados de 16 bits, puedo crear un gráfico como el siguiente. Sin embargo, no entiendo los valores de amplitud a lo largo del eje y.

  1. ¿Cuáles son exactamente las unidades para los valores de amplitud? Los valores están firmados en 16 bits, por lo que deben oscilar entre -32K y +32K. Pero, ¿qué representan estos valores? Decibeles?

  2. Si utilizo valores de 8 bits, los valores deben oscilar entre -128 y +128. ¿Cómo se correlaciona eso con el volumen / "volumen" de los valores de 16 bits? ¿Utilizaría un mapeo de cuantificación de 16 a 1?

  3. ¿Por qué hay valores negativos? Pensaría que el silencio completo daría como resultado valores de 0.

Si alguien puede indicarme un sitio web con información sobre lo que se está grabando, lo agradecería. Encontré webpages en el formato de archivo PCM, pero no cuáles son los valores de los datos.


Why are there negative values? I would think that complete silence

daría como resultado valores de 0

El diafragma en un micrófono vibra en ambas direcciones y como resultado crea tensiones positivas y negativas. Un valor de 0 es silencio ya que indica que el diafragma no se está moviendo. Vea cómo funcionan los micrófonos

Pequeña aclaración: la posición del diafragma se está grabando. El silencio ocurre cuando no hay vibración, cuando no hay cambio en la posición. Entonces, la vibración que está viendo es lo que está empujando el aire y creando cambios en la presión del aire a lo largo del tiempo. El aire ya no se empuja en los picos superior e inferior de ninguna vibración, por lo que los picos se producen cuando se produce el silencio. La parte más ruidosa de la señal es cuando la posición cambia más rápido que está en algún lugar en el medio de los picos. La velocidad con la que el diafragma se mueve de un pico a otro determina la cantidad de presión que genera el diafragma. Cuando los picos superior e inferior se reducen a cero (o algún otro número que comparten), entonces no hay vibración ni sonido. Además, a medida que el diafragma se ralentiza para que haya un mayor espacio de tiempo entre los picos, se genera o graba menos presión de sonido.

Recomiendo el Manual de refuerzo de sonido de Yamaha para obtener más información en profundidad. Comprender la idea del cálculo ayudaría a la comprensión del audio y la vibración también.


Hay muchas buenas respuestas aquí, pero no abordan directamente sus preguntas de una manera fácil de leer.

¿Cuáles son exactamente las unidades para los valores de amplitud? Los valores están firmados en 16 bits, por lo que deben oscilar entre -32K y +32K. Pero, ¿qué representan estos valores? Decibeles?

Los valores no tienen unidad. Simplemente representan un número que ha salido de un convertidor de analógico a digital. Los números del convertidor A / D son una función del micrófono y las características del preamplificador.

Si utilizo valores de 8 bits, los valores deben oscilar entre -128 y +128. ¿Cómo se correlaciona eso con el volumen / "volumen" de los valores de 16 bits? ¿Utilizaría un mapeo de cuantificación de 16 a 1?

No entiendo esta pregunta. Si está grabando audio de 8 bits, sus valores serán de 8 bits. ¿Está convirtiendo audio de 8 bits a 16 bits?

¿Por qué hay valores negativos? Pensaría que el silencio completo daría como resultado valores de 0

El diafragma en un micrófono vibra en ambas direcciones y como resultado crea tensiones positivas y negativas. Un valor de 0 es silencio ya que indica que el diafragma no se está moviendo. Vea cómo funcionan los micrófonos

Para obtener más detalles sobre cómo se representa el sonido digitalmente, consulte here .


Los números brutos son un artefacto del proceso de cuantificación utilizado para convertir una señal de audio analógica en digital. Tiene más sentido pensar en una señal de audio como una vibración alrededor de 0, que se extiende hasta +1 y -1 para una excursión máxima de la señal. Fuera de eso, obtienes clipping, lo que distorsiona los armónicos y suena terrible.

Sin embargo, las computadoras no funcionan tan bien en términos de fracciones, por lo que los enteros discretos de 0 a 65536 se utilizan para asignar ese rango. En la mayoría de las aplicaciones como esta, un +32767 se considera la excursión máxima positiva del diafragma del micrófono o altavoz. No existe una correlación entre un punto de muestra y un nivel de presión de sonido, a menos que comience a tener en cuenta las características de los circuitos de grabación (o reproducción).

(Por cierto, el audio de 16 bits es muy estándar y se usa ampliamente. Es un buen equilibrio entre la relación señal / ruido y el rango dinámico. 8 bits es ruidoso a menos que haga una escalada funky no estándar).


Los números de 16 bits son los valores del convertidor A / D de tu micrófono (esto lo sabías). Sepa también que el amplificador entre su micrófono y el convertidor A / D tiene un control automático de ganancia (AGC). El AGC cambiará activamente la amplificación de la señal del micrófono para evitar que demasiada tensión golpee el convertidor A / D (por lo general, <2 voltios de CC). Además, hay un desacoplamiento de tensión CC que establece la señal de entrada en el medio del rango del convertidor A / D (digamos 1Volt dc).

Entonces, cuando no hay sonido golpeando el micrófono, el amplificador AGC envía una señal de línea plana de 1.0 voltios de CC al convertidor A / D. Cuando las ondas de sonido golpean el micrófono, crea una onda de voltaje de CA correspondiente. El amplificador AGC toma la onda de voltaje CA, la centra en 1.0 Vcc y la envía al convertidor A / D. Las muestras de A / D (mide el voltaje de CC a, digamos, 44,000 / por segundo), y escupe los valores de +/- 16 bits del voltaje. Entonces -65,536 = 0.0 Vdc y +65,536 = 2.0 Vdc. Un valor de +100 = 1.00001529 Vdc y -100 = 0.99998474 Vdc que golpea el convertidor A / D.

+ Los valores están por encima de 1.0 Vdc, los valores están por debajo de 1.0 Vcc.

Tenga en cuenta que la mayoría de los sistemas de audio utilizan una fórmula de registro para curvar la onda de audio de forma logarítmica, por lo que un oído humano puede escucharla mejor. En los sistemas de audio digital (con ADC), el procesamiento de señal digital pone esta curva en la señal. Los chips DSP son un gran negocio, TI ha hecho una fortuna al usarlos para todo tipo de aplicaciones, no solo para el procesamiento de audio. Los DSP pueden trabajar la matemática muy complicada en una secuencia de datos en tiempo real que estrangularía el procesador ARM7 de un iPhone. Digamos que está enviando pulsos de 2MHz a una matriz de 256 sensores / receptores de ultrasonido, ya se entiende.


Piensa en la superficie del micrófono. Cuando está en silencio, la superficie está inmóvil en la posición cero. Cuando hablas, eso hace que el aire alrededor de tu boca vibre. Las vibraciones son parecidas a las de la primavera, y tienen movimiento en ambas direcciones, como hacia adelante y hacia atrás, o arriba y abajo, o dentro y fuera. Las vibraciones en el aire hacen que la superficie del micrófono vibre también, como al subir y bajar. Cuando se mueve hacia abajo, se puede medir o muestrear un valor positivo. Cuando se mueve hacia arriba, puede ser muestreado como un valor negativo. (O podría ser lo contrario.) Cuando deja de hablar, la superficie vuelve a la posición cero.

Los números que obtienes de tus datos de grabación PCM dependen de la ganancia del sistema. Con muestras comunes de 16 bits, el rango es de -32768 a 32767 para la excursión más grande posible de una vibración que se puede grabar sin distorsión, saturación o desbordamiento. Por lo general, la ganancia se establece un poco más bajo de modo que los valores máximos no están en el borde de la distorsión.

ADICIONAL:

El audio PCM de 8 bits es a menudo un tipo de datos sin signo, con un rango de 0..255, con un valor de 128 que indica "silencio". Por lo tanto, debe sumar / restar este sesgo, así como escalar alrededor de 256 para convertir formas de onda PCM de audio de 8 bits y 16 bits.