Compresión de audio MPEG

  •  Introducción

    Generalidades

    Las señales de audio, producto de trasducciones acustoeléctricas son en la gran mayoría de los casos de tipo analógicas. Es decir, una señal eléctrica de magnitud finita y continua en el tiempo, con niveles variables de acuerdo a los valores de la información original, acotados entre dos límites. Esta simple representación ha permitido la transmisión, a través de métodos de modulación adecuados, y el almacenamiento de la información. Sin embargo, la eficiencia y eficacia de estos procedimientos no son perfectos. La aparición de ruidos, de origen natural o creados por el hombre, y de distorsiones lineales y alinéales propias del canal de transmisión deterioran la señal analógica en forma más o menos severa, según los casos.

    El desarrollo de la tecnología digital ha posibilitado la incorporación de nuevas formas de tratamiento de la información, que permiten disminuir los efectos de tales disturbios e imperfecciones. Pero la digitalización trae como consecuencias un aumento sustancial del ancho de banda necesario para la transmisión y un aumento de la capacidad necesaria para el almacenamiento. En consecuencia, uno de los desarrollos más recientes y prometedores es la compresión de datos que intenta disminuir algunos de los efectos no deseados de la digitalización.

    La reducción de la velocidad de transmisión o tasa de bits (directamente relacionada con el ancho de banda de transmisión) es necesaria porque los costos de transmisión aumentan con dicha velocidad. Por lo tanto es imperativo el uso de técnicas de compresión para conseguir la más baja velocidad posible que proporcione una aceptable calidad de imagen y audio en una determinada aplicación.

    La digitalización de las redes de telecomunicaciones ha traído también un cambio en las características y calidad de las señales transportadas, y puede afirmarse que las señales digitales son transportadas con una facilidad cada vez mayor. En especial, las señales de televisión, tanto normales como de alta calidad, si bien eran aptas para su transporte digital, debían enfrentarse a la necesidad de un transporte de información en cantidades cada vez mayores.

    En consecuencia, durante mucho tiempo fue notorio el interés de encontrar la posibilidad de reducir la velocidad de transmisión necesaria aprovechando las características específicas de las señales de audio y voz.

    Uno de los principales requisitos para el éxito de cualquier sistema de compresión es la compatibilidad entre terminales. Por consiguiente, es necesario encontrar estándares nacionales e internacionales para velocidades de transferencia de datos, interfaces, protocolos y señalización.

    La compresión digital de audio es un campo cada vez más importante y activo. El progreso en los algoritmos de compresión, la tecnología VLSI, y las normas de codificación han hecho del audio digital una tecnología practicable para muchas aplicaciones. Ante todo, se han desarrollado muchos nuevos algoritmos de compresión, que permiten la transmisión o el almacenamiento de audio digital con excelente calidad a tasa de datos razonables. Además, el avance en la tecnología VLSI hace posible implementar algoritmos sofisticados de compresión para aplicaciones en tiempo real de una manera eficaz en función de los costos. Finalmente, surgieron rápidamente las normas para la compresión de audio que facilitan las plataformas comunes de comunicación. Como resultado de todo esto, se están formando nuevas alianzas, comercializándose nuevos productos, efectuándose nuevos ensayos, y se están suministrando nuevos servicios, con lo cual la compresión digital de audio está adquiriendo cada vez una importancia mayor.

    A fin de normalizar todo lo referente al tema compresión, la Organización Internacional de Normas (ISO: International Standards Organization) creó un subcomité en conjunto con la Comisión Internacional Electrotecnia (IEC: International Electrotechnical Commission) denominado "Grupo de Expertos en Imágenes en Movimiento" MPEG (Moving Pictures Experts Group). Este grupo de trabajo ha desarrollado dos normas, una para el vídeo y audio digital de computadoras identificada por la sigla MPEG-1 (publicada en noviembre de 1992) y otra para el vídeo y audio digitales empleados en la radiodifusión y en la distribución filoguiada de tales señales, bautizada con la denominación MPEG-2. En marzo de 1993 el MPEG publicó una propuesta de la norma MPEG-2, en la que se definió que el objetivo de calidad buscado era el nivel establecido en la Recomendación 601 de la UIT-R (ex CCIR: Comité Consultivo Internacional de Radiocomunicaciones). En julio de 1993 se publicaron los requisitos establecidos por la Norma MPEG-2. La ISO esta trabajando en una nueva iniciativa para la codificación a tasa muy baja de bits de información de audio y de vídeo (MPEG-4) que se presentará en 1999.

    El desarrollo de MPEG-1 (en lo que a audio se refiere) se orientó hacia las técnicas para reducir la tasa de bits a 1.5 Mbps como límite superior.

    El MPEG no especifica una técnica única de compresión, sino un conjunto de las herramientas de compresión que pueden usarse en conformidad con reglas exactas de una sintaxis de compresión. Estas reglas exactas facilitan el intercambio de flujo de bits entre aplicaciones diferentes.

    En éste proyecto se introducirán primero conceptos generales sobre compresión y otros temas necesarios para el entendimiento de las técnicas utilizadas en los sistemas que se ajustan a las normas MPEG 1. Se tratará exclusivamente lo relacionado a la compresión del audio. Luego se expondrán temas más relacionados a la implementación de diferentes algoritmos necesarios para los codecs MPEG 1.

    Definición de compresión

    La compresión de las señales es el proceso mediante el que se obtiene la reducción del caudal de datos a transmitir y/o almacenar.

    Este proceso tiene que ser eficaz, esto es: la técnica empleada para la reducción debe permitir que el terminal receptor y/o reproductor presente la información de modo que, luego de expandirla, los observadores y/u oyentes no se encuentren en capacidad de notar diferencia alguna si tuvieran la oportunidad de comparar la señal original con la así procesada. Además, el proceso tiene que ser eficiente, es decir: ha de efectuarse en tiempo real y con un costo que justifique los beneficios pretendidos. El dominio elegido para este proceso es el digital, por las innumerables ventajas que posee sobre el analógico.

    Compresión, reducción de la tasa de bits y reducción de datos son todos términos que significan básicamente lo mismo en este contexto. En esencia, compresión significa que la misma información se transfiere usando una menor tasa de datos. Se debe indicar que en el lenguaje tradicional del audio, "compresión" significa un proceso en el cual se reduce el rango dinámico de la señal representativa del sonido. En el lenguaje digital la misma palabra significa que la tasa de bits se reduce, idealmente dejando sin cambios la dinámica de la señal. Por lo tanto en este contexto se adoptará el último significado.

    La compresión puede ser utilizada de dos maneras diferentes:

    1) En transmisión

    2) En almacenamiento

    La compresión utilizada en transmisión se resume en la figura 1.1. Se puede ver en la figura 1.1.A que el compresor reduce la tasa de datos de la fuente. Los datos comprimidos atraviesan un canal de comunicación y luego son vueltos a la tasa original mediante el expansor. La relación entre la tasa de datos de la fuente y la tasa de datos del canal se llama factor de compresión. Se usa también el término ganancia de codificación. A veces a un compresor y un expansor en cascada se los denomina compansor. El compresor puede igualmente bien llamarse codificador y el expansor decodificador en cuáles casos el par en tándem puede denominarse codec. En las comunicaciones, el costo de los enlaces de datos es la mayoría de las veces proporcional (groseramente) a la tasa de datos y por lo tanto es que surge una cierta presión económica para usar un factor alto de compresión. Sin embargo, se debe tener en mente que la implementación de un codec también tiene un costo que sube con el factor de compresión y en consecuencia será necesario llegar a un compromiso.

    La figura 1.1.B muestra el uso de un codec para almacenamiento de información. El uso de la compresión en aplicaciones de almacenamiento es sumamente poderoso. Es decir, que el mismo trae numerosas ventajas como ser que el tiempo de reproducción medio se extiende en proporción al factor de compresión puesto que, por ejemplo, en una cinta puede almacenarse más información. En el caso de las cintas, el tiempo de acceso se mejora porque la longitud de cinta necesaria para una grabación determinada se reducirá y por lo tanto puede ser rebobinada más rápidamente.

    Figura 1.1.a. Compresión utilizada en transmisión.

    Figura 1.1.B. Uso de un codec para almacenamiento de información.

     

    Razones de las técnicas de compresión

    El audio comenzó como un medio analógico. Las señales de audio se capturaron, almacenaron, procesaron, y transmitieron usando técnicas analógicas en las que una señal "forma" en sí misma el sonido.

    Hoy, el audio (y la televisión) reúne otro tipo de información electrónica y las tecnologías utilizadas en comunicaciones son totalmente digitales. En vez de emplear formas de onda analógicas, las señales de audio se digitalizan, lo cual significa que la información visual se muestrea en muchos puntos en el espacio y en el tiempo, y estos valores de muestreo se convierten en códigos digitales binarios (O's y 1's). Estos valores digitales, no son señales analógicas en sí mismos, son los qué luego se almacenarán en cinta, disco, o silicio y se transmiten por cable o aire utilizando adecuados métodos de modulación.

    El audio (y vídeo) digital involucra una cantidad muy grande de datos. Al representar las señales de audio en forma digital pueden ponerse a prueba tanto el almacenamiento, la capacidad de dispositivos, como grabadores, discos, sistemas basados en RAM, etc., y también pueden retarse la capacidad de transporte de información de los canales de transmisión.

    La transmisión, almacenamiento, y procesamiento de la señal de audio digital requiere la manipulación de cuantiosos flujos de datos (mayor aún la compuesta de vídeo y audio). La velocidad de estos flujos de datos se llama tasa de bits, la cual mide la cantidad de datos en bits por segundo. Cuanto más alta es la calidad de la señal de audio representada, más alta es la tasa de bits, lo cual implica un mayor desafío para los dispositivos de almacenamiento y para los canales de transmisión.

    Las señales de audio digital ocupan mucho más ancho de banda que sus equivalentes analógicas. Por lo tanto los sistemas que pueden reducir los requerimientos de espectro sin empobrecer la calidad son verdaderamente estimados. Ellos permiten que la transmisión digital sea práctica y económica. Ahora están disponibles varios sistemas que permiten la transmisión de audio digital de alta calidad en menos de un cuarto del ancho de banda previamente requerido.

    Con la amplia escala de aceptación de los discos compactos (CD), los beneficios del audio de alta fidelidad digital han atraído dramáticamente la atención de los usuarios y profesionales. La claridad y robustez del CD no han sido equiparada por ninguno de los otros reproductores domésticos de la anterior tecnología. Además, en los últimos años, se puede apreciar que la demanda por sonido de alta calidad se ha filtrado a través de muchas otras áreas de la industria del entretenimiento.

    Respondiendo a esta creciente demanda por mejorar la calidad del sonido, muchas compañías de audio y autoridades del broadcasting han determinado su intención por desarrollar los medios de audio digital, prometiendo un amplio rango de futuros servicios digitales.

    Aunque la grabación de audio digital y la transmisión ofrecen muchas ventajas sonoras y operacionales sobre su contraparte analógica (inmunidad al ruido, mejor ancho de banda de audio y múltiples reproducciones sin degradación de la señal) esta claro que las señales de audio digital ocupan un extremadamente amplio ancho de banda de transmisión. Por ejemplo, la tasa de transferencia digital de un CD es más de 1.4 Mbps (44100 x 16 x 2 = 1411200, es decir, tasa de muestreo por bit por muestra por número de canales para reproducción estéreo). Esta salida representa un ancho de banda de aproximadamente 1,5 MHz (más de 60 veces del que posee la señal analógica original). Para los medios de almacenamiento, esto no ha sido un factor limitante en el desarrollo de estaciones de trabajo (workstations) y/o de sistemas de reproducción al aire, pero ello puede ser un problema en aplicaciones de transmisión.

    Para disfrutar del audio digital de uso extendido a lo largo de la industria del broadcast, el ancho de banda de la señal digitalizada debe reducirse. Se disponen ahora de una variedad de sistemas innovativos que reducen el ancho de banda del audio digital con calidad de CD. Por numerosas razones, la transmisión de audio de alta calidad será la de mayor demanda y de aplicación persistente de tales técnicas de reducción de datos.

    Están disponibles ahora varias técnicas que reducen la tasa de datos de las señales de audio PCM de 16 bits estándar tanto que ellas pueden transportarse sobre líneas de 64 Kbps, 96 Kbps, 128 Kbps o 256 Kbps (dependiendo de la frecuencia de muestreo y la relación de reducción de la tasa de bits). Esto permite su transmisión sobre ISDN, fracciones de canal T-1, etc. Las relaciones de compresión (cociente entre la tasa de bits de entrada al compresor y la tasa de bits a la salida del compresor) comunes varían entre 4:1 a tan altas como 12:1.

    Hoy en día, y por lo que concierne a las redes troncales, los cables de fibra óptica permiten la transmisión de señales digitales de vídeo y audio de una forma más fácil que en el pasado.

    No obstante, todavía son numerosas las aplicaciones que requieren ahorro en el ancho de banda utilizado, siendo virtualmente obligatorio el uso de la compresión de señales en las aplicaciones vía satélite o mediante radioenlaces. Por otra parte, el costo de los medios de transmisión y las tarifas por su utilización juegan un papel importante en la elección de la velocidad de transmisión deseada. Ello explica como, incluso en el caso de transmisión por fibra óptica, puede ser útil la economía del ancho de banda.

    La tremenda evolución en el desarrollo de la tecnología de señales digitales, en la fabricación de microprocesadores y en la capacidad de las memorias actuales, permite la ejecución en tiempo real de algoritmos extremadamente complejos, garantizando así que la calidad del audio (y vídeo) se vea apenas afectadas por la compresión.

    Actualmente se hallan completamente desarrolladas técnicas de reducción de redundancia para aplicaciones de contribución, siendo en la actualidad utilizadas de forma aún más generalizada en redes de distribución secundarias.

    De lo expuesto se puede apreciar claramente que es necesario encontrar una manera de acomodar los cuantiosos flujos de datos a los medios de transmisión y almacenamiento disponibles. La solución a este problema no es otra más que la compresión de los datos representativos del audio (y vídeo); manteniendo lo mejor posible, de acuerdo a los requerimientos del servicio en particular, la calidad audiovisual resultante.

    De acuerdo con lo expresado anteriormente se puede decir que hay dos razones fundamentales por lo cual las técnicas de compresión se usan:

    Figura 1.2

    Conclusión: El objetivo buscado es obtener una reducción del ancho de banda ocupado por las transmisiones de audio (y vídeo) así como también disminuir la capacidad necesaria para el almacenamiento de dichas informaciones, ya sea por cuestiones de practicidad o por cuestiones económicas.

    Irrelevancia y redundancia

    • Una señal o dato es irrelevante cuando su presencia no es perceptible por la mayoría de los evaluadores (observadores y/u oyentes) o cuando no produce efecto alguno sobre el sistema.

    • Una señal o dato es redundante cuando su presencia, aunque perceptible, no provee un aporte a la información ya conocida.

    Teniendo en cuenta estas dos características, los distintos métodos de compresión se proponen eliminar del caudal de datos aquéllos que son irrelevantes y/o redundantes.

    Un buen algoritmo de compresión tiene dos metas. La primer meta es proveer un método más eficiente de representación de la imagen (y/o del sonido). La segunda meta es sacrificar aquellas características del cuadro de vídeo (y/o secuencia PCM para el caso del audio) a las que los sentidos humanos son menos sensibles y sacrificar también aquella información de sucesos que son muy poco probables que aparezcan (es decir, en la codificación, solo se tendrán en cuenta los sucesos habituales).

    Clasificación de las redundancias en el audio

    La mayoría de los sistemas de audio digital usan técnicas de modulación por codificación de pulsos (PCM) para digitalizar las señales de audio analógicas. Los sistemas de alta calidad, tales como los formatos CD's con PCM lineal de 16 bits, resultan en tasas de datos que exceden en mucho la tasa de información de la señal original. Por esta razón, los datos digitales PCM son altamente redundantes y generalmente con grandes anchos de banda.

    Las redundancias en PCM pueden identificarse en dos importantes áreas:

    1) Redundancias objetivas (o redundancias) las cuales son medibles y cuantifican ciertas características numéricamente predecibles de las señales de audio, tales como la periodicidad de las formas de onda

    2) Redundancias subjetivas (o irrelevancia), las que resultan de los fenómenos psicoacústicos de la audición humana. (La eliminación de redundancia es también citada como compresión estadística, mientras que la remoción de la irrelevancia es frecuentemente llamada codificación perceptiva).

    La figura 1.3 ilustra este principio en forma gráfica. Las curvas superiores en cada una de las muestras de música exhibe la respuesta de amplitud en el tiempo, mientras que las inferiores son el trazado de la amplitud vs. frecuencia de un breve muestreo de 32 mseg. Notar que la forma de onda (b) superior es altamente periódica y repetitiva, y que el espectro es ponderado predominantemente hacia las bajas frecuencias debajo de los 4 KHz. Usando estas dos fundamentales propiedades, pueden idearse esquemas que examinen la forma de onda del audio o en el dominio del tiempo (la familiar respuesta amplitud en el tiempo) o dentro del dominio de la frecuencia, mediante por ejemplo la ejecución de la transformada de Fourier sobre la forma de onda más relevante.

    Figura 1.3. (a) Guitarra clásica y (b) trombón

    Compresión sin pérdidas y con pérdidas

    Las técnicas de compresión de audio, en general, se pueden clasificar en dos categorías básicas: sin pérdidas y con pérdidas. Aunque hay muchas diferentes técnicas de compresión, todas ellas caen en una u otra de estas categorías.

    En la compresión sin pérdidas, los datos del expansor son idénticos bit por bit a los datos originales de la fuente. La compresión sin pérdida, también es conocida como compresión reversible, ya que no pierde datos. La señal de audio comprimido puede ser descomprimida sin omitir ninguna muestra de información. La compresión sin pérdida, sin embargo, permite solo una modesta reducción de tasa de bit.

    Los programas del tipo del ‘Stacker’ que aumentan la capacidad aparente de unidades de disco en computadoras personales usan codecs sin pérdida. Se puede ver claramente que para los programas de computadora la corrupción de un solo bit puede ser catastrófica. La compresión sin pérdidas se restringe generalmente a factores de compresión de alrededor 2:1.

    Es importante apreciar que un codificador sin pérdidas no puede garantizar un factor de compresión en particular y por lo tanto los vínculos de comunicaciones o los procedimientos de almacenamiento utilizados deberán ser capaces de funcionar con una tasa de datos variable.

    Los datos de fuente, que en un codec determinado, causan factores pobres de compresión son conocidos como dificultad del material. Se debe indicar que la dificultad es frecuentemente una función del codec. En otras palabras, los datos que un codec encuentra difícil puede que otro no lo encuentre difícil.

    Los codecs sin pérdida pueden incluirse en los planes de prueba de la tasa de bits erróneos. Es también posible poner en serie o en tándem codecs sin pérdida sin precauciones especiales.

    En la compresión con pérdidas, los datos desde el expansor no son idénticos bit a bit a los datos de la fuente. La compresión con pérdida es irreversible, ya la señal de audio reconstruida perderá algunos de sus muestras originales.

    La compresión con pérdida, permite una más alta reducción de la tasa de bits. En general, una mayor compresión crea una mayor distorsión pero con técnicas cuidadosamente seleccionadas, esta distorsión puede hacerse bastante imperceptible al oído humano. Los codecs con pérdida no son apropiados para los datos de computadora, pero son habituales en aplicaciones de audio puesto que ellos permiten un mayor factor de compresión que los codecs sin pérdida.

    Los codecs con pérdida exitosos son aquellos en los cuales las diferencias se arreglan para que un oyente humano los encuentre subjetivamente difícil de percibir. Así los codecs con pérdida deben ser basados en una comprensión de percepción psicoacústica. Estos se llaman frecuentemente códigos perceptivos.

    En la compresión (o codificación) perceptiva, un mayor factor de compresión, requerirá, que deban modelarse más precisamente los sentidos humanos. Los codificadores perceptivos tienen la ventaja de que pueden forzarse a operar a un factor fijo de compresión. Esto es conveniente para aplicaciones prácticas de transmisión y almacenamiento donde una tasa fija de datos es más fácil de manejar que una tasa variable. El resultado de emplear un factor fijo de compresión es que la calidad subjetiva puede variar con la "dificultad" del material de entrada al codec.

    Los codecs perceptivos no deberían conectarse en tándem (en cascada) indiscriminadamente, especialmente si ellos usan algoritmos diferentes. Debido a que la señal reconstruida desde un codec perceptivo no es bit a bit precisa, tal codec no puede incluirse en cualquier sistema de prueba de la tasa de bits erróneos puesto que las diferencias introducidas por la compresión serían indistinguibles de los verdaderos errores.

    Los códigos sin pérdida son menos comunes en audio (y en vídeo) donde los códigos perceptivos pueden utilizarse. Los códigos perceptivos frecuentemente obtiene una ganancia de codificación acortando las longitudes de las palabras de datos que representan la forma de onda de la señal. Esto aumenta el nivel de ruido. El truco está en asegurarse que el ruido resultante se pone a frecuencias donde los sentidos humanos son menos capaces de percibirlo. Como resultado, aunque la señal recibida sea apreciablemente diferente de los datos de la fuente, puede parecerle lo mismo al oyente. Lográndose así factores moderados de compresión. Como estos códigos confían en las características de la audición, ellos pueden solamente probarse en forma totalmente subjetiva.

    El factor de compresión de tales códigos puede establecerse a voluntad por elección de la longitud de las palabras de los datos comprimidos. Una compresión leve sería indetectable, pero con un mayor factor de compresión, las dificultades de codificación llegarían a ser perceptibles.

    2 – El Modelo Psicoacústico

     Generalidades. Experimentos realizados.

    Los modelos psicoacústicos se componen a partir de las percepciones de un grupo de personas entrenadas para rendir al máximo en este campo. Por medio de una serie de experimentos se puede determinar la sensibilidad del oído humano a una serie de fenómenos, de forma que aparezcan resultados útiles para el tratamiento del sonido, como ya hemos visto.

    Las tres siguientes características de la audición se acompañan del experimento que sirve para cuantificarlas.

    • Sensibilidad del oído humano. Experimento: situar a la persona aislada de otros sonidos y ofrecer un tono de 1 KHz al nivel mínimo de sonido posible. Elevar el volumen hasta que sea justo perceptible. Variar la frecuencia y representar en la gráfica.

      

    Figura 2.1. Sensibilidad del oído humano en función de la frecuencia

    • Enmascaramiento en frecuencia. Experimento: en las mismas condiciones, ofrecer un tono de 1 KHz (enmascarador) a un volumen determinado (60 dB, por ejemplo). Ofrecer un sonido de prueba a 1,1 KHz y elevar su volumen hasta que sea justo perceptible. Variar la frecuencia del tono de prueba y trazar la gráfica del límite de audición.


    Figura 2.2. Enmascaramiento en frecuencia del tono de 1 KHz

       Repetir para todas las frecuencias de tonos de prueba necesarias.

    Figura 2.3. Enmascaramiento de diversos tonos de prueba

    • Enmascaramiento temporal. Experimento: en las mismas condiciones, ofrecer un tono enmascarador de 1 KHz a 60 dB y un tono de prueba de 1,1 KHz a 40 dB. El tono de prueba no es audible. Parar el tono enmascarador y, con un pequeño retraso, el de prueba. Aumentar el retraso hasta que se distinga el tono de prueba.

    Figura 2.4. Variación del volumen audible con el retardo

    Realizar a la inversa, el enmascaramiento pre-temporal también existe, aunque en un tiempo muy inferior, casi despreciable. Repetir para diversas frecuencias y volúmenes y representar.

    Figura 2.5. Representación tridimensional del enmascaramiento

    Percepción

    La percepción auditiva está basada en el análisis de bandas criticas en la parte más interna del oído donde la transformación de frecuencia-espacio tiene lugar en la membrana basilar. El espectro de potencia no está representado en una escala lineal de frecuencias sino sobre bandas limitadas de frecuencia denominadas ‘Bandas Críticas’.

    El sistema de audición puede ser descripto como un banco de filtros pasabanda, constituidos por filtros pasabandas fuertemente solapados con anchos de bandas del orden de los 100 Hz para frecuencias por debajo de 500 Hz y del orden de 5 KHz para señales de frecuencias superiores.

    Hasta los 24 KHz son 26 las ‘Bandas Críticas’ a ser tenidas en cuenta.

    Enmascaramiento simultáneo (dominio frecuencia)

    El enmascaramiento simultáneo es un fenómeno que tiene lugar en el dominio de la frecuencia donde las señales de bajo nivel (por ejemplo podría ser un tono puro) puede volverse inaudible al oído humano si simultáneamente una señal más fuerte (por ejemplo un ruido de banda angosta) está lo suficientemente próximo en frecuencia.

    Figura 2.6

    Por ejemplo, para un tono de 1 KHz, un UMBRAL de ENMASCARAMIENTO puede ser medido, de manera que cualquier señal debajo del mismo no será audible. El umbral de enmascaramiento depende del nivel de presión sonora (SPL) (volumen de la señal) y de la frecuencia de la señal enmascarada.

    En este caso un tono de 1 KHz con una presión sonora de 60 dB presenta un umbral de enmascaramiento como el que se observa en la figura 2.6 por lo que cualquier señal cuyo nivel de presión sonora (SPL) se ubique por debajo de este umbral no será percibida por el oído humano. Cabe destacarse que la pendiente de la curva descripta por el umbral de enmascaramiento es mas pronunciada hacia las bajas frecuencias (de lo que deduce que frecuencias cercanas más altas que la enmascaradora pueden ser más fácilmente enmascarables). Por otra parte la distancia entre el nivel de enmascaramiento y el umbral de enmascaramiento es menor cuando un ruido enmascara un tono que a la inversa.

    Las contribuciones del ruido y de señales de bajo nivel son enmascaradas dentro y fuera de una determinada banda critica si su SPL está por debajo del UE. Los aportes producidos por el ruido pueden deberse al ruido de codificación, distorsión por aliasing y ruidos de transmisión.

    Sin la presencia del enmascarador una señal será inaudible si su SPL está por de bajo del umbral de silencio, el cual depende de la frecuencia y recorre un rango dinámico de 60 dB como se puede observar en la curva inferior de la figura anterior.

    Figura 2.7

    En la figura 2.7 se pueden ver mas detalles del umbral de enmascaramiento:

    La distancia entre el nivel de la señal enmascaradora (un tono en el ejemplo) y el umbral de enmascaramiento se la denomina Relación Señal Máscara (SMR). El valor máximo se halla en el borde izquierdo de la Banda Crítica (BC) (punto A). Dentro de la BC el ruido de codificación no será audible en tanto la Relación Señal-Ruido (SNR) sea mayor que la SMR.

    Consideremos por ahora a la SNR como la relación resultante de una cuantificación de m-bits, luego la distorsión perceptible en una dada subbanda es entonces medida como la Relación Ruido Máscara (NMR)

    NMR=SMR-SNR (en dB.). La NMR describe la diferencia entre el ruido de codificación en una determinada subbanda y el nivel donde una distorsión se vuelve audible; este valor (expresado en dB) debe ser negativo.

    Hasta ahora se ha descripto el enmascaramiento producido por una sola señal enmascaradora. Si la fuente de señal consta de numerosas señales enmascaradoras el Umbral Global de Enmascaramiento puede ser calculado como el aporte que realizan el resto de las bandas sobre la considerada obteniéndose el nivel de distorsiones perceptibles en función de la frecuencia.

    El cálculo del umbral global de enmascaramiento esta basado en la suma (en dB.) de los enmascaramientos individuales de todas las bandas comprendidas en la señal de audio o voz, suficiente para el análisis basado en bandas criticas y es determinado en audio a través de la Transformada Rápida de Fourier (FFT) de orden 512 o 1024.

    En un primer paso los umbrales de enmascaramiento individuales son calculados dependiendo del tipo de enmascarador (tono o ruido) y rango de frecuencia.

    Luego, el umbral total de enmascaramiento es calculado por adición de los niveles individuales de enmascaramiento a lo que se le adiciona también el umbral de silencio (esto hace que se asegure que el umbral global de enmascaramiento no se ubique nunca por debajo del de silencio)

    Los efectos del enmascaramiento sobrepasando los límites de las bandas críticas deben ser incluidos en el cálculo. Por último la Relación Señal Mascara Total (TSMR) se determina como la relación entre el máximo de potencia de la señal y el umbral de enmascaramiento Global (o como la diferencia en dB) (ver fig. anterior)

    Enmascaramiento temporal

    Junto con el enmascaramiento simultáneo, otros dos fenómenos juegan un importante rol en la percepción del audio en el ser humano:

    • Pre enmascaramiento
    • Post enmascaramiento

    Los efectos de enmascaramiento temporal tienen lugar antes y después que una señal comience y termine. Los efectos del Pre enmascaramiento tienen una duración de una décima parte del post enmascaramiento y según lo determinan nuevos estudios es bastante menor que ese valor.

    La duración del pos enmascaramiento esta en el orden de los 50 a 200 mseg.

    Ambos efectos son explotados en los algoritmos de codificación de ISO/MPEJ.

    Figura 2.8. Efectos del pre y post enmascaramiento

    Determinación del enmascaramiento temporal. Experimento: en las mismas condiciones, ofrecer un tono enmascarador de 1 KHz a 60 dB y un tono de prueba de 1,1 KHz a 40 dB. El tono de prueba no es audible. Parar el tono enmascarador y, con un pequeño retraso, el de prueba. Aumentar el retraso hasta que se distinga el tono de prueba.

    Codificación Basada en la Percepción.

    En los codificadores basados en la percepción el proceso de codificación esta controlado por la Relación Señal a Mascara Global (GSMR) versus la curva de Frecuencia. Si la tasa de bits necesaria para un enmascaramiento completo de la distorsión esta disponible el esquema de codificación será transparente (la señal decodificada será indistinguible de la señal fuente). Cabe señalar que la tasa de bits a la salida del codificador se mantiene constante, pudiendo darse casos donde la tasa disponible excede los requerimientos de la codificación (y por ende la codificación se efectúa en forma optima). En otros casos la tasa disponible a la salida es insuficiente para las pretensiones del codificador (en cuyo caso la transmisión incluirá ruido de codificación). Si la tasa de bits para un enmascaramiento completo no esta disponible, entonces el umbral de enmascaramiento global sirve como una función de ponderación del error espectral; el espectro de error resultante tiene la forma del umbral de enmascaramiento global.

    En los diseños prácticos de codificación basada en la percepción, no se puede sobrepasar los límites establecidos por el enmascaramiento dado que el procesamiento posterior de la señal acústica (por ejemplo filtrados en ecualizadores) por el usuario final y los múltiples procesos de codificación y descodificación pueden desenmascarar el ruido. Además, dado que el conocimiento acerca del enmascaramiento auditivo es muy limitado, el modelo auditivo usado para en el diseño de un modelo particular de codificador basado en la percepción no es lo suficientemente preciso, por lo que, como un requerimiento adicional, se necesita un margen de seguridad en los diseños prácticos de codificadores.

    Mediciones de Calidad

    Las representaciones digitales de formas de ondas analógicas producen la introducción de alguna clase de distorsión la cual puede ser expresada:

    • A través de algún criterio subjetivo tal como lo es el ‘Mean Opinion Score’ (Opinión de puntaje promedio) como una medida de similitud en la percepción.
    • Por un simple criterio objetivo como lo es la relación señal ruido (SNR) como medida de la similitud entre dos formas de ondas (la original y la reconstruida), o
    • A través de un criterio complejo que sirve como medición objetiva de la similitud percibida, el cual contempla hechos acerca de la percepción de un auditorio humano.

    El más popular de los métodos de evaluación es el ‘Puntaje de la opinión media’ MOS (Mean Opinion Score) donde individuos clasifican la calidad de los codificadores sobre una escala de calidad de N puntos.

    El resultado final de tales exámenes es un Juicio promediado (MOS). Dos escalas graduadas en 5 puntos se usan,

    • Una para medir la calidad de la señal y
    • Otra para medir sus diferencias respecto de la fuente. Un puntaje de 5 en la escala de diferencia indica que la señal reconstruida no puede ser diferenciada de la fuente (al oído humano), mientras que un puntaje de 4 indica que la señal reconstruida si bien se diferencia, no resulta molesta la diferencia. La escala de diferencia resulta extremadamente útil sobre todo si los codificadores con pequeñas distorsiones deben ser evaluados.

    Los exámenes del formato ISO/MPEG han mostrado que los exámenes de Triple estímulo, referencia oculta, doble escondido, basados en tales evaluaciones (MOS) conducen a resultados fiables, no obstante pequeñas diferencias en calidad se han detectado.

    En estas pruebas tres señales A, B y C (Triple Stimulus) son escuchadas por oyentes adiestrados siendo:

    • A: siempre es la señal fuente
    • B y C son la señal reconstruida y la fuente pero tanto el oyente como el instructor de la prueba desconocen cual es una u otra (Double Blind) (Hidden reference).

    Los oyentes deben determinar si B o C son la fuente y en caso de poder distinguirlas calificar la diferencia (de 1 a 5).

    El lado negativo es que los resultados varían de acuerdo al panel de oyentes y al tiempo en que se realizan (por ser subjetivo) pudiendo los resultados variar mucho entre el promedio y determinados tipo de señal bajo prueba.

    No obstante los exámenes realizados por MPEG y CCIR con paneles adiestrados de oyentes condujeron a resultados similares y estables.

    Las medidas basadas en la percepción hacen uso de los umbrales de enmascaramiento derivados de la señal de ingreso, en orden de compararlos con el ruido de codificación actual del codificador. Resultados recientes han demostrados que tales medidas dan altas correlaciones entre los puntajes MOS y puntajes objetivos.

    Por ejemplo, la medición de la calidad de audio percibible se ha aplicado a señales de audio en el CCIR en pruebas de transmisión de sonido digital obteniéndose una correlación de 0,98 y una desviación estándar de 0,17.

    Otro conjunto de parámetros, incluyendo relaciones de ruido a máscara locales (local Noise to Mask relations) y promedio de todas las bandas críticas, han probado que es fácilmente implementable y lo suficientemente preciso, para resultar útil en el diseño del codificador y su evaluación. En el CCIR, los tests de codificación de audio arrojaron una correlación de 0,94 y una desviación estándar de 0,27.

    Figura 2.9. MOS de la Capa II (64 Kbps por canal)

    En muchos tests de escuchas, Layer III ha demostrado su elevada performance. En noviembre de 1991, tuvo lugar en Hannhover el primero de los tests de la aún incompleta implementación de Layer III en los estudios de la NDR. En éstos, Layer III probó ser notablemente superior a Layer II a igual tasa de bits, superando además a ASPEC el cual, hasta entonces, ostentaba la mejor calidad en codecs de 64 Kbs por canal de audio.

    [a] Layer II y Layer III sin joint-stereo a 64 Kbs por canal de audio, solamente reproducción de altoparlantes.

    [b] Layer II y Layer III con joint-stereo a 64 Kbs por canal de audio, solamente reproducción de altoparlantes

    Figura 9.10 Resultados comparativos entre Layer II y Layer III en los tests del CCIR

    Para aplicaciones de transmisión de audio digital con codecs de bajo bitrate, se llevaron a cabo tests desde enero de 1992 a julio de 1992 en los que participaron práctimante todos los codecs disponibles hasta ese entonces. Se identificaron cuatro campos de aplicación, cada uno con diferentes requerimientos:

    1. Enlaces con una tasa de 180 Kbits por canal de audio (codificados independientemente), con 20 KHz de ancho de banda y sin diferencias notables luego de 5 codecs en cascada.
    2. Enlaces con una tasa de 120 Kbits por canal de audio (codificados independientemente), con 20 KHz de ancho de banda y sin diferencias notables luego de 3 codecs en cascada.
    3. Enlaces con una tasa de 128 Kbits por canal de audio (codificados independientemente) o 96 Kbits (en joint stereo), con 20 KHz de ancho de banda y una calidad de sonido superior a 4 de acuerdo a la tabla del CCIR.
    4. Enlaces con una tasa de 60 Kbits por canal de audio (mono o joint stereo), con 15 KHz de ancho de banda y una calidad de sonido equivalente al formato PCM lineal de 14 bits.

    En todas las categorías los codecs ISO-MPEG Layer II y III obtuvieron los mejores resultados.

    En realidad, Layer III resultó ser el único codec que proveyó de una aceptable calidad de sonido para la codificación independiente a 60 Kbits/seg. Para el test calificado como: "VOZ MASCULINA" el valor medio en la escala de diferencias del CCIR fue de 4.4 (comparado con 2.4 en Layer II). En general, en tests con altos contenidos de pre-ecos (castañuelas o percusiones) el valor medido (según CCIR), fue de 3.6 para Layer III (comparado con 2.05 para Layer II). A manera de preservar una suficiente tasa para la transmisión de datos auxiliares (ancillary data), el test se efectuó con 60 Kbs (en vez de 64 Kbs).

    3 - Norma ISO/IEC 11172 – 3 : Audio

    GENERALIDADES - El Estándar ISO/MPEG

    El estándar MPEG Audio contempla tres niveles diferentes de codificación - decodificación de la señal de audio, de los cuales sólo los dos primeros están totalmente terminados. El otro es aplicable, y de hecho se utiliza habitualmente, pero sigue abiertos a ampliaciones. Estos tres niveles son:

    • MPEG-1: "Codificación de imágenes en movimiento y audio asociado para medios de almacenamiento digital hasta 1’5 Mbit/s"
    • MPEG-2: "Codificación genérica de imágenes en movimiento e información de audio asociada"
    • MPEG-3: la planificación original contemplaba su aplicación a sistemas HDTV; finalmente fue incluido dentro de MPEG-2.
    • MPEG-4: "Codificación de objetos audiovisuales"

    A su vez, MPEG describe tres layers (capas) de codificación de audio denominados layer-1, layer-2 y layer-3. Del primero al tercero aumentan tanto la complejidad del codificador como la calidad del sonido a igual tasa de bits. Los tres son compatibles jerárquicamente, esto es, el decodificador layer-i es capaz de interpretar información producida por un codificador layer-i y todos los niveles por debajo del i. Así, un decodificador layer-3 acepta los tres niveles de codificación, mientras el layer-2 sólo acepta el 1 y el 2.

    MPEG define, para cada layer, el formato del bitstream y el decodificador (que puede ser implementado de diferentes maneras). Con vistas a admitir futuras mejoras no se define el codificador, pero en un apartado informativo se da un ejemplo de codificador para cada uno de los layers. Hay que decir que tanto MPEG-1 como MPEG-2 emplean estos tres layers, pero este último añade nuevas características.

    ASPEC y MUSICAM , los padres de la norma ISO MPEG 1

    En julio de 1990, cuatro sistemas fueron testeados en la Radio Sueca (Swedish Radio):

    1. MUSICAM
    2. ASPEC
    3. ATRAC
    4. SB-ADPCM

    Al final de las pruebas, se consagraron 2 ganadores:

    MUSICAM: por tener el puntaje general más alto, y ASPEC que consiguió la mejor calidad sonora, especialmente a bajas tasas de bits. Estos dos esquemas de codificación constituyeron los fundamentos para las tres capas de audio del estándar ISO MPEG 1.

    MUSICAM fue la base para las capas I y II a tal punto que la capa II es prácticamente idéntica al MUSICAM y Layer I es una versión simplificada de éste. Ambos, Layer I y II cumplieron los requerimientos de la ISO para la tasa de bits de 192 y 128 Kbps respectivamente para la primera mitad de 1991, por lo que su especificación quedó establecida y las aplicaciones pudieron comenzar a hacer uso de ésta.

    Layer III combina las mejores ideas de ASPEC y MUSICAM. El proceso de fusión requirió una cantidad de tiempo considerable, gran cantidad de modificaciones y nuevos desarrollos por lo que su especificación recién estuvo lista para los fines de la primera mitad de 1992. Los primeros productos comerciales para Layer III recién estuvieron disponibles en el mercado en 1993.

    El codificador.

    Procesa la señal digital de audio (PCM) y genera el bitstream comprimido para el almacenamiento. El algoritmo del codificador no está estandarizado, y pueden ser utilizados varios medios, tales como la estimación del umbral de enmascaramiento auditivo, cuantificación y establecimiento de la escala (escalado) de la señal. De cualquier modo, la salida del codificador debe ser tal que el decodificador que cumpla con las especificaciones de la cláusula 2.4. de la norma producirá una señal de audio compatible para la aplicación propuesta.

    Estructura básica del codificador

    Las muestras de audio ingresan al codificador. El mapeo crea una representación filtrada y submuestreada de la tira de audio de entrada. Las muestras mapeadas pueden llamarse tanto muestras de subbanda (como en layer I y II) o muestras de subbandas transformadas (como en layer III) .

    Un modelo psicoacústico crea un conjunto de datos para controlar el cuantificador y codificación. Estos datos son diferentes dependiendo de la implementación actual del codificador. Una posibilidad es el uso de una estimación del umbral de enmascaramiento (UE) para efectuar el control de la cuantificación. El cuantificador y el bloque de codificación crean un conjunto de símbolos codificados con las muestras de entrada mapeadas. Nuevamente , este bloque puede depender del sistema de codificación. El bloque de empaquetado de la trama ensambla el bitstream actual desde la salida de datos de los otros bloques y le agrega información adicional (por ej. corrección de error) si es necesario.

    Hay 4 diferentes modos posibles :

    1. canal único (monofónico)
    2. doble canal (2 canales de audio independientes el uno del otro)
    3. estéreo (canal derecho e izquierdo de audio en un bitstream)
    4. joint_stereo (2 canales donde pueden explotarse redundancias e irrelevancias entre ambos)

    CAPAS (LAYERS)

    Dependiendo de la aplicación, capas diferentes del sistema de codificación con creciente complejidad de codificación y mejor performance pueden ser usadas. Un decodificador ISO/IEC 11172 de capa N es capaz de decodificar el bitstream codificado para esa capa y también para capas anteriores a la N.

    Capa 1 (Layer I).

    El codificador para Layer 1 usa bloques por subbanda fijos de 12 muestras diezmadas.

    El mapeado tiempo - frecuencia se realiza con un banco de filtros polifase con 32 subbandas. Los filtros polifase consisten en un conjunto de filtros con el mismo ancho de banda con interrelaciones de fase especiales que ofrecen una implementación eficiente del filtro subbanda. Se denomina filtro subbanda al que cubre todo el rango de frecuencias deseado. En general, los filtros polifase combinan una baja complejidad de computación con un diseño flexible y múltiples opciones de implementación.

    El modelo psicoacústico utiliza una FFT (Fast Fourier Transform) de 512 puntos para obtener información espectral detallada de la señal. El resultado de la aplicación de la FFT se utiliza para determinar los enmascaramientos en la señal, cada uno de los cuales produce un nivel de enmascaramiento, según la frecuencia, intensidad y tono. Para cada subbanda, los niveles individuales se combinan y forman uno global, que se compara con el máximo nivel de señal en la banda, produciendo el SMR que se introduce en el cuantizador.

    El bloque de cuantización y codificación examina las muestras de cada subbanda, encuentra el máximo valor absoluto y lo cuantiza con 6 bits. Este valor es el factor de escala de la subbanda. A continuación se determina la asignación de bits para cada subbanda minimizando el NMR (noise-to-mask ratio) total. Es posible que algunas subbandas con un gran enmascaramiento terminen con cero bits, es decir, no se codificará ninguna muestra. Por último las muestras de subbanda se cuantizan linealmente según el número de bits asignados a dicha subbanda concreta.

    El trabajo del empaquetador de trama es sencillo. La trama, según la definición ISO, es la menor parte del bitstream decodificable por sí misma. Cada trama empieza con una cabecera para sincronización y diferenciación, así como 16 bits opcionales de CRC para detección y corrección de errores. Se emplean, para cada subbanda, 4 bits para describir la asignación de bits y otros 6 para el factor de escala. El resto de bits en la trama se utilizan para la información de muestras, 384 en total, y con la opción de añadir cierta información adicional. A 48 Khz, cada trama lleva 8 ms de sonido.

    Cada factor de escala está representado por 6 bits y es transmitido para cada bloque de subbanda a menos que la regla de asignación de bits indique que dicho bloque de subbanda y su factor de escala no necesitan ser transmitidos.

    Por cada bloque de 12 muestras se calcula la SMR a través de la FFT de 512 puntos.

    Para cada subbanda la asignación de bits selecciona un cuantificador uniforme de un conjunto de 15 cuantificadores con M=2**m -1 niveles (m=0 o m=2... 15bits).

    4 Bits se necesitan por bloque para la información de asignación de bits.

    Los tests subjetivos de la ISO/MPEG arrojaron un MOS (Mean Opinion Score) de 4,7 para una tasa de 192 Kb/s por canal monofónico y el peor fue de 4,4 para una de las pruebas.

    El mapeado tiempo-frecuencia se realiza con un banco de filtros polifase con 32 subbandas. Los filtros polifase consisten en un conjunto de filtros con el mismo ancho de banda con interrelaciones de fase especiales que ofrecen una implementación eficiente del filtro subbanda. Se denomina filtro subbanda al que cubre todo el rango de frecuencias deseado. En general, los filtros polifase combinan una baja complejidad de computación con un diseño flexible y múltiples opciones de implementación.

    El modelo psicoacústico utiliza una FFT (Fast Fourier Transform) de 512 puntos para obtener información espectral detallada de la señal. El resultado de la aplicación de la FFT se utiliza para determinar los enmascaramientos en la señal, cada uno de los cuales produce un nivel de enmascaramiento, según la frecuencia, intensidad y tono. Para cada subbanda, los niveles individuales se combinan y forman uno global, que se compara con el máximo nivel de señal en la banda, produciendo el SMR que se introduce en el cuantizador.

    El bloque de cuantización y codificación examina las muestras de cada subbanda, encuentra el máximo valor absoluto y lo cuantiza con 6 bits. Este valor es el factor de escala de la subbanda. A continuación se determina la asignación de bits para cada subbanda minimizando el NMR (noise-to-mask ratio) total. Es posible que algunas subbandas con un gran enmascaramiento terminen con cero bits, es decir, no se codificará ninguna muestra. Por último las muestras de subbanda se cuantizan linealmente según el número de bits asignados a dicha subbanda concreta.

    El trabajo del empaquetador de trama es sencillo. La trama, según la definición ISO, es la menor parte del bitstream decodificable por sí misma. Cada trama empieza con una cabecera para sincronización y diferenciación, así como 16 bits opcionales de CRC para detección y corrección de errores. Se emplean, para cada subbanda, 4 bits para describir la asignación de bits y otros 6 para el factor de escala. El resto de bits en la trama se utilizan para la información de muestras, 384 en total, y con la opción de añadir cierta información adicional. A 48 Khz, cada trama lleva 8 ms de sonido.

    Resumiendo: Incluye la división del mapeado básico de la señal de audio digital en 32 subbandas, segmentación para el formateo de los datos, modelo psicoacústico y cuantización fija. El retraso mínimo teórico es de 19 ms.

    Capa 2 (Layer II).

    El mapeado de tiempo-frecuencia es idéntico al del layer 1.

    El codificador Layer 2 de la ISO/MPEG es básicamente similar al Layer 1 pero tiene una complejidad mayor con la que consigue una mejor performance, de acuerdo a tres modificaciones:

    La FFT es de orden 1024 con lo que se obtiene una resolución en frecuencia más fina para el cálculo de SMR global. El modelo psicoacústico es similar. En los demás aspectos, es idéntico.

    Si las características de la señal a codificar lo permiten, entonces tres muestras consecutivas (un triplet), pueden codificarse en una única palabra código (codeword) para su transmisión o almacenamiento.

    El factor de escala total se reduce por un factor de alrededor de 2; en cada subbanda bloques de 12 muestras se forman y factores de escala de 3 bloques adyacentes se calculan (lo cual implica 3 x 12 x 32= 1152 muestras de entrada son tenidas en cuenta). Dependiendo de sus valores relativos sólo uno, dos o los tres factores de escala son transmitidos. Solamente uno de los factores de escala tiene que ser transmitido si las diferencias son relativamente pequeñas y solamente el primero de los factores de escala adyacentes tiene que ser transmitido si el segundo tiene un valor más pequeño, como en el caso del pos - enmascaramiento puede ser aprovechado. En el caso de grandes cambios dinámicos en la señal todos los factores de escala pueden tener que ser usados. El factor de escala seleccionado o los factores de escala son nuevamente representados por seis bits. El modelo de los factores de escala transmitidos será codificado con 2bit/subband en la información adyacente (side information) - denominado información de factor de escala selecto (SCFSI).

    Se provee una cuantificación más fina con una resolución de amplitud de hasta 16 bits (lo que reduce el ruido de codificación). Por otro lado, el número de cuantificadores disponibles decrece con el incremento del índice de subbanda, el cual mantiene pequeña la información lateral (side information). La codificación continúa como en Layer I.

    El bloque de cuantización y codificación también es similar, generando factores de escala de 6 bits para cada subbanda. Sin embargo, las tramas del layer II son tres veces más largas que las del layer I, de forma que se concede a cada subbanda tres factores de escala, y el codificador utiliza uno, dos o los tres, según la diferencia que haya entre ellos. La asignación de bits es similar a la del layer 1.

    El formateador de trama: la definición ISO de trama es la misma que en el punto anterior. Utiliza la misma cabecera y estructura de CRC que el layer 1. El número de bits que utilizan para describir la asignación de bits varía con las subbandas: 4 bits para las inferiores, 3 para las medias y dos para las superiores, adecuándose a las bandas críticas. Los factores de escala se codifican junto a un número de dos bits que indica si se utilizan uno, dos o los tres. Las muestras de subbanda se cuantizan y a continuación se asocian en grupos de tres, llamados gránulos. Cada uno se codifica con una palabra clave, lo que permite interceptar mucha más información redundante que en el layer 1. Cada trama contiene, pues, 1152 muestras PCM. A 48 Khz. cada trama lleva 24 ms de sonido.

    En resumen: Incluye codificación adicional, factores de escala y diferente composición de trama. El retraso mínimo teórico es de 35 ms.

    Capa 3 (Layer III).

    El esquema III es substancialmente más complicado que los dos anteriores e incluye una serie de mejoras. Su diagrama de flujos es conceptualmente semejante al visto para los otros dos esquemas, salvo que se realizan múltiples iteraciones para procesar los datos con el mayor nivel de calidad en un cierto tiempo, lo cual complica su diseño hasta el punto de que los diagramas ISO ocupan decenas de páginas.

    El mapeado de tiempo-frecuencia añade un nuevo banco de filtros, el DCT (Discrete Cosine Transform), que con el polifase forman el denominado filtro híbrido. Proporciona una resolución en frecuencia variable, 6x32 o 18x32 subbandas, ajustándose mucho mejor a las bandas críticas de las diferentes frecuencias.

    El modelo psicoacústico es una modificación del empleado en el esquema II, y utiliza un método denominado predicción polinómica. Incluye los efectos del enmascaramiento temporal.

    El bloque de cuantización y codificación también emplea algoritmos muy sofisticados que permiten tramas de longitud variable. La gran diferencia con los otros dos esquemas es que la variable controlada es el ruido, a través de bucles iterativos que lo reducen al mínimo posible en cada paso.

    El formateador de trama: la definición de trama para este esquema según ISO varía respecto de la de los niveles anteriores: "mínima parte del bitstream decodificable mediante el uso de información principal adquirida previamente". Las tramas contienen información de 1152 muestras y empiezan con la misma cabecera de sincronización y diferenciación, pero la información perteneciente a una misma trama no se encuentra generalmente entre dos cabeceras. La longitud de la trama puede variarse en caso de necesidad. Además de tratar con esta información, el esquema III incluye codificación Huffman de longitud variable, un método de codificación entrópica que sin pérdida de información elimina redundancia. Los métodos de longitud variable se caracterizan, en general, por asignar palabras cortas a los eventos más frecuentes, dejando las largas para los más infrecuentes.

    Resumiendo: Incluye incremento de la resolución en frecuencia, basado en el uso de un banco de filtros híbrido. Cuantificación no uniforme, segmentación adaptativa y codificación entrópica de los valores cuantizados. El retraso mínimo teórico es de 59 ms.

    Cuadro comparativo de los 3 esquemas (layers)

    La calidad viene dada del 1 al 5, siendo el 5 la superior (ver apartado 6). Hay que señalar que pese a los números de la norma ISO, el retraso típico acostumbra a ser tres veces mayor en la práctica.

    Decodificación

    El decodificador debe procesar el bitstream para reconstruir la señal de audio digital. La especificación de este elemento sí esta totalmente definida y debe seguirse en todos sus puntos. La figura ilustra el layer del decodificador.

    Figura 2: decodificador según la norma ISO 11172-3

    Los datos del bitstream son desempaquetados para recuperar las diversas partes de la información. El bloque de reconstrucción recompone la versión cuantizada de la serie de muestras mapeadas. El mapeador inverso transforma estas muestras de nuevo a PCM. 

    4 - La Trama de Audio

    Definición

    Trama (Layer I y II)

    Parte del bitstream que es decodificable por sí mismo. En Layer I contiene información de 384 muestras de audio mientras que en layer II de 1152. Comienza con una palabra de sincronismo y termina justo antes de la próxima palabra de sincronismo. Consiste en un número entero de slots (4 bytes p/layer I y 1 byte p/layer II).

    Trama (Layer III)

    Parte del bitstream que es decodificable con el uso de la información principal (main information) previamente adquirida. Cada trama en layer III contiene información de 1152 muestras. Aunque la distancia entre dos tramas consecutivas es número entero de slots (1 byte p/layer III) la información de audio perteneciente a una trama no está generalmente contenida entre dos palabras de sincronismo.

    Cabecera (Header)

    Cabecera: Parte del bitstream que contiene la sincronización e información de estado.

    Layer

     

    11

    Layer I

    10

    Layer II

    01

    Layer III

    00

    reserved

    Dentro de la cabecera se encuentran los sig. campos:

    • Syncword (Palabra de sincronismo) (12 bits): "1111 1111 1111"
    • ID (1 bit): indica si la trama responde a la norma 11172 (ID=1) o no (ID=0)
    • Layer (2 bits): de acuerdo a su contenido indica:

    Para cambiar de capa se necesita un reset del decodificador de audio.

    • Protection_bit (1 bit): Indica si se ha introducido redundancia en el bitstream de audio para facilitar la detección y/o cancelación de errores:
    • 1 : indica que NO se adiciono redundancia
    • 0 : si se adicionó redundancia