Ritorna alla pagina principale

Un pò di storia...

Sul finire degli anni Ottanta l’industria dell’audio e del video avvertiva la necessità di definire nuovi standard che potessero facilitare l’avvento della progressiva digitalizzazione delle informazioni, con le nuove possibilità di comunicazione e di memorizzazione che si rendevano disponibili. I tre principali organismi incaricati di definire questi standard a livello mondiale sono l'ITU (lnternational Telecommunication Union), un’agenzia delle Nazioni Unite che si occupa di telecomunicazioni e broadcasting, L’IEC (International Electrotecnical Commission), incaricato di gestire gli standard in ambito elettrico e elettronico, e l’ISO (lnternational Organizationfor Standardization), che elabora standard in svariati campi. Nel 1988 fu formato un gruppo di esperti con membri dell’ISO e dell’IEC allo scopo di sviluppare standard per la riproduzione, la codifica, l’elaborazione di audio, video e della loro combinazione, e a questo gruppo fu dato il nome di MPEG (Moving Picture Experts Group). Originariamente formato da 25 elementi, l’MPEG si è progressivamente ampliato fino a contare oggi quasi 400 tecnici provenienti da aziende e organizzazioni di tutto il mondo. Il principale successo di questo gruppo è stato determinato dalla vasta accoglienza ottenuta sul mercato mondiale da parte del primo degli standard elaborati, l’MPEG-1 (classificato dall’ISO come standard 11172 e le cui prime tre parti sono state definitivamente approvate nel 1993). Suddiviso in cinque parti, definisce le tecniche e le modalità operative per la codifica di informazioni audio-video digitali su canali di ampiezza massima di 1,5 Mbit al secondo. Con l’MPEG-1 si intendeva offrire la possibilità di memorizzare su CD video di qualità paragonabile a quella VHS. L’MPEG-2, presentato alla fine del 1994, ha rappresentato l’evoluzione del primo standard verso la televisione digitale, incrementando la qualità video, il numero di canali audio, e definendo le caratteristiche alla base delle attuali trasmissioni digitali. È lo standard impiegato sui nuovi supporti DVD per la riproduzione audio-video, e dalle trasmissioni digitali via satellite. Lo scorso ottobre è stato approvato l’MPEG-4, che prevede sostanziali innovazioni sia sulle tecniche di compressione ed elaborazione dei segnali, sia sul fronte dell’interattività con l’utilizzatore, e con ampliate possibilità di creare contenuti multimediali (miscelando video naturali e sintetizzati e impiegando anche tecnologie VRML).

Ampiezze di banda nei vari livelli e fasi del formato MPEG

Kbit/s
MPEG-1 Layer 1
MPEG-1 Layer 2
MPEG-1 Layer 3*
MPEG-2 Layer 1
MPEG-2 Layer 2
MPEG-2 Layer 3
8
Nitro
Nitro
Nitro
Nitro
Nitro
X
16
Nitro
Nitro
Nitro
Nitro
Nitro
X
24
Nitro
Nitro
Nitro
Nitro
Nitro
X
32
X
X
X
X
X
X
40
Nitro
Nitro
X
Nitro
Nitro
Nitro
48
Nitro
X
X
Nitro
X
Nitro
56
Nitro
X
X
Nitro
X
X
64
X
X
X
X
X
X
80
Nitro
X
X
Nitro
X
X
96
X
X
X
X
X
Nitro
112
Nitro
X
X
Nitro
X
X
128
X
X
X
X
X
X
160
X
X
X
X
X
X
192
X
X
X
X
X
Nitro
224
X
X
X
X
X
Nitro
256
X
X
X
X
X
X
288
X
Nitro
Nitro
X
Nitro
Nitro
320
X
X
X
X
X
X
352
X
Nitro
Nitro
X
Nitro
Nitro
384
X
X
Nitro
X
X
Nitro
416
X
Nitro
Nitro
X
Nitro
Nitro
448
X
Nitro
Nitro
X
Nitro
Nitro

*Il formato MP3

Notizie Tecniche

L’MPEG utilizza per la codifica audio un modello psicoacustico elaborato nel corso degli anni da vari enti di ricerca e che ha consentito al Fraunhofer Institut Integrierte Schaltungen (IIS), un ente tedesco, di rilasciare l’algoritmo di codifica/decodifiea così come è oggi implementato nella sua forma più diffusa, il Layer 3. Si è partiti dalla considerazione che l’orecchio umano non è un dispositivo perfetto di ricezione del segnale audio, ha anzi diversi limiti. In particolare si sono sfruttate le caratteristiche di non linearità e adattative della soglia di udibilità. Quest’ultima è il livello al di sotto del quale non è possibile udire suoni, e varia da una persona all’altra. Generalmente, si ha la massima sensibilità per suoni con frequenza comprese fra 2 e 5 KHz. Non è solo la frequenza a determinare l’udibilità di un suono, ma anche la sua ampiezza (o intensità) a quella determinata frequenza, con una legge di dipendenza appunto non lineare. Oltre a ciò, la soglia di udibilità è anche adattativa, si mòdifica cioè in funzione dei suoni ricevuti. Per esempio, non c’è nessuna difficoltà nell’udire una conversazione fra due persone in un ambiente silenzioso, ma se un aereo in decollo ci passa sopra la testa, la soglia di udibilità si modifica rendendo impossibile sentire la voce umana. I normali strumenti di registrazione hanno invece una risposta praticamente piatta ai segnali, perciò registrano anche quelle informazioni che l’orecchio umano non percepisce. Il fenomeno è particolarmente evidente in campo musicale: in un’orchestra che sta eseguendo un brano “fortissimo” sarà impossibile udire alcuni strumenti, che però appariranno nelle tracce di registrazione. Eliminando le informazioni non necessarie si può risparmiare una consistente parte dello spazio di memorizzazione, e questo concetto costituisce la base dell’algoritmo di codifica dell’MP3. L’audio in ingresso viene costantemente analizzato da un codificatore audio (encoder) che determina dinamicamente la cosiddetta curva di mascheratura, la soglia sotto la quale i suoni non sono percepiti dall’orecchio umano. Il segnale in ingresso viene poi suddiviso in un certo numero di bande di frequenza, dette sottobande. Per ogni sottobanda l’operazione di codifica prevede la quantizzazione. Quest’ultimo è il processo di trasformazione del segnale analogico prodotto dalle onde sonore in un segnale digitale che ne approssima il più fedelmente possibile le caratteristiche. Per fare ciò un campionatore rileva il valore del segnale a intervalli di tempo prefissati, e la sequenza di numeri che se ne ricava rappresenta la ricostruzione digitale del suono. Poiché si tratta di un processo di approssimazione, si ottengono i migliori risultati riducendo gli intervalli di tempo tra una misurazione e l’altra e aumentando la precisione dei valori. Un CD musicale contiene audio campionato a 44.100 Hz (44.100 rilevazioni al secondo) e memorizzato in numeri ampi 16 bit. La fase di quantizzazione introduce sempre un rumore indesiderato che si va ad aggiungere al segnale utile e che viene di solito trattato come rumore bianco. L’algoritmo è abbastanza sofisticato da far sì che la quantizzazione sia tale da mantenere il rumore introdotto sempre al di sotto della maschera di udibilità specifica per ogni particolare sottobanda. L’informazione sulle caratteristiche della quantizzazione operata in ogni sottobanda è allegata ai dati audio, e in questo modo il decodificatore (decoder) incaricato di ricostruire il segnale può operare sul flusso dei dati senza essere a conoscenza delle modalità con cui è stata determinata. Questa particolare flessibilità lascia spazio a differenti implementazioni di encoder e decoder, con differenti livelli di complessità.

Ampiezze di banda e Layer differenti

L’ampiezza di banda di trasmissione nel caso della riproduzione digitale rappresenta la massima quantità di informazioni che è possibile trasmettere attraverso un dispositivo. La riproduzione di audio da CD richiede un’ampiezza di banda di 1,4 Mbit al secondo, che si traduce in costi elevati per trasmissioni a distanza (via satellite o via cavo). Se immaginiamo di voler trasmettere audio di qualità su linee ISDN (in genere al massimo due canali da 64 Kbit/sec l’uno) ci rendiamo immediatamente conto di come la qualità CD sia praticamente inarrivabile senza introdurre una qualche forma di compressione dei dati. Lo standard di codifica dell’audio adottato dall’MPEG si basa sul modello percettivo sopra descritto e si divide in tre modalità operative, conosciute come Layer 1, 2 e 3. Offrono una compressione crescente che implica di conseguenza una fase di codifica più complessa. I parametri più significativi che possono essere variati sono l’ampiezza di banda (espressa in Kbit al secondo e detta anche bitrate) e la frequenza di campionamento (espressa in Hertz). Agendo su queste due variabili è possibile ottenere gradi di compressione (e quindi di qualità) differenti, con una scala molto vasta concepita per soddisfare il più vasto numero di esigenze. Il Layer 1 è il più semplice, e dispone di 32 filtri sottobanda. L’audio può essere compresso in modalità differenti a seconda dell’ampiezza di banda disponibile, con valori compresi tra 32 Kbit al secondo e 448 Kbit/sec. Per ottenere una qualità CD, sono necessarie ampiezze di banda di 384 Kbit/sec. È utilizzato principalmente nello standard CD-i. Il Layer 2 ha maggiori capacità di compressione e opera su bande tra 32 e 192 Kbit/sec per segnali mono, tra 64 e 384 Kbit/sec con segnali stereo. La qualità CD si raggiunge a 192-256 Kbit/sec. E impiegato in numerosi campi, dal CD-i al Video CD, per le trasmissioni radio e televisive digitali e via satellite, nello standard DVD e su linee ISDN. Il Layer 3 offre caratteristiche di compressione ancora più avanzate, rivelandosi particolarmente utile per le comunicazioni con ampiezza di banda estremamente limitata. La qualità CD è raggiunta a 112-128 Kbit/sec. Il Layer 3 prevede inoltre esplicitamente il supporto per il VBR (Variable Bit Rate), una tecnica grazie alla quale l’ampiezza di banda (o bitrate) non è più fissa per tutto il file, ma variabile a seconda dei blocchi. Con questo sistema, se all’interno di un file vi è una porzione di audio in cui è presente per esempio solo una voce umana, è possibile adoperare un bitrate più basso e risparmiare in questo modo ulteriore spazio. Se invece sempre nello stesso file è presente del suono molto complesso (come per esempio quello prodotto da un’orchestra), è possibile aumentare il bitrate per quel particolare brano. Con simili livelli di compressione è perciò possibile trasmettere audio ad alta fedeltà anche su economiche linee ISDN, eliminando la necessità di ricorrere a costosi collegamenti dedicati. Durante le Olimpiadi Invernali di Albertville, ad esempio, le stazioni radio private tedesche hanno realizzato i collegamenti tra i cronisti e lo studio centrale per mezzo di linee ISDN e di codificatori Layer 3. Le varie fasi di definizione degli standard (1, 2 e recentemente 4) hanno via via aggiunto funzionalità e caratteristiche specifiche. Con l’MPEG-1 è stata definita la codifica di audio a 32, 44.1 e 48 KHz su canali mono e stereo, ad ampiezze di banda comprese fra 32 e 448 Kbit/sec (Layer 1), 32 e 384 Kbit/sec (Layer 2), 32 e 320 Kbitf sec (Layer 3). L’MPEG-2 nella versione BC estende le caratteristiche dell’audio MPEG-1 implementando cinque canali più un sesto per i segnali a bassa frequenza, e aggiunge le frequenze di campionamento dii 6, 22 e 24 KHz tra i 32 e 256 Kbit/sec del Layer 1egli 8 e i 160 Kbit/sec dei Layer 2 e 3. Viene mantenuta la compatibilità con la fase MPEG-1, tanto che è possibile mescolare video di una fase con audio dell’altra. E stato inoltre definito un secondo standard MPEG-2 audio, l’MPEG2 AAC (Advanced Audio Coding), che specifica la codifica di audio ad alta qualità su un massimo di 48 canali a frequenze di campionamento da 8 a 96 KHz, con possibilità di gestione multicanale, multilingue e multiprogramma. Parallelamente è stato sviluppato uno standard successivo per aggiungere informazioni testuali al file MP3, che ha preso il nome di ID3. In pratica le informazioni sull’autore, il titolo del brano, l’anno e il genere sono aggiunte su una coda fissa di 128 Byte appesa alla fine del file. Anche questo standard è in rapida evoluzione, in particolare allo scopo di aumentare la quantità di informazioni inseribili e di spostame la posizione in testa al file. Ultimissimo arrivo, la fase MPEG-4 consente di gestire flussi di dati audio naturali e sintetizzati (voci sintetizzate o tracce MIDI) mescolati tra loro, con strumenti specifici per la gestione dell’audio 3D.
L’MP3 non è un punto d’arrivo sul fronte delle tecnologie per la codifica dell’audio digitale, ma rappresenta senz’altro una tappa importante che, complice la diffusione di Internet, ha segnato una vera e propria svolta nel modo di gestire l’audio.

Tratto da PC Professionale - Febbraio '99