Normalisation du volume sonore : l'avenir de la lecture à partir de fichiers

| More in LMPRO
Loudness Normalization: The Future of File-Based Playback Image

Dernière mise à jour : 5 décembre 2025

 

Aujourd'hui, la lecture sur des appareils portables domine la façon dont la musique est appréciée. Une grande partie des morceaux présents sur un lecteur de musique moyen proviennent de services de musique en ligne, obtenus soit par achat à l'unité, soit par streaming direct. L'auditeur apprécie souvent cette musique en mode lecture aléatoire ou via des listes de lecture.

Cette façon de lire la musique pose certains défis techniques.

Tout d'abord, les différences parfois considérables de volume entre les morceaux obligent les auditeurs à régler le volume.

Deuxièmement, la réduction de la qualité sonore de la production musicale au fil des ans est largement attribuée à la guerre du volume. L'art du contraste dynamique a presque disparu en raison des limites des systèmes numériques actuels.

Troisièmement, ces différences de volume sonore et la tendance à augmenter le niveau de lecture sur les appareils portables, en particulier lors de l'utilisation d'écouteurs, peuvent causer des dommages potentiels à l'oreille.
 

Les trois défis

 

1) Différences de volume sonore

En audio numérique, la modulation audio maximale (crête) a un plafond infranchissable. Les pistes audio numériques sont systématiquement normalisées en crête. Il en résulte d'énormes différences de volume d'une piste à l'autre, car le niveau de crête d'un signal n'est pas représentatif de son volume subjectif.

Au contraire, l'auditeur perçoit le volume sonore en fonction de l'énergie moyenne du signal. Avec la généralisation de la normalisation des pics, les producteurs de programmes appliquent souvent des techniques de compression, de limitation et d'écrêtage sévères à l'audio.

Cela supprime les pics d'origine et permet à la normalisation d'amplifier le signal, augmentant ainsi son énergie moyenne. Il en résulte une guerre du volume sonore avec des différences de volume importantes entre les anciens et les nouveaux enregistrements, ainsi qu'entre les différents genres musicaux.

Lorsque des enregistrements plus anciens sont inclus dans une liste de lecture avec du matériel récent, l'auditeur perçoit des sauts de volume perceptibles d'une piste à l'autre, ce qui nécessite des ajustements fréquents du niveau de lecture. Les différences peuvent atteindre 20 dB.

Le même problème se pose lorsque différents genres musicaux sont combinés dans une seule liste de lecture. L'écoute sur un appareil portable n'est donc pas aussi confortable qu'elle pourrait l'être, et la lecture sur ordinateur présente certains des mêmes problèmes.
 

2) Restauration de la qualité sonore de notre patrimoine enregistré

Dans la pratique communément appelée « guerre du volume », de nombreux artistes, ingénieurs du son et maisons de disques s'efforcent de rendre leurs enregistrements plus forts afin qu'ils se démarquent des autres.

La compression agressive de la gamme dynamique utilisée pour produire des enregistrements forts réduit le rapport entre l'énergie maximale et l'énergie moyenne. Cela a eu pour effet de faire disparaître presque totalement le contraste dynamique, outil artistique et narratif important dans la production musicale moderne.

Cette pression pour obtenir un son plus fort a pour conséquence que les étapes du processus de production, d'enregistrement, de mixage et de mastering, produisent des masters qui intègrent plusieurs générations de traitement numérique, ce qui peut entraîner une accumulation de produits d'écrêtage et d'aliasing. Cette distorsion est exacerbée lorsque le produit est finalement encodé sur un support avec perte, tel que l'AAC.

La distorsion cumulative entraîne également une distorsion supplémentaire importante lors de la distribution ou de la lecture. Cela peut être fatigant pour l'oreille, ce qui peut rebuter certains auditeurs et même contribuer à la baisse des ventes de musique contemporaine. Cette réduction de la qualité du signal et de la gamme dynamique équivaut à supprimer les parties du son qui rendent les programmes intéressants.

En passant de la normalisation des crêtes à la normalisation du volume sonore comme paramètre par défaut dans les supports de lecture, les producteurs qui souhaitent mixer et masteriser des programmes avec une large gamme dynamique et sans distorsion peuvent le faire sans craindre que leurs programmes ne soient pas entendus aussi fort que ceux de leurs « concurrents ».

La normalisation du volume sonore permet également aux anciens enregistrements, plus dynamiques, de coexister avec les nouveaux, ce qui permet aux auditeurs d'apprécier les qualités sonores des enregistrements plus dynamiques et de mélanger les genres et les styles d'enregistrement.

 

3) Dommages auditifs

Les niveaux de lecture élevés, qu'ils soient accidentels, choisis par préférence personnelle ou pour couvrir le bruit ambiant, sont une source potentielle de lésions auditives. Cela est particulièrement vrai pour les casques et les écouteurs, car leur proximité avec les tympans nécessite relativement peu de puissance pour atteindre des niveaux nuisibles.

Dans le passé, certains pays européens ont tenté de lutter contre les lésions auditives en légiférant sur les niveaux de sortie maximaux des lecteurs portables. Il en résulte qu'il est difficile d'apprécier les anciens enregistrements ou les genres dynamiques comme la musique classique à un volume suffisant sur ces appareils à sortie limitée.

Malheureusement, cela a accru la pression sur les ingénieurs du son pour qu'ils suppriment les pics dynamiques des pistes afin d'offrir des niveaux de lecture suffisamment élevés pour respecter le niveau de crête limité. Encore une fois, le niveau de sortie maximal n'est pas directement lié au volume perçu. Il n'est pas non plus utilisé comme indicateur du risque de lésions auditives dans le droit international. C'est plutôt le niveau intégré sur une certaine période qui devrait être utilisé.

 

Une solution intégrée

Il existe une solution aux problèmes tels que la lecture incohérente, la guerre du volume, les dommages auditifs et les problèmes de qualité sonore.

 

Normalisation du volume sonore par l'UIT

Cette solution repose sur l'adoption généralisée de la consommation de musique sous forme de fichiers dans divers formats. Tous les appareils de lecture et les serveurs de musique sont en fait des ordinateurs qui peuvent analyser l'énergie perceptive moyenne d'un fichier et ajuster son niveau de lecture en conséquence.

Pour la diffusion internationale, la norme ITU-R BS.1770-2 pour la mesure du volume sonore a récemment été développée. Elle définit le volume sonore équivalent d'un signal audio comme son niveau LUFS, c'est-à-dire les unités de volume sonore par rapport à la pleine échelle.

La norme BS.1770-2 permet de prédire efficacement le volume sonore subjectif. La normalisation du volume sonore basée sur la norme BS.1770-2 est en cours de déploiement à l'échelle mondiale pour la diffusion télévisuelle.

Apple a mis en œuvre avec succès la normalisation du volume sonore dans son algorithme Sound Check pour iTunes et les lecteurs portables pris en charge. Un système ouvert similaire, appelé ReplayGain, est également disponible pour d'autres lecteurs.

L'adoption de la norme BS.1770-2 par ces systèmes serait avantageuse dans la mesure où la normalisation musicale serait alors basée sur une norme internationale unique pour la mesure du volume sonore.

 

Activé par défaut

L'expérience de l'auditeur s'améliore généralement lorsque l'algorithme de normalisation du volume sonore est activé par défaut. Cela facilite également le respect des réglementations visant à prévenir la perte auditive.

L'activation par défaut de la normalisation du volume sonore contribuerait également à mettre fin à la « guerre du volume » dans la production musicale.

Pour éviter que les appareils de lecture ne réduisent le niveau de volume par rapport à celui auquel les auditeurs sont habitués, nous suggérons une autre forme de contrôle au niveau du système, que nous appelons « contrôle de niveau normalisé ».

 

NORM-L (contrôle de niveau normalisé)

Les solutions classiques de normalisation du volume sonore normalisent le matériel de lecture à un niveau sonore cible fixe. Un contrôle du volume séparé, réglable par l'utilisateur, permet de définir le niveau de lecture après la normalisation.

Il s'agit d'un compromis : si le niveau cible est trop bas, le niveau acoustique maximal ne sera pas suffisant dans les appareils fonctionnant sur batterie ; s'il est trop élevé, la normalisation sera compromise ou une distorsion sera introduite.

« NORM-L » (contrôle de niveau normalisé) est une méthode qui permet de pallier les inconvénients des solutions traditionnelles à cible fixe. L'idée derrière NORM-L est que lors de la lecture, le contrôle du volume de l'auditeur définit le niveau de volume cible auquel les fichiers seront ajustés.

La normalisation du volume sonore et le contrôle du volume sont intégrés dans une seule étape de gain. Si cela entraîne un écrêtage du fichier, le gain appliqué est limité de manière appropriée.

(Voir l'annexe 1 pour une description détaillée de NORM-L).

 

Normalisation d'album

La normalisation d'album est une amélioration importante de la normalisation du volume sonore. Bien qu'il soit courant aujourd'hui d'acheter des morceaux de musique à l'unité, la plupart des artistes continuent de sortir leur musique sous forme d'albums. Le volume sonore des morceaux d'un album a été soigneusement équilibré par l'ingénieur du son afin d'optimiser l'impact artistique des enregistrements.

Dans un enregistrement symphonique classique, par exemple, les mouvements individuels ont une relation dynamique distincte les uns par rapport aux autres. Si toutes les pistes étaient normalisées au même volume cible, ces propriétés esthétiques importantes seraient perdues.

Les auditeurs créent souvent des listes de lecture à partir de différents albums. Dans ce cas, les morceaux forts et doux doivent être reproduits au niveau relatif prévu par le producteur ; les morceaux doux ne doivent pas être amenés au même volume sonore que les morceaux forts.

(Voir l'annexe 2 pour plus de détails.)

Je propose que la normalisation des albums soit activée par défaut afin de satisfaire les préférences de l'artiste, du producteur de l'album et de la majorité des situations de lecture.

 

Protection contre les dommages auditifs

En Europe, de nouvelles exigences de sécurité pour les équipements audiovisuels ont été publiées, stipulant que les lecteurs de musique mobiles doivent afficher un avertissement aux utilisateurs lorsque leur audition est en danger.

En intégrant ces exigences dans NORM-L, la conformité automatique avec la législation européenne est assurée tout en offrant la meilleure expérience utilisateur possible.

(Voir l'annexe 3 pour une description plus détaillée et des solutions suggérées.)

 

Annexes

Annexe 1 : NORM-L (contrôle de niveau normalisé)

NORM-L analyse le volume sonore moyen d'un fichier et le stocke avec l'audio sous forme de métadonnées FileLUFS. Le niveau de crête du fichier est également stocké sous forme de métadonnées FilePeak. Le contenu audio du fichier reste inchangé. NORM-L peut être décrit algébriquement comme suit :

Gain = min ( FaderPosition − FileLUFS, −FilePeak )

Où :

  • Gain est le réglage appliqué au matériel de lecture en décibels.

  • FaderPosition est la position physique du contrôle du volume de l'auditeur. La plage de ce contrôle va de MaxFaderPosition au maximum physique à −infini. En d'autres termes, si MaxFaderPosition est de −13 dB, lorsque le fader de l'utilisateur est à son maximum physique, la valeur appliquée au calcul est de −13 dB (voir l'annexe 3 pour les recommandations relatives à MaxFaderPosition).

  • FileLUFS est la mesure du volume sonore du fichier en unités LUFS.

  • FilePeak est le niveau de crête maximal du fichier en décibels par rapport à la pleine échelle numérique.

 

NORM-L Peut être décrit graphiquement comme suit :

Annexe 1 Image 1

 

Le fichier enregistré a un volume sonore moyen mesuré (LUFS), indiqué par une ligne horizontale, un niveau de crête maximal (au sommet de la section rouge) et une plage de volume sonore (LRA) (le segment violet) qui est une mesure de la macro-dynamique d'un enregistrement, c'est-à-dire la différence entre les parties moyennes fortes et faibles.

Cette figure illustre la distribution du volume sonore que l'on peut trouver dans trois genres différents.

Annexe 1 Image 2

 

En raison des différences dans le volume sonore moyen mesuré, il est évident que la lecture successive de ces trois pistes entraînerait des sauts de volume sonore.

Voici un exemple de la manière dont NORM-L résout le problème :

Annexe 1 Image 3

 

Les trois fichiers sont désormais lus avec le même volume sonore. Le niveau de volume sonore du premier fichier était de -8 LUFS et la position du fader NORM-L est à -25, ce fichier sera donc atténué de 17 dB au moment de la lecture. De même, le fichier classique de -20 LUFS sera atténué de 5 dB.

Maintenant, nous augmentons le contrôle de niveau à la position -20 :

Annexe 1 Image 4

 

Même en augmentant le niveau NORM-L de 5 dB, le fichier classique atteint son niveau maximal sans saturation. Les deux autres fichiers disposent encore d'une marge suffisante.

Cependant, la position du fader est désormais réglée sur -15 :

Annexe 1 Image 5

 

Ce réglage entraînerait un écrêtage de la musique classique, c'est pourquoi NORM-L limite sa normalisation pour éviter cela. Dans ce cas, le fichier sera lu efficacement à -20, bien que le fader soit réglé sur -15. La musique classique est lue avec un volume inférieur de 5 dB par rapport aux deux autres exemples, mais elle n'est pas écrêtée.

Une alternative consiste à ajouter un limiteur au périphérique de lecture, comme indiqué ci-dessous :

Annexe 1 Image 6

 

Cela permet à l'utilisateur d'augmenter le volume des pistes dynamiques au-delà du niveau d'écrêtage normal, mais compromet la qualité sonore car le limiteur supprime les transitoires.

La grande majorité des enregistrements musicaux ont un volume sonore moyen mesuré de -16 LUFS ou plus. Par conséquent, les morceaux extrêmement dynamiques, tels que les symphonies romantiques tardives et certains morceaux pop rares, rencontreront ce problème d'écrêtage, mais uniquement si l'auditeur augmente trop le volume.

Pour l'utilisateur, ce nouveau type de contrôle du niveau se comportera de la même manière que celui auquel il est habitué. La seule différence est que toutes les chansons auront le même volume, quel que soit le niveau de crête des enregistrements. Le principal avantage de NORM-L par rapport aux systèmes à cible fixe, tels que Sound Check et ReplayGain, est que la normalisation s'améliore à mesure que le fader est abaissé.

 

Annexe 2 : Normalisation d'album

Toutes les pistes d'un même album doivent recevoir la valeur de métadonnées de la piste la plus forte de l'album, AlbumLUFS. Lorsque cette valeur est disponible, AlbumLUFS doit être utilisée à la place des métadonnées FileLUFS.

Lorsqu'une piste plus silencieuse d'un album est jouée à la suite d'autres pistes, elle recevra toujours le niveau de volume plus faible prévu.

Pour déterminer le gain maximal, le niveau FilePeak est toujours utilisé. Algébriquement, la formule NORM-L devient :

Gain = min ( FaderPosition − AlbumLUFS, −FilePeak )

 

Annexe 3 : MaxFaderPosition, dommages auditifs

Dans le cadre de notre proposition NORM-L, nous recommandons de limiter le contrôle du volume des lecteurs de musique mobiles à une position maximale spécifique du fader. Le même paramètre peut être utilisé pour limiter le niveau acoustique maximal d'une combinaison lecteur/casque, comme l'exigent les nouvelles normes de sécurité en Europe.

Nous distinguons quatre situations.

a) Appareils portables et autres appareils avec un niveau de sortie casque suffisant, non vendus dans la zone euro.

Pour les appareils avec un niveau de sortie suffisant, nous recommandons une position maximale du curseur de volume (MaxFaderPosition) de −13. Les lecteurs bien conçus ont une sortie analogique plus que suffisante pour permettre une position maximale du curseur de volume (MaxFaderPosition) de −13. Une valeur maximale de −13 permet une normalisation efficace pour la grande majorité de la musique écoutée aujourd'hui.

De plus, la plupart des auditeurs ne remarqueront qu'un changement minime, voire aucun changement, dans le niveau sonore lorsque la normalisation sera mise en place. Cela contribuera à faciliter l'adoption et le succès de la normalisation.

Une valeur MaxFaderPosition plus élevée entraînerait une baisse de niveau encore plus faible, mais cela pourrait potentiellement conduire à une grande zone morte en haut du contrôle du volume pour les fichiers à faible volume sonore. Cela conduirait également à une mauvaise normalisation lorsque l'utilisateur règle le contrôle du volume du lecteur au maximum et que la sortie casque est connectée à une entrée ligne alimentant un haut-parleur amplifié externe ou un système automobile.

 

b) Lecteurs MP3 et autres appareils à moindre coût avec un niveau de sortie et une marge dynamique inférieurs, non commercialisés dans la zone euro.

Dans ce cas, nous recommandons la valeur la plus basse possible qui permette encore d'obtenir une sortie acoustique suffisante via les écouteurs fournis. Les valeurs supérieures à −13 fournissent une normalisation inadéquate à des réglages de fader plus élevés.

Comme alternative, les fabricants devraient envisager d'améliorer la capacité de sortie casque de leurs lecteurs afin de fournir un niveau adéquat et une marge dynamique suffisante.

 

c) Sorties ligne ou numériques et connexions sans fil sur les lecteurs mobiles, les systèmes multimédias et les ordinateurs personnels.

Lorsqu'un appareil mobile est placé dans une station d'accueil, le son est souvent diffusé via une sortie ligne numérique ou analogique séparée. Cette sortie est connectée à un amplificateur, qui dispose de son propre contrôle de volume servant de contrôle de volume principal pour le système audio.

NORM-L ne présente ici aucun avantage, et nous recommandons d'utiliser un niveau cible fixe de préférence de −23 LUFS (sur la base du document technique 3344 de l'UER).

Bien que cette valeur puisse sembler faible, les amplificateurs connectés ont généralement un gain plus que suffisant pour compenser, et l'avantage est que même la plupart des musiques classiques seront correctement normalisées en termes de volume sans écrêtage.

Un autre avantage est que lors du passage à des systèmes audiovisuels modernes fonctionnant au même niveau cible, l'utilisateur ne subira aucun saut de volume.

 

d) Protection contre la perte auditive dans la zone euro.

Pour prévenir la perte auditive, les lois internationales prescrivent l'utilisation d'une mesure d'intensité pondérée A et d'une exposition équivalente dans le temps (la dose).

En Europe, un groupe de travail du CENELEC, en consultation avec le Comité européen, a publié une norme pour les appareils portables de lecture de musique, y compris les écouteurs qui les accompagnent. La norme exige qu'un message d'avertissement de sécurité soit affiché lorsque l'intensité dépasse 85 dB SPL pondéré A (dBA).

L'auditeur doit confirmer activement le message avant de pouvoir écouter à des niveaux plus élevés, et en aucun cas la lecture au-dessus de 100 dBA n'est autorisée. Classiquement, la limite de 85 dBA est appliquée en mesurant l'énergie moyenne en temps réel sur une fenêtre de 30 secondes.

Par conséquent, les passages forts dans les enregistrements dynamiques (tels que la musique classique) peuvent déclencher inutilement l'avertissement. Le groupe CENELEC en était conscient et autorise que « si les données relatives au niveau moyen de l'ensemble du morceau sont disponibles, le message peut également être émis dans le cas où le niveau moyen intégré dépasse 85 dBA ».

Pendant la normalisation du volume sonore, la prévention de la perte auditive peut être assurée en calculant une position d'avertissement (WarningFaderPosition) et une position maximale (MaxFaderPosition) par piste qui tiennent compte du niveau pondéré A du fichier.

En mesurant et en stockant le FileDBA (le niveau moyen pondéré A intégré), en plus du niveau de volume sonore FileLUFS, le même mécanisme de métadonnées utilisé pour la normalisation du volume sonore peut également être utilisé pour produire des avertissements de dommages auditifs et des restrictions d'utilisation conformes à la législation européenne.

L'utilisation de FileDBA à la place d'une mesure en temps réel classique présente plusieurs avantages : l'utilisateur peut être averti d'un volume sonore excessif au début d'une piste, plutôt que d'être interrompu au milieu. De plus, le risque de lésions auditives lié au contenu dynamique, tel que la musique classique, est évalué sur le long terme, conformément aux normes et aux lois en matière de protection contre la perte auditive.

La position du fader par fichier à laquelle l'appareil doit afficher un avertissement et le niveau auquel l'appareil limite sa sortie peuvent être décrits algébriquement comme suit :

WarningFaderPosition = 85 − IECLevel + RefnoiseLUFS − FileDBA + RefnoiseDBA

PositionFaderMax = 100 − NiveauIEC + RefnoiseLUFS − FileDBA + RefnoiseDBA

Où :

  • WarningFaderPosition est la position du fader au-dessus de laquelle le lecteur doit afficher un avertissement conformément à la norme EN 60065.

  • MaxFaderPosition est le maximum physique du fader de l'appareil utilisé pendant toute la durée du fichier.

  • IECLevel est le niveau acoustique mesuré selon la norme EN 50332 d'un appareil portable à son gain maximal (NORM-L en bypass) avec ses écouteurs standard en dB(A) SPL.

  • RefnoiseLUFS est le volume mesuré du bruit de référence monocanal EN 50332. Une valeur de −13 LUFS doit être utilisée ici.

  • FileDBA est le niveau pondéré A du canal le plus fort du fichier.

  • RefnoiseDBA est le niveau pondéré A du bruit de référence EN 50332. Une valeur de −12,6 dBA doit être utilisée ici.

Exemple : supposons qu'un appareil puisse produire une sortie acoustique maximale de 104 dBA à partir d'écouteurs d'origine lors de la lecture du bruit de référence. Lors de la lecture d'un fichier dont le canal le plus fort mesure −14,6 dBA,

MaxFaderPosition = 100 − 104 − 13 + 14,6 − 12,6 = −15 devrait être utilisé pour éviter que la sortie ne dépasse la limite de protection contre la perte auditive de 100 dBA.

Les lecteurs portables peuvent être équipés d'une fonction d'égalisation. Si tel est le cas, la norme EN 50332 exige que cet égaliseur soit réglé de manière à maximiser le niveau de pression acoustique et que ce réglage soit utilisé pour établir la limite de 100 dBA.

Étant donné que l'impact d'un égaliseur sur le niveau de pression acoustique dépend du contenu, lorsque l'égaliseur est activé, il n'est plus possible de déterminer avec précision les seuils de 85 dBA et 100 dBA sur la base de FileDBA.

Pour répondre aux exigences de la norme EN 50332, un système doit tenir compte de l'effet des réglages de l'égaliseur. Cela peut être fait en réglant de manière conservatrice WarningFaderPosition et MaxFaderPosition afin de garantir que, en présence d'un égaliseur, les seuils ne soient jamais dépassés.

Les fabricants peuvent également choisir de concevoir l'égaliseur de manière à ce qu'il n'amplifie jamais le niveau sonore à aucune fréquence ; pour obtenir une amplification, tout le reste est coupé. Un avantage supplémentaire de cette dernière méthode d'égalisation est que le système ne peut pas être surchargé avant le contrôle du volume.

En suivant cette règle, l'appareil audio portable se conforme automatiquement au niveau acoustique maximal de 100 dBA spécifié dans la norme EN 60065, et toute marge supplémentaire disponible est utilisée pour améliorer l'efficacité de la normalisation.

Il convient de noter que dans ce cas, la fonction NORM-L ne doit pas pouvoir être désactivée par l'utilisateur, sinon l'appareil deviendrait illégal. Dans les pays de l'UE, où la sortie des appareils a jusqu'à présent été limitée pour se conformer à la loi, les enregistrements plus anciens et les genres non compressés, tels que la musique classique, peuvent à nouveau être lus avec un volume sonore adéquat.

 

Annexe 4 : Analyse du volume sonore

Quand et où le volume sonore doit-il être analysé dans le fichier ? En fin de compte, cette décision revient aux fabricants de lecteurs. Voici quelques options :

  • par la maison de disques ou le studio de mastering

  • au point de vente (iTunes Store ou autre boutique en ligne)

  • dans le serveur multimédia (iTunes dans le contexte des produits Apple, par exemple)

  • dans le lecteur portable lui-même.

Les métadonnées provenant d'une source inconnue ne sont pas fiables. À moins que la source ne soit sécurisée (comme iTunes), nous vous conseillons de laisser le lecteur portable effectuer lui-même l'analyse, car celle-ci ne doit être effectuée qu'une seule fois. La consommation d'énergie de la batterie peut être une raison pour effectuer la normalisation du volume sonore du contenu en dehors du lecteur. Encore une fois, cette décision revient en fin de compte aux fabricants.

 

Technologie de réduction du bruit (introduction)

L'intelligibilité de la parole humaine joue un rôle crucial dans la communication, car elle sert à la fois de mesure du confort et de la compréhension.

La qualité et l'intelligibilité de la parole ne sont pas seulement déterminées par les caractéristiques physiques de la parole elle-même, mais aussi par les conditions de communication et la capacité d'information, ainsi que par la capacité à tirer des informations du contexte, des mimiques et des gestes.

Lorsqu'on parle d'intelligibilité, il est important de comprendre la différence entre la parole réelle et la parole enregistrée.

Au cours d'une conversation réelle, une personne peut reconnaître les sons environnants et se concentrer sur la parole d'une autre personne, filtrant ainsi les informations souhaitées à partir de divers environnements audio. Par conséquent, la capacité d'un être humain à reconnaître et à filtrer les sons améliore considérablement l'intelligibilité et la compréhension de la parole, même dans des environnements, des situations ou des conditions bruyants.

L'écoute d'un discours enregistré est une situation différente. L'équipement d'enregistrement ne se concentre pas sur certains flux audio (à moins qu'il ne s'agisse d'un microphone canon spécialisé) et enregistre de manière impartiale tout ce qui se passe dans le spectre audio. En conséquence, nous recevons une « image plate » de tous les sons enregistrés, ce qui rend souvent le discours inintelligible, faible et noyé dans le bruit.

D'autres raisons peuvent expliquer pourquoi les enregistrements vocaux peuvent être indistincts et déformés, notamment les limitations techniques du matériel d'enregistrement, des microphones mal placés ou défectueux et des difficultés objectives à enregistrer un son « propre » de haute qualité.

Les technologies d'enregistrement audio étant de plus en plus utilisées depuis le milieu du XXe siècle, la demande en matière de traitement audio et de réduction du bruit a également augmenté de manière exponentielle. Même aujourd'hui, alors que les équipements audio ont moins de limitations et permettent une meilleure qualité, la suppression du bruit reste une nécessité absolue, en particulier dans des domaines tels que la sécurité et l'application de la loi.

Les services de police, l'armée et les services de sécurité nationale utilisent principalement des enregistrements ouverts et secrets de communications vocales, qui peuvent constituer un élément crucial dans les enquêtes et les opérations de renseignement. Il va sans dire qu'un enregistrement audio peut parfois être la seule preuve d'une menace pour la sécurité ou d'un crime, et peut donc devenir un élément clé dans l'analyse de l'affaire ou le procès qui s'ensuit.

Dans ces cas, il est important que la parole soit claire et facilement compréhensible afin de garantir qu'aucune information essentielle ne soit perdue. De plus, l'intelligibilité des preuves audio est essentielle pour les procédures judiciaires, car elles pourraient autrement être exclues de l'examen.

Améliorer l'intelligibilité d'un signal vocal, réduire le bruit et compenser les distorsions sont les principales tâches de la technologie de réduction du bruit, qui est actuellement disponible grâce à divers logiciels et matériels.

Cet article de recherche vise à discuter des principes fondamentaux de la technologie de réduction du bruit, de ses méthodes et de ses objectifs.

 

Classification des obstacles audio

Pour comprendre les bases de la technologie de réduction du bruit et appliquer avec succès ses méthodes dans la pratique, il est essentiel de reconnaître les différents obstacles audio, leurs différences et leurs caractéristiques uniques.

En général, tous les obstacles audio sont divisés en deux catégories principales : les bruits et les distorsions. Si l'on considère la parole humaine originale dans un enregistrement comme un signal utile, toutes les informations supplémentaires qui diminuent la qualité d'un signal utile sont des bruits. Tout ce qui modifie le signal utile original lui-même est considéré comme une distorsion.

Les bruits sont principalement caractérisés par les domaines temporel et fréquentiel.

Dans le domaine temporel, les bruits peuvent être :

  • Des bruits continus, qui changent lentement, comme le bruit d'un bureau, d'équipements industriels, du vent, de la circulation, le sifflement d'un vieux disque ou d'une mauvaise ligne téléphonique.

  • Discontinus, répétés, généralement des bruits tonaux comme les klaxons, les bips ou les sonneries.

  • Bruits pulsés, brusques, généralement dissonants et parfois forts, tels que des cliquetis, des bruits de pas, des coups de feu, des détonations et des coups sourds.

 

Dans le domaine fréquentiel, les bruits peuvent être :

  • Des bruits à large bande, présents à de nombreuses fréquences, tels que les sifflements ou les grésillements de fond.

  • Des bruits à bande étroite, qui représentent un ensemble de certaines fréquences, des ondes sinusoïdales assez stables : bourdonnements, ronronnements d'alimentation électrique, bruits d'équipements (perceuses, tronçonneuses) et bruits de moteurs de machines.

 

Les distorsions sont des modifications du signal vocal utile qui en diminuent la qualité. Lorsque des distorsions se produisent, certaines parties du signal vocal changent et deviennent nouvelles, et parfois inacceptables.

Les distorsions typiques au niveau acoustique sont les effets de réverbération et d'écho.

Des distorsions se produisent également lorsque le signal acoustique (parole) se transforme en signal électrique et rencontre diverses limitations techniques, telles que :

  • Filtrage du signal audio causé par une mauvaise réponse en fréquence de l'équipement d'enregistrement ou du canal de communication.

  • Perte de données utiles causée par une gamme dynamique étroite.

  • Effet de débordement, qui se produit lorsque l'amplitude du signal acoustique est supérieure à l'amplitude que le microphone peut traiter.

  • Les distorsions harmoniques totales, qui sont les tonalités supplémentaires (harmoniques) qui masquent les composants réels du signal et le rendent indistinct et incompréhensible.

  • Enregistrement des données audio dans un format compressé avec perte.

En général, la technologie de réduction du bruit permet de traiter ce type de distorsions ; cependant, certains types de distorsions peuvent détruire les informations utiles et ne peuvent pas être restaurées lors du traitement ultérieur du signal.

 

Méthodes de réduction du bruit

Le processus de réduction du bruit soulève de nombreuses questions concernant différents domaines scientifiques (traitement numérique du signal, acoustique, psychoacoustique et physiologie) et techniques (programmation, construction, etc.).

Son efficacité dépend de la correspondance entre la méthode de traitement et le type d'interférence audio. Chaque méthode de filtrage numérique est plus efficace pour un type de bruit spécifique.

C'est pourquoi il est nécessaire de connaître, au moins de manière générale, les types d'interférences audio qui affectent un enregistrement audio afin de choisir une méthode de traitement appropriée. On peut identifier l'interférence audio dans l'enregistrement soit par le son spécifique du signal bruyant, soit en analysant son spectre et sa forme d'onde.

Divers bruits et distorsions peuvent parfois sembler similaires ; par conséquent, la méthode la plus courante pour identifier une perturbation audio consiste à analyser le spectre et la forme d'onde. Comme les caractéristiques du bruit changent généralement au fil du temps, il est nécessaire d'utiliser une méthode de traitement spéciale qui permet un ajustement automatique aux caractéristiques du bruit.

Les algorithmes de filtrage numérique qui peuvent s'adapter à un type spécifique de distorsion audio sont appelés algorithmes de filtrage adaptatif.

SpeechPro Inc. utilise largement des algorithmes adaptatifs de nouvelle génération dans ses produits matériels et logiciels :

  • Filtrage adaptatif à large bande

  • Filtrage inverse adaptatif

  • Compensation de fréquence

  • Filtrage impulsionnel

  • Traitement dynamique

  • Traitement stéréo

 

Filtrage adaptatif à large bande

Le filtrage adaptatif à large bande repose sur un algorithme de fréquence adaptatif. Cet algorithme est conçu pour supprimer les bruits à large bande et périodiques dus aux captations électriques ou aux vibrations mécaniques, aux bruits ambiants et de la rue, aux interférences des canaux de communication ou des équipements d'enregistrement. Ces bruits peuvent se présenter sous forme de bourdonnements, de grondements, de sifflements ou de rugissements.

La méthode de filtrage à large bande comprend généralement deux procédures de traitement : la soustraction adaptative du bruit spectral, qui améliore la parole, et l'extraction adaptative du bruit de fond, qui sépare l'environnement acoustique de fond du signal utile. Il est pratiquement impossible de supprimer ces bruits à l'aide d'autres méthodes, car ils sont répartis sur l'ensemble du spectre et interfèrent avec le signal vocal.

Conversation enregistrée entre deux personnes dans une rue bruyante :

Filtrage adaptatif à large bande

 

Filtration inverse adaptative

La filtration inverse adaptative est basée sur l'algorithme de correction spectrale adaptative, également appelé lissage spectral adaptatif. Elle supprime les bruits périodiques forts provenant des capteurs électriques ou des vibrations mécaniques, permettant ainsi de récupérer la parole et d'égaliser le signal.

Il amplifie les composants les plus faibles du signal tout en supprimant les plus forts. Le spectre moyen tend donc à se rapprocher du spectre plat, ce qui améliore le signal vocal et sa compréhensibilité. Cependant, les bruits à large bande deviennent généralement plus forts, ce qui rend la perception du signal moins agréable.

Cela signifie que vous devez vous efforcer de trouver un équilibre entre la réduction du bruit et la perception de la parole.

 

Compensation de fréquence

La compensation de fréquence utilise l'algorithme de filtrage adaptatif Widrow-Hoff de compensation adaptative à un canal. Elle est particulièrement efficace pour les interférences stationnaires à bande étroite.

Le filtre s'ajuste en douceur, tout en conservant la qualité sonore de la parole. La compensation de fréquence dans ce processus fournit également une compensation adaptative dans le domaine temporel. Elle permet d'éliminer à la fois les interférences stationnaires à bande étroite et les interférences régulières (vibrations, captations de lignes électriques, bruits d'appareils électriques, musique constante, bruits de la pièce, du trafic et de l'eau, réverbération, etc.

Son principal avantage réside dans sa capacité à préserver le signal vocal bien mieux que les autres filtres. Étant donné que les interférences audio ne peuvent parfois être supprimées que partiellement, il est possible d'utiliser la compensation de fréquence plusieurs fois.

Bruit de ligne électrique masquant la conversation entre deux personnes :

Compensation de fréquence


 

Filtre impulsionnel adaptatif

Le filtre impulsionnel adaptatif restaure automatiquement les fragments vocaux ou musicaux déformés et masqués par diverses interférences impulsionnelles telles que des clics, des bruits radio, des coups, des coups de feu, etc. Les algorithmes de filtrage impulsionnel adaptatif améliorent la qualité du signal en supprimant les impulsions de signal fortes, ce qui permet de démasquer le signal audio utile et d'améliorer son intelligibilité.

Pendant le filtrage impulsionnel, il remplace les impulsions par des signaux interpolés lissés et affaiblis. Si l'algorithme ne détecte pas d'impulsion, il laisse le fragment intact. Il ne supprime pas non plus les interférences tonales et les bruits à large bande.

Conversation téléphonique mise sur écoute perturbée par les bips d'une autre ligne :

Filtre impulsionnel adaptatif

 

Traitement dynamique du signal

Le traitement dynamique du signal améliore l'intelligibilité de la parole lorsque les fragments de signal diffèrent considérablement en termes de niveau, en particulier dans des cas tels que les coups résonnants (c'est-à-dire les impulsions longues) et les bruits ambiants. Les algorithmes de traitement dynamique améliorent et affinent le signal audio, en supprimant les impulsions et les clics puissants, et en réduisant la fatigue de l'auditeur lors d'enregistrements audio longs.

 

Filtrage stéréo

Le filtrage stéréo est l'une des dernières innovations en matière de technologie de réduction du bruit. Dans certains cas, le problème de la suppression du bruit peut être résolu à l'aide d'une surveillance des informations audio à double canal et d'un filtrage adaptatif à double canal (filtrage stéréo). Cette méthode est toutefois plus sensible au processus d'enregistrement audio et à sa qualité, car elle nécessite une utilisation plus précise de deux microphones ou plus.

Il existe deux méthodes de filtrage stéréo : le traitement du signal à deux canaux et le filtrage stéréo adaptatif.

Dans le premier cas, le son de chaque canal est traité indépendamment. Dans le second cas, les données acquises à partir d'un canal (le canal de référence) sont utilisées pour filtrer le signal du second canal (le canal principal).

Le filtrage stéréo est efficace pour réduire la musique de fond et le bruit de la foule, améliorant ainsi le signal vocal utile pour les enregistrements dans de grandes salles, telles que les halls, les restaurants et les théâtres.

 

La gamme de produits SpeechPro a la solution

Parmi les éléments clés des systèmes experts de SpeechPro figure un logiciel unique de nettoyage du son qui a remporté le premier prix d'un concours d'amélioration audio organisé par l'Audio Engineering Society (AES) en 2008.

Les systèmes experts de SpeechPro ont été très appréciés par des experts mondiaux en analyse audio médico-légale et ont été adoptés par les forces de l'ordre aux États-Unis, en Europe et en Amérique latine.

Les systèmes automatiques sont des dispositifs compacts de filtrage du bruit et d'amélioration de la parole en temps réel qui peuvent être très utiles à la police, aux équipes de surveillance, aux détectives privés, aux laboratoires médico-légaux et à d'autres organismes chargés de l'application de la loi. Ils peuvent être utilisés en temps réel pour améliorer la qualité du son et de la parole pendant l'enregistrement ou l'écoute sur le terrain.

De plus, les solutions matérielles de SpeechPro peuvent présenter un grand intérêt pour les ingénieurs du son travaillant dans le domaine du traitement mobile des données audio enregistrées et de la diffusion, en particulier dans le mastering « en direct » d'interviews et de reportages.

Mobiles et compacts, ces appareils sont efficaces contre les interférences des canaux de communication, les équipements de bureau, les moteurs industriels et automobiles, le trafic routier, les bruits environnementaux, la musique de fond, les sifflements et les grondements, les réverbérations et les effets d'écho. Ils fournissent également des méthodes de traitement stéréo à l'aide d'algorithmes par canal de référence.

Les solutions de R&D en matière de réduction du bruit sont présentées sous forme de bibliothèques multiplateformes, d'ajustement automatique/manuel des algorithmes et d'implémentation en temps réel/post-traitement intégrée/sur station de travail.

Les fonctionnalités de réduction du bruit du SDK SpeechPro comprennent :

Filtre/annuleur de bruit à large bande ; égaliseur (EQ), égaliseur graphique, égaliseur adaptatif, égaliseur paramétrique ; contrôle de la gamme dynamique, limiteur de niveau sonore ; contrôle automatique du gain ; contrôle du niveau, amélioration du niveau vocal ; Traitement dynamique Punch & Crunch ; protection contre les chocs acoustiques, atténuateur/limiteur de chocs adaptatif [DSP-factory] ; filtre de rejet harmonique : COMB adaptatif et fixe ; filtration des sifflements.

 

Rappelez-vous les principes de la réduction du bruit

En général, les méthodes de réduction du bruit ont été développées pour extraire le signal utile de divers types de perturbations audio.

L'approche standard de la réduction du bruit repose sur le principe consistant à supprimer les composants sonores parasites inutiles et à restaurer les paramètres déformés à leurs valeurs typiques.

L'objectif le plus courant de la suppression du bruit est le démasquage du signal utile, c'est-à-dire la suppression des composants du signal bruyants dans les zones où les perturbations sont fortes et où le signal utile est faible, et l'amélioration des composants où le signal utile est maximal.

Ainsi, les principes de base des technologies de réduction du bruit sont les suivants :

  • Démasquer le signal vocal utile dans les domaines temporel et fréquentiel, en tenant compte des propriétés psychoacoustiques de l'audition humaine.

  • Supprimer différents types de bruits de fond afin de réduire la fatigue lors de l'écoute.

  • Réduire la bande passante du signal et supprimer les bourdonnements à basse fréquence et les sifflements à haute fréquence.

  • Lisser les pics élevés et réduire l'amplitude du signal audio pendant les pauses sans parole.

  • Supprimer ou réduire l'amplitude des interférences pulsées et autres sons extérieurs intenses.

  • Suppression des obstacles réguliers à évolution lente : musique, bruit de la circulation et bruits industriels, réduction de la réverbération (effets d'écho).

  • Lissage du spectre du signal.

  • Soustraction supplémentaire des interférences à bande étroite.

  • Suppression des bruits additifs à large bande (bruit de bande, de radio, de téléphone et de microphone).


Keywords: loudness normalizationLUFSITU-R B.1770-2ReplayGainApple Sound Checkalbum normalizationdynamic rangeloudness warportable audiohearing damageNORM-LFileLUFSFilePeakA-weighted dBAEU hearing protectionMaxFaderPositionEBU Tech 3344