“More art, Less noise”, “Democracy for Listeners”.
Pas besoin de vous faire un dessin. Depuis quelques années d&b a mis les gaz sur le son de demain, celui qui n’oublie personne et séduit tout le monde.
Officiellement lancé à l’ISE de cette année et reproposé à Francfort avec force ateliers et écoutes, Soundscape n’est autre que l’immersion vue par les ingénieurs de d&b, la réponse ultime après l’Array Processing de gâter un auditoire, et la plus belle façon de renouveler le principe de diffusion, de mixage, voire de composition, et accessoirement aussi de vendre des boîtes !

Marcus Baümler à gauche et Ralf Zuleeg à droite. Ils sont à Soundscape ce que Werner Bayer et Matthias Christner sont à la série SL. Et on se marre autant !
Nous avons eu le plaisir de découvrir Soundscape en compagnie de Ralf Zuleeg, qui l’a pensé et mis au point, et de Marcus Baümler, qui en est le chef produit et un très fin connaisseur de cette technologie qui a pris 5 ans à être mise sur pied. L’interview et l’écoute se sont déroulées à Backnang au siège de d&b où une salle spécifique de démo et de travail de développement a été créée.
[private]
Rapidement et pour ceux qui n’auraient pas encore côtoyé cette technologie, l’immersif est une nouvelle façon, non seulement de diffuser une œuvre dans un espace ouvert ou clos, mais aussi de la penser et surtout de la mixer. Le terme mixer pourrait d’ailleurs être remplacé par -composer sa diffusion spatiale et dynamique-, cette « composition » pouvant être une partie intégrante de la création et pas un simple gadget de dernière seconde. Le mixage ne disparaît pas pour autant, il faut toujours une captation, une mise en forme des signaux et un équilibrage entre eux, mais la ressemblance s’arrête là. Mixer en immersif offre d’infinies possibilités que ni la mono, efficace et cohérente, ni la stéréo, plus généreuse mais interférente, ne peuvent même approcher.

Markus et Ralph dans le Hall 14 qui leur est entièrement dédié et où réside une configuration à 360° de Soundscape.
Travailler du son en immersif, signifie raccorder à nouveau visuellement un son avec un instrument, sans perdre ni SPL ni impact, et éventuellement le suivre dans ses déplacements sur scène et même en dehors. Pour ceci faire, l’idée consiste à déployer un certain nombre d’enceintes à la verticale du plateau, voire à étirer au-delà de ce dernier pour l’élargir, et à éventuellement compléter ce dispositif dit à 180°, par des outfills.
Mais on peut tout aussi bien ajouter un ensemble de petites enceintes ceinturant le public pour diffuser à 360° un signal recréant une acoustique de salle ou des effets simples, ou enfin choisir des enceintes plus puissantes pour y faire vivre une partie plus importante du show. Par exemple un musicien qui partirait avec sa guitare dans le public. Le système principal à la face est enfin complété par des rappels sur le nez de scène pour déboucher les premiers rangs et garder l’image à la bonne hauteur, et par un ensemble de subs venant compléter le rendu dans le bas du spectre.
L’immersion de Ralf
Cette intro étant faite, retrouvons Ralf, pour mieux comprendre sa vision du son et sa réponse au problème qui tarabuste les fabricants d’enceintes comme les ingés son depuis des lustres.

Ralf Zuleeg. Aussi brillant par sa façon de rendre accessible un concept que d’en faire du son, et du bon.
Ralf Zuleeg : La stéréo me pose problème depuis toujours et c’est au début des années 2000 que la puissance de calcul ayant fait des pas de géant, j’ai décidé de chercher une solution. Comme vers 2010 je travaillais dans une petite salle de spectacle de Stuttgart bien équipée où venaient des artistes parfois de renom, je me suis livré à des expériences en multi voies.
C’est aussi dans cette salle où j’ai compris que plus que le système, la limite était le technicien. Plus il était compétent et formé, plus il s’enfermait dans une configuration qu’il maitrisait et entendait depuis toujours, perdu qu’il était face à ma configuration multivoies. J’ai donc eu l’idée un soir de mettre derrière la console mon stagiaire, un garçon compétent et naturellement pas encore imprégné par le passé. Et ça a marché. Il a mis en pratique ses idées dans le système, profitant des possibilités offertes par ce dernier.
Ce soir-là, je n’ai jamais vu autant de personnes quitter la salle le pouce levé. Je suis donc reparti chez d&b convaincu, et on a bossé quelques années pour peaufiner, structurer et industrialiser tout ça. Mais cette idée appartient à tout le monde et j’ai le sentiment de participer à une croisade afin d’aller au-delà de la vieille stéréo. Le public paie des fortunes pour un résultat insuffisant et de toute façon, comme le dit le dicton de la profession, « cela n’a aucun sens de jouer plus fort, et si on jouait différemment » ? Je suis à peu près convaincu que dans 5 ans, on ne parlera plus de systèmes de diffusion d’ancienne génération.

Ralf nous montrant, VP à l’appui, ce que donne l’amoncellement de sources sonores dans un seul fil. « Monsieur j’ai la pique de votre contrebasse dans la tête ! » On appelle aussi couramment cela un mix mono. Admirez les 5 lignes de Y12, les Y-Sub au sol, les T10 posés dessus et enfin et non visibles, les Y10P sur les côtés.
La logique de Ralf est implacable, sa démonstration l’est tout autant. Il nous propose un quatuor voix, contrebasse, guitare acoustique et trombone très bien enregistré. Bien entendu il commence en mono via la ligne centrale de sa diffusion et des subs en mono. C’est cohérent, droit et propre, mais comme le précise Ralf, on met tout sur un fil unique ce qui conduit à des interférences dès que des sons à fréquences égales se retrouvent en opposition de phase. Dans un monde à une seule dimension, ces annulations sont irréversibles et conduisent le mixeur à jouer du fader pour mettre nettement en avant les sources importantes, une à la fois, afin de leur donner par exemple du poids lors d’un chorus.

Un graphique Ease démontrant la portion d’audience en mesure de bien percevoir l’effet stéréo dans une salle. En blanc. A part le mixeur et les spécialistes qui savent et se placent pile sur l’axe central…
Ralf nous propose alors le même quatuor en stéréo en jouant avec les lignes 1 et 5 en lieu et place de la seule 3. Ouf, ça respire et le son gagne en naturel. La théorie de la mono qui abîme fréquentiellement est évident, il y a moins d’accidents, mais la zone idéale où la voix se recompose en un point central virtuel est minuscule. Dur…
Arrive enfin la délivrance, le système est basculé en mode immersif, employant simultanément 5 lignes de 5 Y12 en accroche et un arc de 7 Y-Sub chacun surmonté d’une T10. Le résultat sur ce même quatuor est splendide de naturel.
Chacune des 4 sources sonores trouve naturellement sa place dans l’espace dans une image large, logique et offrant un sentiment de profondeur et de détail qui nous pousse à fermer les yeux pour mieux l’apprivoiser. On est proche du rendu tel qu’il devrait être à savoir que chaque élément du quatuor est localisable sur scène et le son semble provenir de lui ou de son ampli. Encore plus fort, on a beau se déplacer du lointain vers le champ proche et de cour à jardin, la localisation de chaque source ne bouge pas. Les Y et les T collaborent en timbre (remarquable calage vue la différence d’âge entre les deux systèmes) mais surtout sont 100% contributifs.
C’est la première fois que j’entends des lip fills aussi utiles pour tirer l’image vers le bas, et en même temps complémentaires dans leur action. A 50 cm de la scène où à 20 mètres, la chanteuse est tout simplement au centre et à 2 mètres de haut. Collés à la scène, la sommation Y & T est une réalité qui évite que l’image sonore ne bascule dans les genoux avec les T placés assez bas.
Quand on s’éloigne dans l’axe, on ne perd pas les T au bénéfice des Y, l’image basculant en l’habituelle douche. L’image ne bouge pas. Quand on se déplace d’un côté à l’autre du plateau sans s’éloigner du nez de scène, la voix ne perd que très peu d’énergie et de précision sans jamais quitter le centre. L’effet de spatialisation et d’immersion est bluffant sans générer le moindre artefact ou accident temporel, filtre en peigne ou rotation de phase. Bien sûr le calage dans cette salle a été peaufiné à l’extrême, mais de toute évidence l’algorithme marche remarquablement bien.
DS100. Y’en a là-dedans..
Revenons à présent à un peu de technique. Soundscape repose sur un processeur, le DS100, qui est improprement appelé matrice. Certes il remplit aussi ce rôle, mais au-delà de brasser corriger, retarder et router des canaux audio rentrants et sortants en 64×64 au format Dante, il embarque une puissance considérable qui est exploitée pleinement avec les deux programmes optionnels ayant chacun une fonction précise, En-Scène et En-Space. Ces deux modules pilotent les fonctionnalités de la matrice en plus d’offrir des fonctions spécifiques qui peuvent s’additionner.
En-Scène
En-Scène sert à positionner des objets sonores virtuels où l’on veut, que ces derniers soient statiques ou en mouvement et qu’ils soient sur scène ou bien, en cas de fonctionnement en mode 360° et avec les enceintes nécessaires, partout dans la salle. En-Scène, et je reprends ici l’excellente définition qu’en fait Mathieu Delquignies en charge du support application et de la formation chez d&b France, est une sorte de panoramique vectoriel qui s’applique à toutes les enceintes constituant le système de diffusion.
En-Space
En-Space est un très, très puissant processeur capable de recréer par convolution en temps réel et sur les 64 sorties, une acoustique virtuelle et à la fois bien réelle puisque modélisée dans des salles de différentes tailles et couleurs. A cet effet ce module est livré avec 6 espaces acoustiques dans trois tailles différentes où la part belle est donnée aussi aux premières réflexions. Avec En-Space l’acoustique d’une salle de concert peut être reproduite très simplement dès lors que celle qui va l’accueillir a des caractéristiques nettement « inférieures » à celle émulée, par exemple son TR.
Comment marche En-Scene

Une configuration comportant un déploiement En-Scene à 360° et 4 Function groups ou groupes de fonction matérialisés par des couleurs.
Tout d’abord et suivant en cela la volonté du fabricant allemand de garder une suite logique dans l’exploitation de ses systèmes, Soundscape est intimement intégré à R1, le logiciel de télécommande de d&b, nous verrons après comment. Une fois créée la salle dans ArrayCalc en gardant l’option Soundscape et Audio Networking cochées, il faut définir les zones où les objets pourront être placés ou pourront se mouvoir, zones qui peuvent aller bien au-delà de la scène seule si vous optez pour un fonctionnement En-Scene à 360° et que vous ajoutez un ensemble d’enceintes en périphérie de la salle.
Bien entendu il est aussi possible de se limiter à une couverture plus traditionnelle en optant pour En-Scene à 180°. La définition de cette zone de station et mouvement des objets est importante puisqu’elle permettra de faire parler avec les coordonnées identiques à celles d’En-Scene, tout type d’application externe communiquant par OSC avec le DS100, on pense à un système de positionnement 3D en temps réel comme à un plug VST/AU dans une station de travail.
Le Functions groups ou groupes fonctionnels, sont des modes de fonctionnement, des sortes de rôles pré établis pour les ensembles de diffusion, qui disposent chacun d’un algorithme différent. Le graphique ci-dessous en montre 9 avec dans la case Mode leur fonction, et dans celle Remarques, la description de leur mode de fonctionnement.
Comme vous pouvez le voir, tous les cas de figure sont pris en compte avec, par exemple, deux types de subs. Le premier peut être défini comme étant le renfort de grave d’une ligne, localisable et est appelé Sub Group. Le second en revanche est un véritable sub en mono et est destiné à renforcer la dernière octave sans aucune localisation vu son placement et les fréquences en jeu. Il est appelé Sub Array.
Une fois effectué votre design, une estimation du SPL doit être effectuée individuellement pour chaque source sonore (individuelle ou ligne entière) afin d’en vérifier la pression max, ceci à cause de la nature même de Soundscape qui n’utilise qu’une partie des ressources disponibles. L’alignement du système doit aussi être effectué au travers de la matrice DS100 et pas en utilisant les ressources des amplis, ceci pour permettre d’exploiter pleinement le principe de spatialisation d’En-Space qui emploie à la fois l’amplitude et des délais, déduits entre la position de l’objet et celui de la source qui le diffuse.
Spatialisation
Cette spatialisation peut être choisie individuellement pour chaque objet : Off, Tight et Full.
-
- En Off, n’est employée qu’une méthode de pondération de niveau, le délai étant celui réglé lors de l’alignement de la diffusion.
-
- En Tight, l’algorithme d’En-Space applique en plus de la pondération de niveau aussi un délai spécifique par objet mais minimisé, une solution idéale en présence de sources enregistrées et/ou électroniques et donc sans un positionnement spatial marqué sur scène.
- En Full, la position par défaut, niveau et délai sont utilisés mais cette fois-ci le délai appliqué tient automatiquement compte du placement géographique de l’objet sur scène et applique par déduction un retard afin que la somme entre la source acoustique et celle amplifiée soit cohérente. Full offre donc une parfaite clarté puisque, où que l’on se trouve, la diffusion est en phase avec la source.
L’algorithme d’En-Scene prend en compte les effets psycho acoustiques et les effets des combinaisons acoustiques des sources pour calculer la fonction de transfert à appliquer à chaque sortie de la matrice DS100. Le maintien de la règle de précédence où la source entendue en premier permet la localisation, offre une localisation précise des objets, tandis que la distribution de l’énergie en fonction de la position permet de conserver un niveau de pression acoustique et une balance tonale uniforme.
Il est bien entendu indispensable que chaque enceinte ou groupes d’enceintes composant le « main » mais aussi le « frontfill » en jargon Soundscape, soit en mesure de couvrir très largement et très régulièrement l’ensemble de l’auditoire puisque le principe même d’immersion implique que les objets arrivent avec leur trajet, donc leur temps et leur niveau aux oreilles du public où qu’il se trouve et quelle que soit l’enceinte ou l’ensemble d’enceintes qui reproduisent cet objet.
Outre le choix de modèles ayant une dispersion très large et régulière, il en existe plusieurs dans le catalogue d&b, l’Array Processing peut être d’un grand secours en lissant et uniformisant la zone de couverture. Une dernière commande appelée Spread distribue le son d’un objet au-delà, d’un seul des 5 points d’émission du système principal. Cet élargissement ou diffusion en français des objets retire un peu de précision en termes de localisation mais apporte une fusion, par exemple, d’éléments comme les voix d’un chœur ou évite aux retours effets d’être trop facilement localisables.
Les Objets
Les objets sonores sont au nombre de 64, comme les entrées et les sorties de la matrice DS100, et peuvent librement prendre place, via un écran spécifique de R1 qui les commande, sur la Positioning view, une sorte de table de travail où l’on fixe sa spatialisation x-y.
Chaque objet peut donc être situé précisément à l’aplomb de son instrument ou groupe d’instruments à la fois sur le plan horizontal, comme sur celui vertical, vertical signifiant en profondeur, en avant près du nez de scène ou bien tout à l’arrière. Pour le moment Soundscape ne gère pas le plan Z qui correspond à la verticalité qui pourrait être, par exemple, un son qui tomberait du ciel, mais cette fonction est dans les tuyaux.

Le placement très aéré d’un orchestre de variété où même les différents fûts de la batterie sont individualisés. Le dernier clavier à gauche et le sax à droite sont écartés à fond les ballons.
Cette Positioning view peut être multipliée comme les snapshots d’une console afin, dans le cas d’un concert de variété, de pouvoir modifier la spatialisation en fonction des morceaux.
Et bien entendu les mouvements des objets peuvent être pilotés en OSC, y compris pour suivre de manière dynamique et inaudible en termes d’artefacts, le déplacement de la source visuelle du son.
A l’instant où l’on tape cet article, Soundscape est intégré dans QLab et les objets peuvent s’animer grâce à Stagetracker II et ce n’est vraisemblablement qu’un début.
En-Space
En-Space est l’autre moitié de Soundscape, celle qui en quelque sorte finit le boulot. Signalons tout de même que simuler les caractéristiques sonores une salle, nécessite que celle où l’on reproduit les caractéristiques stockées, soit plus mate et plus « courte » pour permettre de bien entendre cet effet d’enveloppement et de construction d’un rendu crédible. Six salles sont pour le moment modélisées, par couples moderne / classique. Deux petites de jauge 250 places avec des TR de moins de 2 sec. Deux moyennes de 600 places avec des TR de 2 sec, et enfin deux grandes de presque 2000 places assises avec des TR d’environ 2,5 sec.

Le palais de la culture et des congrès de Lucerne en Suisse avec sa réponse T40 moyenne et sur le graph du dessous, celle effectuée par chaque micro. Une salle ayant été modélisée par d&b et d’un rendu idéal pour un orgue avec une remontée idéale pour gonfler à l’hélium les gros tuyaux.
EnSpace utilise 144 réponses mesurées dans 64 positions qui correspondent peu ou prou à l’emplacement d’une configuration à 360°. Cela permet de reproduire au mieux les premières réflexions si importantes pour construire le ciment sonore qui, par exemple, unit le son des différentes composantes d’un orchestre classique.

Des salles avec des propriétés très précises et convenant particulièrement à l’obtention de belle ambiances très réalistes et naturelles. Lucerne seule se distingue par son TR généreux dans l’extrême grave.
Pour ça, En-Space peut générer jusqu’à 144 process simultanés de convolution en temps réel (le processeur DS100 ne demande que 1,6 msec) avec au bout, une répartition comme suit : 32 moteurs pour le main et les outfills, 18 moteurs pour les frontfills, 80 pour les surround et enfin 14 pour les ceiling.
Cette distribution de ressources est automatique de telle sorte à ce que chaque enceinte raccordée aux 64 sorties potentielles, reçoive ce qui correspond le mieux à sa place et à sa fonction.
Autant nous avons pu découvrir et apprécier En-Scene, En-Space n’a été proposé qu’assez brièvement, nous ne sommes donc pas en mesure de nous prononcer au-delà de cette présentation succincte, ceci étant dit, son potentiel est très vaste.
Rien ne vous empêche par exemple dans une salle où se produit un orchestre classique amplifié, d’insérer un orgue échantillonné ou un orgue transportable de petite taille, en lui donnant par la suite un gros volume et une spatialisation d’église. Bien entendu tous les concerts en plein air retrouveraient une salle virtuelle, je pense par exemple à un Violon sur le Sable même si le déploiement des compléments latéraux et arrière ne serait pas de tout repos vu la taille de la zone d’écoute.
Enfin il est imaginable de redonner leurs lettres de noblesse aux projections de concerts dans les salles de cinéma pour des retransmissions en direct d’opéras ou de concerts, mais cette fois en profitant de l’acoustique naturellement éteinte des salles obscures pour les transformer en salles de concert.
Conclusion
Il y a 25 ans le son a fait un pas de géant avec le DOSC qui a permis à quasiment toute une salle de disposer d’une pression et d‘un rendu spectralement équilibrés. Depuis… ne cherchez pas, il ne s’est pas passé grand-chose. Si on fait le parallèle avec les lumières, en 1992 les scans débarquaient en éclaireurs d’une armée qui aujourd’hui a envahi les scènes du monde entier.
C’est la fête aux motorisés, aux leds, aux gobos, aux couleurs. La vidéo est plus lumineuse et transparente que jamais, les ponts bougent dans tous les sens et les artifices explosent de mille paillettes. Il est temps que le son tire lui aussi son épingle du jeu et propose plus et mieux à un public qui va perdre cette année 3dBA et le boulet en dBC. Je pense qu’à Backnang comme à Marcoussis et bientôt partout ailleurs, le mot d’ordre est de parvenir à faire dire aux spectateurs : « j’ai été écouter un concert » en lieu et place de : « j’ai été voir un concert » et pour ça, l’immersif peut se révéler décisif.
Soundscape est un système qui marche. Des limitations techniques existent, 64 entrées c’est court et 48 kHz un peu désuet, mais cela semble plus être des verrous qui per définition finissent par sauter, que de vraies lacunes. L’interfaçage dans une console de mélange et l’élévation font défaut (et pourtant c’est prévu dans l’algorithme).
Il n’y a pas d’enceintes spécifiques à très large ouverture et les choix multiples et parfois complexes de ce système ouvert, ne vont pas dans le sens de la simplicité d’exploitation des produits de la marque.
Mais face à ces quelques restrictions, Soundscape brille par sa latence minime, la très grande puissance du DS100, un algorithme audio particulièrement abouti et discret, un mélange entre fills et système principal vraiment contributif, la qualité et la constance de la position des objets en tous points d’écoute et enfin la grande latitude de réglages facilitant l’obtention d’un résultat optimisé. N’oublions pas aussi la qualité de la série Y qui semble être le cheval de bataille de la marque allemande pour démarrer dans l’immersif et qui délivre un rendu en tout point excellent avec un aigu de toute beauté.

Marcus se moque de Ralf et la salle se marre : « tu nous jouerais pas une belle sérenade par hasard ;0) »
Vous aurez enfin remarqué que nous n’avons volontairement pas joué la carte de la comparaison entre Soundscape et L-ISA. La raison en est simple. Les deux systèmes marchent avec leurs différences et sont supportés par les deux plus grands fabricants d’enceintes pro, un gage de qualité et de sécurité dans le temps.
Il ne fait aucun doute que, malgré le respect et estime que se portent d&b et L-Acoustics, la guerre va faire rage, non pas pour imposer un standard unique, mais pour convaincre des productions, des artistes et des prestataires de franchir le pas de l’immersif avec leur marque. Il n’y aura donc pas de gagnant ou de perdant. Si l’immersif prend, ce sont tous les fabricants qui en sortiront gagnants et, in fine, tous les shows et tous les spectateurs. Il y a pire comme perspective.
[/private]