Künstliche Intelligenz (KI) in der Audioproduktion
Eine Panel-Diskussion der VDT-Regionalgruppe Berlin am 18. Juni 2024
Text: Jens Blauert Bilder: Georg Fett
Text: Jens Blauert Bilder: Georg Fett
Im November 2022 veröffentlichte die Firma OpenAI (heute Teil von Microsoft) ein Online-Chat-System (ChatGPT), das auf Basis von Eingabeanweisungen Texte generiert. Inzwischen gibt es eine Fülle solcher Systeme, für die sich der nicht ganz zutreffende Begriff „künstliche Intelligenz“ (KI) eingebürgert hat. Im Hinblick auf Sprache und Musik haben KI-Systeme das Potenzial, Routineabläufe bei der Produktion und Bearbeitung von Audiomaterial zu automatisieren und diese somit sehr kosteneffizient zu gestalten. Diese Entwicklung hat einschneidende Auswirkungen auf die Tätigkeitsfelder von Tonmeisterinnen, Tonmeistern und anderen Tonschaffenden (vgl. 1 ). Die Leitung der Berliner Regionalgruppe beschloss daher, eine nachfolgend beschriebene Podiumsdiskussion zu organisieren, um die einschlägig Betroffenen an das Thema KI heranzuführen.
Ziel der Veranstaltung war es, den Erfahrungsaustausch mit Audio-Fachleuten zu fördern, welche KI bereits in ihrer beruflichen Arbeit einsetzen. Jens Blauert1 eröffnete als Moderator die Veranstaltung mit folgenden Statements:
Die Panel-Diskussion fand am 18. Juni 2024 in der Universität der Künste (UdK) mit vier eingeladenen Diskutanten [3 to 6] und mehr als fünfzig Zuhörern statt.
Die Erörterungen begannen mit der Überlegung, was eigentlich das Wesen eines „Werkzeugs“ sei. Hierzu wurde als Prototyp das Beil herangezogen, ein Werkzeug, das schon seit Jahrtausenden von Menschen benutzt wird. Seine Verwendungszwecke sind vielfältig (Holz hacken, Knochen zerlegen, sich Zugang verschaffen, Angriff und Verteidigung), allerdings kann man sich damit auch selbst versehentlich verletzen. Deshalb gilt, wie für jedwedes Werkzeug: Man muss es beherrschen, um es produktiv zu nutzen!
Im Bereich der Audioproduktion sind folgende Werkzeuge besonders erwähnenswert:
Als Grundlage für die weiteren Diskussionen wurde von Fabian Seipel6 eine Einführung in die technischen Grundlagen der KI-Systeme gegeben. Deren augenblicklicher stürmischer Durchbruch ergibt sich durch die aktuelle Verfügbarkeit massiver Datenkorpora im digitalen Raum – im Falle von audiobezogenen KI-Systemen Sprach- und Musikbeispiele – sowie auf die für deren schnelle Verarbeitung benötigte Computerleistung.
KI-Systeme beruhen auf maschinellem Lernen, welches insbesondere von der Anwendung künstlicher neuronaler Netzwerke profitiert. Beim maschinellen Lernen projiziert ein Lernalgorithmus eine vorhandene Datensammlung auf ein neuronales Netz. Der Prozess der Übertragung von Daten auf das Modell heißt „Training“. Dazu werden die Elemente der Datensammlung zunächst gelabelt, d. h. mit Bezeichnungen versehen, die ihren jeweiligen Inhalt symbolisieren. Je nach Umfang des Datenkorpus kann der Trainingsvorgang sehr langwierig sein. Bei Menschen dauert das Lernen aus Erfahrungen allerdings noch viel länger!
Die Funktion des trainierten Modells kann durch eine vielschichtige mathematische Funktion analytisch beschrieben werden, der Machine Learning Function (MLF). Mittels der jeweiligen MLF können Entscheidungen getroffen oder Aktionen ausgelöst werden, z. B. Klassifizierung von Musik-Genres, von Fehlern an überwachten Systemen, oder von Qualitätsstufen von Produkten.
Generative KI-Systeme erfordern jedoch zusätzliche Verarbeitungsschritte (vgl. z. B.17 ). Die Erzeugung des Outputs eines solchen Systems beginnt mit einer Eingabeanweisung, die die Anfrage an das System verbal im sogenannten Prompt beschreibt. Prompts können sehr ausführlich sein. Sie zu verfassen ist eine Fertigkeit für sich; sie können gegebenenfalls sogar ein Urheberrecht begründen.
Die genaue Verarbeitung von Prompts ist systemspezifisch. Allgemein gilt Folgendes: Das System arbeitet den Prompt schrittweise ab und generiert auf der Grundlage seiner gelernten Daten zu jedem Schritt einen Ausgabeabschnitt. Die Kette all dieser Abschnitte ergibt den Gesamt-Output. Dieser wird dann optimiert, indem der ursprüngliche Prompt zielführend verändert wird – und zwar entweder durch ein systeminternes Modul (unüberwachtes Lernen) oder durch die Nutzerinnen und Nutzer selbst (überwachtes Lernen). Anschließend wird der Output neu generiert. Diese Schleife kann mehrfach durchlaufen werden.
An den Vortrag schloss sich eine lebhafte und zum Teil skeptische Diskussion an. Ein Wortbeitrag von Nirto Karsten Fischer7 sei wegen folgender Bemerkung hervorgehoben: Mensch/KI-Interaktionen bergen die Gefahr, sich dem Denken von Maschinen anzupassen, d. h. sich auf eine strikt positivistische Sichtweise zu beschränken. Mensch-Mensch-Kommunikation sei aber komplexer, da sie auf ein viel umfangreicheres Bedeutungsrepertoire zurückgreife (Stichwort: Semiotik).
Primäres Ziel der Panel-Diskussion war es, dass Kolleginnen und Kollegen, die bereits KI für ihre tonmeisterlichen Aufgaben einsetzen, über ihre diesbezüglichen Erfahrungen berichten. An der Diskussion beteiligten sich insbesondere Johannes Imort3, Peter Hirscher4, Martin Rieger5, Marian Boldt8 sowie einige weitere Zuhörer. Durch Handzeichen wurde offenbar, dass eine Mehrheit der Zuhörer solche Hilfsmittel bereits ausprobiert hat. In diesem Zusammenhang wurden Hinweise zu einschlägigen KI-Produkten18 gegeben.
Konsens war, dass KI-Systeme zum Mischen mit ihrem Know-how insbesondere dann nützlich sind, wenn man mit Kompressoren, Limitern und EQs auf Kriegsfuß steht. Ihr Hauptvorteil ist allerdings, dass sie beim Mischen Zeit sparen. Problematisch wird es jedoch, wenn ein intransparenter Algorithmus eingesetzt wird. Dann ist es schwierig, die Qualität des Outputs zu beurteilen, geschweige denn Änderungen daran vorzunehmen.
Attraktiv sind auch solche Systeme, die das Mischen nicht selbst vornehmen, sondern Vorschläge für die Parameter des Mischvorgangs machen. Das eigentliche Mischen führen die Tonmeisterinnen und Tonmeister dennoch selbst durch. Damit erweitert sich ihr Gestaltungsspielraum. Weiterhin ergibt sich z. B. die Möglichkeit, Störgeräusche wie Atmen, Nachhall, Verkehrslärm, Lüftungsgeräusche und Knacken gezielt zu mindern.
KI-Systeme zur Quellentrennung wurden inzwischen zur Marktreife entwickelt. Sie sind die Voraussetzung für objektorientierte Mischungen von immersivem Audio und für die Konstruktion virtueller Räume.
Schließlich wurde von Georg Fett9] und Herrn Decker10] angemerkt, dass die Verfügbarkeit von KI-gestützten Misch- und Mastering-Systemen Auswirkungen auf die Ausbildung von Tonschaffenden haben werde. Ein geübtes Gehör sei dann weniger wichtig als die Fähigkeit, die KI-Systeme effizient zu bedienen. Es stellte sich deshalb die Frage: Warum soll ich dann überhaupt noch Tonmeister studieren?
Nach dem Ende der Panel-Sitzung wurden noch zwei Einfügungen nachgereicht. So wies Martin Rieger5 auf eine ganze Reihe von Vorteilen des KI-gestützten Upmixing hin:
Martin Rieger gibt aber auch Nachteile zu bedenken:
John Mourjopoulos14 bemerkt nach Korrekturlesen der englischen Fassung: „Das automatische Abmischen ist in der Tat eine kritische Anwendung von KI, denn:
Solche Systeme (z. B. Suno, Udio) sind sehr leistungsfähig. Sie vertonen (eigene oder von ChatGPT erzeugte) Texte und erstellen damit mehrstimmige Tonspuren in Radio-Qualität (mp3 mit 192 kBit).
Unser Kollege Thomas Forster16 kommentierte kurz und bündig: „Jetzt bin ich arbeitslos!“
Das Trainingsmaterial wird allerdings in der Regel nicht offengelegt. Man vermutet, dass dafür die kommerziellen Repertoires der großen Musikverlage angezapft worden sind. Im Prompt gibt der Nutzer ein paar Anweisungen zum Genre und zum emotionalen Ausdruck der gewünschten Komposition. Der Text wird dann wahlweise z. B. von einem Sänger, einer Sängerin, einem Männer- oder Frauenchor oder einem Musikinstrument der Wahl vorgetragen und auf Wunsch auch von einer Band begleitet. Mit spezieller Klon-Software (z. B.19 ) kann eine beliebige Gesangsstimme verwendet werden – auch die eigene!
John Mourjopoulos14 merkte dazu noch an: „Im Vergleich zu den Herausforderungen des KI-gestützten Abmischens sei die KI-gestützte Komposition und Musikgenerierung für maschinengestützte Anwendungen relativ unkompliziert. Es gäbe eine große Menge an Trainingsmaterial, das in eine klar definierte hierarchische Struktur eingeordnet ist (Genre, Tempo, Orchestrierung, harmonische und rhythmische Eigenschaften, Stimmung, Stil usw.). Außerdem gäbe es eine Vielzahl von Arbeiten im Bereich MIR (Music Information Retrieval) und SA (Semantic Audio), welche relevante Methoden, Werkzeuge und Datensätze bereitstellen.“
Falls die Urheber des Trainingsmaterials nicht bekannt gegeben werden, ist das erzeugte Tonmaterial derzeit noch GEMA-frei5. Dies könnte sich allerdings durch die Gesetzgebung der EU ändern, die eine Offenlegung der Quellen verlangt. Die Eigentümer der Quellen können dann deren Nutzung vertraglich einschränken.
Es kann übrigens geschehen, dass die KI eine Komposition erzeugt, die einem natürlichen Original so nahekommt, dass man sie als Plagiat einstufen kann. Beweispflichtig sind die Geschädigten. Bei Suno können sie Beschwerde einreichen; daraufhin wird vom System nicht die KI-Version ausgegeben, sondern ein Link zum Original auf YouTube. Dies geschieht z. B. bei Songs bekannter Pop-Stars.
Das Thema „Generative Kompositionssysteme“ löste eine rege Debatte aus. Peter Hirscher4 startete mit der oft gestellten Frage, ob KI letztlich den Menschen ersetze, und regte an, dazu folgendes zu bedenken: Durch KI entstünden viele Use-Cases, auf die Menschen gar nicht gekommen wären. Zum Beispiel könnten in kürzester Zeit zweckbestimmte Songs (Skalierbares Audio) geschaffen werden, die Menschen so schnell und kostengünstig nicht erstellen könnten. Dadurch ergäbe sich z. B. die Möglichkeit, Songs zu kreieren, die sonst niemand produzieren würde, die aber einen unterhaltsamen Zweck erfüllen.
Die größte Sorge der Audio-Profis ist verständlicherweise die Frage, wie sie in Zukunft ihr Geld verdienen können. Peter Hirscher4 weist nachdrücklich darauf hin, dass sich die Audiobranche in einer rasanten Wandlungsphase befände. Schon bald werde es z. B. keine Studios im herkömmlichen Sinne mehr geben. Aber auch die gesamte Verwertungskette sei betroffen, d. h. von Komponisten, Musikerinnen, Tontechnikern, Tonmeisterinnen für Mischung und Mastering, bis hin zu Distributions- und Marketingexperten. Viele Tonschaffende werden ihr Geschäftsmodell überdenken müssen.
Eine häufig vorgetragene These ist die folgende:
„Nur Menschen sind zu Kreativität fähig, Maschinen nicht."
Daraus wird abgeleitet, dass menschengemachte Produkte wertvoller seien als maschinengemachte, was ein Marktvorteil für deren Produzenten wäre. Aber ist individuelle Kunst tatsächlich ein marktmächtiger Faktor für die Tonproduktion? Simon Hestermann17 schreibt dazu wörtlich: „Der wirtschaftliche Vorteil guter KIs ist nicht von der Hand zu weisen. Warum sollte ein Label Künstler bezahlen, die Musik für Workout-Playlists auf Spotify produzieren, wenn eine KI die passende Musik en masse liefert? Warum sollte ein Musikhörer nach Künstlern für das Candlelight-Dinner suchen, wenn eine KI personalisierte Musik für den Abend komponiert? Es stellt sich nicht mehr die Frage ob, sondern wann die Technologie die Musikindustrie vor vollendete Tatsachen stellt. Auf die Moral und Wertschätzung der Massen sollte man dabei nicht bauen, wie uns das Streaming-Zeitalter schon lehrte. Letztlich gewinnt die Bequemlichkeit der Konsumenten.“
An dieses Zitat schloss sich die Frage an, ob tatsächlich nur der Mensch zu Kreativität fähig sei, oder ob auch Maschinen kreativ sein könnten. Jens Blauert1 trug hierzu folgende Gedanken vor, die gemeinsam diskutiert wurden: „KI ist bekanntlich in der Lage zu ‚halluzinieren‘, d. h. sich etwas vorzustellen, was einem aktuellen Faktencheck nicht standhält. KI kann also ‚spinnen‘. Können solche ‚spinnerte‘ Gedanken nicht nützlich Vorschläge für die Zukunft enthalten? Tun wir Menschen nicht das Gleiche, wenn wir kreativ sind, nämlich spinnen?“
KI-Systeme können sogar so programmiert werden, dass sie bewusst Fehler machen, d. h. sich systembedingt etwas bisher nicht Existierendes „ausdenken“ − und so zu „Kreativitätsgeneratoren“ werden13. KI kann solche „kreativen Gedanken“ sehr schnell und in großer Vielfalt erzeugen.
Dabei ist zu beobachten, dass sich insbesondere junge Menschen angesichts der allgegenwärtigen artifiziellen Kreativität, der es spürbar an Empathie mangelt, zunehmend Live-Events zuwenden7. Bei diesen Veranstaltungen geht es dann gar nicht primär um den Inhalt, sondern um das Gemeinschaftserlebnis – also um ein soziales Ereignis. KI-Musik, also „Consumer-Kunst“, reicht dafür oft aus. Und die ist ja zudem günstiger als die horrenden Eintrittspreise für Pop-Star-Konzerte.
Der durch KI ausgelöste Wandel hat jedoch weiterreichende soziale Folgen. Kurz gesagt: Der massive Einsatz von Kapital durch mächtige Investoren führt zur „Enteignung“ der individuellen Klangschöpfer7. Voraussichtlich wird in der Zukunft ein neuer Gesellschaftsvertrag erforderlich sein, um dieses Problem in den Griff zu bekommen4.
Theodor Przybilla11 schließt dies nicht aus, nimmt aber zu der Notwendigkeit eines angepassten Gesellschaftsvertrages einen optimistischen Standpunkt ein. Er vertraue auf die menschliche Fähigkeit, neue Technologien zu unserem Nutzen einzusetzen und die notwendigen Voraussetzungen dafür zu schaffen. Pilos Kostas12 berichtet darüber, dass die Rezeption von KI-Audio-Produkten auch vom Erfahrungshorizont der Zuhörer abhänge. So seien Kinder oft eher in der Lage als Erwachsene, KI-Songs als solche zu entlarven (vgl.20). Trainieren wir etwa ständig unfreiwillig unsere Akzeptanz von Consumer-Kunst?
Die aktuelle KI-Entwicklung führt dazu, dass KI-Systeme zunehmend autonom werden (z. B. GPT-4o von OpenAI, einer Microsoft-Firma, zu der auch ChatGPT gehört). Dies wird als „allgemeine künstliche Intelligenz (AKI)“ bezeichnet (englisch: Artificial General Intelligence (AGI)). Jens Blauert1 erläuterte dazu folgendes:
„Diese hochgradig autonomen Systeme können über Kameras und Mikrofone ihre Umgebung wahrnehmen und interpretieren, mit anderen KI-System kommunizieren (z. B. mit ihnen sprechen), und eigenständig Aktionen ausführen. Aktuelle Anwendungsgebiete sind z. B. autonomes Fahren, oder auch Drohnen, die in Infrarotbildern Muster erkennen, potenzielle Feinde identifizieren und dann autonom bekämpfen. Im Audio-Bereich können AKI-Systeme z. B. Spotify, YouTube, Fernsehkanäle, oder schlicht eine Parklandschaft beobachten und passende Musik dazu erzeugen."
Während Microsoft für sein neues Produkt wirbt, haben sich einige der bisherigen Entwickler davon distanziert. Der Sicherheitsexperte Less Wrong äußerte sich sinngemäß wie folgt:
„Ich habe das Entwicklungsteam verlassen, da ich das Vertrauen verloren habe, dass Microsoft sich verantwortungsvoll verhalten wird, wenn die Zeit der superintelligenten autonomen Systeme gekommen ist.“
Diese Ausführungen weckten zwar einerseits das Interesse der Panel-Teilnehmer, andererseits erzeugten sie ein Gefühl von Nachdenklichkeit und Besorgnis. Eine Diskussion fand deshalb nicht statt.
Die Audioproduktion befindet sich bereits jetzt in einer Transformationsphase, in der die Rolle von KI rapide zunimmt. Wie bereits im einleitenden Statement betont wurde, ist KI zweifelsohne ein nützliches Werkzeug für die Audioproduktion. Produktiv einsetzen können dieses Werkzeug aber letztlich nur diejenigen, die seinen Gebrauch beherrschen. Die Teilnehmer dieses Panels gingen daher in der Gewissheit auseinander, dass es notwendig war und weiterhin sein wird, dieses Thema ausführlich zu diskutieren.
Fazit: Gut, dass wir darüber geredet haben!
Ein Klick auf die Fußnote führt zurück auf die erste Nennung im Text.
Jens Blauert ist Professor emeritus der Ruhruniversität Bochum. Er hat dort das Institut für Kommunikationsakustik (IKA) gegründet und 29 Jahre lang geleitet. Als Gastprofessor hat er weltweit sein Wissen weitergegeben. Zum Beispiel hielt er zehn Jahre lang Vorlesungen über Architektur-Akustik am Rensselaer Polytechnic Institut (RPI) in Troy, New York. Jens war mehr als 40 Jahre als Beratender Ingenieur für Akustik selbstständig tätig. Er ist Ehrenmitglied des VDT.