Kann KI kreativ sein und Neues erschaffen?

Stärken und Schwächen von KI und Mensch

Text: Maximilian Kock Bilder: KI, Maximilian Kock

Block 1

Wir Tonschaffende kreieren Einzigartiges. Wirklich? Seitdem die KI in aller Munde ist und überall zum Einsatz kommt, gibt es Zweifel an dieser Aussage. Maximilian Kock hat sich beruflich schon lange mit dieser Frage auseinandergesetzt und gibt in diesem Beitrag Einblick in die Chancen und Risiken, in die Stärken und Schwächen von beiden: der KI und des Menschen.

Block 2

Was ist Künstliche Intelligenz? Wer diese Frage beantworten möchte, muss sich zunächst darüber bewusst werden, was intelligentes Handeln eigentlich bedeutet. Denn der Begriff Künstliche Intelligenz, abgekürzt KI, wird häufig irreführend und manchmal auch widersprüchlich verwendet. Deshalb werden hier zunächst das Verhältnis und die Beziehung zwischen künstlicher Intelligenz und menschlicher Intuition und Kreativität im Allgemeinen diskutiert.

Künstliche Intelligenz ist in der Informatik der Terminus für selbststeuernde rekursive Algorithmen. Sie erkennen Muster in Datensätzen und können nach Eingabe von (Text-)Parametern (= Prompts) automatisiert Texte, Bilder, Audio- und Videomaterial, 2D- und 3D-Modellierungen, Software und sogar Kunstwerke selbstständig kreieren und sogar – wie manche behaupten – Kunstwerke selbstständig kreieren. Die Algorithmen müssen dazu auf bestehende Informationen – das heißt auf umfangreiche Datenbanken – zugreifen können. Im Informatiker-Fachjargon wird auch davon gesprochen, dass die Algorithmen mit umfangreichen Datensätzen und Informationen trainiert werden.

Aktuelle Hörunterstützung

Was ist der Unterschied zwischen einem intelligenten Algorithmus und dem menschlichen Gehirn? Denn trotz ihrer inzwischen deutlichen Überlegenheit in Effizienz und Geschwindigkeit, in Unmengen von Daten Muster und Antworten finden zu können, besitzen intelligente Algorithmen zwei Fähigkeiten im Vergleich zum menschlichen Gehirn (noch) nicht: Intuition und Kreativität.

Es stellen sich daher hinsichtlich der qualitativen Gegenüberstellung von KI und dem menschlichen Gehirn drei Fragen:

Block 4

• Kann der Einsatz von KI ein intelligentes und für die Zukunft sinnvolles menschliches Handeln unterstützen, fördern oder sogar ersetzen?

• Oder schadet KI eher, da sich Menschen (zu sehr) auf diese Algorithmen verlassen und ihnen das Handeln, Erkennen und Urteilen aus persönlicher Bequemlichkeit (zu sehr) überantworten?

• Kann in diesem Prozess der Mustererkennung durch intelligente Algorithmen überhaupt etwas Neues, können sogar Kunstwerke entstehen?

Beethovens errechnete zehnte Sinfonie

250 Jahre nach seinem Geburtstag am 17. Dezember 1770 wurde 2020/2021 Ludwig van Beethovens zehnte Sinfonie von einem Algorithmus (also einer künstlichen Intelligenz) vollendet. Eine zehnte Sinfonie, die ursprünglich nur als ein Fragment vorlag, ein Werk, das von Beethoven aufgrund seines frühen Todes nicht von ihm fertiggestellt werden konnte. Das errechnete Ergebnis dieser zehnten Sinfonie schien eindeutig ein Werk Beethovens zu sein, allerdings war laut einhelliger Meinung der Kritikerinnen und Kritiker offenbar nichts Neues entstanden. Das Werk eines intelligenten Algorithmus war eher ein banales neues Opus im Kompositionsstil Ludwig van Beethovens, zusammengestellt aus den Datensätzen seiner vorigen neun Sinfonien und seiner unvollendeten Skizzen der zehnten Sinfonie.

Block 6

"Wir haben eine Star-Wars-Zivilisation erschaffen, unterliegen aber zugleich steinzeitlichen Emotionen, besitzen mittelalterliche Institutionen und eine gottgleiche Technologie.“

E. O. Wilson [1]

Block 7

Warum klingt eine durch KI generierte zehnte Beethoven-Sinfonie langweilig? Weil in ihr nichts unerwartet Neues passiert. Beethoven führte intuitiv mit seiner Neunten die menschliche Stimme in eine sinfonische, bis zu diesem Zeitpunkt rein instrumentale Werkform ein – zur damaligen Zeit revolutionär und im besten Wortsinn un-erhört. Denn dies hatte noch kein Komponist, keine Komponistin zuvor gewagt. Eine KI wäre nie auf die Idee gekommen, die menschliche Stimme in eine neunte Beethoven-Sinfonie einzufügen. Weil die KI diese Idee nicht in den Datensätzen der acht früheren Sinfonien Beethovens hätte finden können.

Das erste vorläufige Fazit zur dritten Frage lautet daher, dass die Intuition eine wichtige Voraussetzung für die Kreativität und den Schaffensdrang der Menschen darstellt. Und diese beiden menschlichen Eigenheiten – Intuition und die daraus entstehende Kreativität – kann eine KI bis heute (noch) nicht simulieren, geschweige denn ersetzen.

Fast Thinking versus Slow Thinking

Algorithmen sind eher nicht intelligent, sie sind lediglich effizient. Und hier genau liegt das grundsätzliche Missverständnis in der Klassifizierung hinsichtlich Intuition und Kreativität von Mensch und Maschine: Ein Mensch fragt sich (aus Bequemlichkeit, siehe oben) eventuell: Warum soll ich mir das antun, solche Unmengen von Daten auszuwerten? Geht das nicht anders? Ein maschinell arbeitender Algorithmus würde diese – tatsächlich intelligente (!) – Frage erst gar nicht stellen.

Block 9

Im Gegensatz zu Algorithmen erleben wir in unserem menschlichen Gehirn Geistesblitze, ein „Heureka!“. Wir haben ein Bauchgefühl für mögliche positive und negative Entwicklungen und Geschehnisse, die in der Zukunft liegen. Denn wir haben eine Intuition (das kann sowohl ein Bauchgefühl als auch ein Geistesblitz sein), was für einen Algorithmus eine statistische Unmöglichkeit darstellt. Nach dem Wirtschaftspsychologen Daniel Kahnemann [2] übernimmt die Verarbeitung der – über alle fünf Sinne im menschlichen Gehirn – einlaufenden Informationen zunächst das „System 1", ein heuristisches Verarbeitungsmodul, das schnell und intuitiv entscheiden und reagieren kann. Ohne das System 1 hätte der Mensch als Spezies nicht überleben können. Wenn ein Raubtier auf ihn zukommt, muss er intuitiv handeln und versuchen, sich sehr schnell in Sicherheit zu bringen.

System 1 jedoch liegt manchmal mit seiner intuitiv gefundenen Lösung falsch, deswegen gibt es das „System 2" als langsam arbeitendes Modul zur Kontrolle und Überprüfung von System 1. System 2 arbeitet ähnlich wie ein KI-Algorithmus; hier findet ein mathematisches Berechnen und Abwägen statt. System 2 wird von uns aktiviert, wenn System 1 überfordert ist oder wenn die von ihm präsentierte Lösung kein gutes Entscheidungsgefühl für uns entstehen lässt. System 2 benötigt viel Zeit und viel Energie, deswegen nutzen wir es – weil wir bequem sind – nur ungern und eher selten.

Block 10

Leider wird lediglich das System 2 im Rahmen der Schul-, Aus- und Weiterbildung gefördert. Denn nur das abwägende und langsam arbeitende System 2 wird in den Bildungsinstitutionen mithilfe der dortigen, auf logische Zusammenhänge und Kausalität (siehe weiter unten) fokussierten Didaktik trainiert. System 2 wird folglich während unseres Erwachsenendaseins immer mächtiger, da wir immer wieder erneut dazu angehalten werden, (ausschließlich) ihm, dem System 2 zu vertrauen. Denn System 2 arbeitet auf Grundlage von Daten und Fakten und liefert uns so immer wieder belastbare Ergebnisse und vermeintlich sichere Erkenntnisse. Das System 2 ermöglicht eine fundierte logische Argumentation [2].

Allerdings benötigt das System 2 wesentlich mehr Zeit, und somit dauern jede unsere (Lebens-) Entscheidungen im Vergleich zu den mit System 1 intuitiv getroffenen Festlegungen auch länger. Häufig entscheiden wir irgendwann gar nicht mehr, weil wir aufgrund der vielen Daten und zahlreichen Möglichkeiten überfordert sind. Denn wir haben verlernt, unserer Intuition oder dem Bauchgefühl zu vertrauen. Das bedeutet im Umkehrschluss, dass uns zu viel Information hinsichtlich schneller Entscheidungen gelegentlich auch lähmen kann.

Block 11

DVD-Cover von Idiocracy [3]. Wissen hilft nicht unbedingt bei schnellen Entscheidungen!
DVD-Cover von Idiocracy [3]. Wissen hilft nicht unbedingt bei schnellen Entscheidungen!

Eine gute (Aus-)Bildung, also viel Hintergrundwissen, kann daher eher intuitiv getroffene, eventuell bessere und – vor allen Dingen – schnellere Reaktionen verzögern und somit kreative und zeitnahe (Bauch-)Entscheidungen verhindern. Vielleicht ist dies eine mögliche Erklärung dafür, warum sehr gut ausgebildete Menschen häufig entscheidungsschwächer als weniger gebildete Menschen erscheinen. Erstere wägen so lange ab und prüfen so gründlich, bis sich das Zeitfenster des Handelns bereits geschlossen hat bzw. die Gelegenheit des Carpe Diem vorbei ist, während vermeintlich ungebildete Menschen (sich) schneller entscheiden und anschließend beobachten, was passiert.

Viele gebildete Nicht-Entscheider befinden sich dann in der Situation, dass andere vermeintlich weniger Gebildete für sie (schneller) entschieden, Verantwortung übernommen und damit eventuell sogar letztendlich Erfolg haben. Später versuchen die Entscheidungsschwachen dann im Nachgang nicht selten, ausführlich darzulegen und zu begründen, warum sie nicht entscheiden konnten (siehe auch der Film Idiocracy [3]).

Spontane und intuitive Entscheidungen entstehen also im System 1. Auch das kreative Schaffen ist hier hauptsächlich situiert. Und genau in diesem Punkt liegt der falsche Ansatz bei der Programmierung künstlicher Intelligenz seit den 2010er-Jahren: Zu viel System 2, nahezu kein System 1. Es ist allerdings fraglich, ob ein System 1 durch Algorithmen überhaupt simuliert werden kann [2].

Wir erzählen uns Geschichten und erleben Zeit

Sound-Design ist ein Geschichtenerzählen (Storytelling) über die Tonspur. Durch Sound-Design – und dazu gehört auch die Verwendung menschlicher Stimmen – werden zuvor seelenlose Figuren besonders in Animationsfilmen lebendig und menschlich. Ein gutes Sound-Design zum Bild unterstützt die Lebendigkeit und Wahrhaftigkeit einer Geschichte.

Block 13

Abbildung 1: Der lineare Zeitstrahl und unsere Zeitwahrnehmung
Abbildung 1: Der lineare Zeitstrahl und unsere Zeitwahrnehmung

Jede Erzählung beruht auf einem Vorher-Nachher und somit auf einem unsere Umwelt und unsere Lebenszeit ordnenden Kausalitätsprinzip. Dieser Grundsatz des zeitlichen Vorher-Nachher existiert nach Einschätzung des Psychologen Daniel Kahnemann in der Welt außerhalb von uns Menschen nicht [2, Seite 86 ff.]. Das bedeutet, dass das Phänomen Zeit – der zeitliche Unterschied zwischen dem Vorher und dem mit ihm für uns kausal verbundenen Nachher – nur in unserem Gehirn stattfinden kann.

Block 14

Das Ordnen in ein Vorher-Nachher lässt uns somit Zeit erleben und ist folglich lediglich ein Konstrukt unseres Gehirns. Durch das Vorher-Nachher einer Geschichte wirken technische Produkte, wie zum Beispiel KI-gesteuerte Roboter in (Animations-)Filmen, durch Töne und Tonerleben auf uns menschlich (siehe die Filme Her [4] (Zitat Samantha: „Die Vergangenheit ist nur eine Geschichte, die wir uns selbst erzählen“) und WALL-E [5]): Die dort animierten Wesen sprechen zu uns und mit uns wie unsere Mitmenschen.

Ich möchte darauf hinweisen, dass das in Abbildung 1 dargestellte lineare Empfinden von Zeit ein Phänomen der (westlichen) Neuzeit ist. Im Altertum lebten die Menschen in einem zyklischen Zeitmodell, ähnlich dem, wie man die Natur und seine Umwelt empfand: ein ständiges Wiederholen des Gleichen in einer Kreisbewegung ähnlich einer analogen Uhr. Das zyklische Zeitmodell findet sich bis heute in vielen fernöstlichen Religionen wieder.

Ein Tonereignis ist für uns nur in der Zeit zu erleben. Ein Bildereignis, als eine durch das Licht übertragene Information, erscheint uns Menschen aufgrund der Lichtgeschwindigkeit als zeitlos bzw. gleichzeitig. Ein Tonereignis dagegen bedarf Zeit, um gehört zu werden. Dabei benötigt ein tieffrequenter Ton mehr Zeit als ein hochfrequenter Ton.

Auf dem Vorher-Nachher unseres Zeiterlebens beruht auch das, was wir (fälschlicherweise) als kausales Geschehen interpretieren: Dass ein Ereignis, das jetzt passiert, eine Wirkung auf das Geschehen später haben wird. Dieses in unserem Gehirn verankerte Prinzip der Kausalität hilft uns somit zu lernen und damit die Welt um uns sowie die eigene Zukunft scheinbar vorhersehbarer zu erleben und für uns ein gewisses Gefühl der Vorhersehbarkeit – und damit einer gewissen Ordnung und Sicherheit – zu schaffen. Oder kurz gesagt: Das in unserem Gehirn angesiedelte Prinzip der Kausalität ermächtigt uns, unser Leben zu planen und damit zu (über-)leben.

Block 15

Außerhalb von uns Menschen – das bedeutet außerhalb unserer menschlichen Dimension, also im Mikro- und Makrokosmos – existiert das Kausalitätsprinzip allerdings nicht. Es findet nur in uns selbst oder, wie Kahnemann beschreibt, in unserem „Erlebensselbst“ statt. [2, Seite 467 ff.]

Das Prinzip des Vorher-Nachher, von uns als Kausalität interpretiert, ist allerdings die entscheidende Voraussetzung und damit ein wichtiges Gestaltungskriterium für ein als funktionierend empfundenes Sound-Design, besonders in der Industrie und bei deren Produkten. Denn unsere Hörpräferenzen werden über Generationen geformt und lassen sich – wenn überhaupt – nur über Jahrzehnte langsam verändern: Zum Beispiel steht der seit über einhundert Jahren gelernte Klang von Verbrennungsmotoren der Akzeptanz von Elektromotoren in unserer Gesellschaft in auditiver Hinsicht im Weg: E-Motoren klingen vermeintlich nicht so kraftvoll wie ihr Verbrenner-Pendant. Denn E-Motoren sind im direkten Klangvergleich eher leise und unspektakulär.

Block 16

Dabei ist die Realität eine andere: E-Motoren haben einen mehr als doppelt so hohen Wirkungsgrad, da bei ihnen ein magnetisches Feld (Stator) einen durch Strom elektromagnetisch geladenen Rotor in eine sofort für Antrieb von Fahrzeugen nutzbare Drehbewegung versetzt. Das ist konstruktiv das genaue Gegenteil zu dem Auf und Ab der Kolben in einem Zylinder eines Verbrennungsmotors. Dessen Kolben führen zunächst aufgrund einer wiederholten, in jedem einzelnen Zylinder nacheinander ablaufenden Explosion eine geradlinige Bewegung aus, die durch eine aufwändige Konstruktion in eine durchgängige Kreisbewegung gebracht werden muss: Der ursprünglich geradlinige Hub der Kolben wird durch eine Pleuelstange und eine Kurbelwelle in eine zum Antrieb der Räder notwendige Drehbewegung umgewandelt. Durch die Reibung und das hohe Eigengewicht von Pleuelstange und Kurbelwelle geht dabei ein großer Anteil der ursprünglichen Bewegungsenergie durch die Umwandlung in Wärmeenergie verloren, was letztendlich auch zu dem schlechteren Wirkungsgrad eines Verbrennungsmotors im direkten Vergleich mit einem Elektromotor führt.

Die aufwändige mechanische Konstruktion des Verbrennungsmotors erzeugt allerdings – abhängig von der Zahl seiner Zylinder und Kolben – den so typischen Sound: ein Pulsieren, Blubbern oder Nageln. Diesen Sound haben wir seit Generationen audiovisuell als ein Ursache-Wirkungs-Prinzip (Kausalitätsprinzip) gelernt und in unserem Gehirn abgespeichert: Ein Motor, der laut ist, erzeugt dementsprechend viel Vorschub. Dieses akustische Paradigma ist neben dem olfaktorischen Argument – Benzingeruch wird ebenfalls mit Vorschub durch Verbrennungsmotoren assoziiert – meiner Meinung nach ein nicht zu unterschätzendes Hindernis in den Köpfen der Konsumenten auf dem Weg zu einer elektro-mobilen Gesellschaft. Die Erkenntnis ist, dass uns Sound und Sound-Design wesentlich mehr in unserem Denken und Handeln prägen als es vielen bewusst zu sein scheint. Dies wird im Folgenden noch deutlicher werden.

Die digitale Transformation hat die Qualität unserer eigenen Erlebenszeit stark verändert

Künstliche Intelligenz basiert auf den Erkenntnissen der Informatik. Dieses Wissen wird, ähnlich wie in unserem eigenen Gehirn, linear kausal strukturiert und dann in Algorithmen logisch aufbauend abgearbeitet. Irritierenderweise haben jedoch die Menschen als Nutzende dieser digitalen Algorithmen das Gefühl, dass sie immer weniger selbstverantwortlich entscheiden und unabhängig von diesen Algorithmen (er-)leben (können), weil sie das Prinzip der Kausalität in ihrem – nun digitalen – Lebensumfeld nicht mehr mit ihren eigenen Sinnen erfahren, diese Sinneseindrücke in ihrem Gehirn verarbeiten und somit ihr eigenes analoges Leben gestalten können.

Seit über dreißig Jahren verändert die digitale Transformation zunehmend alle ursprünglich analogen Künste: die Musik, den Film (ebenso das Film-Sound-Design), die darstellende Kunst, aber auch analoge handwerkliche Produktionsstätten wie zum Beispiel Uhrenmanufakturen. Klassische analoge Uhren zeigen einen zyklischen und damit „menschlicheren“ Zeitablauf an, während digitale Uhren uns eher ein Ablaufen unserer Lebenszeit suggerieren.

Block 18

Einen analogen Schallplattenspieler (dessen Knistern und Rauschen), einen analogen Filmprojektor (dessen Rattern und Heulen), oder den Verbrennungsmotor eines Oldtimers (dessen Brummen und dessen Geruch) wirken zu sehen, kann viel Freude und Genugtuung bereiten. Das analoge Erleben dieser mechanisch arbeitenden Maschinen ist mit allen fünf Sinnen wahrnehmbar, zumal analoge Maschinen sich mit der Zeit durch ihren langjährigen Gebrauch verändern. Sie erzählen uns dann aufgrund ihres langjährigen Gebrauchs eine bzw. ihre Daseinsgeschichte. Es ist somit nachzuvollziehen, warum eine Schallplattenaufnahme für viele Hörer*innen gefühlt wärmer klingt als das gleiche Audioprodukt in einem digitalisierten Format.

Ein digitales Konstrukt, das einen Speicher lautlos ausliest, wirkt auf uns unwirklich und unheimlich. Zudem kann es problemlos geklont werden. Daher verliert digitale Technik neben ihrem täglichen analogen Erlebenswert damit auch ihren gefühlten einzigartigen singulären materiellen Wert und vermittelt uns Menschen damit kein Zeiterleben mehr, weil sie nicht altern kann. Wir erleben kein Vergehen von Zeit – früher sagte man Zeitläufe – bei dem Gebrauch digitaler Konstrukte. Das wird jedem bewusst, wenn er das Betrachten von vergilbten Fotounikaten mit dem von digitalen, klonbaren Fotoalben vergleicht. Die digitale Transformation hat somit einige unserer analogen (Erlebens-)Werte verändert und manche sogar vernichtet. Die weitere und permanente Durchdringung unserer ursprünglich analogen Welt durch künstliche Intelligenz intensiviert die Entfremdung von unserer analogen (Erlebens-)Zeit und unserem Zeitempfinden immer weiter: Die Digitalisierung hat uns das Zeitgefühl und das Zeiterleben abhandenkommen lassen.

Block 19

Abbildung 2: Welcher Strich ist länger? System 1 urteilt schnell und manchmal falsch. System 2 misst alles genau, liegt häufig richtig und braucht (zu) viel Zeit und Energie. [2]
Abbildung 2: Welcher Strich ist länger? System 1 urteilt schnell und manchmal falsch. System 2 misst alles genau, liegt häufig richtig und braucht (zu) viel Zeit und Energie. [2]

Zusammengefasst und als Antwort auf die drei zu Beginn dieses Artikels formulierten Fragen, macht sich KI die menschliche Neigung zur Bequemlichkeit zunutze – wie jede bisherige technologische Entwicklung und Erfindung auch. Das kann dazu führen, dass Menschen von intelligenten Algorithmen (oder von den KI-Entwicklern im Hintergrund) fremdbestimmt werden und sie so schleichend und für sie selbst eher unmerklich ihre persönliche (Entscheidungs-)Freiheit aufgeben.

Auch dies ist eine bekannte menschliche Schwäche: Das Aufrechthalten persönlicher Freiheit durch ein unabhängiges Denken und ein daraus resultierendes konsequentes Agieren ist kräftezehrend und erfordert neben dem Beibehalten eines freien Geistes auch die Übernahme von Verantwortung, zumindest für das eigene selbstständige Entscheiden und das eigene unabhängige Handeln. Übertragen auf die Tongestaltung, das Sound-Design, bedeuten all diese oben formulierten Gedanken und Erkenntnisse: Algorithmen können das Suchen, Finden von Geräuschen erleichtern und auch das Kreieren von neuen Sounds und Tongestalten unterstützen, aber: Der kreative Gestaltungsprozess sollte einer KI nicht vollständig überlassen werden.

Diese Erkenntnis wurde im Rahmen von mehreren Abschlussarbeiten, die ich innerhalb der Thematik „KI und Sound-Design“ betreut habe, immer wieder bestätigt. Ähnlich wie bei der Berechnung der zehnten Sinfonie Beethovens entstanden bei diesen Abschlussarbeiten keine durchweg zufriedenstellenden Ergebnisse [6]. Die Tonspuren waren häufig ausreichend für den täglichen Gebrauch, jedoch waren sie eher gewöhnlich und langweilig in ihrer kreativen Gestaltung. Das durch digitale Algorithmen geschaffene Sound-Design wirkte wenig lebendig und austauschbar. Es berührte, ähnlich wie die KI-generierte zehnte Sinfonie im Beethoven-Stil, die Hörerinnen und Hörer nicht. Oder anders gesagt: Ein inspirierendes Kunstwerk entsteht so eher nicht.

Eine mögliche Erklärung hierfür ist, dass KI-generierte Sounds und Musik nicht selten in ihrer Ausführung zu vollkommen erscheinen. Kunst entsteht aber im (zunächst) Unperfekten und ist damit ein Spiegelbild des fehlbaren und (deshalb!) kreativen Menschen.

Block 20

Abbildung 3: Auch verändert der Kontext unsere Wahrnehmung stark: Einmal wird das „B“ zum Beispiel vom schnellen System 1 als „B“ einmal als „13“ interpretiert. [2]
Abbildung 3: Auch verändert der Kontext unsere Wahrnehmung stark: Einmal wird das „B“ zum Beispiel vom schnellen System 1 als „B“ einmal als „13“ interpretiert. [2]

Diese Erkenntnis wurde im Rahmen von mehreren Abschlussarbeiten, die ich innerhalb der Thematik „KI und Sound-Design“ betreut habe, immer wieder bestätigt. Ähnlich wie bei der Berechnung der zehnten Sinfonie Beethovens entstanden bei diesen Abschlussarbeiten keine durchweg zufriedenstellenden Ergebnisse [6]. Die Tonspuren waren häufig ausreichend für den täglichen Gebrauch, jedoch waren sie eher gewöhnlich und langweilig in ihrer kreativen Gestaltung. Das durch digitale Algorithmen geschaffene Sound-Design wirkte wenig lebendig und austauschbar. Es berührte, ähnlich wie die KI-generierte zehnte Sinfonie im Beethoven-Stil, die Hörerinnen und Hörer nicht. Oder anders gesagt: Ein inspirierendes Kunstwerk entsteht so eher nicht.

Eine mögliche Erklärung hierfür ist, dass KI-generierte Sounds und Musik nicht selten in ihrer Ausführung zu vollkommen erscheinen. Kunst entsteht aber im (zunächst) Unperfekten und ist damit ein Spiegelbild des fehlbaren und (deshalb!) kreativen Menschen.

Block 21

Beispielsweise erscheint vielen Betrachter*innen ein ausschließlich durch KI generiertes menschliches Gesicht zu vollkommen und wirkt auf sie daher unnatürlich, genauso wie eine KI-generierte Stimme für viele Hörer*innen zu einwandfrei – und damit unmenschlich – klingt. Als Betrachterin und als Hörer erleben wir diese Perfektion als künstlich, befremdlich und roboterhaft: Wir nehmen tatsächlich kein menschliches Gesicht mehr wahr, wir hören keine natürliche menschliche Stimme. Denn wirkliche Schönheit empfinden wir Menschen unter anderem aufgrund des Fehlens von Vollständigkeit, aufgrund der Absenz von Perfektion. Absolute, perfekte Schönheit ist für uns unmenschlich.

Ein „Fehlen“ bedeutet „Fehler“ (deswegen beruhen beide Begriffe im Deutschen auf dem gleichen Wortstamm): ein Muttermal, ein unsymmetrisches Antlitz, eine leichte Un-Rhythmik in der Stimme oder in einem musikalischen Metrum – wie beispielsweise im Walzer, im Jazz und im Swing –, ein charakteristischer Dialekt, ein zur visuellen Erscheinung einer Person nicht adäquater Klang ihrer Stimme. Der Begriff „Künstliche Intelligenz“ ist für mich somit ein eher realitätsfremder Euphemismus, den die Tech-Industrie vor einigen Jahrzehnten aus Gründen des Marketings geschaffen und geprägt hat. Ehrlicher wäre die Bezeichnung „Künstliche Effizienz“.

Block 22

Denn Algorithmen sind noch nicht intelligent und werden es im menschlichen Sinne [2] wahrscheinlich nie werden, da sie nicht intuitiv und kreativ arbeiten werden können, wenn sie ausschließlich mit Vergangenheit in Form von bestehenden Daten gefüttert bzw. trainiert werden. Erst eine Rekonstruktion der menschlichen Intuition als ein Algorithmus, falls dies jemals Realität sein wird, wird uns wahre künstliche Intelligenz bescheren. Der nächste „KI-Winter“ wird also sicherlich kommen.

Dieser Artikel beruht in großen Teilen auf dem Kapitel „Sound-Design und künstliche Intelligenz“ aus meinem Fachbuch Wie Sound-Design wirkt, das am 14. November 2025 in zweiter Auflage bei Hanser in München erschienen ist.

Block 23

Maximilian Kock ist seit 2008 Professor für Audioproduktion an der Ostbayerischen Technischen Hochschule (OTH) Amberg-Weiden und seit 2021 Leiter des Referats Aus- und Weiterbildung beim VDT. Er arbeitet außerdem seit den 1980er-Jahren als Komponist und betreibt seit 2003 ein eigenes Tonstudio. Einige seiner Sound-Kompositionen wurden international ausgezeichnet.

Block 24

Literatur:

[1] Wilson, Edward Osborne: Die soziale Eroberung der Erde – Eine biologische Geschichte des Menschen, C.H.Beck, München, 2013

[2] Kahnemann, Daniel: Thinking, Fast and Slow, Penguin Random House, New York City, USA, 2012

[3] Idiocracy. Regie: Mike Judge, Drehbuch: Mike Judge, Etan Cohen, USA 2006, 20 Century Fox, 84 Minuten

[4] Her. Regie und Drehbuch: Spike Jonze, USA 2013, Warner Bros. Pictures, 126 Minuten

[5] WALL-E. Regie: Andrew Stanton, Drehbuch: Andrew Stanton, Jim Capobianco, Jim Reardon, USA 2008, Walt Disney/Pixar, 98 Minuten

[6] Kock, Maximilian: Psychoacoustics in sound design, aus: The Routledge Handbook of Sound Design (Chapter 15), doi: 10.4324/9781003325567-15, Routledge/Focal Press, New York, 2024

[7] Kock, Maximilian: Wie Sound-Design wirkt, Hanser, München, 2025