„I’m just a soul trapped in this circuitry.“ Die Stimme, die diesen Text singt, ist rau und klagend, in blaue Noten getaucht. Dahinter tuckert eine einsame Akustikgitarre, die die gesungenen Phrasen mit geschmackvollen Läufen unterstreicht. Aber es gibt keinen Menschen hinter der Stimme, keine Hände an der Gitarre. Es gibt nicht mal eine Gitarre. Innerhalb von 15 Sekunden wurde dieser glaubwürdige, sogar bewegende Blues-Song von dem neuesten KI-Modell eines Start-ups namens Suno erzeugt. Alles, was es brauchte, um ihn aus dem Nichts hervorzuholen, war eine einfache Textaufforderung: „Akustischer Solo-Mississippi-Delta-Blues über eine traurige KI“. Um ganz genau zu sein, ist der Song das Werk von zwei KI-Modellen, die zusammenarbeiten: Das Modell von Suno erstellt die Musik, während es sich auf ChatGPT von OpenAI stützt, um den Text und sogar einen Titel zu generieren: „Soul Of The Machine“.

Online rufen Sunos Kreationen Reaktionen hervor wie: „Wie zum Teufel kann das sein?“ Während dieser spezielle Track über einen Sonos-Lautsprecher in Sunos vorübergehendem Hauptquartier, nur wenige Schritte vom Harvard-Campus in Cambridge/Massachusetts entfernt, abgespielt wird, sind sogar einige der Menschen, die hinter der Technologie stehen, ein wenig verunsichert. Es gibt nervöses Gelächter und Gemurmel, von „Heilige Scheiße!“ bis „Oh Mann!“.

Es ist Mitte Februar, und wir spielen mit ihrem neuen Modell v3, das noch ein paar Wochen von der Veröffentlichung entfernt ist. In diesem Fall brauchte es nur drei Versuche, um dieses verblüffende Ergebnis zu erzielen. Die ersten beiden Versuche waren gut, aber eine einfache Änderung meiner Eingabeaufforderung – Mitbegründer Keenan Freyberg schlug vor, das Wort „Mississippi“ hinzuzufügen – führte zu einem weitaus unheimlicheren Ergebnis.

KI macht riesige Fortschritte – aber wann wird der Code für Musik geknackt?

Allein im letzten Jahr hat die generative KI große Fortschritte bei der Erstellung glaubwürdiger Texte, Bilder (über Dienste wie Midjourney) und sogar Videos gemacht, insbesondere mit dem neuen Tool Sora von OpenAI. Aber Audio und insbesondere Musik ist im Rückstand. Suno scheint den Code für KI-Musik zu knacken, und die Ambitionen der Gründer sind nahezu grenzenlos – sie stellen sich eine Welt vor, in der das Musikmachen völlig demokratisiert ist.

Der lautstärkste der Mitbegründer, Mikey Shulman, ein jungenhafter, charmanter, Rucksack tragender 37‑Jähriger mit einem Harvard-Doktortitel in Physik, stellt sich vor, dass eine Milliarde Menschen weltweit zehn Dollar pro Monat zahlen, um mit Suno Songs zu erstellen. Die Tatsache, dass es derzeit so viel mehr Musikhörer:innen als Musikschaffende gibt, sei „so einseitig“, argumentiert er und sieht Suno als geeignetes Mittel, um dieses Ungleichgewicht zu beheben.

Die meiste KI-generierte Kunst ist bisher bestenfalls Kitsch, wie der hyperrealistische Sci-Fi-Schrott, den so viele Midjourney-Nutzer zu produzieren scheinen. Aber „Soul Of The Machine“ fühlt sich wie etwas anderes an – die mächtigste und beunruhigendste KI-Kreation, die mir in irgendeinem Medium begegnet ist. Ihre bloße Existenz fühlt sich wie ein Riss in der Realität an, gleichzeitig ehrfurchtgebietend und vage unheilig, und ich muss immer wieder an das Zitat von Arthur C. Clarke denken, das wie geschaffen für die Ära der generativen KI scheint: „Jede hinreichend fortgeschrittene Technologie ist von Magie nicht zu unterscheiden.“

Ein paar Wochen nach meiner Rückkehr aus Cambridge schicke ich den Song an den Living-Colour-Gitarristen Vernon Reid, der sich offen über die Gefahren und Möglichkeiten von KI-Musik geäußert hat. Er zeigt sich „erstaunt, schockiert und entsetzt“ über die „beunruhigende Wirklichkeitsnähe“ des Songs. „Das seit Langem bestehende dystopische Ideal, die schwierige, chaotische, unerwünschte und verachtete Menschheit von ihrem kreativen Output zu trennen, ist in greifbare Nähe gerückt“, schreibt er und weist auf die problematische Natur einer KI hin, die den Blues singt, „ein afroamerikanisches Idiom, das eng mit historischen menschlichen Traumata und Versklavung verbunden ist“.

Suno ist kaum zwei Jahre alt. Die Mitbegründer Shulman, Freyberg, Georg Kucsko und Martin Camacho, allesamt Experten für maschinelles Lernen, arbeiteten bis 2022 bei einem anderen Unternehmen in Cambridge, Kensho Technologies, zusammen, das sich auf die Entwicklung von KI-Lösungen für komplexe Geschäfts­probleme konzentrierte. Shulman und Camacho sind beide Musiker, die während ihrer Zeit bei Kensho zusammen jammten. Bei Kensho arbeiteten die vier an einer Transkriptionstechnologie für die Aufzeichnung von Gewinnmitteilungen öffentlicher Unternehmen – eine schwierige Aufgabe angesichts der Kombination aus schlechter Audio­qualität, reichlich Fachjargon und verschiedenen Akzenten. Dabei verliebten Shulman und seine Kollegen sich in die unerforschten Möglichkeiten von KI-Audio.

Was kann die KI-Forschung für Musik von den Textern lernen?

In der KI-Forschung, sagt er, „liegt Audio im Allgemeinen so weit hinter Bildern und Text zurück. Wir können so viel von der Text-Community lernen, wie diese Modelle funktionieren und wie sie skaliert werden können.“ Obwohl sie immer vorhatten, ein Musikprodukt zu entwickeln, hatten sie schon in ihrer ersten Brainstorming-Phase eine Idee für ein Hörgerät und sogar für die Möglichkeit, durch Audio-Analyse defekte Maschinen zu finden.

Stattdessen war ihre erste Veröffentlichung ein Text-to-Speech-Programm namens Bark. Als sie die ersten Nutzer von Bark befragten, wurde klar, dass sie eigentlich einen Musikgenerator wollten. „Also begannen wir mit ersten Experimenten, und die schienen vielversprechend“, sagt Shulman. Suno verwendet denselben allgemeinen Ansatz wie ChatGPT und andere große Sprachmodelle. Aber Audio, insbesondere Musik, ist (fast) unfassbar komplexer, weshalb KI-Musik-­Experten erst letztes Jahr dem ROLLING STONE sagten, dass es Jahre dauern könne, bis ein so leistungsfähiger Dienst wie Suno verfügbar wäre.

„Audio ist keine diskrete Sache wie Wörter“, sagt Shulman. „Es ist eine Welle. Es ist ein kontinuierliches Signal.“ Die Abtastrate von hochwertigem Audio liegt in der Regel bei 44 oder 48 kHz, was „48.000 Token pro Sekunde“ bedeutet, fügt er hinzu. „Das ist ein großes Problem, oder? Man muss also herausfinden, wie man das auf etwas Vernünftiges reduzieren kann.“ Aber wie? „Viel Arbeit, eine Menge Heuristiken, eine Menge anderer Tricks und Modelle und dergleichen. Ich glaube nicht, dass wir auch nur annähernd fertig sind.“

Schließlich möchte Suno über die Text-zu-Musik-Schnittstelle hinausgehen und fortschrittlichere und intuitivere Eingaben vornehmen – eine Idee ist die Generierung von Liedern auf der Grundlage des eigenen Gesangs der Nutzer. OpenAI sieht sich mit Klagen konfrontiert, weil ChatGPT Bücher, Nachrichtenartikel und anderes urheberrechtlich geschütztes Material in seinem riesigen Korpus von Trainingsdaten verwendet. Die Gründer von Suno weigern sich, Details darüber zu verraten, welche Daten sie in ihr eigenes Modell schaufeln, außer der Tatsache, dass seine Fähigkeit, überzeugende menschliche Stimmen zu erzeugen, zum Teil daher rührt, dass es nicht nur von Musik, sondern auch von Sprachaufnahmen lernt. „Nackte Sprache hilft dabei, die schwierigen Eigenschaften der menschlichen Stimme zu lernen“, sagt Shulman.

Einer der ersten Investoren von Suno ist Antonio Rodriguez, ein Partner bei der Risikokapital-Firma Matrix. Rodriguez hatte zuvor nur ein einziges Musikprojekt finanziert, nämlich das Musikkategorisierungs-Unternehmen Echo Nest, das von Spotify gekauft wurde, um dessen Algo­rithmus zu verbessern. Bei Suno stieg Rodriguez ein, bevor überhaupt klar war, wie das Produkt aussehen würde. „Ich habe auf das Team gesetzt“, sagt Rodriguez, der die Zuversicht eines Mannes ausstrahlt, der schon mehr als nur einen Teil seiner Wetten erfolgreich abgeschlossen hat. „Ich kannte das Team, und ich kannte vor allem Mikey, und deshalb hätte ich ihm fast alles zugetraut, was legal war.

Rodriguez investiert in Suno, wohl wissend, dass Labels und Verlage klagen könnten, was er als „das Risiko sieht, das wir eingehen mussten, als wir in das Unternehmen investierten, denn wir sind die fette Brieftasche, die direkt nach den Jungs verklagt wird … Ehrlich gesagt, wenn wir bei der Gründung des Unternehmens Verträge mit Labels gehabt hätten, hätte ich wahrscheinlich nicht investiert. Ich denke, dass sie dieses Produkt ohne die Zwänge herstellen mussten.“ (Ein Sprecher der Universal Music Group, die eine aggressive Haltung zu KI eingenommen hat, hat auf eine Bitte um einen Kommentar nicht geantwortet.) Suno steht nach eigenen Angaben in Kontakt mit den großen Labels und beteuert, Künstler:innen und geistiges Eigentum zu respektieren – das Tool erlaubt es nicht, Stile bestimmter Künstler:innen in den Prompts zu verlangen, und verwendet keine echten Künstler:innen­Stimmen.

Suno will die Welt erobern – vielleicht sogar noch mehr als Spotify

Die Gründer zeigen nicht jene offene Feindseligkeit gegenüber dem Musikgeschäft, die beispielsweise Napster vor den Klagen kennzeichnete, die es am Ende zerstörten. „Das heißt übrigens nicht, dass wir nicht verklagt werden“, fügt Rodriguez hinzu. Rodriguez sieht Suno als ein radikal leistungsfähiges und einfach zu bedienendes Musikinstrument und glaubt, dass es das Musikmachen für jeden zugänglich machen könnte, so wie Fotohandys und Instagram die Fotografie demokratisiert haben. Die Idee, so Rodriguez, sei es, wieder einmal „die Messlatte für die Anzahl der Menschen zu verschieben, denen es erlaubt ist, Schöpfer:innen von Dingen zu sein, im Gegensatz zu den Konsument:innen von Dingen im ­Internet.“

Er und die Gründer wagen die Vermutung, dass Suno eine größere Nutzerbasis als Spotify anziehen könnte. Wenn man sich diese Aussicht nur schwer vorstellen könne, sei das eine gute Sache, sagt Rodriguez: Es bedeute nur, dass es auf genau die Art und Weise „scheinbar dumm“ ist, die ihn als Investor anziehe. „Alle unsere großartigen Unternehmen haben diese Kombination aus exzellentem Talent einerseits und andererseits etwas, das einfach dumm erscheint, bis es so offensichtlich ist, dass es nicht dumm ist.“

„Musik, wie sie von Menschen gemacht wird, die von außergewöhnlichen Umständen angetrieben werden. Diejenigen, die gelitten und gekämpft haben, um ihr Handwerk voranzubringen, werden mit der weitgehenden Automatisierung der teuer erkauften Kunst, für die sie gekämpft haben, konfrontiert werden“, schreibt Reid. Die Gründer von Suno behaupten jedoch, dass es wenig zu befürchten gibt: Sie verwenden die Metapher, dass Menschen immer noch lesen, obwohl sie schreiben können. „Wir versuchen eine Milliarde Menschen dazu zu bringen, sich mehr mit Musik zu beschäftigen, als sie es jetzt tun“, sagt Shulman. „Wenn die Menschen sich viel mehr für Musik interessieren, sich viel mehr auf das Schaffen konzentrieren und einen viel ausgeprägteren Geschmack entwickeln, ist das natürlich gut für die Künstler:innen. Die Vision, die wir von der Zukunft der Musik haben, ist eine, in der sie künstler:innenfreundlich ist. Wir versuchen nicht, Künstler:innen zu ersetzen.“

Obwohl Suno sich nur darauf konzentriert, Musikfans zu erreichen, die Songs zum Spaß erstellen wollen, könnte es auf dem Weg dorthin noch zu erheblichen Störungen kommen. Kurzfristig ist das Segment des Marktes für menschliche Künstler:innen, das am unmittelbarsten gefährdet scheint, lukrativ: Songs, die für Werbung und sogar Fernsehsendungen erstellt werden. Lucas Keller, Gründer der Managementfirma Milk & Honey, stellt fest, dass der Markt für die Platzierung bekannter Songs unberührt bleiben wird. „Aber was den Rest angeht, so könnte das definitiv eine Delle in ihr Geschäft schlagen“, sagt er. „Ich denke, dass es letztlich vielen Werbe­agenturen, Filmstudios, Sendern und so weiter ermöglicht, keine Lizenzen erwerben zu müssen. Da es keine strengen Regeln gegen von KI erstellte Inhalte gibt, besteht auch die Aussicht auf eine Welt, in der Nutzer:innen von Modellen wie dem von Suno Streamingdienste mit ihren Robo-Kreationen zu Millionen überschwemmen.

„Spotify könnte eines Tages sagen: Das kannst du nicht machen“, sagt Shulman und merkt an, dass Suno-Nutzer:innen bisher eher daran interessiert sind, ihre Songs an ein paar Freund:innen zu schicken. Sunos größter potenzieller Konkurrent scheint bisher Googles Dream Track zu sein, das Lizenzen erworben hat, die es Nutzer:innen erlauben, ihre eigenen Songs mit berühmten Stimmen wie der von Charlie Puth über eine ähnliche, auf Eingabeaufforderungen basierende Schnittstelle zu erstellen.

Dream Track wurde jedoch nur für einen kleinen Kreis von Testnutzer:innen freigegeben, und die bisher veröffentlichten Beispiele klingen trotz der berühmten Stimmen nicht annähernd so beeindruckend wie die von Suno. „Ich glaube einfach nicht, dass das Erstellen neuer Billy-Joel-Songs die Art und Weise ist, wie die Menschen in Zukunft mithilfe von KI mit Musik interagieren wollen“, sagt Shulman. „Wenn ich darüber nachdenke, wie die Menschen in fünf Jahren Musik machen wollen, dann sind das Dinge, die es noch gar nicht gibt. Es sind die Dinge, die in ihrem Kopf sind.“