Google zeigt ein KI-Modell, das Musik anhand von Beschreibungen erstellen kann

Google hat ein KI-System entwickelt, das auf der Grundlage einer reinen Textbeschreibung Musik mit einer Klarheit von 24 kHz erzeugen kann. Dem maschinellen

Lernmodell wurde ein Datensatz von mehr als 280.000 Stunden Musik zur Verfügung gestellt, mit dem es fast jedes Instrument und Genre kennt. Google hat eine Reihe von Beispielen für von der KI generierte Melodien veröffentlicht, lässt die Öffentlichkeit aber nicht selbst mit den Fähigkeiten spielen, da sie befürchtet, dass dies gegen das Urheberrecht verstoßen könnte. Schließlich lernt die KI von urheberrechtlich geschützten Melodien.

MusicLM, wie Google sein Modell nennt, ist nicht die erste KI, die etwas Ähnliches kann; OpenAI (u. a. bekannt durch ChatGPT) hat bereits Jukebox gezeigt. Google behauptet jedoch in seinem Forschungspapier (PDF), dass dies das erste Text-zu-Musik-Modell ist, das „kohärente Songs auf der Grundlage von Beschreibungen mit erheblicher Komplexität“ erzeugen kann. Als Beispiele für solche Aufforderungen werden genannt: „Faszinierender Jazz-Song mit einem einprägsamen Saxophon-Solo und einem Solosänger“ und „Berliner Techno der 90er Jahre mit einem tiefen, aber soliden Bass“.

Darüber hinaus ist das Modell auch in der Lage, längere Beschreibungen von mehreren Sätzen in Musik umzuwandeln. Selbst bei Beschreibungen, die nicht direkt mit Musik zu tun haben („Zeit zum Aufwachen“), kann MusicLM eine passende Melodie hervorzaubern. Es ist auch möglich, eine Reihe solcher Beschreibungen aneinander zu reihen („Zeit zum Laufen“, „Zeit, 100 Prozent zu geben“ usw.), so dass die Musik sozusagen eine Geschichte erzählt.

Das soll nicht heißen, dass dieses Modell keine Einschränkungen hat. So kann zum Beispiel noch keine kohärente, menschliche Stimme erzeugt werden. Der Gesang klingt also immer noch sehr synthetisch und ist meist unverständlich. Außerdem funktioniert nicht jedes Instrument gleich gut: Auf den Macaras zum Beispiel braucht MusicLM etwas Übung, wenn man sich das Beispiel ansieht.