Gerüchte über die modulare Zukunft der KI - Shenzhen Coastwise Solutions Inc.

Von James Somers

Eines Tages Ende Dezember lud ich ein Programm namens Whisper.cpp auf meinen Laptop herunter, in der Hoffnung, damit ein Interview zu transkribieren, das ich geführt hatte. Ich fütterte es mit einer Audiodatei und alle paar Sekunden erzeugte es ein oder zwei Zeilen einer unheimlich genauen Abschrift, in der genau das Gesagte mit einer Präzision aufgeschrieben wurde, die ich noch nie zuvor gesehen hatte. Als sich die Schlangen häuften, spürte ich, wie mein Computer heißer wurde. Dies war eines der wenigen Male in der letzten Zeit, in denen mein Laptop tatsächlich etwas Kompliziertes berechnet hat – ich verwende ihn hauptsächlich zum Surfen im Internet, zum Fernsehen und zum Schreiben. Jetzt lief es mit modernster KI

Obwohl Whisper.cpp eines der ausgefeilteren Programme ist, die jemals auf meinem Laptop ausgeführt wurden, ist es auch eines der einfachsten. Wenn man KI-Forschern aus den Anfängen der Spracherkennung den Quellcode zeigen würde, würden sie vielleicht ungläubig lachen oder weinen – das wäre so, als würde man einem Kernphysiker verraten, dass der Prozess zur Kaltfusion auf eine Serviette geschrieben werden kann. Whisper.cpp ist destillierte Intelligenz. Das Besondere an moderner Software ist, dass sie praktisch keine Abhängigkeiten aufweist – mit anderen Worten, sie funktioniert ohne die Hilfe anderer Programme. Stattdessen handelt es sich um zehntausend Zeilen eigenständigen Codes, von denen die meisten kaum mehr als ziemlich komplizierte Arithmetik ausführen. Es wurde in fünf Tagen von Georgi Gerganov geschrieben, einem bulgarischen Programmierer, der nach eigenen Angaben so gut wie nichts über Spracherkennung weiß. Gerganov adaptierte es aus einem Programm namens Whisper, das im September von OpenAI veröffentlicht wurde, der gleichen Organisation hinter ChatGPT und DALL-E. Whisper transkribiert Sprache in mehr als neunzig Sprachen. In einigen von ihnen ist die Software zu übermenschlichen Leistungen fähig – das heißt, sie kann tatsächlich besser analysieren, was jemand sagt, als es ein Mensch kann.

Das Ungewöhnliche an Whisper ist, dass OpenAI es als Open-Source-Lösung bereitgestellt hat und nicht nur den Code, sondern auch eine detaillierte Beschreibung seiner Architektur veröffentlicht hat. Dazu gehörten auch die überaus wichtigen „Modellgewichte“: eine riesige Zahlendatei, die die synaptische Stärke jeder Verbindung im neuronalen Netzwerk der Software angibt. Auf diese Weise ermöglichte OpenAI es jedem, auch einem Amateur wie Gerganov, das Programm zu ändern. Gerganov konvertierte Whisper in C++, eine weithin unterstützte Programmiersprache, um das Herunterladen und Ausführen auf praktisch jedem Gerät zu erleichtern. Das hört sich wie ein logistisches Detail an, ist aber tatsächlich das Zeichen einer umfassenderen grundlegenden Veränderung. Bis vor Kurzem waren weltweit führende KIs wie Whisper ausschließlich den großen Technologieunternehmen vorbehalten, die sie entwickelt haben. Sie existierten hinter den Kulissen und steuerten auf subtile Weise Suchergebnisse, Empfehlungen, Chat-Assistenten und dergleichen. Wenn Außenstehende sie direkt nutzen durften, wurde ihre Nutzung gemessen und kontrolliert.

In den letzten Jahren gab es einige andere Open-Source-KIs, die meisten davon wurden jedoch durch Reverse Engineering proprietärer Projekte entwickelt. LeelaZero, eine Schach-Engine, ist eine Crowdsourcing-Version von DeepMinds AlphaZero, dem weltbesten Computerspieler; Da DeepMind die Modellgewichte von AlphaZero nicht veröffentlichte, musste LeelaZero von einzelnen Benutzern von Grund auf trainiert werden – eine Strategie, die nur praktikabel war, weil das Programm lernen konnte, indem es Schach gegen sich selbst spielte. In ähnlicher Weise ist Stable Diffusion, das Bilder aus Beschreibungen heraufbeschwört, ein äußerst beliebter Klon von DALL-E von OpenAI und Imagen von Google, der jedoch mit öffentlich verfügbaren Daten trainiert wird. Whisper ist möglicherweise die erste KI dieser Klasse, die einfach der Öffentlichkeit geschenkt wurde. In einer Ära cloudbasierter Software, in der alle unsere Programme im Wesentlichen von den Unternehmen gemietet werden, die sie herstellen, finde ich es etwas elektrisierend, dass mir jetzt, nachdem ich Whisper.cpp heruntergeladen habe, niemand es mehr wegnehmen kann – nicht einmal Gerganov. Sein kleines Programm hat meinen Laptop von einem Gerät, das auf KI zugreift, in eine Art intelligente Maschine verwandelt.

Es gab eine Zeit, in der Forscher glaubten, dass die Spracherkennung auf menschlicher Ebene „KI-schwer“ sein könnte – ihre Art, ein Problem zu beschreiben, das so schwierig war, dass es nur dann gelöst werden könnte, wenn Computer über allgemeine Intelligenz verfügten. Die Idee war, dass die gesprochene Sprache so vieldeutig ist, dass die einzige Möglichkeit, sie zu analysieren, darin besteht, tatsächlich zu verstehen, was die Sprecher meinten. Letzte Woche habe ich im Radio etwas gehört, das für einen Computer wie „Kann man einen Ford kranen?“ geklungen hätte. Aber mein Gehirn, das den Kontext des Gesprächs kannte, löste es nahtlos auf: „Kann sich die Ukraine leisten?“ Die Bedeutungs- und Kontextprobleme sorgten dafür, dass die Spracherkennung jahrzehntelang als Maßstab für den gesamten Bereich der KI galt. Der einzige Weg, Sprache zu verstehen, so die Meinung, bestehe darin, sie wirklich zu verstehen.

In einem einflussreichen Aufsatz aus dem Jahr 2019 erklärt der KI-Forscher Richard Sutton, dass frühe Spracherkennungsprogramme mit speziellem linguistischem Wissen ausgestattet waren – nicht nur über Syntax, Grammatik und Phonetik, sondern auch darüber, wie die Form des menschlichen Mundes die möglichen Laute einschränkte. Trotz ihrer Komplexität funktionierten diese Programme nicht sehr gut. In den 1970er-Jahren kam es zu einer Hinwendung zu statistischen Methoden, bei der Expertenwissen zugunsten von aus Daten erlernten Mustern aufgegeben wurde – zum Beispiel darüber, welche Laute und Wörter tendenziell zusammenpassen. Der Erfolg dieses Ansatzes wirkte sich auf den Rest der KI aus und führte dazu, dass der Bereich einen Großteil seiner Bemühungen auf Statistiken konzentrierte, die aus riesigen Datenmengen gewonnen wurden. Die Strategie zahlte sich aus: 1990 war ein Programm namens DragonDictate, das in Echtzeit arbeitete, der Stand der Technik für die Spracherkennung von Verbrauchern. Aber Dragon verlangte von den Benutzern eine klare Aussprache und Pausen zwischen den einzelnen Wörtern und kostete neuntausend Dollar. Eine wesentliche Verbesserung kam 1997, als dasselbe Unternehmen Dragon NaturallySpeaking herausbrachte. Man musste nicht mehr pausieren, wenn man mit ihm sprach. Dennoch war die Genauigkeit bei wirklich frei fließender, akzentuierter oder technischer Sprache relativ schlecht. Ich erinnere mich an meinen Paten, einen beständigen Early Adopter, der um diese Zeit das Spracherkennungssystem in seinem Auto vorführte; Er benutzte es, um vom Autotelefon aus zu Hause anzurufen. Das Wählen wäre einfacher gewesen.

Spracherkennungsprogramme waren immer noch zu fehlerhaft, um reibungslos zu funktionieren. Es war zeitaufwändig, ihre Fehler zu korrigieren. Und doch waren sie immer noch erschreckend komplex. Ein Lehrbuch aus dem Jahr 1999, das ein damals hochmodernes Spracherkennungssystem ähnlich Dragon NaturallySpeaking beschrieb, umfasste mehr als vierhundert Seiten; Um es zu verstehen, musste man komplizierte Mathematik beherrschen, die manchmal klangspezifisch war – versteckte Markov-Modelle, Spektralanalyse und etwas, das „Cepstralkompensation“ genannt wird. Dem Buch lag eine CD-ROM mit 30.000 Codezeilen bei, von denen ein großer Teil den Launen von Sprache und Ton gewidmet war. In Bezug auf die Statistik war die Spracherkennung zu einem komplexen und schwierigen Gebiet geworden. Es schien, dass der Fortschritt jetzt nur noch schrittweise und mit zunehmenden Schmerzen erfolgen würde.

Aber tatsächlich geschah das Gegenteil. Wie Sutton es in seinem Essay aus dem Jahr 2019 ausdrückte, hatten siebzig Jahre KI-Forschung ergeben, dass „allgemeine Methoden, die Berechnungen nutzen, letztendlich am effektivsten sind, und zwar mit großem Abstand.“ Sutton nannte dies „die bittere Lektion“: Es war bitter, weil es etwas Beunruhigendes an der Tatsache hatte, dass das Einbinden von mehr Klugheit und technischen Arkana in Ihre KI-Programme nicht nur unwesentlich für den Fortschritt, sondern tatsächlich ein Hindernis war. Es war besser, ein einfacheres Programm zu haben, das lernen konnte, auf einem schnellen Computer zu laufen und ihm die Aufgabe zu geben, ein kompliziertes Problem selbst zu lösen. Die Lektion müsse immer wieder neu gelernt werden, schrieb Sutton, denn wenn man alles, was man wusste, in eine KI einbaue, habe man zunächst oft kurzfristige Verbesserungen erzielt. Mit jedem neuen bisschen Wissen würde Ihr Programm geringfügig besser – aber auf lange Sicht würde die zusätzliche Komplexität es schwieriger machen, den Weg zu schnelleren Fortschritten zu finden. Methoden, die einen Schritt zurücktraten und Expertenwissen zugunsten reiner Berechnungen einschränkten, setzten sich immer durch. Sutton kam zu dem Schluss, dass das Ziel der KI-Forschung darin bestehen sollte, „Agenten zu entwickeln, die wie wir entdecken können“ und nicht Programme, „die das enthalten, was wir entdeckt haben“. In den letzten Jahren scheinen KI-Forscher die bittere Lektion ein für alle Mal gelernt zu haben. Das Ergebnis war eine Parade erstaunlicher neuer Programme.

Seitdem ich Kassetten zum Abtippen habe – Vorträge zum Transkribieren, Interviews zum Aufschreiben –, habe ich von einem Programm geträumt, das das für mich erledigt. Der Transkriptionsprozess dauerte so lange und erforderte so viele kleine Rückspulen, dass meine Hände und mein Rücken verkrampften. Als Journalist hat das Wissen, was mich erwartet, meine Berichterstattung wahrscheinlich verzerrt: Anstatt jemanden persönlich mit einem Tonbandgerät zu treffen, schien es oft einfacher, einfach zu telefonieren und die guten Momente des Augenblicks aufzuschreiben. Vor etwa fünf Jahren begann ich mit einer Mischung aus Scham und Erleichterung, andere Leute dafür zu bezahlen, Transkriptionen für mich anzufertigen. Ich habe einen Dienst namens Rev in Anspruch genommen, der die Arbeit ausgelagert und einen Anteil übernommen hat. Es war teuer – etwa hundert Dollar für nur ein einziges Interview –, aber der Preis zeugte von der damit verbundenen Arbeit. Rev hatte eine viel günstigere KI-Option, aber wie andere Transkriptionsprogramme, die ich ausprobiert hatte, war sie einfach so ungenau, dass sie lästig war. Es kam mir so vor, als würden Sie mehr Zeit damit verbringen, das fehlerhafte Transkript zu korrigieren, als es nur selbst abzutippen.

Vor anderthalb Jahren hörte ich von einem Dienst namens Otter.AI, der so viel besser war als alles, was es zuvor gab, dass man einen Unterschied in der Art vermuten lässt. Die Interpunktion war zwar nicht so toll und man musste hier und da noch korrigieren, aber es war das erste Transkriptionsprogramm, das mühsames Wiederanhören überflüssig machte. Ich war so beeindruckt, dass es zu einem festen Bestandteil meines Arbeitsablaufs wurde. Ein einstmals unmögliches Problem schien fast gelöst zu sein.

Als Whisper Ende letzten Jahres aus dem Nichts auftauchte, löste es mein Problem endgültig. Whisper beherrscht die Transkription grundsätzlich genauso gut wie ich. Das Programm greift den subtilen Jargon auf und verarbeitet Wörter, deren Klang leicht mit anderen Wörtern verwechselt werden könnte. Es hört zum Beispiel richtig, wie ein Maschinenbauingenieur sagt: „Es wird einige Zeit dauern, das CAD zu erstellen“, obwohl „CAD“ – ein Akronym für „Computer-Aided Design“ – richtig großgeschrieben wird. Es wird herausgefunden, wie man die Selbstunterbrechungen einer Person unterstreicht, wie zum Beispiel: „Wir stehen kurz vor dem Versand. Wir stehen kurz davor – der nächste wird versandt.“ Es ist kostenlos, läuft auf meinem Laptop und ist konzeptionell bei weitem einfacher als alles, was es davor gab.

Vor fast einem Jahrzehnt schrieb ich einen Aufsatz, in dem ich mich fragte, was passieren würde, wenn die Sprachtranskription wirklich allgegenwärtig würde. Zum einen ist es wahrscheinlich, dass wir noch viel mehr Diktate erleben werden. (Obwohl es sich jetzt schon unnatürlich anfühlt, mit meinem Telefon zu sprechen, tue ich es immer häufiger.) Sobald die Technologie ein bestimmtes Qualitätsniveau erreicht, könnte die Aufgabe des Gerichtsreporters wegfallen; Archivare könnten sich freuen, wenn Aufzeichnungen von Reden, Treffen, Aussagen und Radiosendungen aus längst vergangenen Zeiten durchsuchbar werden. Es könnte noch größere Veränderungen geben – wir reden viel und fast alles davon geht in den Äther. Was wäre, wenn Menschen ganz selbstverständlich Gespräche aufzeichnen, Transkripte anfertigen und darauf zurückgreifen würden, so wie wir heute auf alte Texte oder E-Mails zurückblicken? Es hat für mich etwas Reizvolles, Geplauder zu horten; Reden ist ohne Frage meine Lieblingsbeschäftigung, und ich liebe die Idee, es zu würdigen, indem ich es aufbewahre. Aber dann denken Sie an Werbetreibende, die viel dafür bezahlen, Erwähnungen ihrer Markennamen in natürlichen Gesprächen zu prüfen. Sie stellen sich vor, Sie verlieren einen Freund oder einen Job wegen eines dummen Kommentars. Die Aussicht ist wirklich erschreckend.

Die Geschichte von Whisper verrät viel über die Geschichte der KI und ihre Entwicklung. Wenn eine Software Open-Source ist, können Sie sie an Ihre eigenen Zwecke anpassen – es ist eine Schachtel mit Legosteinen und nicht ein fertiges Spielzeug – und Software, die flexibel ist, ist bemerkenswert langlebig. 1976 entwickelte der Programmierer Richard Stallman ein Textbearbeitungsprogramm namens Emacs, das sich auch heute noch großer Beliebtheit bei Softwareentwicklern erfreut. Ich verwende es nicht nur zum Programmieren, sondern auch zum Schreiben: Da es Open Source ist, konnte ich es modifizieren, um mir die Verwaltung von Notizen für meine Artikel zu erleichtern. Ich habe Code angepasst, den jemand von jemand anderem übernommen hatte, der ihn von jemand anderem übernommen hatte – eine Kette von Tüfteleien, die bis zurück zu Stallman reichte.

Wir sehen bereits, dass etwas Ähnliches bei Whisper passiert. Ein Freund von mir, ein Filmemacher und Softwareentwickler, hat eine dünne Hülle für das Tool geschrieben, das alle Audio- und Videodateien eines Dokumentarfilmprojekts transkribiert, um ihm das Auffinden von Auszügen aus Interviews zu erleichtern. Andere haben Programme entwickelt, die Twitch-Streams und YouTube-Videos transkribieren oder die als private Sprachassistenten auf ihren Telefonen funktionieren. Eine Gruppe von Programmierern versucht, dem Tool beizubringen, zu kommentieren, wer spricht. Gerganov, der Whisper.cpp entwickelt hat, hat kürzlich eine webbasierte Version erstellt, sodass Benutzer nichts herunterladen müssen.

Nahezu perfekte Spracherkennung ist nicht nur eine Anwendung, sondern ein Baustein für Anwendungen. Sobald dies geschieht, geht es sehr schnell. Als das Text-zu-Bild-Programm von OpenAI, DALL-E, herauskam, sorgte es für Aufsehen – aber das war nichts im Vergleich zu der Hektik, die sein Open-Source-Klon Stable Diffusion auslöste. DALL-E nutzte ein „Freemium“-Modell, bei dem Benutzer für zusätzliche Bilder bezahlen konnten und niemand seinen Code ändern konnte; Es erwies sich im Allgemeinen als leistungsfähiger und genauer als Stable Diffusion, da es auf Bergen proprietärer Daten trainiert wurde. Aber es ist gezwungen, mit einer großen Anzahl und Vielfalt an Adaptionen, Plug-Ins und Remixen aus der Open-Source-Community zu konkurrieren. Innerhalb weniger Wochen hatten Benutzer Stable Diffusion angepasst, um einen „Bild-zu-Bild“-Modus zu erstellen, in dem sie das Programm mit einer Textaufforderung anweisen konnten, ein vorhandenes Bild zu optimieren. Durch wiederholtes Aufrufen dieses Modus wurde eine neue Illustrationsmethode möglich, bei der ein Benutzer iterativ ein Bild mit Worten zusammenstellen konnte, als würde er einen endlos geduldigen Roboterkünstler herumkommandieren.

Diese Öffnung und nicht irgendein konkreter Leistungssprung nach vorne bestimmt den aktuellen Moment in AI. ChatGPT, der Konversations-Chatbot von OpenAI, ist nicht deshalb aufregend, weil er besonders intelligent ist – er ist oft eine Quelle von Blödsinn oder Banalität –, sondern weil er welche Intelligenz auch immer bietet have ist einfach da und kann von jedem jederzeit genutzt werden. Die Verfügbarkeit des Programms ist vielleicht sein wichtigstes Merkmal, denn so können auch normale Menschen erkennen, wofür es gut ist. Dennoch ist ChatGPT noch nicht so offen wie Whisper. Da automatisiertes Schreiben potenziell so wertvoll ist, hat OpenAI ein Interesse daran, es streng zu kontrollieren. Das Unternehmen verlangt eine Gebühr für eine Premium-Version, und es wird zweifellos bald ein Ökosystem gewinnorientierter Apps geben, die kaum mehr tun, als ChatGPT zu umschließen.

Irgendwann wird jedoch jemand ein Programm veröffentlichen, das fast so leistungsfähig wie ChatGPT und vollständig Open Source ist. Ein unternehmungslustiger Amateur wird einen Weg finden, es kostenlos auf Ihrem Laptop zum Laufen zu bringen. Die Leute werden anfangen, es herunterzuladen, neu zu mischen, zu verbinden, neu zu denken und neu zu erfinden. Die Fähigkeiten der KI werden mit unserer kollektiven Intelligenz kollidieren. Und die Welt wird sich auf eine Weise verändern, die wir noch nicht vorhersagen können. ♦