Google und Microsoft veranstalten mit Next einen KI-Hardware-Kampf

Von Agam Shah

20. Februar 2023

Microsoft und Google treiben einen großen Wandel im Computing voran, indem sie KI über Suchmaschinen zu den Menschen bringen, und ein Maßstab für den Erfolg könnte an der Hardware und der Rechenzentrumsinfrastruktur liegen, die die Anwendungen unterstützt.

Letzte Woche kündigten Microsoft und Google KI-gestützte Suchmaschinen der nächsten Generation an, die Schlussfolgerungen ziehen und Vorhersagen treffen sowie umfassendere Antworten auf Benutzerfragen liefern können. Die Suchmaschinen werden in der Lage sein, vollständige Antworten auf komplexe Anfragen zu generieren, ähnlich wie ChatGPT detaillierte Antworten liefern oder Aufsätze verfassen kann.

Microsoft setzt KI in Bing ein, um auf Textanfragen zu antworten, und Google teilte Pläne mit, KI in seine Text-, Bild- und Videosuchtools zu integrieren. Die Ankündigungen erfolgten letzte Woche an aufeinanderfolgenden Tagen.

Die Unternehmen räumten ein, dass der Einsatz von KI in Suchmaschinen ohne eine starke Hardware-Infrastruktur nicht möglich wäre. Die Unternehmen machten keine Angaben zur tatsächlichen Hardware, die das KI-Computing antreibt.

Seit Jahren fördern Microsoft und Google KI-Hardware, die für Ankündigungen zur Hauptsendezeit entwickelt wurde, wie die KI-Suchmaschinen der letzten Woche.

Die Unternehmen verfügen über sehr unterschiedliche KI-Computing-Infrastrukturen, und die Geschwindigkeit der Antworten und die Genauigkeit der Ergebnisse werden ein Härtetest für die Funktionsfähigkeit der Suchmaschinen sein.

Googles Bard wird von seinen TPU-Chips (Tensor Processing Unit) in seinem Cloud-Dienst angetrieben, was von einer mit den Plänen des Unternehmens vertrauten Quelle bestätigt wurde. Microsoft sagte, sein KI-Supercomputer in Azure – der wahrscheinlich auf GPUs läuft – könne Ergebnisse in der Größenordnung von Millisekunden oder mit der Geschwindigkeit der Suchlatenz liefern.

Damit kommt es zu einem sehr öffentlichen Kampf im KI-Computing zwischen den TPUs von Google und dem KI-Marktführer Nvidia, dessen GPUs den Markt dominieren.

„Teams arbeiteten weltweit daran, Maschinen und Rechenzentren mit Strom zu versorgen und auszubauen. Wir orchestrierten und konfigurierten sorgfältig einen komplexen Satz verteilter Ressourcen. Wir bauten neue Plattformteile, die den Lastausgleich erleichtern, die Leistung optimieren und skalieren wie nie zuvor“, sagte Dena Saunders, Produktleiter für Bing bei Microsoft, während der Einführungsveranstaltung.

Microsoft verwendet eine fortschrittlichere Version von OpenAIs ChatGPT. Auf der Microsoft-Veranstaltung schätzte OpenAI-CEO Sam Altman, dass es täglich 10 Milliarden Suchanfragen gebe.

Der Weg von Microsoft zu Bing mit KI begann damit, sicherzustellen, dass das Unternehmen über die erforderliche Rechenkapazität mit seinem KI-Supercomputer verfügte, der nach Angaben des Unternehmens zu den fünf schnellsten Supercomputern der Welt gehört. Der Computer ist nicht in der Top500-Rangliste aufgeführt.

„Wir haben uns auf den KI-Supercomputer bezogen, aber diese Arbeit hat Jahre gedauert und es waren viele Investitionen erforderlich, um die Art von Maßstab, die Art der Geschwindigkeit und die Art der Kosten zu schaffen, die wir in jeder Schicht des Stapels einbringen können. Das denke ich.“ … ist ziemlich differenziert, die Größenordnung, in der wir tätig sind“, sagte Amy Hood, Executive Vice President und Chief Financial Officer bei Microsoft, während eines Telefongesprächs mit Investoren letzte Woche.

Die Rechenkosten für KI auf der Supercomputerebene werden im Laufe der Zeit weiter sinken, da Nutzungsskalen und Optimierungen implementiert werden, sagte Hood.

„Die Kosten pro Suchtransaktion sinken natürlich mit der Größe. Ich denke, wir beginnen mit einer ziemlich robusten Plattform, um das zu können“, sagte Hood.

Die Rechenkosten steigen in der Regel, wenn mehr GPUs implementiert werden, wobei die Kosten für Kühlung und andere unterstützende Infrastruktur die Rechnungen in die Höhe treiben. Aber Unternehmen knüpfen ihren Umsatz typischerweise an die Rechenkosten.

Der KI-Supercomputer von Microsoft wurde in Zusammenarbeit mit OpenAI entwickelt und verfügt über 285.000 CPU-Kerne und 10.000 GPUs. Nvidia hat im November einen Vertrag unterzeichnet, um Zehntausende seiner A100- und H100-GPUs in die Azure-Infrastruktur zu integrieren.

Der Bing-Suchanteil von Microsoft kommt laut Statcounter nicht annähernd an die Google-Suche heran, die im Januar einen Marktanteil von 93 Prozent hatte.

Bei der künstlichen Intelligenz handelt es sich im Grunde um einen anderen Computerstil, der auf der Fähigkeit zum Denken und Vorhersagen basiert, während sich die konventionelle Datenverarbeitung auf logische Berechnungen konzentriert. KI wird auf Hardware ausgeführt, die Matrixmultiplikationen durchführen kann, während herkömmliche Computer sich auf CPUs konzentrieren, die sich durch die serielle Verarbeitung von Daten auszeichnen.

Google geht vorsichtig vor und veröffentlicht seine Bard-Konversations-KI als leichte, moderne Version seines LaMDA-Modells für große Sprachen. Googles LaMDA ist eine selbst entwickelte Version, die mit GPT-3 von OpenAI konkurriert, das der Konversations-KI ChatGPT zugrunde liegt.

„Dieses viel kleinere Modell benötigt deutlich weniger Rechenleistung, was bedeutet, dass wir es auf mehr Nutzer skalieren und mehr Feedback erhalten können“, sagte Prabhakar Raghavan, Senior Vice President bei Google und verantwortlich für das Suchgeschäft, während eine Veranstaltung letzte Woche.

Der Ausbau der Infrastruktur für die KI-Suche sei noch in Arbeit und Microsoft und Google müssten noch viel herausfinden, sagte Bob O'Donnell, Chefanalyst bei Technalysis Research.

„Microsoft erkennt, dass sich KI-Computing schnell weiterentwickelt, und ist offen für das Testen und Verwenden neuer KI-Hardware“, sagte O'Donnell, der letzte Woche bei der Einführungsveranstaltung für Bing AI mit dem Infrastrukturteam von Microsoft sprach.

„Sie haben auch deutlich gemacht, dass ‚wir alles versuchen, weil es sich ständig ändert. Und selbst die Dinge, die wir jetzt tun, werden sich im Laufe der Zeit ändern – es wird später Unterschiede geben‘“, sagte O'Donnell.

Für Microsoft sei es wichtiger, über eine Computerplattform zu verfügen, die flexibler sei, „als notwendigerweise 5 % schneller bei einer bestimmten Aufgabe“, sagte O'Donnell.

„Sie gaben zu: ‚Sehen Sie, wir werden in den nächsten 30 Tagen eine Menge lernen, wenn die Leute anfangen, es zu nutzen, und wir anfangen zu sehen, wie die Belastungen wirklich sind.‘ „Es ist eine sehr dynamische, sich bewegende Sache“, sagte O'Donnell.

Beispielsweise erfährt Microsoft möglicherweise etwas über die Spitzenzeiten, zu denen Nutzer mit ihren Suchanfragen Server erreichen. In Zeiten geringer Nutzung könnte Microsoft vom Inferenzteil, der die Ergebnisse ausspuckt, zum Trainingsteil wechseln, der mehr GPU-Rechenleistung erfordert, sagte O'Donnell.

Die 2016 eingeführten TPUs von Google waren ein wichtiger Bestandteil der KI-Strategie des Unternehmens. Die TPUs trieben bekanntermaßen AlphaGo an, das System, das 2016 den Go-Champion Lee Sedol besiegte. Das LaMDA LLM des Unternehmens wurde für die Ausführung auf TPUs entwickelt. Auch Googles Schwesterorganisation DeepMind nutzt TPUs für seine KI-Forschung.

Googles Chip „verfügt über erhebliche Infrastrukturvorteile bei Verwendung der hauseigenen TPUv4-Pods im Vergleich zu Microsoft/OpenAI mit Nvidia-basierten HGX A100s“ in einer reinen KI-Implementierung mit minimalen Optimierungen, sagte Dylan Patel, Gründer von SemiAnalysis, in einem Newsletter, der die Milliarden darlegt Dollar wird es Google kosten, großsprachige Modelle in seine Suchangebote einzubauen.

Mit der Zeit werden die Kosten sinken, da Hardwareskalen und -modelle an die Hardware angepasst werden, schrieb Patel.

Facebook baut jetzt Rechenzentren mit der Kapazität für mehr KI-Computing. Die Facebook-Cluster werden über Tausende von Beschleunigern verfügen, zu denen auch GPUs gehören, und mit einer Leistung von acht bis 64 Megawatt betrieben werden. Die KI-Technologien werden verwendet, um anstößige Inhalte zu entfernen, und die Computercluster werden die Metaverse-Zukunft des Unternehmens vorantreiben. Das Unternehmen baut außerdem einen Supercomputer für die KI-Forschung mit 16.000 GPUs.

Im Allgemeinen werden Rechenzentren jetzt für gezielte Arbeitslasten gebaut, die sich zunehmend auf Anwendungen der künstlichen Intelligenz konzentrieren und über mehr GPU- und CPU-Inhalte verfügen, sagte Dean McCarron, Chefanalyst bei Mercury Research.

Cloud-Anbieter durchlaufen langwierige Bewertungszyklen, um die besten CPUs, GPUs und anderen Komponenten auszuwählen. Ein weiterer Gesichtspunkt sind die Gesamtbetriebskosten.

„Eines der anderen Probleme hier ist, wie flexibel es ist? Denn einige Käufer möchten sich möglicherweise nicht auf eine bestimmte Arbeitslast konzentrieren oder sich zu sehr darauf festlegen, weil sie nicht wissen, ob sie in Zukunft verfügbar sein wird“, sagte McCarron.

Rechenzentren, die vorzugsweise KI-Workloads unterstützen, werden sowohl GPUs als auch CPUs von Intel, Nvidia und AMD etwas stärker in Anspruch nehmen. Einige wählen möglicherweise alternative Beschleuniger für KI-Workloads, diese könnten jedoch mit GPUs und CPUs koexistieren.

„Man wird immer schnellere GPUs brauchen. Wird es in einem Rechenzentrum in zehn Jahren CPUs geben? Ja. Wird es GPUs geben? Ja, auch“, sagte McCarron.

Header-Bild erstellt mit DALL·E 2 von OpenAI.