Google behauptet, sein TPU v4 sei besser als Nvidia A100

Von Jaime Hampton

6. April 2023

In einem neuen wissenschaftlichen Artikel von Google wird die Leistung seiner Supercomputing-Plattform Cloud TPU v4 detailliert beschrieben und behauptet, dass sie Exascale-Leistung für maschinelles Lernen mit gesteigerter Effizienz bietet.

Die Autoren des Forschungspapiers behaupten, dass das TPU v4 1,2x–1,7x schneller ist und 1,3x–1,9x weniger Strom verbraucht als das Nvidia A100 in Systemen ähnlicher Größe. Das Papier stellt fest, dass Google TPU v4 aufgrund ihrer begrenzten Verfügbarkeit und 4-nm-Architektur (im Vergleich zur 7-nm-Architektur von TPU v4) nicht mit den neueren Nvidia H100-GPUs verglichen hat.

Da die Modelle für maschinelles Lernen größer und komplexer geworden sind, ist auch ihr Bedarf an Rechenressourcen gestiegen. Die Tensor Processing Units (TPUs) von Google sind spezielle Hardwarebeschleuniger, die zum Aufbau von Modellen für maschinelles Lernen, insbesondere von tiefen neuronalen Netzen, verwendet werden. Sie sind für Tensoroperationen optimiert und können die Effizienz beim Training und der Inferenz groß angelegter ML-Modelle erheblich steigern. Laut Google machen die Leistung, Skalierbarkeit und Verfügbarkeit TPU-Supercomputer zu Arbeitspferden seiner großen Sprachmodelle wie LaMDA, MUM und PaLM.

Der Supercomputer TPU v4 enthält 4.096 Chips, die über proprietäre optische Schaltkreisschalter (OCS) miteinander verbunden sind. Laut Google sind diese schneller, billiger und verbrauchen weniger Strom als InfiniBand, eine weitere beliebte Verbindungstechnologie. Google behauptet, dass seine OCS-Technologie weniger als 5 % der Systemkosten und des Stromverbrauchs des TPU v4 ausmacht, und gibt an, dass sie die Supercomputer-Verbindungstopologie dynamisch neu konfiguriert, um Skalierung, Verfügbarkeit, Auslastung, Modularität, Bereitstellung, Sicherheit, Leistung und Leistung zu verbessern.

Die Google-Ingenieure und Papierautoren Norm Jouppi und David Patterson erklärten in einem Blogbeitrag, dass Google Cloud TPU v4 dank wichtiger Innovationen bei Verbindungstechnologien und domänenspezifischen Beschleunigern (DSAs) einen fast zehnfachen Sprung bei der Skalierung der ML-Systemleistung gegenüber TPU v3 ermöglichte. Es steigerte außerdem die Energieeffizienz um etwa das Zwei- bis Dreifache im Vergleich zu modernen ML-DSAs und reduzierte den CO2e-Ausstoß um etwa das Zwanzigfache im Vergleich zu DSAs in typischen Rechenzentren vor Ort, wie das Unternehmen es nennt.

Das TPU v4-System ist seit 2020 bei Google im Einsatz. Der TPU v4-Chip wurde auf der I/O-Entwicklerkonferenz 2021 des Unternehmens vorgestellt. Laut Google werden die Supercomputer von führenden KI-Teams aktiv für die ML-Forschung und -Produktion in Bezug auf Sprachmodelle, Empfehlungssysteme und andere generative KI genutzt.

In Bezug auf Empfehlungssysteme sind die TPU-Supercomputer von Google laut Google auch die ersten mit Hardware-Unterstützung für Einbettungen, einer Schlüsselkomponente von Deep Learning Recommendation Models (DLRMs), die in Werbung, Suchranking, YouTube und Google Play verwendet werden. Dies liegt daran, dass jede TPU v4 mit SparseCores ausgestattet ist. Hierbei handelt es sich um Datenflussprozessoren, die Modelle, die auf Einbettungen basieren, um das 5- bis 7-fache beschleunigen, aber nur 5 % der Chipfläche und -leistung verbrauchen.

Midjourney, ein Text-to-Image-KI-Startup, hat sich kürzlich für TPU v4 entschieden, um die vierte Version seines Bildgenerierungsmodells zu trainieren: „Wir sind stolz darauf, mit Google Cloud zusammenzuarbeiten, um unserer Kreativ-Community weltweit ein nahtloses Erlebnis zu bieten, das von Google unterstützt wird.“ skalierbare Infrastruktur“, sagte David Holz, Gründer und CEO von Midjourney, in einem Google-Blogbeitrag. „Vom Training der vierten Version unseres Algorithmus auf den neuesten v4-TPUs mit JAX bis hin zur Ausführung von Inferenz auf GPUs waren wir beeindruckt von der Geschwindigkeit, mit der TPU v4 unseren Benutzern ermöglicht, ihre lebendigen Ideen zum Leben zu erwecken.“

TPU v4-Supercomputer stehen KI-Forschern und -Entwicklern im ML-Cluster von Google Cloud in Oklahoma zur Verfügung, das letztes Jahr eröffnet wurde. Google geht davon aus, dass der Cluster mit neun Exaflops maximaler Gesamtleistung der größte öffentlich verfügbare ML-Hub ist, der mit 90 % CO2-freier Energie betrieben wird. Sehen Sie sich hier das Forschungspapier zu TPU v4 an.