Von der Luftkühlung bis zur Flüssigkeitskühlung treibt KI industrielle Innovationen voran

Aug 07, 2024

Der wesentliche Grund dafür, dass elektronische Geräte Wärme erzeugen, ist der Prozess der Umwandlung von Arbeitsenergie in Wärmeenergie. Die Wärmeableitung soll Probleme beim Wärmemanagement in Hochleistungscomputergeräten angehen, die Geräteleistung optimieren und die Lebensdauer verlängern, indem die Wärme direkt von der Oberfläche von Chips oder Prozessoren abgeführt wird. Mit dem Anstieg des Chip-Stromverbrauchs hat sich die Wärmeableitungstechnologie vom linearen Temperaturausgleich eindimensionaler Wärmerohre zum planaren Temperaturausgleich zweidimensionaler VC, zum integrierten Temperaturausgleich dreidimensionaler VC-Technologiepfade und schließlich weiterentwickelt zur Flüssigkeitskühlungstechnologie.

vapor chamber and heatpipe

3D VC bietet bessere Kühlvorteile wie „effiziente Kühlung, gleichmäßige Temperaturverteilung und reduzierte Hotspots“, wodurch die Engpassanforderungen der Wärmeableitung für Hochleistungsgeräte und des Temperaturausgleichs in Bereichen mit hoher Wärmeflussdichte erfüllt werden können. Es kann auch eine stärkere Übertaktungsleistung und Systemstabilität nach dem Übertakten gewährleisten. Die Wärmeleitfähigkeit zwischen Wärmerohr/Ausgleichsplatte dient dazu, Wärme an mehrere zusammengebaute Wärmerohre/Ausgleichsplatten zu übertragen, die einen thermischen Kontaktwiderstand und den thermischen Widerstand von Kupfer selbst aufweisen. Und 3D-VC unterliegt durch die dreidimensionale Strukturkonnektivität einem internen Flüssigphasenübergang und einer thermischen Diffusion, wodurch die Chipwärme direkt und effizient an das distale Ende der Zähne übertragen wird, um die Wärme abzuleiten.

3D vapor Chamber Heatsink

Die Kühltechnologie umfasst zwei Arten: Luftkühlung und Flüssigkeitskühlung. Bei der luftgekühlten Technologie ist die Wärmeableitungskapazität von Heatpipes und VC relativ gering. Die Obergrenze der 3D-VC-Wärmeableitung kann auf 1000 W erweitert werden, und beide erfordern einen Lüfter zur Wärmeableitung. Die Technologie ist einfach, kostengünstig und für die meisten Geräte geeignet. Die Flüssigkeitskühlungstechnologie bietet eine höhere Kühleffizienz und umfasst zwei Typen: Kühlplatte und Tauchtyp. Unter diesen ist die Kühlplatte eine indirekte Kühlmethode mit moderaten Anfangsinvestitionen, geringeren Betriebs- und Wartungskosten und relativ ausgereift. Nvidia GB200 NVL72 verwendet eine Kaltplatten-Flüssigkeitskühlungslösung; Die Tauchkühlung ist eine direkte Kühlmethode mit hohen technischen Anforderungen und hohen Betriebs- und Wartungskosten.

GPU liquid cooling

Die Ausbildung und Förderung von KI-Großmodellen erfordert eine höhere Rechenleistung der Chips und verbessert den Stromverbrauch einzelner Chips. Die Temperatur des Chips beeinflusst seine Leistung. Wenn die Betriebstemperatur des Chips nahe bei 70-80 Grad liegt, sinkt die Leistung des Chips bei jedem Temperaturanstieg um 2 Grad um etwa 10 %. Daher erhöht der Anstieg des Stromverbrauchs eines einzelnen Chips den Bedarf an Wärmeableitung weiter. Zudem hat der Nvidia B200 eine Leistungsaufnahme von über 1000W und liegt nahe an der Obergrenze der luftgekühlten Kühlung; Richtlinien wie „Dual Carbon“ und „East West Calculation“ verlangen strikte PUE-Anforderungen für Rechenzentren, und der durchschnittliche PUE für Flüssigkeitskühlung ist niedriger als der für Luftkühlung; Im Hinblick auf die Gesamtbetriebskosten liegen die anfänglichen Investitionskosten der Kaltplatten-Flüssigkeitskühlung im Vergleich zur Luftkühlung nahe an denen der Luftkühlung und die anschließenden Betriebskosten sind niedriger.

AI liquid cooling

Einphasiger, flüssigkeitsgekühlter Immersionsschrank: Es handelt sich um einen flüssigkeitsgekühlten Server, der in den Tank eingebaut ist und dessen CDU und Tank durch Rohrleitungen verbunden sind. Die untere Rohrleitung transportiert Kühlmedium mit niedriger Temperatur in den Tank, und das flüssigkeitsgekühlte Medium nimmt die Wärme vom flüssigkeitsgekühlten Server auf. Nachdem die Temperatur angestiegen ist, fließt sie zurück zur CDU und die Wärme wird von der CDU abgeführt. Mit dieser Struktur kann eine vollständige Flüssigkeitskühlung des Servers erreicht werden, und das lüfterlose Design führt im Vergleich zur Luftkühlung zu einer höheren Leistungsdichte und einem niedrigeren PUE. Der technische Schwierigkeitsgrad ist jedoch hoch und die Durchdringungsrate relativ gering.

single phase liquid cold plate

Zweiphasentauchen: Bei hohen technischen Anforderungen kann die Leistungsdichte des Systems deutlich erhöht werden. Aufgrund der hohen Leistung des Hauptchips im Server muss die Chipoberfläche einer verbesserten Siedebehandlung unterzogen werden, um den Vergasungskern auf ihrer Oberfläche zu vergrößern, die Effizienz der Phasenwechsel-Wärmeübertragung zu verbessern und eine maximale Wärmeableitungsdichte von über 100 W/ zu erreichen. c㎡.

two-phase immersion cooling heatsink

Angetrieben durch die Entwicklung der KI-Rechenleistung und der PUE-Richtlinien muss die Kühltechnologie kontinuierlich verbessert werden, um die Betriebstemperatur elektronischer Geräte zu kontrollieren. Die Wärmeableitung auf Chipebene wird sich von Heatpipe/VC auf effizientere 3DVC- und Kühlplattenkühlungslösungen verlagern, was kontinuierliche Innovationen in der Chipkühlungstechnologie vorantreibt.

Ein paar: Anwendung der Mikrokanal-Chip-Kühltechnologie in Flüssigkeitskühllösungen

Der nächste streifen: Design einer flüssigkeitsgekühlten Verbund-Mikrokanalplatte mit Dampfkammer

Wissen

Von der Luftkühlung bis zur Flüssigkeitskühlung treibt KI industrielle Innovationen voran