Radeon Open Compute „ROCm“ -Stack v3.1 mit RAS für Vega 7nm veröffentlicht, SLURM-Unterstützung für ein besseres Ressourcenmanagement, aber Navi fehlt immer noch

Hardware /. Radeon Open Compute „ROCm“ -Stack v3.1 mit RAS für Vega 7nm veröffentlicht, SLURM-Unterstützung für ein besseres Ressourcenmanagement, aber Navi fehlt immer noch 2 Minuten gelesen

AMD Radeon



Radeon Open Compute oder 'ROCm' Stack neue Version ist jetzt verfügbar zum Download. Die Radeon Open Compute v3.1 bringt einige Funktionen mit sich, aber seltsamerweise fehlt immer noch die Unterstützung für AMD Navi und GFX10.

ROCm, die am weitesten verbreitete universelle Plattform für GPU-beschleunigtes Computing, ist jetzt in Version 3.1 verfügbar. Das neueste Update der modularen Plattform, mit dem Hardwareanbieter Treiber erstellen können, die das ROCm-Framework unterstützen, enthält einige mit Spannung erwartete Funktionen wie die RAS-Unterstützung für 7-nm-Vega und die SLURM-Unterstützung für AMD-GPUs. Aus bisher unbekannten Gründen unterstützt der ROCm die AMD Navi-Architektur der nächsten Generation jedoch noch nicht vollständig.

Was ist neu in Radeon ROCm v3.1:

Die größte und offensichtlichste Änderung bei der Neuinstallation von Radeon ROCm v3.1 ist die Struktur des ROCm-Installationsverzeichnisses. Bei einer Neuinstallation des ROCm-Toolkits werden die Pakete im installiert / opt / rocm- Mappe. Zuvor wurden ROCm-Toolkit-Pakete im installiert / opt / rocm Mappe.



Die neue Version von ROCm bietet eine verbesserte Unterstützung für Zuverlässigkeit, Zugänglichkeit und Wartungsfreundlichkeit (RAS) für Vega 7-nm-GPUs. Diese 7nm Vega Arbeit ist vermutlich noch unter dem Mikroskop für die Vega-basierter „Arcturus“ Rechenbeschleuniger kommt in diesem Jahr. Die Unterstützung umfasst:



  • UMC RAS ​​- HBM ECC (nicht korrigierbare Fehlerinjektion), Seitenausfall, RAS-Wiederherstellung über GPU (BACO) -Reset
  • GFX RAS - GFX, MMHUB ECC (nicht korrigierbare Fehlerinjektion), RAS-Wiederherstellung über GPU (BACO) -Reset
  • PCIE RAS - PCIE_BIF ECC (nicht korrigierbare Fehlerinjektion), RAS-Wiederherstellung über GPU (BACO) -Reset

Radeon ROCm v3.1 erhält auch SLURM-Unterstützung für AMD-GPUs. SLURM oder Simple Linux Utility für Resource Management ist eines der am meisten bevorzugten und leicht zu verwendenden Cluster Management- und Job Scheduling-Systeme für Linux-Cluster. SLURM wird bevorzugt, da es Open Source, fehlertolerant und hoch skalierbar ist.

Dieses System kann jetzt gut mit AMD-GPUs interagieren. Die neueste Version 20.02.0 von SLURM enthält AMD-Plugins, mit denen SLURM AMD-GPUs automatisch erkennen und konfigurieren kann. Außerdem wird der Energieverbrauch von Grafikchips erfasst und gemeldet. Die SLURM-Unterstützung ist eine nützliche Ergänzung angesichts der zunehmenden Anzahl von Super-Computing-Bereitstellungen mit Radeon-GPUs und anderen größeren AMD-GPU-Clustern.

Trotz der Aufnahme mehrerer Funktionen gibt es in ROCm noch keine Anzeichen für eine Unterstützung von GFX10 / Navi. Das GitHub-Seite für ROCm wurde aktualisiert, um alle Änderungen, Installationshinweise und bekannten Probleme widerzuspiegeln.



Stichworte amd