High-Performance Computing (HPC)-Ingenieur – (Stockholm, Schweden)
Übersicht
Unser wachstumsstarker Technologiekunde sucht einen erfahrenen High-Performance Computing (HPC)-Ingenieur Sie unterstützen die Konzeption, den Aufbau und den Betrieb von großskaligen Rechenplattformen für anspruchsvolle Workloads (z. B. KI/ML, Simulation, Rendering, Analytik und Forschung). In enger Zusammenarbeit mit Infrastruktur-, Plattform- und Forschungs-/Entwicklungsteams stellen Sie zuverlässige Systeme mit hohem Durchsatz, starker Performance, Automatisierung und umfassender Überwachung bereit.
Key Responsibilities
- Entwurf, Bereitstellung und Unterstützung HPC-Cluster (On-Premise / Colocation / Cloud-Anbindung) mit Fokus auf Leistung, Ausfallsicherheit und Skalierbarkeit.
- Verwalten und optimieren Linux-basiert Rechenumgebungen (Bereitstellung, Patching, Kernel-/Treiberoptimierung, Benutzerzugriff, Härtung).
- Implementieren und pflegen Arbeitslastplanung und Clustermanagement (z. B. Slurm oder ein gleichwertiges System), einschließlich Partitionen/Warteschlangen, Fair-Share-Richtlinien und Verbesserungen der Jobeffizienz.
- Unterstützung GPU-beschleunigt Umgebungen (sofern zutreffend): Treiber-/Toolkit-Management, Leistungsprofilierung, Stabilitäts-Fehlerbehebung.
- Bauen und pflegen Automatisierung für Cluster-Lebenszyklusoperationen (IaC, Konfigurationsverwaltung, CI/CD-ähnliche Operationen).
- Arbeiten Sie mit den Netzwerk- und Speicherteams zusammen, um eine hohe Durchsatzrate und geringe Latenz im gesamten Stack zu gewährleisten.
- Eigenverantwortliche Reaktion auf Störungen und Problemmanagement für HPC-Dienste; Leitung von Ursachenanalysen und präventiven Verbesserungen.
- Entwicklung von Überwachungs-, Protokollierungs- und Kapazitätsplanungssystemen zur Erreichung der Durchsatz- und Verfügbarkeitsziele.
- Erstellen Sie aussagekräftige Dokumentationen (Betriebshandbücher, Architekturskizzen, Betriebsstandards) und tragen Sie zur kontinuierlichen Verbesserung bei.
Erforderliche Fähigkeiten und Erfahrungen
- Fundierte praktische Erfahrung als HPC-Ingenieur / Linux-Systemingenieur / Infrastruktur-Ingenieur in leistungskritischen Umgebungen.
- Fundierte Linux-Administrationskenntnisse (systemd, Netzwerk-Grundlagen, Speicherverwaltung, Leistungsoptimierung, Fehlerbehebung).
- Erfahrung im Betrieb von HPC- oder Großrechnerplattformen, einschließlich einer oder mehrerer der folgenden:
- Planer / Clustermanager (Slurm bevorzugt; PBS, LSF, Kubernetes für Batch-Verarbeitung usw.)
- GPU-Berechnung (NVIDIA-Treiber/CUDA, NCCL-Kenntnisse, Profiling-Tools)
- MPI und Konzepte des verteilten Rechnens (OpenMPI/MPICH-Verständnis)
- Solide Kenntnisse in Skriptsprachen/Automatisierung (Bash, Python; plus Ansible/Terraform oder ähnliches).
- Praktisches Verständnis von Beobachtbarkeit (Metriken, Protokolle, Tracing) und die Verwendung von Monitoring-Stacks zur Steigerung der Zuverlässigkeit.
- Gute Kenntnisse der in HPC verwendeten Speicher- und Datenbewegungsmuster (parallele Dateisysteme und/oder Hochleistungs-Shared-Storage-Konzepte).
- Starke Kommunikationsfähigkeiten – Fähigkeit zur Zusammenarbeit mit Plattform-, Netzwerk-, Speicher- und Anwendungsteams.
Wünschenswert / Schön zu haben
- Erfahrungen mit Hochgeschwindigkeitsverbindungen (z. B. InfiniBand, RoCE) und Fehlerbehebung in Netzwerken mit niedriger Latenz.
- Erfahrungen mit containerisiertes HPC oder hybride HPC-Workloads (Apptainer/Singularity, Docker, wo angebracht).
- Kenntnisse der Best Practices für die Sicherheit in gemeinsam genutzten Rechenumgebungen (Prinzip der minimalen Berechtigungen, Überwachung, Umgang mit Geheimnissen).
- Hintergrundwissen zur Unterstützung von KI/ML-Infrastrukturen im großen Maßstab (GPU-Flottenbetrieb, Jobeffizienz, Kapazitätsoptimierung).
Standort & Arbeitsmodell
- Stockholm, Schweden (lokal ansässig).
- Arbeitendes Model: Hybrid/Vor Ort abhängig von den betrieblichen Erfordernissen.
So sieht Erfolg aus
- Stabile, leistungsstarke Cluster mit messbaren Verbesserungen bei Durchsatz, Auslastung und Erfolgsquote der Aufträge.
- Hohe Automatisierung und Wiederholbarkeit bei Bereitstellung, Konfiguration und Betrieb.
- Klare operative Vorgehensweisen (Überwachung, Alarmierung, Betriebshandbücher), die die mittlere Reparaturzeit (MTTR) verkürzen und die Zuverlässigkeit verbessern.
Nächste Schritte
- Bitte senden Sie mir Ihren aktuellen Lebenslauf, der dieser Stellenbeschreibung entspricht, sowie Ihre Kontaktdaten.
