Stockholm

HPC-Ingenieur

Veröffentlicht am Donnerstag, 5. Februar 2026

IT
Stockholm
Bis zu 0.00 £ pro Jahr
Permanente Schweißbadsicherung

High-Performance Computing (HPC)-Ingenieur – (Stockholm, Schweden)

Übersicht

Unser wachstumsstarker Technologiekunde sucht einen erfahrenen High-Performance Computing (HPC)-Ingenieur Sie unterstützen die Konzeption, den Aufbau und den Betrieb von großskaligen Rechenplattformen für anspruchsvolle Workloads (z. B. KI/ML, Simulation, Rendering, Analytik und Forschung). In enger Zusammenarbeit mit Infrastruktur-, Plattform- und Forschungs-/Entwicklungsteams stellen Sie zuverlässige Systeme mit hohem Durchsatz, starker Performance, Automatisierung und umfassender Überwachung bereit.

Key Responsibilities

  • Entwurf, Bereitstellung und Unterstützung HPC-Cluster (On-Premise / Colocation / Cloud-Anbindung) mit Fokus auf Leistung, Ausfallsicherheit und Skalierbarkeit.
  • Verwalten und optimieren Linux-basiert Rechenumgebungen (Bereitstellung, Patching, Kernel-/Treiberoptimierung, Benutzerzugriff, Härtung).
  • Implementieren und pflegen Arbeitslastplanung und Clustermanagement (z. B. Slurm oder ein gleichwertiges System), einschließlich Partitionen/Warteschlangen, Fair-Share-Richtlinien und Verbesserungen der Jobeffizienz.
  • Unterstützung GPU-beschleunigt Umgebungen (sofern zutreffend): Treiber-/Toolkit-Management, Leistungsprofilierung, Stabilitäts-Fehlerbehebung.
  • Bauen und pflegen Automatisierung für Cluster-Lebenszyklusoperationen (IaC, Konfigurationsverwaltung, CI/CD-ähnliche Operationen).
  • Arbeiten Sie mit den Netzwerk- und Speicherteams zusammen, um eine hohe Durchsatzrate und geringe Latenz im gesamten Stack zu gewährleisten.
  • Eigenverantwortliche Reaktion auf Störungen und Problemmanagement für HPC-Dienste; Leitung von Ursachenanalysen und präventiven Verbesserungen.
  • Entwicklung von Überwachungs-, Protokollierungs- und Kapazitätsplanungssystemen zur Erreichung der Durchsatz- und Verfügbarkeitsziele.
  • Erstellen Sie aussagekräftige Dokumentationen (Betriebshandbücher, Architekturskizzen, Betriebsstandards) und tragen Sie zur kontinuierlichen Verbesserung bei.

Erforderliche Fähigkeiten und Erfahrungen

  • Fundierte praktische Erfahrung als HPC-Ingenieur / Linux-Systemingenieur / Infrastruktur-Ingenieur in leistungskritischen Umgebungen.
  • Fundierte Linux-Administrationskenntnisse (systemd, Netzwerk-Grundlagen, Speicherverwaltung, Leistungsoptimierung, Fehlerbehebung).
  • Erfahrung im Betrieb von HPC- oder Großrechnerplattformen, einschließlich einer oder mehrerer der folgenden:
    • Planer / Clustermanager (Slurm bevorzugt; PBS, LSF, Kubernetes für Batch-Verarbeitung usw.)
    • GPU-Berechnung (NVIDIA-Treiber/CUDA, NCCL-Kenntnisse, Profiling-Tools)
    • MPI und Konzepte des verteilten Rechnens (OpenMPI/MPICH-Verständnis)
  • Solide Kenntnisse in Skriptsprachen/Automatisierung (Bash, Python; plus Ansible/Terraform oder ähnliches).
  • Praktisches Verständnis von Beobachtbarkeit (Metriken, Protokolle, Tracing) und die Verwendung von Monitoring-Stacks zur Steigerung der Zuverlässigkeit.
  • Gute Kenntnisse der in HPC verwendeten Speicher- und Datenbewegungsmuster (parallele Dateisysteme und/oder Hochleistungs-Shared-Storage-Konzepte).
  • Starke Kommunikationsfähigkeiten – Fähigkeit zur Zusammenarbeit mit Plattform-, Netzwerk-, Speicher- und Anwendungsteams.

Wünschenswert / Schön zu haben

  • Erfahrungen mit Hochgeschwindigkeitsverbindungen (z. B. InfiniBand, RoCE) und Fehlerbehebung in Netzwerken mit niedriger Latenz.
  • Erfahrungen mit containerisiertes HPC oder hybride HPC-Workloads (Apptainer/Singularity, Docker, wo angebracht).
  • Kenntnisse der Best Practices für die Sicherheit in gemeinsam genutzten Rechenumgebungen (Prinzip der minimalen Berechtigungen, Überwachung, Umgang mit Geheimnissen).
  • Hintergrundwissen zur Unterstützung von KI/ML-Infrastrukturen im großen Maßstab (GPU-Flottenbetrieb, Jobeffizienz, Kapazitätsoptimierung).

Standort & Arbeitsmodell

  • Stockholm, Schweden (lokal ansässig).
  • Arbeitendes Model: Hybrid/Vor Ort abhängig von den betrieblichen Erfordernissen.

So sieht Erfolg aus

  • Stabile, leistungsstarke Cluster mit messbaren Verbesserungen bei Durchsatz, Auslastung und Erfolgsquote der Aufträge.
  • Hohe Automatisierung und Wiederholbarkeit bei Bereitstellung, Konfiguration und Betrieb.
  • Klare operative Vorgehensweisen (Überwachung, Alarmierung, Betriebshandbücher), die die mittlere Reparaturzeit (MTTR) verkürzen und die Zuverlässigkeit verbessern.

Nächste Schritte

  • Bitte senden Sie mir Ihren aktuellen Lebenslauf, der dieser Stellenbeschreibung entspricht, sowie Ihre Kontaktdaten.

Rami James

Veröffentlicht von:

Rami James
Leitender Seniorberater
LinkedIn

Bewerben Sie sich für diese Stelle.