Lead DevOps Engineer
ALTER GPU CENTER
To rola lidera technicznego w zespole DevOps/SRE, odpowiedzialnego za infrastrukturę GPU obsługującą obciążenia AI (trenowanie i inferencja). Łączy pracę inżynierską (IaC, CI/CD, monitoring) z zarządzaniem zespołem. Pracujesz na dużych klastrach GPU, automatyzujesz provisioning serwerów bare-metal, zarządzasz Kubernetesem i optymalizujesz niezawodność całej platformy. To nie jest typowy DevOps w chmurze – pracujesz z fizycznymi serwerami, HPC i wysokowydajnym networkingiem (RDMA/InfiniBand).
Brak jawnych widełek — wynagrodzenie do ustalenia podczas rekrutacji.
Brakuje: brak informacji o liczbie członków zespołu, nie określono dyżurów on-call.
To rola lidera technicznego w zespole DevOps/SRE, odpowiedzialnego za infrastrukturę GPU obsługującą obciążenia AI (trenowanie i inferencja). Łączy pracę inżynierską (IaC, CI/CD, monitoring) z zarządzaniem zespołem. Pracujesz na dużych klastrach GPU, automatyzujesz provisioning serwerów bare-metal, zarządzasz Kubernetesem i optymalizujesz niezawodność całej platformy. To nie jest typowy DevOps w chmurze – pracujesz z fizycznymi serwerami, HPC i wysokowydajnym networkingiem (RDMA/InfiniBand).
- ✓Możliwość kształtowania fundamentów DevOps/SRE dla infrastruktury GPU
- ✓Praca z nowoczesnymi technologiami GPU i HPC
- ✓Współpraca z doświadczonymi inżynierami z różnych dziedzin
- ✓Przestrzeń do własności technicznej i rozwoju lidera
- !Brak informacji o liczbie osób w zespole
- !Nie sprecyzowano dyżurów on-call ani wynagrodzenia za nie
- !Firma ma 26-50 osób, a opis mówi o 'large-scale GPU infrastructure' – może chodzić o zarządzanie infrastrukturą klienta lub zewnętrznym data center
- ?Brak jawnych widełek — wynagrodzenie do ustalenia podczas rekrutacji
- •Kierowanie i mentoring zespołu inżynierów DevOps/SRE (stand-upy, code review, planowanie)
- •Projektowanie i wdrażanie Infrastructure as Code (Terraform, Ansible) do zarządzania serwerami GPU i siecią
- •Budowa i utrzymanie pipeline'ów CI/CD dla infrastruktury i usług platformowych
- •Konfiguracja monitoringu i alertowania (Prometheus, Grafana, Loki) dla klastrów GPU
- •Uczestnictwo w incydentach produkcyjnych, post-mortem i poprawa niezawodności (SLO/SLI)
- •Automatyzacja operacji, np. skalowania klastrów, aktualizacji firmware'u, diagnostyki sprzętu
- •Współpraca z zespołami infrastruktury, sieci i AI/ML w celu zapewnienia stabilności platformy
Stanowisko liderskie — wymaga zarówno doświadczenia technicznego jak i umiejętności zarządzania.
Inżynier DevOps/SRE z 8 latami doświadczenia, z czego 3 jako tech lead, mający solidne podstawy w Terraform, Kubernetes i CI/CD, ale bez wcześniejszej pracy z GPU – pod warunkiem silnych umiejętności ogólnej automatyzacji i chęci nauki.
Juniorzy i mid-level bez doświadczenia przywódczego. Osoby szukające wyłącznie pracy zdalnej bez odpowiedzialności za zespół. Inżynierowie unikający pracy ze sprzętem i środowiskami data center.
- ?Ile osób liczy zespół DevOps/SRE, którym mam kierować?
- ?Czy przewidziane są dyżury on-call? Jak wygląda harmonogram i dodatkowe wynagrodzenie?
- ?Jaki jest obecny stan dojrzałości DevOps – od czego zacznę?
- ?Jakie konkretnie technologie GPU są używane (NVIDIA A100, H100, inne)?
- ?Jak wygląda proces rekrutacji – ile etapów, czy jest zadanie domowe?
- ?Czy istnieje budżet na szkolenia i konferencje?
- ?Jakie są oczekiwania co do zakresu odpowiedzialności – czy to rola wyłącznie techniczna, czy też zarządzanie ludzkie (oceny, rekrutacja)?
- −Brak informacji o liczbie członków zespołu
- −Nie określono dyżurów on-call
- −Nie podano szczegółów benefitów (tylko 'package')
- −Brak opisu procesu rekrutacyjnego
- −Nie wiadomo, czy praca ma być wykonywana w określonych godzinach (strefa czasowa?)
Dynamiczne środowisko z naciskiem na własność techniczną, przywództwo i rozwój. Współpraca z doświadczonymi inżynierami z różnych domen (infrastruktura, platforma, AI).