Site Reliability Engineer (AI Infrastructure)
Link Group
To rola dla inżyniera SRE zajmującego się infrastrukturą AI. Będziesz budować obserwowalność dla obciążeń AI (metryki, dashboardy, alerty, SLO/SLI), automatyzować operacje, integrować AI z procesami zarządzania incydentami, rozwijać CI/CD i współpracować z zespołami produktowymi nad niezawodnością. To nie jest rola deweloperska – to inżynieria niezawodności z naciskiem na infrastrukturę i automatyzację, szczególnie w kontekście AI/ML.
Brakuje: brak opisu procesu rekrutacyjnego, nie podano wielkości zespołu sre.
To rola dla inżyniera SRE zajmującego się infrastrukturą AI. Będziesz budować obserwowalność dla obciążeń AI (metryki, dashboardy, alerty, SLO/SLI), automatyzować operacje, integrować AI z procesami zarządzania incydentami, rozwijać CI/CD i współpracować z zespołami produktowymi nad niezawodnością. To nie jest rola deweloperska – to inżynieria niezawodności z naciskiem na infrastrukturę i automatyzację, szczególnie w kontekście AI/ML.
- ✓Praca z nowoczesnym stackiem: Kubernetes, Prometheus, Grafana, Go/Python
- ✓Wielka firma (501+ pracowników) – stabilność i zasoby
- ✓Ciekawa domena AI/ML – szansa na rozwój w tym kierunku
- !Mowa o współpracy z zespołami nieznającymi SRE – może wymagać dużego mentoringu
- !Brak informacji o liczbie osób w zespole SRE
- !Nie opisano procesu rekrutacyjnego
- •Projektowanie i implementacja metryk, dashboardów i alertów dla systemów AI w Prometheus/Grafana
- •Tworzenie i utrzymanie SLO/SLI oraz analiza wskaźników niezawodności
- •Pisanie automatyzacji w Python/Go do redukcji toil operacyjnego
- •Uczestnictwo w dyżurach on-call i zarządzanie incydentami produkcyjnymi
- •Przeprowadzanie blameless post-mortems i wdrażanie usprawnień
- •Rozwój pipeline'ów CI/CD z walidacją bezpieczeństwa i automatycznym rollbackiem
- •Konfiguracja Kubernetes – autoscaling, scheduling, capacity planning dla obciążeń GPU
- •Współpraca z zespołami produktowymi przy projektowaniu architektury i gotowości operacyjnej
Oferta skierowana do developerów z doświadczeniem komercyjnym (Mid).
Osoba z mocnym doświadczeniem operacyjnym na Kubernetes i solidną znajomością Python/Go, która rozumie SLO/SLI i pracowała z narzędziami observability, ale niekoniecznie miała styczność z AI/ML.
Juniorzy bez udokumentowanego doświadczenia w SRE (brak szans z wymaganiami), osoby szukające wyłącznie pracy deweloperskiej (to rola operacyjna/infrastrukturalna) oraz osoby niechętne dyżurom on-call.
- ?Ile osób liczy zespół SRE i jak jest zorganizowany (np. podział na zespoły)?
- ?Jaka jest skala infrastruktury AI (liczba klastrów, GPU, serwisów)?
- ?Czy oczekuje się znajomości konkretnych narzędzi do model servingu (np. Triton, TorchServe)?
- ?Jakie są główne challenge’y w obecnej infrastrukturze AI, nad którymi będę pracować?
- ?Czy istnieje budżet na szkolenia lub konferencje?
- ?Jak wygląda współpraca z zespołami produktowymi – czy SRE uczestniczy w sprintach?
- ?Jaki jest proces rekrutacyjny – ile etapów, czy jest zadanie domowe?
- −Brak opisu procesu rekrutacyjnego
- −Nie podano wielkości zespołu SRE
- −Brak informacji o częstotliwości on-call
Praca w zespole SRE w dużej organizacji, gdzie współpracuje się z zespołami produktowymi różniącymi się znajomością SRE. Kultura blameless post-mortems i ciągłe doskonalenie.
Powyżej mediany rynkowej
Dane z aktywnych ofert zawierających technologię CI/CD. Pełne statystyki zarobków →