Principal Site Reliability Engineer (AI Platform Architecture)
Link Group
To rola Principal SRE odpowiedzialnego za niezawodność i architekturę platform AI. Obowiązki obejmują definiowanie SLO, projektowanie strategii obserwowalności (w tym GPU-monitoring), automatyzację, wdrażanie bezpiecznych deploymentów (canary, rollback) oraz mentoring zespołu. To połączenie architektury systemów, hands-on developmentu i wpływania na decyzje techniczne w całej organizacji. Wymaga głębokiej wiedzy o Kubernetes i Python/Go, a także znajomości AI/ML infra.
Brakuje: brak opisu procesu rekrutacyjnego, nie podano wielkości zespołu sre.
To rola Principal SRE odpowiedzialnego za niezawodność i architekturę platform AI. Obowiązki obejmują definiowanie SLO, projektowanie strategii obserwowalności (w tym GPU-monitoring), automatyzację, wdrażanie bezpiecznych deploymentów (canary, rollback) oraz mentoring zespołu. To połączenie architektury systemów, hands-on developmentu i wpływania na decyzje techniczne w całej organizacji. Wymaga głębokiej wiedzy o Kubernetes i Python/Go, a także znajomości AI/ML infra.
- ✓Nowoczesny stack: Kubernetes, Python/Go, AI/ML
- ✓Rola principalowa z dużym wpływem i autonomią
- ✓Możliwość mentoringu i kształtowania zespołu
- !Brak informacji o wielkości zespołu SRE
- !Nie sprecyzowano, czy są dyżury on-call
- !Ogłoszenie nie podaje konkretnych AI workloadów (np. training, inference)
- !Nie określono procesu rekrutacyjnego
- •Definiowanie architektury niezawodności dla usług AI compute, w tym SLO i wzorce fault tolerance
- •Tworzenie narzędzi automatyzacji i platform zwiększających skalę zespołu SRE
- •Projektowanie strategii obserwowalności z monitorowaniem GPU i telemetrią specyficzną dla AI
- •Architektura standardów bezpiecznego wdrożenia: progressive rollouts, canary analysis, automatyczne rollbacki
- •Wpływanie na cykl życia developmentu poprzez review architektury i designu produktów
- •Mentoring zespołu SRE poprzez code review, design review i rozwiązywanie problemów
- •Współpraca z zespołami product engineering w celu wbudowania niezawodności w proces tworzenia oprogramowania
Oferta dla doświadczonych specjalistów (Senior).
Senior SRE/platform engineer z bardzo dobrym Kubernetes i Python/Go, który ma doświadczenie w skalowalnych systemach i jest gotów rozwijać się w kierunku AI/ML. Mile widziane wcześniejsze doświadczenie z GPU workloadami.
Juniorzy, osoby szukające wyłącznie pracy rąk bez odpowiedzialności architektonicznej, ani osoby niezainteresowane AI/ML infrastructure.
- ?Jak duży jest zespół SRE i iloma platformami się opiekuje?
- ?Czy są dyżury on-call? Jeśli tak, jak często i czy są dodatkowo płatne?
- ?Jakie konkretnie AI/ML workloady są obsługiwane (training, inference, obie)?
- ?Jaka jest proporcja pracy architektonicznej do hands-on developmentu?
- ?Czy istnieje budżet na konferencje lub szkolenia?
- ?Jak wygląda proces rekrutacyjny – ile etapów, czy jest zadanie domowe?
- −Brak opisu procesu rekrutacyjnego
- −Nie podano wielkości zespołu SRE
- −Nie wiadomo, czy są dyżury on-call
- −Nie określono konkretnych narzędzi obserwowalności
- −Nie sprecyzowano poziomu doświadczenia w latach
Powyżej mediany rynkowej
Dane z aktywnych ofert zawierających technologię Go.