Network Reliability Engineer - Senior
Margo
Rola inżyniera ds. niezawodności sieci (SRE) w firmie działającej w obszarze HPC, AI i GPU. Kandydat będzie odpowiedzialny za budowanie i utrzymanie skalowalnej, obserwowanej i bezpiecznej infrastruktury produkcyjnej, w tym systemów AI. Praca odbywa się zdalnie, z koniecznością pracy w godzinach wieczornych CEST.
Brakuje: wielkość zespołu sre., szczegóły dotyczące płatności za dyżury on-call..
Rola inżyniera ds. niezawodności sieci (SRE) w firmie działającej w obszarze HPC, AI i GPU. Kandydat będzie odpowiedzialny za budowanie i utrzymanie skalowalnej, obserwowanej i bezpiecznej infrastruktury produkcyjnej, w tym systemów AI. Praca odbywa się zdalnie, z koniecznością pracy w godzinach wieczornych CEST.
- ✓Praca zdalna.
- ✓Długoterminowy projekt (minimum rok).
- ✓Możliwość pracy z technologiami HPC, AI, GPU.
- ✓Firma zlokalizowana w Kalifornii, USA (może być atutem dla niektórych).
- −Praca w godzinach wieczornych CEST (rozpoczęcie o 18:00 CEST) może być trudna dla wielu kandydatów.
- −Projekt długoterminowy minimum rok, ale brak informacji o możliwości przedłużenia poza tym okresem.
- !Brak informacji o wielkości zespołu SRE.
- !Nie sprecyzowano, czy dyżury on-call są płatne dodatkowo.
- !Brak informacji o procesie rekrutacyjnym.
- •Budowanie dużej infrastruktury AI z monitoringiem, diagnozowaniem i naprawą incydentów produkcyjnych
- •Rozwiązywanie problemów produkcyjnych o wysokim wpływie we współpracy z innymi zespołami inżynierskimi
- •Udział w rotacji dyżurów on-call w celu obsługi incydentów i zapewnienia ciągłości usług
- •Implementacja i utrzymanie rozwiązań observability do monitorowania infrastruktury AI i stanu aplikacji
- •Zarządzanie cyklem życia infrastruktury AI w różnych środowiskach i krajach
- •Promowanie i stosowanie najlepszych praktyk w zakresie stabilności, odporności, skalowalności i bezpieczeństwa
- •Utrzymywanie jasnej dokumentacji technicznej dla narzędzi i procedur
- •Współpraca z zespołami deweloperskimi w celu zapewnienia gotowości infrastruktury
Oferta dla doświadczonych specjalistów (Senior).
Kandydat z doświadczeniem w pracy z systemami Linux, skryptami (Bash, Python) i narzędziami do monitorowania, który rozumie podstawy sieci i potrafi zarządzać bazami danych. Komunikuje się biegle w języku angielskim.
Osoby bez doświadczenia w pracy z systemami Linux, skryptami, narzędziami do monitorowania lub sieci. Również osoby, które nie potrafią pracować w godzinach wieczornych CEST lub nie są biegłe w języku angielskim.
- ?Jak wygląda rotacja dyżurów on-call i czy jest dodatkowo płatna?
- ?Jakie są główne wyzwania związane z infrastrukturą AI, nad którą będę pracował?
- ?Jak wygląda proces onboardingu i jakie wsparcie mogę oczekiwać?
- ?Jakie są plany rozwoju infrastruktury w najbliższym roku?
- ?Jak wygląda proces rekrutacyjny?
- ?Jakie są możliwości rozwoju technicznego w ramach tego projektu?
- ?Jakie są oczekiwania dotyczące współpracy z zespołami deweloperskimi?
- −Wielkość zespołu SRE.
- −Szczegóły dotyczące płatności za dyżury on-call.
- −Opis procesu rekrutacyjnego.
- −Informacje o narzędziach do zarządzania infrastrukturą poza wymienionymi.
- −Informacje o budżecie szkoleniowym lub możliwościach rozwoju.
Zespół kładzie nacisk na proaktywne podejście, pasję do automatyzacji, ciągłe doskonalenie oraz silne umiejętności współpracy i komunikacji. Istnieje chęć dzielenia się wiedzą i mentorowania.
Brak informacji o procesie rekrutacyjnym.
Powyżej mediany rynkowej
Dane z aktywnych ofert zawierających technologię Networking. Pełne statystyki zarobków →