(Senior) Network Reliability Engineer (NRE) - AI GPU Clusters
Margo
Rola dla doświadczonego inżyniera platformy, który będzie budował i utrzymywał infrastrukturę AI/GPU dla klastrów obliczeniowych. Praca zdalna z USA, z uwzględnieniem strefy czasowej CEST. Kluczowe jest doświadczenie w obszarze HPC, AI, sieci i automatyzacji, a także gotowość do pracy w systemie on-call.
Brakuje: dokładna liczba lat doświadczenia wymagana na stanowisku senior., szczegółowy opis struktury zespołu i jego wielkości..
Rola dla doświadczonego inżyniera platformy, który będzie budował i utrzymywał infrastrukturę AI/GPU dla klastrów obliczeniowych. Praca zdalna z USA, z uwzględnieniem strefy czasowej CEST. Kluczowe jest doświadczenie w obszarze HPC, AI, sieci i automatyzacji, a także gotowość do pracy w systemie on-call.
- ✓Praca zdalna (remote)
- ✓Możliwość pracy przy projektach związanych z AI i GPU Clusters
- ✓Długoterminowy projekt
- ✓Prywatna opieka medyczna
- ✓Subskrypcja sportowa
- −Praca w godzinach zbliżonych do 18:00 CEST, co może być trudne dla osób z innych stref czasowych lub preferujących standardowe godziny pracy.
- −Długoterminowy projekt minimum rok – może oznaczać brak elastyczności w zmianie projektu.
- !Wielkość firmy nie jest podana wprost, ale 'Flat structure' sugeruje mniejszą organizację.
- !Poziom 'Senior' jest podany, ale nie ma sprecyzowanych lat doświadczenia.
- •Budowanie dużej infrastruktury AI z monitoringiem, diagnozowaniem i naprawą incydentów produkcyjnych
- •Rozwiązywanie problemów produkcyjnych o wysokim wpływie we współpracy z innymi zespołami inżynierskimi
- •Udział w rotacji on-call w celu obsługi incydentów i zapewnienia ciągłości usług
- •Implementacja i utrzymanie rozwiązań observability do monitorowania infrastruktury AI i stanu aplikacji
- •Współtworzenie cyklu życia infrastruktury AI w różnych środowiskach i krajach
- •Promowanie i stosowanie najlepszych praktyk w zakresie stabilności, odporności, skalowalności i bezpieczeństwa
- •Utrzymywanie jasnej dokumentacji technicznej dla narzędzi i procedur
- •Współtworzenie ewolucji systemów i narzędzi w oparciu o feedback z produkcji
Oferta dla doświadczonych specjalistów (Senior).
Inżynier z solidnym doświadczeniem w Pythonie/Go, systemach Linux i sieciach. Posiada podstawową wiedzę z zakresu monitorowania i IaC. Jest gotowy do nauki i pracy w systemie on-call.
Nie dla osób, które preferują pracę stacjonarną lub nie chcą pracować w systemie on-call. Rola wymaga elastyczności czasowej i gotowości do reagowania na incydenty poza standardowymi godzinami pracy.
- ?Jak wygląda rotacja on-call – ile dyżurów miesięcznie i jakie są oczekiwania w przypadku incydentów?
- ?Jakie konkretnie narzędzia i technologie są używane do monitorowania i logowania w praktyce?
- ?Jakie są główne wyzwania związane z infrastrukturą GPU i HPC w obecnych projektach?
- ?Jakie są plany dotyczące rozwoju i skalowania infrastruktury AI w najbliższym roku?
- ?Jak wygląda proces onboardingu dla nowych członków zespołu?
- ?Jakie są możliwości rozwoju technicznego i ścieżki kariery w ramach zespołu?
- ?Jakie są oczekiwania dotyczące dokumentacji technicznej i jej aktualizacji?
- −Dokładna liczba lat doświadczenia wymagana na stanowisku Senior.
- −Szczegółowy opis struktury zespołu i jego wielkości.
- −Informacja o tym, czy praca w systemie on-call jest dodatkowo płatna.
- −Szczegóły dotyczące projektów AI i GPU Clusters, nad którymi będzie pracował kandydat.
Płaska struktura, międzynarodowe środowisko, nacisk na współpracę i dzielenie się wiedzą.
Powyżej mediany rynkowej
Dane z aktywnych ofert zawierających technologię Python. Pełne statystyki zarobków →