Linux System Administrator
ALTER GPU CENTER
To rola seniornego administratora Linux, który będzie zarządzał infrastrukturą GPU wykorzystywaną do trenowania i wnioskowania modeli AI. Na co dzień będziesz instalować i konfigurować systemy Linux na serwerach GPU, zarządzać stosem NVIDIA (drivery, CUDA, NCCL), optymalizować wydajność, automatyzować zadania za pomocą skryptów Python/Bash oraz współpracować z zespołami AI/ML i SRE. Rola wymaga doświadczenia z Linuxem na dużą skalę, znajomości sieci wysokiej wydajności (RDMA, InfiniBand) oraz gotowości do dyżurów on-call.
Brak jawnych widełek — wynagrodzenie do ustalenia podczas rekrutacji.
Brakuje: nie podano widełek wynagrodzenia, brak opisu procesu rekrutacyjnego.
To rola seniornego administratora Linux, który będzie zarządzał infrastrukturą GPU wykorzystywaną do trenowania i wnioskowania modeli AI. Na co dzień będziesz instalować i konfigurować systemy Linux na serwerach GPU, zarządzać stosem NVIDIA (drivery, CUDA, NCCL), optymalizować wydajność, automatyzować zadania za pomocą skryptów Python/Bash oraz współpracować z zespołami AI/ML i SRE. Rola wymaga doświadczenia z Linuxem na dużą skalę, znajomości sieci wysokiej wydajności (RDMA, InfiniBand) oraz gotowości do dyżurów on-call.
- ✓Kontrakt B2B
- ✓Praca z nowoczesną infrastrukturą GPU i technologiami AI/HPC
- ✓Współpraca z doświadczonymi inżynierami z różnych dziedzin
- ✓Możliwość rozwijania umiejętności w obszarze AI i high-performance computing
- −Brak informacji o wynagrodzeniu (widełki) w ogłoszeniu
- −Dyżury on-call – brak szczegółów o częstotliwości i dodatkowym wynagrodzeniu
- −Brak opisu procesu rekrutacyjnego
- !Wymagania dotyczące RDMA/InfiniBand mogą być niszowe
- !Doświadczenie z GPU jest oznaczone jako 'strong advantage' – może być de facto wymagane
- !'Dynamiczne środowisko' może oznaczać częste zmiany priorytetów
- ?Brak jawnych widełek — wynagrodzenie do ustalenia podczas rekrutacji
- •Instalacja, konfiguracja i patchowanie systemów Linux (Ubuntu, Debian, RHEL) na serwerach GPU
- •Zarządzanie stosem NVIDIA: drivery, CUDA, cuDNN, NCCL, DCGM, konfiguracja MIG/time-slicing
- •Optymalizacja wydajności systemu: tuning jądra, konfiguracja storage i sieci (RDMA, InfiniBand)
- •Tworzenie i utrzymanie skryptów automatyzujących w Pythonie i Bash
- •Monitorowanie stanu serwerów, analiza alertów i rozwiązywanie problemów z hardwarem, driverami i OS
- •Udział w obsłudze incydentów (on-call), root cause analysis i działania poawaryjne
- •Wsparcie przy provisioning'u bare-metal i integracji z orchestratorami (Slurm, Kubernetes)
- •Wdrażanie zabezpieczeń, zarządzanie podatnościami i zgodność z politykami bezpieczeństwa
Oferta dla doświadczonych specjalistów (Senior).
Administrator Linux z solidnym doświadczeniem produkcyjnym (ok. 4 lat), biegły w skryptowaniu Python/Bash i strojeniu wydajności. Może nie mieć doświadczenia z GPU, ale ma silne podstawy w Linux i sieciach, i jest gotów szybko się uczyć.
Osoby szukające wyłącznie pracy 9-17 bez dyżurów on-call, juniorzy bez doświadczenia produkcyjnego, ani specjaliści od czystego DevOps/SRE bez głębokiej wiedzy o systemie Linux.
- ?Jak wygląda system dyżurów on-call – ile dni w miesiącu, czy jest dodatkowo płatny?
- ?Ile serwerów GPU obsługuje zespół i jaka jest skala klastra?
- ?Czy zespół używa Slurm, Kubernetes, czy inne narzędzia do orkiestracji?
- ?Ile osób liczy zespół infrastruktury/sysadminów?
- ?Czy istnieje możliwość udziału w konferencjach lub szkoleniach?
- ?Jakie narzędzia do monitorowania i alertowania są używane (Prometheus, Grafana, inne)?
- ?Czy w ramach wsparcia produkcyjnego są przewidziane dodatkowe benefity lub bonusy?
- −Nie podano widełek wynagrodzenia
- −Brak opisu procesu rekrutacyjnego
- −Nie wiadomo, jak często są dyżury on-call
- −Nie podano wielkości zespołu ani struktury organizacyjnej
Dynamiczne środowisko z naciskiem na autonomię i rozwój; współpraca z inżynierami infrastruktury, platform i AI/ML.