Senior Site Reliability Engineer II
SmartRecruiters
Jest to rola Site Reliability Engineer (SRE) w zespole odpowiedzialnym za niezawodność i obserwowalność platformy rekrutacyjnej SmartRecruiters. Osoba na tym stanowisku będzie współpracować z zespołami produktowymi, aby poprawiać narzędzia i praktyki związane z niezawodnością, reagować na incydenty produkcyjne, automatyzować operacje oraz tworzyć wielokrotnego użytku komponenty (dashboardy, alerty, moduły IaC). Mimo wymogu znajomości Javy i mikrousług, nie jest to rola programistyczna – chodzi o inżynierię niezawodności i platformy, z naciskiem na observability, automatyzację i reagowanie na incydenty.
Brakuje: nie podano szczegółów procesu rekrutacyjnego, brak informacji o konkretnych narzędziach observability używanych w firmie.
Jest to rola Site Reliability Engineer (SRE) w zespole odpowiedzialnym za niezawodność i obserwowalność platformy rekrutacyjnej SmartRecruiters. Osoba na tym stanowisku będzie współpracować z zespołami produktowymi, aby poprawiać narzędzia i praktyki związane z niezawodnością, reagować na incydenty produkcyjne, automatyzować operacje oraz tworzyć wielokrotnego użytku komponenty (dashboardy, alerty, moduły IaC). Mimo wymogu znajomości Javy i mikrousług, nie jest to rola programistyczna – chodzi o inżynierię niezawodności i platformy, z naciskiem na observability, automatyzację i reagowanie na incydenty.
- ✓Nieograniczona liczba dni urlopowych
- ✓Dwa coroczne shutdowny firmy
- ✓Małe zespoły i międzynarodowe projekty
- ✓Autonomiczne zespoły produktowe (empowered teams)
- ✓Firma będąca częścią SAP – stabilność i skala
- !Brak informacji o częstotliwości dyżurów on-call
- !Nie podano konkretnych narzędzi observability (np. Prometheus, Grafana, Datadog)
- !Wielkość zespołu nie jest określona
- !Wymieniono 'Unlimited vacation days' – w praktyce może to oznaczać presję na niebranie urlopu
- •Poprawa i automatyzacja narzędzi do monitorowania, logów, metryk i tracingu
- •Reagowanie na incydenty produkcyjne i prowadzenie analizy poincydentalnej
- •Tworzenie dashboardów, alertów i modułów Infrastructure as Code (IaC) dla całej firmy
- •Współpraca z inżynierami produktowymi (Java, Node.js, Python) przy definiowaniu SLO i error budgetów
- •Przeprowadzanie capacity planning oraz testów wydajnościowych platformy
- •Dokumentowanie standardów, najlepszych praktyk i polityk dotyczących monitorowania i reagowania na incydenty
- •Mentoring innych członków zespołu w zakresie SRE i obserwowalności
Oferta dla doświadczonych specjalistów (Senior).
Inżynier z minimum 5-letnim doświadczeniem w SRE/DevOps, solidną znajomością Javy, AWS i K8s, umiejący pisać skrypty w Bash/Python/Golang i rozumiejący koncepcje SLO i error budgetów. Gotowość do dyżurów on-call.
Osoby szukające wyłącznie roli programistycznej (pure backend development) bez operacji, oraz juniorzy bez doświadczenia w produkcji i dyżurach.
- ?Jak często występują dyżury on-call i jak wygląda rotacja?
- ?Ile osób liczy zespół Internal Engineering?
- ?Jakich narzędzi obserwowalności używacie (Prometheus, Grafana, Datadog, ELK)?
- ?Czy istnieje budżet na szkolenia/konferencje?
- ?Jaki jest stosunek pracy nad nowymi inicjatywami do reagowania na incydenty?
- ?Czy w ramach tej roli będziecie pracować głównie z chmurą AWS?
- ?Jakie są największe wyzwania niezawodnościowe, przed którymi stoi platforma?
- −Nie podano szczegółów procesu rekrutacyjnego
- −Brak informacji o konkretnych narzędziach observability używanych w firmie
- −Nie określono liczby zespołów/platform, które będzie wspierać SRE
- −Brak informacji o budżecie na rozwój (szkolenia, certyfikaty)
Praca w modelu empowered product teams – zespoły mają autonomię w rozwiązywaniu problemów i odpowiadają za wyniki biznesowe. Kultura oparta na współpracy i mentoringu, z naciskiem na dzielenie się wiedzą i dobre praktyki SRE.
Powyżej mediany rynkowej
Dane z aktywnych ofert zawierających technologię K8s. Pełne statystyki zarobków →