Production Systems Engineer – Mass Recovery
ITDS
Rola skupia się na zapewnieniu odporności i szybkiego odtwarzania krytycznych systemów w dużym banku. Nie jest to typowe stanowisko deweloperskie – główne zadania to modelowanie zależności usług, analiza domen awarii, definiowanie promienia rażenia incydentów oraz współpraca przy odtwarzaniu po awarii. Praca wymaga głębokiej wiedzy infrastrukturalnej (wirtualizacja, sieci, chmura) i narzędzi obserwowalności.
Brakuje: nie podano liczby dni w biurze dla modelu hybrydowego, brak informacji o wielkości zespołu i strukturze hierarchicznej.
Rola skupia się na zapewnieniu odporności i szybkiego odtwarzania krytycznych systemów w dużym banku. Nie jest to typowe stanowisko deweloperskie – główne zadania to modelowanie zależności usług, analiza domen awarii, definiowanie promienia rażenia incydentów oraz współpraca przy odtwarzaniu po awarii. Praca wymaga głębokiej wiedzy infrastrukturalnej (wirtualizacja, sieci, chmura) i narzędzi obserwowalności.
- ✓Praca dla kluczowej instytucji finansowej – stabilność i prestiż
- ✓Specjalistyczna, unikalna rola w obszarze Mass Recovery – możliwość rozwoju w niszowej dziedzinie
- ✓Konkretny zakres obowiązków i wymagań – brak ogólników
- !Brak informacji o wymaganej liczbie dni w biurze w modelu hybrydowym
- !Poziom 'regular' (mid) pomimo wymogu 4+ lat doświadczenia – możliwe niedopasowanie seniority
- •Tworzenie i aktualizacja modeli zależności usług między aplikacjami, platformami i warstwami infrastruktury
- •Identyfikacja i dokumentacja wspólnych domen awarii (np. wirtualizacja, storage, sieć)
- •Definiowanie modeli promienia rażenia (blast radius) dla scenariuszy masowych awarii
- •Analiza awarii i dostarczanie rekomendacji dla zespołów odtwarzania
- •Weryfikacja i kwestionowanie istniejących źródeł danych o odporności pod kątem zgodności z rzeczywistością
- •Dokumentowanie luk w odporności (np. niedopasowane RTO, brakujące ścieżki odtwarzania)
- •Współpraca z narzędziami platformowymi (ServiceNow, AppDynamics, Splunk) w celu ekstrakcji danych operacyjnych
- •Współtworzenie architektur fault-tolerant i procedur odtwarzania dla systemów o wysokiej dostępności
Oferta skierowana do developerów z doświadczeniem komercyjnym (Mid).
Inżynier z 4-letnim doświadczeniem w SRE lub inżynierii infrastruktury, który zna podstawowe narzędzia (ServiceNow, Splunk, AppDynamics) i ma praktykę w zarządzaniu incydentami, ale niekoniecznie specjalizował się w Disaster Recovery.
Juniorzy bez doświadczenia w produkcji, osoby szukające typowej roli deweloperskiej, ani specjaliści unikający presji incydentów i pracy w weekendy/święta (on-call może występować).
- ?Ile osób liczy zespół Mass Recovery i jak jest zorganizowana współpraca z innymi zespołami operacyjnymi?
- ?Jak wygląda harmonogram dyżurów on-call – czy jest rotacyjny, ile dni w miesiącu, czy dodatkowo płatny?
- ?Który dostawca chmury jest głównie używany (AWS, Azure, GCP) i jaka jest skala środowiska?
- ?Czy w ramach roli przewidziane są szkolenia z konkretnych narzędzi (np. ServiceNow, AppDynamics) lub certyfikacje?
- ?Jaki jest model raportowania – czy rola podlega pod zespół IT Operations czy osobny zespół Resilience?
- ?Czy istnieje możliwość pracy zdalnej więcej niż 2 dni w tygodniu?
- ?Jak często odbywają się testy Disaster Recovery i jaki jest udział tej roli w ich przeprowadzaniu?
- −Nie podano liczby dni w biurze dla modelu hybrydowego
- −Brak informacji o wielkości zespołu i strukturze hierarchicznej
- −Nie opisano procesu rekrutacyjnego (liczba etapów, czas trwania, ewentualne zadanie domowe)
- −Nie wiadomo, czy rola wiąże się z dyżurami on-call i jakie są warunki
Poniżej mediany rynkowej
Dane z aktywnych ofert zawierających technologię Incident management. Pełne statystyki zarobków →