Data & MLOps Engineer
VirtusLab
Rola łączy Data Engineering z MLOps – będziesz budować i utrzymywać pipeline'y danych na Spark Kubernetes z Airflow i PySpark, zarządzać infrastrukturą Azure przez Terraform, automatyzować CI/CD z GitHub Actions oraz monitorować rozwiązania ML z Grafana/Prometheus. Pracujesz w małym zespole (3 inżynierów) nad projektem detekcji strat w handlu detalicznym dla dużego brytyjskiego klienta. Odpowiadasz za jakość danych i niezawodność modeli ML w produkcji, aktywnie kształtując roadmapę techniczną.
Brakuje: nie podano szczegółów procesu rekrutacyjnego, brak informacji o dyżurach on-call.
Rola łączy Data Engineering z MLOps – będziesz budować i utrzymywać pipeline'y danych na Spark Kubernetes z Airflow i PySpark, zarządzać infrastrukturą Azure przez Terraform, automatyzować CI/CD z GitHub Actions oraz monitorować rozwiązania ML z Grafana/Prometheus. Pracujesz w małym zespole (3 inżynierów) nad projektem detekcji strat w handlu detalicznym dla dużego brytyjskiego klienta. Odpowiadasz za jakość danych i niezawodność modeli ML w produkcji, aktywnie kształtując roadmapę techniczną.
- ✓Praca nad realnym przypadkiem użycia (loss prevention w retailu) z dużymi danymi i Spark
- ✓Własność techniczna i wpływ na roadmapę
- ✓Mały zespół dający autonomię
- ✓Wspieranie rozwoju przez budżet szkoleniowy Viritusity i kursy językowe
- −Hybryda preferowana (2-3 dni w biurze w Krakowie) – dla osób szukających pełnego zdala to może być problem, choć dopuszczają pracę zdalną z comiesięczną wizytą
- −Mały zespół (3 osoby) – może oznaczać duże obciążenie i szeroki zakres odpowiedzialności
- !Duża liczba wymagań (ale ad mówi, że nie trzeba wszystkich spełniać – niejasne, które są krytyczne)
- !Brak opisu procesu rekrutacyjnego
- !Wzmianka o 'on-site collaboration as required (approx. once a month)' – niejasne, jak często faktycznie trzeba być w biurze
- •Implementacja i utrzymanie pipeline'ów danych w PySpark na klastrze Kubernetes z Airflow
- •Ulepszanie walidacji i monitorowania jakości danych na każdym etapie
- •Provisioning i zarządzanie zasobami Azure (IaC z Terraform)
- •Automatyzacja CI/CD z GitHub Actions
- •Monitorowanie stabilności rozwiązań ML z Grafana/Prometheus
- •Współpraca z zespołami Data Science przy deploymenie modeli do produkcji
- •Kształtowanie technicznej roadmapy projektu
- •Code review i utrzymywanie standardów jakości kodu
Oferta dla doświadczonych specjalistów (Senior).
Mid-level data engineer z dobrą znajomością PySpark i Airflow, podstawami Azure i IaC, gotowy do szybkiego rozwoju w stronę MLOps.
Juniorzy bez doświadczenia w data engineering i MLOps – rola wymaga samodzielności i głębokiej wiedzy o pipeline'ach i deploymencie modeli.
- ?Ile osób liczy cały zespół projektu (oprócz tych 3 inżynierów)?
- ?Jaki jest obecny stan MLOps – czy mamy już pipeline'y CI/CD dla modeli, czy to greenfield?
- ?Czy są dyżury on-call?
- ?Jakie narzędzia do experiment trackingu są używane (MLflow, Weights & Biases)?
- ?Czy istnieje legacy code, który trzeba utrzymywać, czy wszystko od nowa?
- ?Jaki jest budżet na szkolenia i konferencje?
- −Nie podano szczegółów procesu rekrutacyjnego
- −Brak informacji o dyżurach on-call
- −Nie wiadomo, czy są używane narzędzia do experiment trackingu
Kultura pracy oparta na silnym inżynierii, poczuciu własności i transparentności; mały zespół z dużą autonomią.
Na poziomie rynkowym
Dane z aktywnych ofert zawierających technologię Airflow. Pełne statystyki zarobków →