ML Platform Reliability & Infrastructure Engineer (AI- Drug Discovery Platform)
Holisticon Connect
Ta rola to inżynier platformy ML odpowiedzialny za niezawodność, wydajność i obserwowalność infrastruktury służącej do odkrywania leków. Będziesz pracować nad systemami przetwarzającymi ogromne zbiory danych biologicznych i chemicznych, uruchamiającymi treningi modeli na dużą skalę. Twoim zadaniem jest przekształcanie prototypów badawczych w produkcyjne, skalowalne systemy. To stanowisko łączy głęboką wiedzę o Kubernetes, obserwowalności i ML servingu z praktycznym inżynierowaniem niezawodności.
Brakuje: nie podano wielkości zespołu ani struktury organizacyjnej, brak informacji o on-call – czy i jak często.
Ta rola to inżynier platformy ML odpowiedzialny za niezawodność, wydajność i obserwowalność infrastruktury służącej do odkrywania leków. Będziesz pracować nad systemami przetwarzającymi ogromne zbiory danych biologicznych i chemicznych, uruchamiającymi treningi modeli na dużą skalę. Twoim zadaniem jest przekształcanie prototypów badawczych w produkcyjne, skalowalne systemy. To stanowisko łączy głęboką wiedzę o Kubernetes, obserwowalności i ML servingu z praktycznym inżynierowaniem niezawodności.
- ✓W pełni zdalna praca z elastycznymi godzinami i brakiem mikromenedżmentu
- ✓Wysokie widełki wynagrodzenia (B2B do ~32k PLN netto)
- ✓Pasja i dodatkowy dzień wolny na hobby (Passion Day)
- ✓Budżet szkoleniowy z płatnymi godzinami (Personal Training Budget)
- ✓Praca nad zaawansowanym projektem biotechnologicznym z realnym wpływem na odkrywanie leków
- !Firma to software house (NEXER GROUP) – projekt dla klienta zewnętrznego, co może oznaczać mniejszą stabilność długoterminową niż w firmie produktowej
- !Rekrutacja obejmuje rozmowę techniczną z klientem – nie wiadomo, jak wygląda onboarding i czy zmieniają się projekty
- •Profilowanie i optymalizacja opóźnień oraz przepustowości modeli servingowych (inferencja) dla dużego wolumenu predykcji
- •Projektowanie i implementacja obserwowalności: rozproszone śledzenie (tracing), logowanie, dashboardy Grafana, alerty, SLO/SLI z użyciem Prometheus, Loki, OpenTelemetry
- •Umacnianie obciążeń Kubernetes na GKE: optymalizacja zasobów GPU/CPU, skalowanie, debugowanie problemów na poziomie podów
- •Zwiększanie odporności asynchronicznych potoków zadań opartych na Argo Workflows, Dapr pub/sub oraz Redis (retry, dead-letter, backpressure)
- •Współpraca z inżynierami ML i naukowcami w celu usprawnienia cyklu życia modelu od treningu po produkcję
- •Implementacja i utrzymanie infrastruktury jako kod (Terraform) dla usług w GCP
- •Uczestniczenie w dochodzeniach przyczyn awarii (incident response) w środowisku produkcyjnym
Oferta dla doświadczonych specjalistów (Senior).
Inżynier z 5+ latami w systemach rozproszonych, który ma solidne podstawy Kubernetes i Python, ale może nie mieć bezpośredniego doświadczenia z servingiem ML (choć to musi być nadrobione). Osoba ta powinna być gotowa do nauki i wdrożenia w środowisku produkcyjnym.
Nie dla juniorów ani midów z mniej niż 5 latami doświadczenia w systemach rozproszonych i Kubernetes. Rola wymaga głębokiej wiedzy produkcyjnej i samodzielności. Osoby sceptyczne wobec podejść AI/agentowych nie będą pasować.
- ?Ile osób liczy zespół pracujący nad platformą odkrywania leków?
- ?Czy projekt jest greenfieldowy, czy rozwijany od jakiegoś czasu? Jaka jest skala legacy?
- ?Jak wygląda współpraca z naukowcami i inżynierami ML – czy dzielicie się wiedzą, czy są osobne zespoły?
- ?Jaki jest obecny stan monitoringu i obserwowalności? Czy to budowa od zera, czy rozwijanie istniejącego?
- ?Czy istnieje możliwość wpływu na wybór narzędzi i technologii (np. MLServer vs Ray)?
- −Nie podano wielkości zespołu ani struktury organizacyjnej
- −Brak informacji o on-call – czy i jak często
- −Nie wiadomo, czy projekt jest długoterminowy czy rotacyjny
- −Brak opisu procesu onboardingu i wsparcia ze strony klienta
Kultura oparta na szacunku dla czasu prywatnego, brak nadgodzin, elastyczne godziny, mikromenedżment wykluczony. Zespół regularnie organizuje wydarzenia integracyjne, w tym wyjazdy zagraniczne. Atmosfera nastawiona na rozwój kompetencji, nie na liczby.
1. Rozmowa HR z rekruterem IT. 2. Rozmowa techniczna z klientem.
Na poziomie rynkowym
Dane z aktywnych ofert zawierających technologię AWS. Pełne statystyki zarobków →