Senior Data Engineer
emagine
Rola łączy inżynierię danych z AI – będziesz budować pipeline'y Spark do przetwarzania treści webowych, fine-tunować lekkie modele ML (NLP) do ekstrakcji atrybutów oraz rozwijać wewnętrznego agenta AI. Pracujesz nad międzynarodowym projektem dla klienta zewnętrznego, z naciskiem na skalowalność, jakość danych i adaptację rozwiązań do różnych rynków. Mimo tytułu 'Data Engineer', realnie to rola hybrydowa: data engineering + applied ML.
Brakuje: nie podano wielkości zespołu ani struktury organizacyjnej, brak informacji o infrastrukturze chmurowej (aws/gcp/azure).
Rola łączy inżynierię danych z AI – będziesz budować pipeline'y Spark do przetwarzania treści webowych, fine-tunować lekkie modele ML (NLP) do ekstrakcji atrybutów oraz rozwijać wewnętrznego agenta AI. Pracujesz nad międzynarodowym projektem dla klienta zewnętrznego, z naciskiem na skalowalność, jakość danych i adaptację rozwiązań do różnych rynków. Mimo tytułu 'Data Engineer', realnie to rola hybrydowa: data engineering + applied ML.
- ✓Pełne pokrycie kosztów onboardingu w Malmö
- ✓Wysoka stawka B2B (do 220 PLN/h)
- ✓Hybryda: 2 dni zdalnie/tydzień – elastyczność
- ✓Możliwość pracy nad nowoczesnym stackiem (Spark, NLP, LangGraph)
- −Krótki projekt (3 miesiące) – niepewność przedłużenia, wysoka rotacja
- −Konieczność onboardingu w Malmö (2 tygodnie) – może być problemem logistycznym dla niektórych
- −Potencjalnie 'strong part-time' – niejasny wymiar etatu, sugeruje niepełne zaangażowanie
- !Brak informacji o wielkości zespołu i strukturze projektu
- !Ogłoszenie od agencji (emagine) – rola u klienta, możliwe mniejsze poczucie przynależności
- !Wzmianka o 'agent frameworks' (LangGraph) – może być buzzwordem, dopytaj o realne użycie
- !Krótki okres wypowiedzenia (ok. 1 tydzień) – sugeruje pilną potrzebę, ale też potencjalną rotację
- •Budowanie i optymalizacja pipeline'ów Spark do przetwarzania dużych zbiorów danych webowych
- •Przetwarzanie i analiza danych w Pythonie z użyciem Polars i/lub Pandas
- •Fine-tuning lekkich modeli ML do ekstrakcji atrybutów specyficznych dla zadania
- •Przygotowywanie danych treningowych, zarządzanie jakością danych i end-to-end ewaluacja modeli
- •Stosowanie technik NLP do ekstrakcji, klasyfikacji i wnioskowania z treści webowych
- •Rozwijanie wewnętrznego agenta AI Research na nowe rynki geograficzne, adaptacja logiki do lokalnych warunków
- •Wsparcie kolekcji dowodów i logiki wnioskowania dla nowych atrybutów związanych z miejscem
- •Ewaluacja systemów ML w różnych lokalizacjach, domenach i źródłach danych
Oferta dla doświadczonych specjalistów (Senior).
Inżynier danych z 3-4 latami doświadczenia, solidny Python i Spark, podstawowe doświadczenie z NLP i ML – gotów rozwijać się w stronę AI.
Juniorzy lub osoby bez doświadczenia w Spark i Pythonie – rola wymaga samodzielności w budowie pipeline'ów i fine-tuningu modeli. Nie dla kandydatów szukających długoterminowej stabilności (projekt 3-miesięczny).
- ?Ile osób liczy zespół i jak są podzielone kompetencje (data eng vs ML)?
- ?Czy projekt po 3 miesiącach ma gwarancję przedłużenia, czy jest to twardy deadline?
- ?Jakie modele ML są fine-tunowane i ile ich szacunkowo powstanie?
- ?Czy użycie Scali jest planowane, czy to tylko opcjonalne?
- ?Jak wygląda proces decyzyjny – czy będę miał wpływ na wybór narzędzi i architekturę?
- ?Czy wymagane są dyżury on-call lub praca w weekendy?
- ?Jakie jest źródło danych i czy pipeline'y działają w chmurze (która)?
- ?Czy rola jest faktycznie full-time, czy możliwe jest częściowe zaangażowanie?
- −Nie podano wielkości zespołu ani struktury organizacyjnej
- −Brak informacji o infrastrukturze chmurowej (AWS/GCP/Azure)
- −Nie wiadomo, czy rola wymaga dyżurów on-call
- −Brak informacji o procesie rekrutacyjnym poza dwiema rozmowami (1 tech, 1 non-tech)
- −Brak informacji o możliwości przedłużenia kontraktu po 3 miesiącach
2 etapy: 1 rozmowa techniczna i 1 nietechniczna, każda około 60 minut.
Powyżej mediany rynkowej
Dane z aktywnych ofert zawierających technologię Python. Pełne statystyki zarobków →