Data Engineer (DBX,dbt), Regular
Webellian
To rola Data Engineera w projekcie dla klienta z branży ubezpieczeniowej, polegająca na budowie pipeline'ów danych dla systemu przetwarzania dokumentów z użyciem modeli LLM. Będziesz pracować głównie w Databricks, Pythonie, PySpark i SQL, przygotowując zbiory treningowe dla modeli ML i tworząc end-to-end data pipelines. Praca hybrydowa w Warszawie (1 dzień w biurze tygodniowo), zespół w Polsce i globalni interesariusze.
Brak jawnych widełek — wynagrodzenie do ustalenia podczas rekrutacji.
Brakuje: wielkość zespołu, konkretne usługi azure (jeśli wykorzystywane).
To rola Data Engineera w projekcie dla klienta z branży ubezpieczeniowej, polegająca na budowie pipeline'ów danych dla systemu przetwarzania dokumentów z użyciem modeli LLM. Będziesz pracować głównie w Databricks, Pythonie, PySpark i SQL, przygotowując zbiory treningowe dla modeli ML i tworząc end-to-end data pipelines. Praca hybrydowa w Warszawie (1 dzień w biurze tygodniowo), zespół w Polsce i globalni interesariusze.
- ✓Nowy, innowacyjny projekt z LLM
- ✓Nowoczesny stack technologiczny (Databricks, PySpark)
- ✓Międzynarodowy zespół i bezpośrednia współpraca z data scientistami
- ✓Angielskie zajęcia i inne benefity (pinball, PlayStation w biurze)
- !Praca w modelu hybrydowym (1 dzień w biurze tygodniowo) – wymagane dojazdy do Warszawy (Mokotów)
- !Rola w firmie consultingowej, co może wiązać się ze zmianą projektu w przyszłości
- !Brak informacji o on-call lub dyżurach
- !Projekt używa LLM – może wymagać nauki nowych technologii
- ?Brak jawnych widełek — wynagrodzenie do ustalenia podczas rekrutacji
- •Projektowanie i implementacja end-to-end pipeline'ów danych (pozyskiwanie, transformacja, przechowywanie, konsumpcja)
- •Przygotowywanie i utrzymywanie wysokiej jakości zbiorów treningowych dla modeli LLM
- •Praca z dużymi wolumenami danych na platformie Databricks
- •Optymalizacja wydajności, niezawodności i automatyzacji przepływów danych
- •Współpraca z data scientistami, inżynierami i interesariuszami biznesowymi
- •Stosowanie najlepszych praktyk inżynierii danych, testowania i wdrażania (CI/CD)
- •Debugowanie i rozwiązywanie problemów związanych z danymi i pipeline'ami
- •Budowanie datasetów do skanowania dokumentów i wspomagania decyzji
Oferta skierowana do developerów z doświadczeniem komercyjnym (Mid).
Data Engineer z co najmniej 2-letnim doświadczeniem w budowie pipeline'ów na Databricks, dobrym Pythonie i SQL, gotowy do pracy w hybrydowym modelu w Warszawie.
Osoby bez doświadczenia z Databricks lub na poziomie Junior, które nie mają jeszcze solidnych podstaw w PySpark i ETL. Rola wymaga samodzielności i znajomości nowoczesnych narzędzi data engineering.
- ?Ile osób liczy zespół projektowy?
- ?Jakie konkretnie usługi Azure są używane (Data Lake, Synapse, itp.)?
- ?Czy przewidziane są dyżury on-call lub praca w weekendy?
- ?Jakie narzędzia do orkiestracji są używane (Airflow, Azure Data Factory)?
- ?Czy istnieje możliwość pracy zdalnej w pełni po okresie wdrożenia?
- ?Jaki jest planowany czas trwania projektu?
- ?Czy są jakieś przestarzałe systemy, z którymi trzeba się integrować?
- −Wielkość zespołu
- −Konkretne usługi Azure (jeśli wykorzystywane)
- −Narzędzia do orkiestracji i monitoringu
- −Informacja o dyżurach on-call
- −Budżet szkoleniowy
Międzynarodowy zespół, luźna atmosfera, pinball, PlayStation – miejsce stawiające na jakość kodu i ciągły rozwój.
3 etapy: rozmowa telefoniczna z rekruterem, techniczna rozmowa online sprawdzająca umiejętności, spotkanie face-to-face z przełożonym, następnie feedback.