Pomiń do treści
Logo firmy Poland

Big Data Specialist

Poland

Oferta w skrócie
25 20026 880PLN / mies.
🔀HybrydowaTryb pracy
📄B2BKontrakt
⏱️Mid · 2+ latDoświadczenie
LokalizacjaWarszawa
Źródło
Aktywna
Opublikowano8 maja 2026
Ostatnio sprawdzono8 maja 2026
Wygasa za73 dni
Werdykt JobHunt

Rola polega na projektowaniu i wdrażaniu przetwarzania danych strumieniowych i wsadowych w ekosystemie Hadoop (Cloudera/Hortonworks) z użyciem Spark (Python/Scala) oraz SQL. Praca w zespole 8-10 osobowym, w outsourcingu, dla klienta z sektora money services. Współpraca z Data Science przy wdrażaniu modeli ML. To przede wszystkim inżynieria danych – ETL, optymalizacja wydajności, zarządzanie Hive, Kudu, HBase.

Brakuje: brak informacji o dokładnym kliencie/projekcie, nie podano wersji hadoop/spark.

🛠 Wymagane technologie
Dane źródłowe
AI Insights
Czym naprawdę jest ta rola?Data Engineer

Rola polega na projektowaniu i wdrażaniu przetwarzania danych strumieniowych i wsadowych w ekosystemie Hadoop (Cloudera/Hortonworks) z użyciem Spark (Python/Scala) oraz SQL. Praca w zespole 8-10 osobowym, w outsourcingu, dla klienta z sektora money services. Współpraca z Data Science przy wdrażaniu modeli ML. To przede wszystkim inżynieria danych – ETL, optymalizacja wydajności, zarządzanie Hive, Kudu, HBase.

Plusy
  • Długoterminowy, stabilny projekt w sektorze money services
  • Współpraca z zespołem Data Science – możliwość nauki ML
Na co uważać
  • Outsourcing – praca na projekcie klienta, co może wiązać się z mniejszą stabilnością i autonomią
  • !Proces rekrutacji tylko 1-etapowy – może oznaczać mniej weryfikacji
  • !Brak informacji o on-call lub godzinach pracy poza standardowymi
  • !Opis nie precyzuje, czy projekt korzysta z narzędzi streamingowych (np. Kafka, Flink)
Codzienna praca
  • Projektowanie i implementacja pipeline'ów danych batch i streaming w Hadoop (Cloudera/Hortonworks)
  • Pisanie i optymalizacja zadań Spark w Python lub Scala
  • Tworzenie zapytań SQL do analizy i transformacji dużych zbiorów danych
  • Integracja danych z różnych źródeł w formatach JSON, Parquet, ORC, Avro
  • Współpraca z zespołem Data Science przy wdrażaniu modeli ML (np. Kubeflow)
  • Optymalizacja procesów ETL pod kątem wydajności i kosztów
  • Monitorowanie, debugowanie i rozwiązywanie problemów z przetwarzaniem danych
  • Dbanie o jakość kodu, testowanie i dokumentowanie pipeline'ów
Więcej o ofercie
Dla kogo jest ta oferta
Profil idealny

Oferta skierowana do developerów z doświadczeniem komercyjnym (Mid).

Minimum sensowne

Osoba z około 2-letnim doświadczeniem w Big Data, która potrafi pisać Spark w Pythonie oraz SQL, i zna podstawy Hadoop (Cloudera/Hortonworks).

Raczej nie dla

Junior bez doświadczenia w Big Data, osoby szukające wyłącznie pracy zdalnej bez wizyt w biurze, ani osoby niechętne pracy w outsourcingu.

Ocena dopasowania
Junior1/5
Mid4/5
Senior3/5
Hands-on5/5
Architekt1/5
Remote4/5
Enterprise4/5
Pytania do rekrutera
  • ?Czy projekt korzysta z Kafki lub innych narzędzi do streamingu?
  • ?Jaka jest skala danych (TB/dzień)?
  • ?Jakie narzędzia CI/CD są używane?
  • ?Jak wygląda wsparcie dla on-call lub awarii?
  • ?Jaki jest dokładny skład zespołu (reszta ról)?
  • ?Czy istnieje możliwość przedłużenia projektu lub zmiany klienta?
Brakujące informacje
  • Brak informacji o dokładnym kliencie/projekcie
  • Nie podano wersji Hadoop/Spark
  • Nie wiadomo, czy używane jest zarządzanie danymi typu Data Lakehouse
  • Brak informacji o dostępnych szkoleniach lub budżecie rozwojowym
Zespół

Zespół 8-10 osobowy, współpraca z Data Science, nacisk na jakość kodu i dobre praktyki. Otwarta komunikacja (można pisać na LinkedIn do Kuby).

Rekrutacja

Rekrutacja 1-etapowa: techniczne spotkanie zdalne. Sporadycznie krótkie dodatkowe spotkanie z Managerem połączone z decyzją.

🔗Podobne oferty