Big Data Engineer
Poland
Rola Big Data Engineer w projekcie dla firmy z sektora Money Services. Będziesz projektować i implementować procesy przetwarzania danych (batch i streaming) w ekosystemie Hadoop (Cloudera/Hortonworks), tworzyć i optymalizować procesy Spark w Python lub Scala, oraz współpracować z zespołem Data Science przy wdrażaniu modeli ML. Stack technologiczny obejmuje Hive, Kudu, HBase, a także formaty danych JSON, Parquet, ORC, Avro. To stanowisko łączy klasyczne data engineering z elementami MLOps.
Brakuje: brak dokładnego opisu modelu hybrydowego (czy 1-2 dni obowiązkowe czy elastyczne), nie podano wersji hadoop, spark ani innych narzędzi.
Rola Big Data Engineer w projekcie dla firmy z sektora Money Services. Będziesz projektować i implementować procesy przetwarzania danych (batch i streaming) w ekosystemie Hadoop (Cloudera/Hortonworks), tworzyć i optymalizować procesy Spark w Python lub Scala, oraz współpracować z zespołem Data Science przy wdrażaniu modeli ML. Stack technologiczny obejmuje Hive, Kudu, HBase, a także formaty danych JSON, Parquet, ORC, Avro. To stanowisko łączy klasyczne data engineering z elementami MLOps.
- ✓Długoterminowy projekt w stabilnym sektorze Money Services
- ✓Współpraca z Data Science – możliwość nauki MLOps
- −Niespójność w podanej stawce: dane strukturalne 150-160 PLN/h, opis 120-150 PLN/h
- −Firma jest agencją rekrutacyjną/outsourcingową, co może wiązać się z mniejszą stabilnością i ograniczoną autonomią
- !Proces rekrutacji 1-etapowy (techniczne spotkanie zdalne) – może być zbyt uproszczony
- !Sporadyczne dodatkowe spotkanie z Managerem – niepewny przebieg
- !Hybryda z 1-2 dniami w biurze – nie wiadomo czy to obligatoryjne
- •Projektowanie i implementacja procesów batch i streaming w Hadoop (Cloudera/Hortonworks)
- •Tworzenie i optymalizacja procesów Spark w Python lub Scala
- •Opracowywanie zapytań SQL do analizy i przetwarzania dużych zbiorów danych
- •Integracja danych z różnych źródeł w formatach JSON, Parquet, ORC, Avro
- •Współpraca z Data Science przy wdrażaniu modeli ML w środowisku Big Data
- •Optymalizacja procesów ETL pod kątem wydajności i kosztów
- •Zarządzanie bazami Hive, Kudu, HBase
- •Debugowanie i rozwiązywanie problemów z przetwarzaniem danych
Oferta skierowana do developerów z doświadczeniem komercyjnym (Mid).
Data engineer z minimum 2 latami doświadczenia, znający podstawy Hadoop i Spark, gotowy do pracy nad batch/streaming pipeline'ami i integracją danych.
Juniorzy bez doświadczenia w data engineering ani Hadoop/Spark, ani osoby szukające w pełni zdalnej pracy bez żadnych wizyt w biurze.
- ?Czy projekt jest greenfield (nowe pipeline'y) czy raczej rozwój istniejących?
- ?Jaki jest stosunek pracy przy procesach batch do streaming?
- ?Czy zespół Data Science jest w tej samej firmie klienckiej?
- ?Jakie są wersje Hadoop/Spark używane na projekcie?
- ?Jaka jest wielkość klastra Hadoop (liczba węzłów)?
- ?Czy obowiązuje dyżur on-call lub praca w godzinach nadliczbowych?
- −Brak dokładnego opisu modelu hybrydowego (czy 1-2 dni obowiązkowe czy elastyczne)
- −Nie podano wersji Hadoop, Spark ani innych narzędzi
- −Brak informacji, czy projekt jest greenfield czy legacy
- −Nie wiadomo, czy firma oferuje budżet na szkolenia lub konferencje
Zespół 8-10 osobowy, współpraca z Data Science.
1-etapowy (techniczne spotkanie zdalne), sporadycznie może się zdarzyć krótkie dodatkowe spotkanie z Managerem połączone z decyzją.