Big Data Specialist
Poland
Rola polega na projektowaniu i wdrażaniu przetwarzania danych strumieniowych i wsadowych w ekosystemie Hadoop (Cloudera/Hortonworks) z użyciem Spark (Python/Scala) oraz SQL. Praca w zespole 8-10 osobowym, w outsourcingu, dla klienta z sektora money services. Współpraca z Data Science przy wdrażaniu modeli ML. To przede wszystkim inżynieria danych – ETL, optymalizacja wydajności, zarządzanie Hive, Kudu, HBase.
Brakuje: brak informacji o dokładnym kliencie/projekcie, nie podano wersji hadoop/spark.
Rola polega na projektowaniu i wdrażaniu przetwarzania danych strumieniowych i wsadowych w ekosystemie Hadoop (Cloudera/Hortonworks) z użyciem Spark (Python/Scala) oraz SQL. Praca w zespole 8-10 osobowym, w outsourcingu, dla klienta z sektora money services. Współpraca z Data Science przy wdrażaniu modeli ML. To przede wszystkim inżynieria danych – ETL, optymalizacja wydajności, zarządzanie Hive, Kudu, HBase.
- ✓Długoterminowy, stabilny projekt w sektorze money services
- ✓Współpraca z zespołem Data Science – możliwość nauki ML
- −Outsourcing – praca na projekcie klienta, co może wiązać się z mniejszą stabilnością i autonomią
- !Proces rekrutacji tylko 1-etapowy – może oznaczać mniej weryfikacji
- !Brak informacji o on-call lub godzinach pracy poza standardowymi
- !Opis nie precyzuje, czy projekt korzysta z narzędzi streamingowych (np. Kafka, Flink)
- •Projektowanie i implementacja pipeline'ów danych batch i streaming w Hadoop (Cloudera/Hortonworks)
- •Pisanie i optymalizacja zadań Spark w Python lub Scala
- •Tworzenie zapytań SQL do analizy i transformacji dużych zbiorów danych
- •Integracja danych z różnych źródeł w formatach JSON, Parquet, ORC, Avro
- •Współpraca z zespołem Data Science przy wdrażaniu modeli ML (np. Kubeflow)
- •Optymalizacja procesów ETL pod kątem wydajności i kosztów
- •Monitorowanie, debugowanie i rozwiązywanie problemów z przetwarzaniem danych
- •Dbanie o jakość kodu, testowanie i dokumentowanie pipeline'ów
Oferta skierowana do developerów z doświadczeniem komercyjnym (Mid).
Osoba z około 2-letnim doświadczeniem w Big Data, która potrafi pisać Spark w Pythonie oraz SQL, i zna podstawy Hadoop (Cloudera/Hortonworks).
Junior bez doświadczenia w Big Data, osoby szukające wyłącznie pracy zdalnej bez wizyt w biurze, ani osoby niechętne pracy w outsourcingu.
- ?Czy projekt korzysta z Kafki lub innych narzędzi do streamingu?
- ?Jaka jest skala danych (TB/dzień)?
- ?Jakie narzędzia CI/CD są używane?
- ?Jak wygląda wsparcie dla on-call lub awarii?
- ?Jaki jest dokładny skład zespołu (reszta ról)?
- ?Czy istnieje możliwość przedłużenia projektu lub zmiany klienta?
- −Brak informacji o dokładnym kliencie/projekcie
- −Nie podano wersji Hadoop/Spark
- −Nie wiadomo, czy używane jest zarządzanie danymi typu Data Lakehouse
- −Brak informacji o dostępnych szkoleniach lub budżecie rozwojowym
Zespół 8-10 osobowy, współpraca z Data Science, nacisk na jakość kodu i dobre praktyki. Otwarta komunikacja (można pisać na LinkedIn do Kuby).
Rekrutacja 1-etapowa: techniczne spotkanie zdalne. Sporadycznie krótkie dodatkowe spotkanie z Managerem połączone z decyzją.