AI Engineer (RAG & On Prem LLMs)
Diverse CG
Rola specjalizuje się w budowie i wdrażaniu systemów Retrieval Augmented Generation (RAG) w środowiskach on-premises dla klientów z sektora telekomunikacyjnego. Będziesz projektować potoki RAG, integrować modele generatywne z wektorowymi bazami danych (Neo4j), optymalizować inferencję przy użyciu vLLM/LiteLLM oraz konteneryzować rozwiązania w Docker/Kubernetes. To nie jest rola badawcza – skupiasz się na inżynierii i deploymencie modeli open-source w produkcji.
Brakuje: nie podano wielkości zespołu ai/ml, brak opisu procesu rekrutacyjnego (liczba etapów, zadanie domowe?).
Rola specjalizuje się w budowie i wdrażaniu systemów Retrieval Augmented Generation (RAG) w środowiskach on-premises dla klientów z sektora telekomunikacyjnego. Będziesz projektować potoki RAG, integrować modele generatywne z wektorowymi bazami danych (Neo4j), optymalizować inferencję przy użyciu vLLM/LiteLLM oraz konteneryzować rozwiązania w Docker/Kubernetes. To nie jest rola badawcza – skupiasz się na inżynierii i deploymencie modeli open-source w produkcji.
- ✓Budżet szkoleniowy (Training budget)
- ✓Dzień wolny na urodziny
- ✓ZFŚŚ (Zakładowy Fundusz Świadczeń Socjalnych)
- ✓Prywatna opieka medyczna i karta sportowa
- !Praca wyłącznie stacjonarna w Warszawie – brak elastyczności
- !Brak informacji o wielkości zespołu i procesie rekrutacyjnym
- !Nie określono, czy rola wiąże się z dyżurami on-call
- !Sektor telekomunikacyjny może oznaczać pracę z legacy systemami
- •Projektowanie i implementacja end-to-end pipeline'ów RAG z użyciem LangChain i Hugging Face Transformers
- •Integracja wektorowych baz danych (Neo4j) z modelami LLM (LLAMA 3.2, Mistral, DeepSeek)
- •Optymalizacja inferencji przez kwantyzację, przycinanie i dynamiczne batchowanie
- •Konfiguracja serwerów inferencyjnych vLLM i LiteLLM dla niskiego opóźnienia
- •Konteneryzacja workflowów z Docker i Kubernetes oraz automatyzacja MLOps
- •Monitorowanie wydajności systemu i rozwiązywanie problemów z wydajnością
- •Współpraca z inżynierami danych i interesariuszami biznesowymi w celu dopasowania rozwiązań do wymagań
- •Optymalizacja infrastruktury GPU dla trenowania i inferencji modeli
Oferta skierowana do developerów z doświadczeniem komercyjnym (Mid).
Inżynier ML z co najmniej 3-letnim doświadczeniem ogólnym, w tym minimum 1 rok pracy z RAG. Solidne podstawy Pythona i PyTorcha, znajomość LangChain i podstaw konteneryzacji. Gotowość do nauki vLLM i OpenShift w trakcie onboardingu.
Nie dla osób z mniej niż 3 latami doświadczenia w ML/NLP, ani dla badaczy/Data Scientistów bez umiejętności inżynieryjnych (deployment, konteneryzacja). Rola wymaga biegłości technicznej i samodzielności w środowisku on-prem.
- ?Ile osób liczy zespół AI/ML, z którym będę pracować?
- ?Czy rola jest związana z jednym konkretnym projektem, czy z różnymi klientami?
- ?Jak wygląda proces wdrożenia modeli do produkcji – kto odpowiada za MLOps?
- ?Czy są przewidziane dyżury on-call? Jak często?
- ?Jaki jest stosunek pracy nad RAG vs. optymalizacją infrastruktury?
- ?Czy istnieje możliwość pracy zdalnej w niektóre dni po okresie wdrożenia?
- ?Jakie są największe wyzwania techniczne w obecnych projektach RAG?
- −Nie podano wielkości zespołu AI/ML
- −Brak opisu procesu rekrutacyjnego (liczba etapów, zadanie domowe?)
- −Nie wiadomo, czy rola wymaga dyżurów on-call
- −Nie określono, czy praca jest na jednym projekcie czy rotacyjnie
Zespół współpracuje ściśle z inżynierami danych i interesariuszami biznesowymi w środowisku telekomunikacyjnym. Kładzie się nacisk na komunikację i przekładanie wymagań biznesowych na rozwiązania techniczne.
Powyżej mediany rynkowej
Dane z aktywnych ofert zawierających technologię Python. Pełne statystyki zarobków →