Szukasz Data Engineera?

Zbudowałem JobHunt.pl — produkcyjny pipeline danych end-to-end: od scraperów, przez normalizację i deduplikację, po AI enrichment i wyszukiwanie wektorowe. Poniżej szczegóły techniczne.

✉️ kontakt@jobhunt.pl 📖 Case study

~25 000aktywnych ofert

7źródeł danych

~30 minrytm synchronizacji

100%self-hosted

⚙️ Co dokładnie zbudowałem

🔄

Pobieranie danych

Scrapery z 7 źródeł (JustJoin.it, NoFluffJobs, Pracuj.pl, BulldogJob, SolidJobs, RocketJobs, LinkedIn) — co ~30 min, z retry, rate limitingiem i obsługą błędów.

🧹

Normalizacja

Ujednolicanie nazw technologii, miast, typów umów, poziomów doświadczenia i widełek płacowych ze wszystkich źródeł do spójnego schematu.

🔗

Deduplikacja

Algorytm wykrywa i łączy te same oferty z różnych portali — pokazujemy najlepszą wersję z najbogatszymi danymi.

🤖

AI enrichment

Gemini API analizuje treść ogłoszenia i generuje zwięzłe podsumowanie techniczne: architektura projektu, red flagi, green flagi, typ firmy, proces rekrutacji.

🔍

Wyszukiwanie semantyczne

Embeddingi wektorowe (pgvector) umożliwiają wyszukiwanie po znaczeniu, nie tylko po słowach kluczowych.

📊

Observability

Logi pipeline'u, metryki pokrycia danych (% ofert z AI summary, role_tags, widełkami), monitoring opóźnień scraperów.

🏗️ Architektura

Scrapery (Python)
  ↓ raw JSON → PostgreSQL bronze
dbt transformacje
  ↓ silver (normalizacja, dedup)
  ↓ gold (ai_summary, embeddings, role_tags)
Next.js App Router
  ↓ SSR + REST API
  ↓ pgvector semantic search
  ↓ Plausible analytics (privacy-first, bez cookies)

💡 Stack

Next.jsFrontend + SSR

PostgreSQLData warehouse

dbtTransformacje danych

PythonScrapery + pipeline

DockerKonteneryzacja

VPS self-hostedInfrastruktura

Napisz bezpośrednio:

kontakt@jobhunt.pl

Ładowanie...

← Wróć do ofert