Case Study

JobHunt.pl — pipeline danych end-to-end

Produkcyjny data product: od scraperów przez normalizację i deduplikację, po AI enrichment i wyszukiwanie wektorowe. Self-hosted, ~25k ofert, 7 źródeł.

7źródeł danych

~25kaktywnych ofert

~30 mincykl sync

~$0.40koszt AI/mies.

Architektura

Scrapery Python (7×)
  ↓ surowy JSON
PostgreSQL — bronze (raw, niezmienione)
  ↓ dbt run
silver (normalizacja, walidacja, dedup fingerprint)
  ↓
gold.ai_job_summaries (AI summary, role_tags, embeddings)
  ↓
Next.js App Router — SSR + REST API (/api/jobs)
  ↓
pgvector — semantic search (cosine similarity)
  ↓
Użytkownik — filtry, AI insights, podobne oferty

🎯Problem

Polski rynek ofert IT jest rozproszony po 7+ job boardach. Każdy portal ma własny format danych, własne nazewnictwo technologii, własną strukturę wynagrodzeń. Kandydat szukający pracy musi przeglądać je osobno, tracąc czas na duplikaty i niespójne filtry.

Celem było: jedna wyszukiwarka z ujednoliconymi filtrami, deduplikacją między źródłami i jakością danych na poziomie umożliwiającym AI enrichment.

🔄Pozyskiwanie danych

7 scraperów (JustJoin.it, NoFluffJobs, Pracuj.pl, BulldogJob, SolidJobs, RocketJobs, LinkedIn) uruchamianych co ~30 minut przez APScheduler w Dockerze.

Każdy scraper ma własny parser dostosowany do struktury API/HTML źródła
Exponential backoff + retry na błędy HTTP 429 i 5xx
Rate limiting — respektowanie limitów każdego portalu
Surowe dane lądują w tabeli bronze bez żadnej transformacji (source of truth)
Idempotentność: `ON CONFLICT DO NOTHING` na `(provider, external_id)`

~25 000aktywnych ofert w bazie

🧹Normalizacja (dbt)

Surowe dane przechodzą przez warstwę silver zbudowaną w dbt. Każda transformacja jest testem danych — jeśli `accepted_values` się nie zgadza, build nie przejdzie.

Technologie: słownik ~400 aliasów → 120 kanonicznych nazw (np. "React.js" → "React", "node" → "Node.js")
Wynagrodzenia: ujednolicenie do PLN brutto/mies; obsługa B2B, UoP, B2B+UoP
Seniority: mapowanie różnych etykiet ("Spec.", "Mid+", "Regular") → {junior, mid, senior, lead}
Tryb pracy: normalizacja remote/hybrid/onsite z wielu formatów
Miasta: geokodowanie do ujednoliconych nazw + lat/lng

dbt test przykład

-- accepted_values na exp_level
tests:
  - accepted_values:
      values: ['junior', 'mid', 'senior', 'lead', 'c-level']
      severity: warn

🔗Deduplikacja

Ta sama oferta pojawia się na wielu portalach jednocześnie. Bez deduplikacji użytkownik widzi tę samą pozycję 3–4 razy z różnymi danymi.

Fingerprint oparty na: `(company_normalized, title_normalized, city, exp_level)`
Fuzzy matching tytułów — Levenshtein distance < 10% długości
Konflikt rozstrzygany przez "najlepszą wersję": max kompletność danych (więcej pól != null)
Zachowanie wszystkich URL źródeł — użytkownik widzi wszystkie linki do oryginałów
Historia zmian: jeśli oferta zmieni wynagrodzenie na jednym portalu, aktualizujemy

🤖AI Enrichment

Opis HR jest często rozwodniony i trudny do szybkiej oceny. AI analizuje tekst i generuje zwięzłe podsumowanie techniczne z perspektywy inżyniera.

Model: Gemini Flash Lite (Gemini API) — stosunek jakości do kosztu
Batch processing: 3 oferty na jedno wywołanie API — optymalizacja TPM
System prompt wymuszający format JSON z polami: `role_essence`, `red_flags`, `green_flags`, `architecture_and_practices`, `team_vibe`, `recruitment_process`
Walidacja odpowiedzi przed zapisem — odrzucanie halucynacji i niepełnych JSON-ów
Koszt backfillu ~25k ofert: ~$3.50

~$0.40koszt miesięczny (ongoing ~3k ofert/mies)

🔍Wyszukiwanie semantyczne

Klasyczne wyszukiwanie po słowach kluczowych nie rozumie intencji. Zapytanie "backend Python mikrousługi" nie znajdzie oferty z "Python, FastAPI, distributed systems".

Embeddingi generowane modelem sentence-transformers (768 dim)
Przechowywane w PostgreSQL z rozszerzeniem pgvector
Wyszukiwanie: cosine similarity + filtrowanie po metadanych
Indeks HNSW na wektorach — sublinearny czas wyszukiwania
Fallback na pełnotekstowe wyszukiwanie (tsvector) gdy brak embeddingów

📊Observability i jakość danych

Logi pipeline'u — każdy scraper raportuje: ile ofert pobrał, ile nowych, ile błędów
Metryki pokrycia: % ofert z widełkami, % z AI summary, % z role_tags
Monitoring świeżości źródeł — alert gdy scraper nie zaktualizował danych > 2h
Strona /monitoring (dostępna dla admina) — live stats pipeline'u
Plausible analytics na froncie — privacy-first, bez cookies

🐳Infrastruktura

docker-compose (uproszczony)

services:
  jobpulse_db:       # PostgreSQL + pgvector
  jobpulse_scheduler: # Python scrapery + ETL
  jobpulse_embed:    # Embeddings worker
  jobpulse_web_blue:  # Next.js (blue-green deploy)
  jobpulse_web_green: # Next.js (blue-green deploy)
  jobpulse_adminer:   # DB admin

Self-hosted VPS — pełna kontrola, brak vendor lock-in
Blue-green deployment — zero downtime przy deployach
GitHub Actions CI/CD: testy → build Docker → push → deploy na VPS przez SSH
Nightly migration workflow — uruchamia nowe skrypty SQL bez downtime'u
Supervisor host-side — backfill przeżywa restarty kontenerów

💡 Pełny stack

Pythonscrapery, ETL, AI pipeline

PostgreSQLdata warehouse, source of truth

pgvectorsemantic search

dbttransformacje, testy danych

Next.jsfrontend, SSR, API routes

Gemini APIAI enrichment

Dockerkonteneryzacja

GitHub ActionsCI/CD

APSchedulerorchestracja scraperów

Plausibleanalytics privacy-first

Masz pytania? Napisz:

kontakt@jobhunt.pl

← Wróć do profilu·Przeglądaj oferty →

Ładowanie...

Scrapery Python (7×) ↓ surowy JSON PostgreSQL — bronze (raw, niezmienione) ↓ dbt run silver (normalizacja, walidacja, dedup fingerprint) ↓ gold.ai_job_summaries (AI summary, role_tags, embeddings) ↓ Next.js App Router — SSR + REST API (/api/jobs) ↓ pgvector — semantic search (cosine similarity) ↓ Użytkownik — filtry, AI insights, podobne oferty