Ładowanie...
Ładowanie...
Zbudowałem JobHunt.pl — produkcyjny pipeline danych end-to-end: od scraperów, przez normalizację i deduplikację, po AI enrichment i wyszukiwanie wektorowe. Poniżej szczegóły techniczne.
Scrapery z 7 źródeł (JustJoin.it, NoFluffJobs, Pracuj.pl, BulldogJob, SolidJobs, RocketJobs, LinkedIn) — co ~30 min, z retry, rate limitingiem i obsługą błędów.
Ujednolicanie nazw technologii, miast, typów umów, poziomów doświadczenia i widełek płacowych ze wszystkich źródeł do spójnego schematu.
Algorytm wykrywa i łączy te same oferty z różnych portali — pokazujemy najlepszą wersję z najbogatszymi danymi.
Gemini API analizuje treść ogłoszenia i generuje zwięzłe podsumowanie techniczne: architektura projektu, red flagi, green flagi, typ firmy, proces rekrutacji.
Embeddingi wektorowe (pgvector) umożliwiają wyszukiwanie po znaczeniu, nie tylko po słowach kluczowych.
Logi pipeline'u, metryki pokrycia danych (% ofert z AI summary, role_tags, widełkami), monitoring opóźnień scraperów.
Scrapery (Python) ↓ raw JSON → PostgreSQL bronze dbt transformacje ↓ silver (normalizacja, dedup) ↓ gold (ai_summary, embeddings, role_tags) Next.js App Router ↓ SSR + REST API ↓ pgvector semantic search ↓ Plausible analytics (privacy-first, bez cookies)
Napisz bezpośrednio:
kontakt@jobhunt.pl