Naar inhoud
00Scraping · ETL · AI-verrijkte pipelines

Verander het rommelige web in schone rijen waar je op kunt handelen.

We bouwen scrapers, ingestion-pipelines en AI-classificators die signaal trekken uit concurrenten, marktplaatsen, openbare registers, partner-feeds en ongestructureerde e-mail — en landen ze in je CRM, data-warehouse of spreadsheet in de vorm die je team écht gebruikt.
01Wat we bouwen

End-to-end. Geen scraper-van-de-week scripts.

Gebouwd om stil op de achtergrond te draaien en niet elke dinsdag te breken.

Robuuste scrapers

Playwright + proxy-rotatie + CAPTCHA-strategieën. Handelt SPAs, infinite scroll, cookie-walls, login-gated pages — ethisch, met respect voor robots.txt en rate-limits.

ETL-pipelines

Airbyte, dbt en custom Python. Raw → staged → clean → enriched. Airflow of Temporal voor scheduling, retries, backfills.

AI-verrijking

Classificeren, samenvatten, scoren, 20 gestructureerde velden uit één vrije-tekst-veld halen. Claude / GPT / local models afhankelijk van gevoeligheid.

Real-time + batch

Near-real-time als seconden ertoe doen (prijs-monitoring), batch als het niet nodig is. Zelfde pipeline, twee modes.

Compliance-first

AVG-bewust. We documenteren wat verzameld wordt, waar het wordt opgeslagen, en wie het ziet. Anonimisering en PII-redactie ingebouwd.

Geïntegreerde output

CRM (HubSpot, Salesforce), data-warehouse (BigQuery, Snowflake, Postgres), of Google Sheets + e-mail-digest — wat je ops écht gebruikt.

02Nu in productie

Scrapers die stil jaren draaien.

Geselecteerde voorbeelden — namen geanonimiseerd waar nodig.
01

Funda-listings → CRM

Vastgoed — scraped nieuwe listings die voldoen aan investeerder-criteria elke 15 min, verrijkt met property-data, pusht naar CRM.

02

Concurrent-prijs-watch

Dagelijkse prijs-monitoring over 80 concurrenten met AI-classifier die 'betekenisvolle wijzigingen' onderscheidt van ruis.

03

Partner-catalog ingestie

Partner-PDF's, CSV's, FTP-drops genormaliseerd naar één unified product-schema — met image-optimisatie en categorie-inferentie.

04

Openbare-register-feeds

KvK, BAG, Kadaster, EU open data — ingested, joined, en zichtbaar in de interne tools van de klant.

05

Lead-scraping + verrijking

Publieke directory → Apollo / Clearbit-verrijking → AI-gescored voor fit → Slack-alert voor hot leads. Volledig compliant.

06

Review-aggregatie

Google, Trustpilot, sector-specifieke sites → sentiment + thema-extractie → wekelijkse exec-digest.

03Proces

Twee weken tot een pipeline. Jaren aan uptime.

Vaste scope, met een monitoring-retainer na lancering.
01

Audit + schema

We kiezen bronnen, testen toegankelijkheid en TOS, ontwerpen het target-schema, en schrijven de compliance-note.

02

Bouwen + testen

Scrapers + ETL + verrijking end-to-end. Draaien tegen echte data, diffen tegen handmatige samples, thresholds afstemmen.

03

Deployen + monitoren

Ship naar jouw infra (of de onze), alerts voor breakage, 30 dagen on-call. Optioneel maandelijks monitoring-retainer.

04Stack

Battle-tested. Observable.

Elke run gelogd. Elke failure gealarmeerd.
01
Playwright
Browser-automatisering
02
Scrapy
HTTP scraping
03
Python
ETL · verrijking
04
Airbyte
ELT connectors
05
dbt
Data-transformaties
06
Temporal
Duurzame workflows
07
Claude
Classificatie · extractie
08
PostgreSQL
Warehouse · dw
FAQFAQ

Veelgestelde vragen.

Eerlijke antwoorden — vraag ons alles dat er niet staat.
Voor publieke data meestal wel — met grenzen. We checken elk site's robots.txt en voorwaarden, respecteren rate-limits, omzeilen nooit paywalls, en vermijden persoonsgegevens buiten wat publiek gelist staat. Voor grijze zones vertellen we het eerlijk en documenteren we het risico.

Heb je een bron die je in rijen nodig hebt? Vertel ons erover.

Twintig minuten, videogesprek. Je loopt weg met een plan — of je ons nu inhuurt of niet.

Engagement-standaard
  • Duur3 weken · vaste scope
  • TalenNL + EN
  • PrijsOp aanvraag
  • Reactie< 4u doordeweeks