Email automation
Letselschade e-mailagent: 1.180 zaken per week, case study
Dinsdagochtend in Almelo. Het hoofd intake staart naar 287 ongelezen medisch-adviseur e-mails. De helft heeft de urgentievlag. Drie zijn dat echt. We bouwden haar een agent.

09:14 op een dinsdag
De intakecoördinator van een letselschadekantoor met 22 mensen in Almelo opent Outlook en ziet 287 nieuwe medisch-adviseur e-mails sinds vrijdag. Eenenveertig hebben de urgentievlag. Drie zijn dat ook echt.
Ze doet dit werk al negen jaar. Ze weet welke IME-arts de urgentievlag als komma gebruikt en welke AOV-behandelaar alleen vlagt als er echt iets brandt. Ze weet ook dat tegen de tijd dat ze de ruis van de rode vlaggen heeft gescheiden, de twee senior letselschade-advocaten van het kantoor allebei op hun telefoon zijn gepingd met "even kijken"-berichten, en dat ze nog eens vijfenveertig minuten kwijt is voordat ze één dossier kan doorzetten.
Dit is de e-mailpijplijn van een Nederlandse letselschadepraktijk in 2026: hoog volume, gereguleerd, afhankelijk van twee stukken software waar sinds 2014 niemand meer echt van houdt, en seniors die door de kieren attentie verliezen.
Het volumeprobleem
Het kantoor draait ruwweg 1.180 medisch-adviseur correspondenties per week. Dat zijn medisch adviseurs die op vragen reageren, AOV-verzekeraars die op aansprakelijkstellingen antwoorden, ziekenhuisdossiers die druppelsgewijs binnenkomen, IME-rapportages die om 23:47 met een zachte klap landen omdat de IME-arts nét klaar is. Elke thread heeft één van vier dingen nodig:
- Een dossieractie door de casemanager (het gros).
- Een ontvangstbevestiging binnen de PIV-termijn.
- Een escalatie naar een senior letselschade-advocaat (zeldzaam, duur als je 'm mist).
- Niks. Bericht archiveren en door.
De interessante bak is de derde. Volgens de interne regel van het kantoor moet elke thread die een AOV-aanspraak raakt met een vermoedelijke schade boven €250.000 in een senior-wachtrij worden geparkeerd voordat ook maar iemand, agent of junior, zelfs een ontvangstbevestiging stuurt. Één misstap en het kantoor zit drie jaar later op één onachtzame zin van een kostenveroordelingsargument.
Cicero en Exchange 2013
De twee systemen waarin de agent moest leven zijn Cicero, de twaalf jaar oude advocatensoftware die de dossierlaag draait, en een zelfgebouwd medisch-dossier-archief op Exchange 2013 dat een neef van een van de senior partners ergens in 2017 heeft opgetuigd. Exchange 2013 ging in april 2023 uit Microsoft-support; zie de Microsoft Exchange lifecycle notes. Het archief wordt op dit moment bij elkaar gehouden door een service account, een scheduled task en de persoonlijke goodwill van één externe sysadmin die op zaterdag z'n telefoon opneemt.
Geen van beide systemen heeft iets dat lijkt op een moderne API. Cicero biedt een SOAP-achtig endpoint dat XML retourneert als je het vriendelijk vraagt. Het Exchange-archief reageert op EWS-calls als je authenticeert als de juiste legacy user. Er is nergens in het pand een webhook te vinden. De eerste zes weken van het project gingen niet over LLM's; ze gingen over twee gesloten systemen reverse-engineeren zonder ze stuk te maken.
Als een leverancier zegt dat de agent netjes integreert met twaalf jaar oude juridische software, vraag dan om de Postman-collection. Oude Nederlandse verticals (letselschade, notariaat, accountancy) draaien op gesloten Windows-desktops zonder publieke docs en zonder enige incentive bij de leverancier om mee te helpen.
Wat de agent daadwerkelijk doet
De pijplijn zag er uiteindelijk zo uit. Een IMAP-listener op het centrale postvak van het kantoor kijkt naar inkomende mail. Elk bericht wordt door een classifier getrokken die vier dingen op rij doet: het dossiernummer uitlezen (eerst regex, dan een LLM-fallback voor de 14% van de berichten waar de mens het verkeerd typte), het dossier opzoeken in Cicero via de SOAP-interface, de meest recente medische correspondentie voor dat dossier ophalen uit het Exchange-archief via EWS, en pas dán beslissen wat voor soort bericht dit is.
De classificatiestap is een kleine Claude-call met de dossiermetadata en de laatste drie berichten in de thread als context. Hij retourneert een JSON-object met de categorie, een confidence score en een vlag of de thread een AOV-aanspraak boven de €250k-drempel noemt of impliceert.
def classify(msg, dossier, history):
prompt = build_prompt(msg, dossier, history)
result = claude.messages.create(
model="claude-sonnet-4-5",
max_tokens=400,
system=PIV_SYSTEM_PROMPT,
messages=[{"role": "user", "content": prompt}],
)
decision = json.loads(result.content[0].text)
if decision["aov_value_eur"] and decision["aov_value_eur"] >= 250_000:
return queue("senior_letselschade", msg, decision)
if decision["category"] == "ontvangstbevestiging":
return draft_ack(msg, dossier, decision)
return queue(decision["category"], msg, decision)
We kozen een Sonnet-klasse model omdat het werk vooral context lezen is en een kleine gestructureerde output produceren. Grotere modellen zouden verspilling zijn bij 1.180 berichten per week; kleinere modellen begonnen dossiernummers te verzinnen als de inkomende mail slordig was. De kosten per bericht komen uit op ongeveer €0,004. De hele classificatielaag draait dus voor minder dan de prijs van één paralegal-uur per week.
De €250k-drempel is geen onderbuikgevoel. De agent stelt niets op, verstuurt niets en bevestigt niets automatisch waarvan hij denkt dat het een claim boven die grens raakt. Hij parkeert de thread, hangt de redenering van de classifier eraan als notitie en pingt de senior-wachtrij in Cicero. Een mens leest het. Altijd.
Concepten schrijven onder de PIV-gedragscode
De PIV-gedragscode, Stichting PIV's gedragscode voor de behandeling van letselschadeclaims, is specifiek over ontvangstbevestigingen. Reactie binnen twee weken. Taal die niet vooruitloopt. Geen toezeggingen over termijnen die het kantoor niet kan waarmaken. Geen medisch oordeel in de body van een administratieve reactie.
Een LLM die een paar duizend letselschade-e-mails heeft gelezen, schendt die vier regels graag in één keer. Dus de drafter is geen "Claude, schrijf een reactie." De drafter is een gelimiteerde generator: hij krijgt de dossiermetadata, het meest recente inkomende bericht, een lijst met verboden formuleringen die uit een jaar door partners herschreven concepten zijn opgevist, en een strak template-skelet met benoemde slots.
De output gaat nooit automatisch weg. Hij landt in het outbox van de casemanager met de markering "concept" en de slotvullingen gehighlight. De casemanager leest, drukt op verzenden, of schrijft hem over. De taak van de agent is om de eerste 80% van het concept te laten verdwijnen, niet om verantwoordelijkheid te nemen voor de laatste 20%.
Voor gereguleerd werk is het juiste autonomieniveau "concepten, nooit verzenden". De agent moet typewerk weghalen, geen oordeel. Het moment dat je die lijn overschrijdt, heb je geen automatiseringsprobleem meer maar een compliance-probleem.
Wat brak in de eerste maand
Drie dingen, allemaal leerzaam.
De Exchange 2013 EWS-verbinding begon op dag elf stilletjes te throttlen. De agent bleef pollen, Exchange bleef lege resultaten teruggeven, en de classifier begon alles te routeren als "geen eerdere context", wat volgens de regels van het kantoor threads richting de senior-wachtrij duwt. Twee senior advocaten hadden een woensdagochtend met 140 vals-positieve escalaties voordat we het in de gaten hadden. De fix waren drie dingen tegelijk: een expliciet alarm op lege resultaten, een sanity check die EWS-berichttellingen uur-op-uur vergelijkt, en een harde cap op het senior-wachtrijvolume die een engineer paged voordat het een partner paged.
De €250k-extractor was te letterlijk. Hij zocht naar eurobedragen in de body van het bericht. Maar AOV-aanspraken worden vaak omschreven als "verlies arbeidsvermogen tot pensioenleeftijd" zonder dat er ooit een bedrag genoemd wordt, en de echte waarde zit in een bijgevoegde actuariële berekening als PDF. We bouwden er een attachment reader bij en draaiden de classifier opnieuw met twaalf maanden aan interne "is dit uiteindelijk boven €250k gebleken"-labels als few-shot voorbeelden. De accuratesse op de drempelvlag ging van 71% naar 94%.
De PIV-termijnklok klopte niet. Exchange 2013 stempelt berichtdatums in de lokale tijd van de server, en die is niet altijd Amsterdamse tijd nadat de server in 2019 opnieuw is opgebouwd. Threads die zondagavond binnenkwamen werden geteld als maandagochtend, wat een dag van het responsvenster afsnoepte. We pinden de tijdzone in de IMAP-naar-archief brug en bouwden de wachtrijprioriteiten opnieuw op. Twee uur werk; twee maanden laaggradig compliance-risico dat we onbewust hadden meegedragen.
De cijfers na vier maanden
De routeringsaccuratesse op de classificatiestap stabiliseerde op 96,4%, gemeten tegen herroutering door de casemanager. De senior-wachtrij krijgt ruwweg 38 threads per week, omlaag van de pre-agent schatting van het kantoor van "we zouden waarschijnlijk een stuk of honderd echte escalaties per week zien als iemand tijd had om te kijken". Twee senior partners besteden hun wachtrijtijd nu aan threads die er ook echt thuishoren.
De e-mailafhandelingstijd van het casemanager-team daalde van een zelfgerapporteerde 2,6 uur per persoon per dag naar 0,9 uur. Dat zijn geen 2,6 uur werk die verdwijnen; het zijn 2,6 uur typen-en-routeren vervangen door 0,9 uur lezen-en-akkoord-geven. De teruggewonnen uren gingen naar dossierwerk en cliëntgesprekken. Het kantoor heeft de geplande vijfde casemanager-vacature niet uitgezet en is dat ook niet meer van plan.
Één getal dat we bewust niet najagen: percentage ontvangstbevestigingen verstuurd zonder menselijke review. Dat getal is nul, en we hebben in het contract opgenomen dat het nul blijft.
Waar de lijn ligt
Er loopt deze maand een nuttige discussie over waar AI thuishoort. Noorwegen heeft net een bijna-verbod ingevoerd op AI-tools in het basisonderwijs, met als argument dat kinderen de onderliggende vaardigheid moeten leren voordat ze die delegeren. Die framing reist mee. Een ontvangstbevestiging opstellen onder een bekende code, tegen een bekend dossier, met een mens die op verzenden drukt: dat is delegeren in de saaie, gezonde zin. Een agent laten beslissen of een claim van €400.000 het oog van een senior advocaat verdient, is geen delegeren. Dat is abdicatie. De €250k-drempel bestaat zodat de agent die afweging nooit zelf hoeft te maken.
Als jij een gereguleerde inbox draait
Het kleinste nuttige wat je vanmiddag kunt doen: open de laatste 200 inkomende berichten in de hoofdmailbox van je team en label elk bericht volgens het vier-bakken-schema. Actie, bevestigen, escaleren, archiveren. Tel de escalaties. Als jouw onderbuik-telling er meer dan 30% naast zat, heeft je team al een routeringsprobleem dat geen snelheid van typen kan oplossen.
Toen we deze e-mailagent bouwden voor het Almelose letselschadekantoor, was de verrassing niet de LLM; de classifier was het makkelijke deel. Het lastige was een Exchange-archief uit 2013 en een Cicero-installatie uit 2013 zich zo te laten gedragen dat een senior partner de wachtrij vertrouwt. Dat soort AI-agent-werk is voornamelijk plumbing, contractontwerp en gedisciplineerde scope. Het model is de laatste 10%.
Kern
Voor gereguleerd e-mailwerk: laat de agent concepten opstellen en nooit verzenden. De juiste metric is uren teruggewonnen voor oordeel, niet berichten automatisch beantwoord.
FAQ
Kan de agent ontvangstbevestigingen versturen zonder menselijke review?
Nee. Elk uitgaand bericht landt in het outbox van een casemanager met de markering concept. De agent vermindert typewerk, geen verantwoordelijkheid. Automatisch verzenden is op dag één contractueel buiten scope gehouden.
Hoe integreert het met Cicero en Exchange 2013?
SOAP voor Cicero, EWS voor het Exchange-archief, IMAP op het centrale postvak. Geen publieke API's, geen webhooks, geen medewerking van de leverancier. De plumbing is het meeste werk; de LLM is de laatste tien procent.
Wat gebeurt er als een thread een grote AOV-claim noemt?
Alles wat een claim boven €250.000 impliceert, wordt geparkeerd in een senior-letselschade wachtrij voordat er überhaupt een reactie wordt opgesteld. Een mens leest het eerst. De drempel bestaat zodat de agent de zaak nooit zelf hoeft te beoordelen.
Heeft het kantoor na de uitrol op personeel bezuinigd?
Nee. Ze hebben een geplande vijfde casemanager-vacature gecanceld en de teruggewonnen uren naar dossierwerk en cliëntgesprekken verplaatst. Het team is even groot, maar doet meer declarabel werk per dag.