10. Aug. 2025·8 Min

Wie LLMs mit Geschäftsregeln und Workflow-Entscheidungslogik umgehen

Erfahren Sie, wie LLMs Geschäftsregeln interpretieren, Workflow-Zustand verfolgen und Entscheidungen mit Prompts, Tools, Tests und menschlicher Überprüfung verifizieren — nicht nur mit Code.

Warum Business-Rule-Reasoning mehr ist als Code-Generierung

Wenn Leute fragen, ob ein LLM „über Geschäftsregeln nachdenken“ kann, meinen sie meist etwas Anspruchsvolleres als „kann es eine if/else-Anweisung schreiben“. Business-Rule-Reasoning ist die Fähigkeit, Richtlinien konsequent anzuwenden, Entscheidungen zu erklären, Ausnahmen zu behandeln und mit dem aktuellen Workflow-Schritt im Einklang zu bleiben — besonders wenn Eingaben unvollständig, unordentlich oder im Wandel sind.

Reasoning vs. emitting code

Code-Generierung dreht sich überwiegend darum, gültige Syntax in einer Ziel-Sprache zu erzeugen. Regel-Reasoning geht darum, die Absicht zu bewahren.

Ein Modell kann perfekten Code erzeugen, der trotzdem das falsche geschäftliche Ergebnis liefert, weil:

Der Richtlinientext mehrdeutig ist („recent customer“, „high risk“, „approved documentation").
Regeln widersprechen und die Priorität unklar ist.
Randfälle nicht erwähnt sind (Teilrückerstattungen, Duplikate, Wochenenden/Feiertage).
Der Workflow-Zustand bestimmt, was als Nächstes passieren sollte (intake vs. review vs. final approval).

Mit anderen Worten: Korrektheit ist nicht „does it compile?“ sondern „entspricht es dem, was das Business entscheiden würde, jedes Mal, und können wir das beweisen?"

Was zu erwarten ist von LLMs

LLMs können helfen, Richtlinien in strukturierte Regeln zu übersetzen, Entscheidungswege vorzuschlagen und Erklärungen für Menschen zu entwerfen. Aber sie wissen nicht automatisch, welche Regel maßgeblich ist, welche Datenquelle vertraut wird oder in welchem Schritt sich der Fall gerade befindet. Ohne Einschränkungen wählen sie möglicherweise eine plausible, aber nicht geregelte Antwort.

Das Ziel ist also nicht, „das Modell entscheiden zu lassen“, sondern ihm Struktur und Prüfungen zu geben, damit es zuverlässig assistiert.

Was der Rest dieses Beitrags tun wird

Ein praktischer Ansatz sieht wie eine Pipeline aus:

Convert policy text into usable rule representations.
Track workflow state so decisions remain consistent across steps.
Use prompt patterns to enforce priorities, exceptions, and explanations.
Ground decisions with tools and retrieval (only using approved data).
Constrain outputs with schemas to reduce ambiguity.
Validate, test, and monitor so mistakes are caught before release.

Das ist der Unterschied zwischen einem cleveren Code-Snippet und einem System, das echte Geschäftsentscheidungen unterstützen kann.

Geschäftsregeln und Workflows: eine kurze, verständliche Auffrischung

Bevor wir darüber sprechen, wie ein LLM „reasoned“, hilft es, zwei Dinge zu trennen, die Teams oft zusammenwerfen: Geschäftsregeln und Workflows.

Was sind Geschäftsregeln?

Geschäftsregeln sind die Entscheidungsanweisungen, die Ihre Organisation konsequent durchsetzen möchte. Sie erscheinen als Richtlinien und Logik wie:

Eligibility: Wer ist für eine Leistung, einen Plan oder ein Feature berechtigt?
Pricing: Welcher Rabatt gilt und wann?
Approvals: Wann ist eine Manager-Prüfung erforderlich?
Compliance: Was muss protokolliert, geschwärzt oder blockiert werden?

Regeln sind meist als „IF X, THEN Y“ formuliert (manchmal mit Ausnahmen) und sollten ein klares Ergebnis liefern: approve/deny, price A/price B, more info anfordern usw.

Was sind Workflows?

Ein Workflow ist der Prozess, der Arbeit von Anfang bis Ende bewegt. Es geht weniger darum, was erlaubt ist und mehr darum, was als Nächstes passiert. Workflows beinhalten oft:

States: submitted → under review → approved/denied → completed
Steps and handoffs: customer support → finance → customer
Time-based events: Erinnerungen, SLAs, automatische Stornierung nach 14 Tagen
Artifacts: Formulare, Anhänge, Reason-Codes, Audit-Notizen

Ein kleines Beispiel: Rückerstattungsanfragen

Stellen Sie sich eine Rückerstattungsanfrage vor.

Rule snippet: „Refunds are allowed within 30 days of purchase. Exception: digital downloads are non-refundable once accessed. Exception: chargebacks must be escalated."

Workflow snippet:

Customer submits request (state: submitted).
System checks purchase date and product type (state: under review).
If eligible, issue refund and notify customer (state: completed).
If chargeback, route to finance for investigation (state: escalated).

Warum Regeln schwieriger sind, als sie scheinen

Regeln werden kompliziert, wenn sie konfligieren („VIP customers always get refunds“ vs. „digital downloads never do“), auf fehlendem Kontext beruhen (wurde der Download genutzt?) oder Randfälle verbergen (Bundles, Teilrückerstattungen, regionale Gesetze). Workflows fügen eine weitere Ebene hinzu: Entscheidungen müssen mit dem aktuellen State, früheren Aktionen und Deadlines konsistent bleiben.

Wie LLMs „reasonen": Pattern-Matching mit hilfreicher Struktur

LLMs „verstehen" Geschäftsregeln nicht wie ein Mensch. Sie generieren die nächsten wahrscheinlichen Wörter basierend auf Mustern aus großen Textmengen. Deshalb kann ein LLM überzeugend klingen, obwohl es rät — oder fehlende Details stillschweigend ergänzt.

Diese Einschränkung ist für Workflows und Entscheidungslogik relevant. Ein Modell kann eine Regel anwenden, die sich „richtig" anhört („employees always need manager approval"), obwohl die reale Richtlinie Ausnahmen hat („only above $500" oder „only for contractors"). Das ist ein typisches Fehlermuster: selbstsicher, aber inkorrekt.

Warum sie trotzdem nützlich sind

Auch ohne echtes „Verstehen" sind LLMs hilfreich, wenn man sie als strukturierte Assistenten einsetzt:

Summarizing langer Policen in klarere Sprache für Reviews
Mapping unordentlichen Text in konsistente Felder (wer, was, Schwelle, Ausnahme, Inkrafttretungsdatum)
Checking einer vorgeschlagenen Entscheidung gegen die angegebenen Regeln ("which clause supports this?")

Der Schlüssel ist, das Modell so zu positionieren, dass es nicht leicht in Improvisation abrutscht.

Modell einschränken, damit es nicht abschweift

Eine praktische Methode, Mehrdeutigkeiten zu reduzieren, ist constrained output: das LLM muss in einem festen Schema oder Template antworten (z. B. JSON mit spezifischen Feldern oder eine Tabelle mit Pflichtspalten). Wenn das Modell rule_id, conditions, exceptions und decision ausfüllen muss, werden Lücken leichter erkennbar und automatisch prüfbar.

Eingeschränkte Formate machen auch deutlicher, wann das Modell etwas nicht weiß. Fehlt ein Pflichtfeld, kann eine Nachfragen erzwungen werden, statt eine unsichere Antwort zu akzeptieren.

Die Quintessenz: LLM-„reasoning“ ist am besten als musterbasierte Generierung mit Struktur zu sehen — nützlich zum Organisieren und Gegenprüfen von Regeln, riskant, wenn man es als unfehlbaren Entscheider behandelt.

Messigen Richtlinientext in nutzbare Regelrepräsentationen umwandeln

Richtliniendokumente sind für Menschen geschrieben: Ziele, Ausnahmen und „gesunder Menschenverstand“ stehen oft im selben Absatz. Ein LLM kann diesen Text zusammenfassen, aber es folgt Regeln zuverlässiger, wenn die Richtlinie in explizite, testbare Eingaben überführt wird.

Wie "nutzbare" Regeln aussehen

Gute Regelrepräsentationen haben zwei Eigenschaften: sie sind unmissverständlich und prüfbar.

Formulieren Sie Regeln als Aussagen, die Sie testen könnten:

IF/THEN für Entscheidungen (Eligibility, Routing, Approvals)
MUST / MUST NOT für harte Constraints
MAY für erlaubte Optionen (braucht oft einen Tiebreaker)

Regeln können dem Modell in mehreren Formen bereitgestellt werden:

Plain-language bullets (am schnellsten, trotzdem strukturiert)
Eine Tabelle (gut für schwellenwertbasierte Policen)
YAML/JSON (am besten, wenn Sie auch eingeschränkte Ausgaben und automatisierte Validierung wollen)

Umgang mit Konflikten und Priorität

Echte Policen widersprechen sich. Wenn zwei Regeln nicht übereinstimmen, braucht das Modell ein klares Prioritätsschema. Gängige Ansätze:

Spezifisch schlägt allgemein (eine Ausnahme überschreibt die Standardregel)
Höhere Autorität gewinnt (Legal/Compliance vor Teampräferenz)
Neuere Version gewinnt (aktuelle Policen überschreiben ältere)
Explizite Prioritätsnummern (am verlässlichsten)

Formulieren Sie die Konfliktregel direkt oder kodieren Sie sie (z. B. priority: 100). Ansonsten könnte das LLM die Regeln "mitteln".

Beispiel: einen Absatz in eine Regel-Liste umwandeln

Original policy text:

“Refunds are available within 30 days for annual plans. Monthly plans are non-refundable after 7 days. If the account shows fraud or excessive chargebacks, do not issue a refund. Enterprise customers need Finance approval for refunds over $5,000.”

Structured rules (YAML):

rules:
  - id: R1
    statement: \"IF plan_type = annual AND days_since_purchase \u003c= 30 THEN refund MAY be issued\"
    priority: 10
  - id: R2
    statement: \"IF plan_type = monthly AND days_since_purchase \u003e 7 THEN refund MUST NOT be issued\"
    priority: 20
  - id: R3
    statement: \"IF fraud_flag = true OR chargeback_rate = excessive THEN refund MUST NOT be issued\"
    priority: 100
  - id: R4
    statement: \"IF customer_tier = enterprise AND refund_amount \u003e 5000 THEN finance_approval MUST be obtained\"
    priority: 50
conflict_resolution: \"Higher priority wins; MUST NOT overrides MAY\"

Jetzt rät das Modell nicht, was wichtig ist — es wendet ein Regelset an, das Sie prüfen, testen und versionieren können.

Workflow-Zustand verfolgen, damit das Modell konsistent bleibt

Ein Workflow ist nicht nur eine Sammlung von Regeln; er ist eine Abfolge von Ereignissen, bei der frühere Schritte beeinflussen, was als Nächstes passieren soll. Diese "Erinnerung" ist State: die aktuellen Fakten zum Fall (wer hat was eingereicht, was ist bereits genehmigt, was wartet, welche Fristen gelten). Ohne explizites State-Tracking brechen Workflows auf vorhersehbare Weise zusammen — doppelte Genehmigungen, überspringen notwendiger Prüfungen, Entscheidungen rückgängig machen oder falsche Policen anwenden, weil das Modell nicht zuverlässig ableiten kann, was bereits passiert ist.

Was "State" in einfachen Worten bedeutet

Stellen Sie sich State als Anzeigetafel des Workflows vor. Es beantwortet: Wo stehen wir gerade? Was wurde erledigt? Was ist als Nächstes erlaubt? Für ein LLM verhindert eine klare State-Zusammenfassung, dass es vergangene Schritte neu verhandelt oder rät.

Wie man State an das Modell übergibt

Wenn Sie das Modell aufrufen, fügen Sie neben der Nutzeranfrage eine kompakte State-Payload hinzu. Nützliche Felder sind:

Step name and status (z. B. manager_review: approved, finance_review: pending)
Stable IDs (request ID, employee ID), damit das Modell Fälle nicht vermischt
Timestamps (submitted_at, last_updated), um "neueste gewinnt"-Situationen zu klären
Flags (Policy-Ausnahmen, fehlende Dokumente, Eskalation erforderlich)

Vermeiden Sie, jede historische Nachricht zu dumpen. Geben Sie stattdessen den aktuellen State plus eine kurze Audit-Historie wichtiger Übergänge an.

Eine einzige Quelle der Wahrheit behalten

Behandeln Sie die Workflow-Engine (Datenbank, Ticket-System oder Orchestrator) als Single Source of Truth. Das LLM sollte State aus diesem System lesen und die nächste Aktion vorschlagen, aber das System sollte die Autorität sein, die Übergänge aufzeichnet. Das reduziert "State Drift", bei dem die Modell-Erzählung von der Realität abweicht.

Beispiel: Snapshot eines Genehmigungs-Flow-States

{
  \"request_id\": \"TRV-10482\",
  \"workflow\": \"travel_reimbursement_v3\",
  \"current_step\": \"finance_review\",
  \"step_status\": {
    \"submission\": \"complete\",
    \"manager_review\": \"approved\",
    \"finance_review\": \"pending\",
    \"payment\": \"not_started\"
  },
  \"actors\": {
    \"employee_id\": \"E-2291\",
    \"manager_id\": \"M-104\",
    \"finance_queue\": \"FIN-AP\"
  },
  \"amount\": 842.15,
  \"currency\": \"USD\",
  \"submitted_at\": \"2025-12-12T14:03:22Z\",
  \"last_state_update\": \"2025-12-13T09:18:05Z\",
  \"flags\": {
    \"receipt_missing\": false,
    \"policy_exception_requested\": true,
    \"needs_escalation\": false
  }
}

Mit so einem Snapshot bleibt das Modell konsistent: es fragt nicht erneut nach Manager-Freigabe, konzentriert sich auf Finanzprüfungen und kann Entscheidungen anhand der aktuellen Flags erklären.

Prompt-Muster, die Regelbefolgung und Entscheidungen verbessern

Plane zuerst den Ablauf

Nutze den Planungsmodus, um Zustände, Prioritäten und Eskalationspfade vor der Ausführung zu skizzieren.

Planung testen

Ein guter Prompt fragt nicht nur nach einer Antwort — er legt Erwartungen fest, wie das Modell Regeln anwenden und das Ergebnis berichten soll. Ziel sind reproduzierbare Entscheidungen, nicht cleverer Prosa.

1) Rollen-Prompting: einen Job zuweisen, keinen Stil

Geben Sie dem Modell eine konkrete Rolle, die an Ihren Prozess gebunden ist. Drei Rollen funktionieren gut zusammen:

Policy analyst: interpretiert den Regeltext und überträgt ihn auf den aktuellen Fall.
Validator: prüft die Entscheidung gegen Anforderungen und meldet fehlende Eingaben.
Agent: führt die nächste Workflow-Aktion aus (Ticket erstellen, E-Mail entwerfen, Status setzen).

Sie können diese nacheinander einsetzen ("analyst → validator → agent") oder alle drei Ausgaben in einer strukturierten Antwort anfordern.

2) Schritt-für-Schritt-Anweisungen (ohne nach versteckter Reasoning zu fragen)

Statt "chain-of-thought" anzufordern, spezifizieren Sie sichtbare Schritte und Artefakte:

Relevante Regeln identifizieren.
Benötigte Eingaben aus dem Fall extrahieren.
Regeln in Prioritätsreihenfolge anwenden.
Eine Entscheidung und den nächsten Schritt produzieren.

Das hält das Modell organisiert und fokussiert auf lieferbare Ergebnisse: welche Regeln benutzt wurden und welches Ergebnis folgt.

3) Fordern Sie eine strukturierte Begründung an: Regel-IDs + Belege

Freie Erklärungen driften ab. Verlangen Sie eine kompakte Begründung, die auf Quellen verweist:

Verwendete Regel-IDs (z. B. R-12, R-18)
Belege (zitierte Textstellen aus Policies und spezifische Fallfelder)
Annahmen (nur wenn eine Eingabe fehlt)

Das macht Reviews schneller und hilft, Meinungsverschiedenheiten zu debuggen.

4) Checklisten-Promptmuster: Eingaben, Entscheidung, Ausnahmen, nächster Schritt

Verwenden Sie jedes Mal eine feste Vorlage:

Inputs received: …
Inputs missing: …
Decision: approve/deny/needs-review
Rule references: [R-…]
Exceptions considered: …
Next workflow step: update status / request info / escalate

Die Vorlage reduziert Mehrdeutigkeit und zwingt das Modell, Lücken aufzudecken, bevor es eine fehlerhafte Aktion durchführt.

Tools und Retrieval nutzen, um Entscheidungen an echten Daten zu verankern

Ein LLM kann eine überzeugende Antwort schreiben, selbst wenn ihm Schlüssel-Fakten fehlen. Das ist fürs Drafting nützlich, aber riskant für Geschäftsentscheidungen. Wenn das Modell den Status eines Kontos, die Stufe eines Kunden, einen regionalen Steuersatz oder ob ein Limit bereits erreicht ist, erraten muss, entstehen selbstsichere Fehler.

Tools lösen das, indem sie "reasoning" in einen zweistufigen Prozess verwandeln: zuerst Beweise holen, dann entscheiden.

Gängige Tools, die das Modell ehrlich halten

In regel- und workflow-intensiven Systemen erledigen ein paar einfache Tools die Hauptarbeit:

Database lookup (Kundenprofil, Kontostatus, Berechtigungen, Nutzungszahlen)
Policy/rule store (genehmigte Regeltexte, versionierte Verfahren, Ausnahmelisten)
Calculator (Fees, Proration, Taxes, Time windows, Thresholds)
Ticketing / workflow API (offene Fälle, SLA-Timer, Freigaben, Schrittabschluss)

Wichtig ist, dass das Modell keine operativen Fakten „erfindet" — es fordert sie an.

Retrieval: nur die relevanten Regeln einbeziehen

Selbst wenn alle Policen zentral gespeichert sind, möchten Sie selten das ganze Dokument in den Prompt kopieren. Retrieval wählt nur die relevantesten Fragmente für den aktuellen Fall aus, z. B.:

Die Kündigungsregel für den Plan des Kunden
Die regionale Compliance-Klausel basierend auf Land/State
Die Ausnahmeregel, die bei laufendem Chargeback gilt

Das reduziert Widersprüche und verhindert, dass das Modell einer veralteten Regel folgt, nur weil diese früher im Kontext stand.

Tool-Outputs in Entscheidungsbelege umwandeln

Ein verlässliches Muster ist, Tool-Ergebnisse als Belege zu behandeln, die das Modell in seiner Entscheidung zitieren muss. Beispiel:

Tool: get_account(account_id) → status=\"past_due\", plan=\"Business\", usage_this_month=12000
Tool: retrieve_policies(query=\"overage fee Business plan\") → returns rule: "Overage fee applies above 10,000 units at $0.02/unit."
Tool: calculate_overage(usage=12000, threshold=10000, rate=0.02) → $40.00

Jetzt ist die Entscheidung kein Rateversuch: sie ist ein Schluss, der an spezifische Eingaben gebunden ist ("past_due", "12,000 units", "$0.02/unit"). Bei einem Audit kann man sehen, welche Fakten und welche Regelversion verwendet wurden — und genau den Teil korrigieren, wenn sich etwas ändert.

Eingeschränkte Ausgaben: Schemata, die Mehrdeutigkeit reduzieren

Randfälle frühzeitig erkennen

Erstelle ein Test‑Framework für Schwellenwerte, Ausnahmen und mehrstufige Workflow‑Pfade.

Tests erstellen

Freier Text ist flexibel, aber auch die einfachste Fehlerquelle. Ein Modell kann eine „vernünftige" Antwort geben, die nicht automatisierbar ist ("looks fine to me") oder inkonsistent zwischen Schritten ("approve" vs. "approved"). Eingeschränkte Ausgaben zwingen jede Entscheidung in eine vorhersehbare Form.

Entscheidungen als JSON zurückgeben

Ein praktisches Muster ist, das Modell anzuweisen, ein einzelnes JSON-Objekt zurückzugeben, das Ihr System parsen und weiterleiten kann:

{
  "decision": "needs_review",
  "reasons": [
    "Applicant provided proof of income, but the document is expired"
  ],
  "next_action": "request_updated_document",
  "missing_info": [
    "Income statement dated within the last 90 days"
  ],
  "assumptions": [
    "Applicant name matches across documents"
  ]
}

Diese Struktur ist auch dann nützlich, wenn das Modell nicht voll entscheiden kann. missing_info und assumptions machen Unsicherheit zu handlungsfähigen Follow-ups, statt sie zu verbergen.

Aufzählungen (Enums) verwenden, um Ergebnisse zu begrenzen

Um Variabilität zu reduzieren, definieren Sie erlaubte Werte (Enums) für Schlüssel-Felder. Zum Beispiel:

decision: approved | denied | needs_review
next_action: approve_case | deny_case | request_more_info | escalate_to_human

Mit Enums müssen nachgelagerte Systeme keine Synonyme, Zeichensetzung oder Ton interpretieren. Sie verzweigen einfach auf bekannte Werte.

Warum Schemata Workflows sicherer machen

Schemata sind Leitplanken. Sie:

Verhindern „Teilantworten" durch Pflichtfelder.
Erleichtern Audits, warum eine Entscheidung gefallen ist (via reasons).
Ermöglichen zuverlässige Automatisierung: Queues, Benachrichtigungen und Aufgaben werden direkt aus decision und next_action getriggert.
Unterstützen Validierung: Sie können Ausgaben zurückweisen, die nicht dem Schema entsprechen, und das Modell zum Wiederholen zwingen.

Das Ergebnis sind weniger Mehrdeutigkeiten, weniger Edge-Case-Fehler und Entscheidungen, die konsistent durch einen Workflow laufen können.

Validierungsstrategien: Fehler abfangen, bevor sie ausgeliefert werden

Auch ein gut formulierter Prompt kann überzeugend klingen und dennoch eine Regel verletzen, einen erforderlichen Schritt überspringen oder einen Wert erfinden. Validierung ist das Sicherheitsnetz, das aus einer plausiblen Antwort eine verlässliche Entscheidung macht.

Vorprüfungen: Eingaben vor dem Reasoning validieren

Beginnen Sie damit, zu verifizieren, dass Sie die Mindestinformation haben, die zur Anwendung der Regeln nötig ist. Vorprüfungen laufen, bevor das Modell eine Entscheidung trifft.

Typische Vorprüfungen sind erforderliche Felder (z. B. customer type, order total, region), Grundformate (Dates, IDs, Currency) und erlaubte Bereiche (nicht-negative Beträge, Prozentsätze ≤ 100%). Wenn etwas fehlt, geben Sie eine klare, umsetzbare Fehlermeldung zurück ("Missing 'region'; cannot choose tax rule set") statt das Modell raten zu lassen.

Nachprüfungen: Entscheidung gegen die Regeln validieren

Nachdem das Modell ein Ergebnis liefert, prüfen Sie, ob es konsistent mit Ihrem Regelset ist.

Konzentrieren Sie sich auf:

Rule coverage: Wurde die Entscheidung durch die anwendbaren Regeln gestützt oder wurde eine Pflichtregel übersprungen?
Widersprüche: Steht die Ausgabe im Konflikt mit den gegebenen Eingaben (z. B. "approved", obwohl eine Hard-Block-Bedingung wahr ist)?
Grenzfälle: Testen Sie Schwellenwerte (genau $10,000), leere Zustände ("no prior violations") und "just over"-Szenarien.

Zweiter Prüfpass: ein gezielter Review-Schritt

Fügen Sie einen "zweiten Durchlauf" hinzu, der die erste Antwort neu bewertet. Das kann ein weiterer Modellaufruf sein oder derselbe Modellaufruf mit einem Validator-Prompt, der nur Compliance prüft, nicht Kreativität.

Ein einfaches Muster: erster Durchlauf liefert Entscheidung + Begründung; zweiter Durchlauf gibt entweder valid zurück oder eine strukturierte Liste von Fehlern (fehlende Felder, verletzte Constraints, mehrdeutige Regelinterpretation).

Logging: Entscheidungen auditierbar machen

Loggen Sie für jede Entscheidung die verwendeten Eingaben, die Regel-/Policy-Version und die Validierungsergebnisse (einschließlich Befunde des zweiten Durchgangs). Wenn etwas schiefgeht, können Sie so die genauen Bedingungen reproduzieren, die Regelzuordnung korrigieren und die Korrektur bestätigen — ohne zu raten, was das Modell "gewollt" hat.

Testen und Monitoring für Zuverlässigkeit von Regeln und Workflows

Tests für LLM-gestützte Regel- und Workflow-Features drehen sich weniger um "wurde etwas generiert?" und mehr um "hat es dieselbe Entscheidung getroffen, die ein sorgfältiger Mensch aus den gleichen Gründen treffen würde?" Die gute Nachricht: Sie können es mit der gleichen Disziplin testen wie traditionelle Entscheidungslogik.

Unit-Tests für Geschäftsregeln (kleine, vorhersehbare Prüfungen)

Behandeln Sie jede Regel wie eine Funktion: gegebene Eingaben sollten ein erwartetes Ergebnis liefern.

Beispiel: Für eine Rückerstattungsregel wie "refunds are allowed within 30 days for unopened items" schreiben Sie fokussierte Fälle mit erwarteten Resultaten:

Order age = 10 days, unopened = true → approve
Order age = 10 days, unopened = false → deny
Order age = 45 days, unopened = true → deny
Edge cases: genau 30 Tage, fehlendes unopened-Feld, widersprüchliche Signale

Diese Unit-Tests fangen Off-by-one-Fehler, fehlende Felder und "helfendes" Modellverhalten ab, bei dem es unbekanntes ausfüllt.

Szenario-Tests für Workflows (mehrstufige, zeitabhängige Pfade)

Workflows scheitern, wenn State zwischen Schritten inkonsistent wird. Szenario-Tests simulieren reale Abläufe:

Pfadtests: submit claim → request documents → documents received → decision
Zeitbasierte Kanten: "if no response in 7 days, send reminder", "if 30 days pass, close case"
Verzweigungen: customer escalates, policy exception requested, duplicate case detected

Ziel ist zu verifizieren, dass das Modell den aktuellen State respektiert und nur erlaubte Transitionen vornimmt.

Ein "Gold-Set" von Validfällen aufbauen

Erstellen Sie ein kuratiertes Dataset realer, anonymisierter Beispiele mit vereinbarten Ergebnissen (und kurzen Begründungen). Versionieren Sie es und überprüfen Sie es bei Policy-Änderungen. Ein kleines Gold-Set (100–500 Fälle) ist mächtig, weil es die unordentliche Realität widerspiegelt — fehlende Daten, ungewöhnliche Formulierungen, Grenzentscheidungen.

Monitoring in Produktion (Drift abfangen, bevor Kunden es tun)

Verfolgen Sie Entscheidungsverteilungen und Qualitätskennzahlen über die Zeit:

Drift: Approval/Denial-Raten ändern sich ohne Policy-Update
Ausschläge bei needs_review oder Weiterleitungen an Menschen (oft ein Prompt-, Retrieval- oder Upstream-Datenproblem)
Fehlercluster nach Produkt, Region oder Policy-Kategorie

Kombinieren Sie Monitoring mit sicherem Rollback: Bewahren Sie vorherige Prompt-/Regelpakete, feature-flaggen Sie neue Versionen und rollen Sie zurück, wenn Metriken schlechter werden. Für Betriebs-Playbooks und Release-Gates siehe /blog/validation-strategies.

Wo Koder.ai in diese Pipeline passt

Entscheidungen mit Tools untermauern

Füge DB‑Abfragen und Richtlinienabruf hinzu, damit das Modell auf Grundlage von Belegen statt Vermutungen entscheidet.

Tools verbinden

Wenn Sie die obigen Muster implementieren, bauen Sie typischerweise ein kleines System um das Modell: State-Speicher, Tool-Aufrufe, Retrieval, Schema-Validierung und einen Workflow-Orchestrator. Koder.ai ist ein praktischer Weg, so ein workflow-gestütztes Assistant schneller zu prototypen und auszurollen: Sie können den Workflow im Chat beschreiben, eine funktionierende Web-App (React) plus Backend-Services (Go mit PostgreSQL) generieren und mit Snapshots und Rollback sicher iterieren.

Das ist wichtig für Geschäftsregel-Reasoning, weil die "Leitschienen" oft in der Anwendung liegen, nicht im Prompt:

Planning mode hilft, den Flow (Zustände, erlaubte Transitionen, Eskalationspfade) vor der Ausführung zu entwerfen.
Schema-constrained responses können an der API-Grenze durchgesetzt werden, sodass Sie nur parsebare Entscheidungen akzeptieren.
Tooling hooks (DB-Reads, Policy-Retrieval, Rechner, Ticket-Updates) können als explizite Endpunkte implementiert werden, wodurch "erst Beweise holen, dann entscheiden" zur Default wird.
Source code export verhindert Vendor-Lock-in, wenn der Prototyp produktionskritisch wird.

Grenzen, sicherer Einsatz und wann ein Mensch eingeschaltet bleiben sollte

LLMs können bei alltäglichen Policen überraschend gut sein, aber sie sind kein deterministisches Regelwerk. Behandeln Sie sie als Entscheidungsassistent mit Leitplanken, nicht als endgültige Autorität.

Wobei LLMs oft Probleme haben

Drei Fehlerarten treten in regelintensiven Workflows regelmäßig auf:

Seltene Ausnahmen und Randfälle: Wenn eine Ausnahme einmal im Jahr vorkommt, ist sie möglicherweise in Trainingsdaten unterrepräsentiert und wird leicht übersehen, sofern sie nicht explizit im Prompt oder aus den Richtliniendokumenten abgerufen wird.
Lange Kontexte und "vergrabene" Einschränkungen: Wenn wichtige Details über viele Seiten oder Nachrichten verstreut sind, gewichtet das Modell möglicherweise den jüngsten oder auffälligsten Text übermäßig und ignoriert frühere Einschränkungen.
Numerische Präzision und strikte Berechnungen: Summen, Anteilsberechnungen, Schwellen und Rundungsregeln können abdriften. Nutzen Sie Tools für Mathematik und verlangen Sie, dass das Modell die genauen Zahlen angibt, die es verwendet hat.

Wann menschliche Prüfung erforderlich ist

Fügen Sie eine Pflichtprüfung durch Menschen hinzu, wenn:

Das Ergebnis hohes Risiko hat (Geldbewegungen, Compliance, Sicherheit, rechtliche Verpflichtungen, Kundenkredit/-Berechtigung).
Das Modell geringe Sicherheit signalisiert (fragt nach Rateingaben, kann keine Policy-Basis finden oder liefert widersprüchliche Begründungen).
Der Fall neuartig ist (neues Produkt, neue Region, kürzlich geänderte Policy) oder ungewöhnlich sensibel.

Eskalationspfade, die den Prozess voranbringen

Statt das Modell etwas "erfinden" zu lassen, definieren Sie klare nächste Schritte:

Klärende Fragen stellen (fehlende Daten, z. B. Datum, Kundentier, Gerichtsbarkeit, Freigabestatus).
An einen Agenten weiterleiten mit extrahierten Fakten, vorgeschlagener Entscheidung und Zitaten.
Ein Ticket erstellen, wenn die Policy mehrdeutig oder widersprüchlich ist, damit die Quelle korrigiert werden kann (und später automatisch abgerufen wird).

Ein einfaches Adoptions-Framework

Verwenden Sie LLMs in regelintensiven Workflows, wenn Sie die meisten dieser Fragen mit "ja" beantworten können:

Können wir Entscheidungen in genehmigtem Richtlinientext oder Systemdaten verankern?
Können wir Ausgaben einschränken (Schema, erlaubte Aktionen, erforderliche Zitate)?
Können wir validieren (Checks, Schwellen, Unit-Tests, Sampling) vor Ausführung?
Haben wir einen menschlichen Eskalationspfad für riskante oder unsichere Fälle?

Wenn nicht, belassen Sie das LLM in einer Entwurfs-/Assistentenrolle, bis diese Kontrollen bestehen.