Erfahren Sie, wie LLMs Geschäftsregeln interpretieren, Workflow-Zustand verfolgen und Entscheidungen mit Prompts, Tools, Tests und menschlicher Überprüfung verifizieren — nicht nur mit Code.

Wenn Leute fragen, ob ein LLM „über Geschäftsregeln nachdenken“ kann, meinen sie meist etwas Anspruchsvolleres als „kann es eine if/else-Anweisung schreiben“. Business-Rule-Reasoning ist die Fähigkeit, Richtlinien konsequent anzuwenden, Entscheidungen zu erklären, Ausnahmen zu behandeln und mit dem aktuellen Workflow-Schritt im Einklang zu bleiben — besonders wenn Eingaben unvollständig, unordentlich oder im Wandel sind.
Code-Generierung dreht sich überwiegend darum, gültige Syntax in einer Ziel-Sprache zu erzeugen. Regel-Reasoning geht darum, die Absicht zu bewahren.
Ein Modell kann perfekten Code erzeugen, der trotzdem das falsche geschäftliche Ergebnis liefert, weil:
Mit anderen Worten: Korrektheit ist nicht „does it compile?“ sondern „entspricht es dem, was das Business entscheiden würde, jedes Mal, und können wir das beweisen?"
LLMs können helfen, Richtlinien in strukturierte Regeln zu übersetzen, Entscheidungswege vorzuschlagen und Erklärungen für Menschen zu entwerfen. Aber sie wissen nicht automatisch, welche Regel maßgeblich ist, welche Datenquelle vertraut wird oder in welchem Schritt sich der Fall gerade befindet. Ohne Einschränkungen wählen sie möglicherweise eine plausible, aber nicht geregelte Antwort.
Das Ziel ist also nicht, „das Modell entscheiden zu lassen“, sondern ihm Struktur und Prüfungen zu geben, damit es zuverlässig assistiert.
Ein praktischer Ansatz sieht wie eine Pipeline aus:
Das ist der Unterschied zwischen einem cleveren Code-Snippet und einem System, das echte Geschäftsentscheidungen unterstützen kann.
Bevor wir darüber sprechen, wie ein LLM „reasoned“, hilft es, zwei Dinge zu trennen, die Teams oft zusammenwerfen: Geschäftsregeln und Workflows.
Geschäftsregeln sind die Entscheidungsanweisungen, die Ihre Organisation konsequent durchsetzen möchte. Sie erscheinen als Richtlinien und Logik wie:
Regeln sind meist als „IF X, THEN Y“ formuliert (manchmal mit Ausnahmen) und sollten ein klares Ergebnis liefern: approve/deny, price A/price B, more info anfordern usw.
Ein Workflow ist der Prozess, der Arbeit von Anfang bis Ende bewegt. Es geht weniger darum, was erlaubt ist und mehr darum, was als Nächstes passiert. Workflows beinhalten oft:
Stellen Sie sich eine Rückerstattungsanfrage vor.
Rule snippet: „Refunds are allowed within 30 days of purchase. Exception: digital downloads are non-refundable once accessed. Exception: chargebacks must be escalated."
Workflow snippet:
Regeln werden kompliziert, wenn sie konfligieren („VIP customers always get refunds“ vs. „digital downloads never do“), auf fehlendem Kontext beruhen (wurde der Download genutzt?) oder Randfälle verbergen (Bundles, Teilrückerstattungen, regionale Gesetze). Workflows fügen eine weitere Ebene hinzu: Entscheidungen müssen mit dem aktuellen State, früheren Aktionen und Deadlines konsistent bleiben.
LLMs „verstehen" Geschäftsregeln nicht wie ein Mensch. Sie generieren die nächsten wahrscheinlichen Wörter basierend auf Mustern aus großen Textmengen. Deshalb kann ein LLM überzeugend klingen, obwohl es rät — oder fehlende Details stillschweigend ergänzt.
Diese Einschränkung ist für Workflows und Entscheidungslogik relevant. Ein Modell kann eine Regel anwenden, die sich „richtig" anhört („employees always need manager approval"), obwohl die reale Richtlinie Ausnahmen hat („only above $500" oder „only for contractors"). Das ist ein typisches Fehlermuster: selbstsicher, aber inkorrekt.
Auch ohne echtes „Verstehen" sind LLMs hilfreich, wenn man sie als strukturierte Assistenten einsetzt:
Der Schlüssel ist, das Modell so zu positionieren, dass es nicht leicht in Improvisation abrutscht.
Eine praktische Methode, Mehrdeutigkeiten zu reduzieren, ist constrained output: das LLM muss in einem festen Schema oder Template antworten (z. B. JSON mit spezifischen Feldern oder eine Tabelle mit Pflichtspalten). Wenn das Modell rule_id, conditions, exceptions und decision ausfüllen muss, werden Lücken leichter erkennbar und automatisch prüfbar.
Eingeschränkte Formate machen auch deutlicher, wann das Modell etwas nicht weiß. Fehlt ein Pflichtfeld, kann eine Nachfragen erzwungen werden, statt eine unsichere Antwort zu akzeptieren.
Die Quintessenz: LLM-„reasoning“ ist am besten als musterbasierte Generierung mit Struktur zu sehen — nützlich zum Organisieren und Gegenprüfen von Regeln, riskant, wenn man es als unfehlbaren Entscheider behandelt.
Richtliniendokumente sind für Menschen geschrieben: Ziele, Ausnahmen und „gesunder Menschenverstand“ stehen oft im selben Absatz. Ein LLM kann diesen Text zusammenfassen, aber es folgt Regeln zuverlässiger, wenn die Richtlinie in explizite, testbare Eingaben überführt wird.
Gute Regelrepräsentationen haben zwei Eigenschaften: sie sind unmissverständlich und prüfbar.
Formulieren Sie Regeln als Aussagen, die Sie testen könnten:
Regeln können dem Modell in mehreren Formen bereitgestellt werden:
Echte Policen widersprechen sich. Wenn zwei Regeln nicht übereinstimmen, braucht das Modell ein klares Prioritätsschema. Gängige Ansätze:
Formulieren Sie die Konfliktregel direkt oder kodieren Sie sie (z. B. priority: 100). Ansonsten könnte das LLM die Regeln "mitteln".
Original policy text:
“Refunds are available within 30 days for annual plans. Monthly plans are non-refundable after 7 days. If the account shows fraud or excessive chargebacks, do not issue a refund. Enterprise customers need Finance approval for refunds over $5,000.”
Structured rules (YAML):
rules:
- id: R1
statement: \"IF plan_type = annual AND days_since_purchase \u003c= 30 THEN refund MAY be issued\"
priority: 10
- id: R2
statement: \"IF plan_type = monthly AND days_since_purchase \u003e 7 THEN refund MUST NOT be issued\"
priority: 20
- id: R3
statement: \"IF fraud_flag = true OR chargeback_rate = excessive THEN refund MUST NOT be issued\"
priority: 100
- id: R4
statement: \"IF customer_tier = enterprise AND refund_amount \u003e 5000 THEN finance_approval MUST be obtained\"
priority: 50
conflict_resolution: \"Higher priority wins; MUST NOT overrides MAY\"
Jetzt rät das Modell nicht, was wichtig ist — es wendet ein Regelset an, das Sie prüfen, testen und versionieren können.
Ein Workflow ist nicht nur eine Sammlung von Regeln; er ist eine Abfolge von Ereignissen, bei der frühere Schritte beeinflussen, was als Nächstes passieren soll. Diese "Erinnerung" ist State: die aktuellen Fakten zum Fall (wer hat was eingereicht, was ist bereits genehmigt, was wartet, welche Fristen gelten). Ohne explizites State-Tracking brechen Workflows auf vorhersehbare Weise zusammen — doppelte Genehmigungen, überspringen notwendiger Prüfungen, Entscheidungen rückgängig machen oder falsche Policen anwenden, weil das Modell nicht zuverlässig ableiten kann, was bereits passiert ist.
Stellen Sie sich State als Anzeigetafel des Workflows vor. Es beantwortet: Wo stehen wir gerade? Was wurde erledigt? Was ist als Nächstes erlaubt? Für ein LLM verhindert eine klare State-Zusammenfassung, dass es vergangene Schritte neu verhandelt oder rät.
Wenn Sie das Modell aufrufen, fügen Sie neben der Nutzeranfrage eine kompakte State-Payload hinzu. Nützliche Felder sind:
manager_review: approved, finance_review: pending)Vermeiden Sie, jede historische Nachricht zu dumpen. Geben Sie stattdessen den aktuellen State plus eine kurze Audit-Historie wichtiger Übergänge an.
Behandeln Sie die Workflow-Engine (Datenbank, Ticket-System oder Orchestrator) als Single Source of Truth. Das LLM sollte State aus diesem System lesen und die nächste Aktion vorschlagen, aber das System sollte die Autorität sein, die Übergänge aufzeichnet. Das reduziert "State Drift", bei dem die Modell-Erzählung von der Realität abweicht.
{
\"request_id\": \"TRV-10482\",
\"workflow\": \"travel_reimbursement_v3\",
\"current_step\": \"finance_review\",
\"step_status\": {
\"submission\": \"complete\",
\"manager_review\": \"approved\",
\"finance_review\": \"pending\",
\"payment\": \"not_started\"
},
\"actors\": {
\"employee_id\": \"E-2291\",
\"manager_id\": \"M-104\",
\"finance_queue\": \"FIN-AP\"
},
\"amount\": 842.15,
\"currency\": \"USD\",
\"submitted_at\": \"2025-12-12T14:03:22Z\",
\"last_state_update\": \"2025-12-13T09:18:05Z\",
\"flags\": {
\"receipt_missing\": false,
\"policy_exception_requested\": true,
\"needs_escalation\": false
}
}
Mit so einem Snapshot bleibt das Modell konsistent: es fragt nicht erneut nach Manager-Freigabe, konzentriert sich auf Finanzprüfungen und kann Entscheidungen anhand der aktuellen Flags erklären.
Ein guter Prompt fragt nicht nur nach einer Antwort — er legt Erwartungen fest, wie das Modell Regeln anwenden und das Ergebnis berichten soll. Ziel sind reproduzierbare Entscheidungen, nicht cleverer Prosa.
Geben Sie dem Modell eine konkrete Rolle, die an Ihren Prozess gebunden ist. Drei Rollen funktionieren gut zusammen:
Sie können diese nacheinander einsetzen ("analyst → validator → agent") oder alle drei Ausgaben in einer strukturierten Antwort anfordern.
Statt "chain-of-thought" anzufordern, spezifizieren Sie sichtbare Schritte und Artefakte:
Das hält das Modell organisiert und fokussiert auf lieferbare Ergebnisse: welche Regeln benutzt wurden und welches Ergebnis folgt.
Freie Erklärungen driften ab. Verlangen Sie eine kompakte Begründung, die auf Quellen verweist:
Das macht Reviews schneller und hilft, Meinungsverschiedenheiten zu debuggen.
Verwenden Sie jedes Mal eine feste Vorlage:
Die Vorlage reduziert Mehrdeutigkeit und zwingt das Modell, Lücken aufzudecken, bevor es eine fehlerhafte Aktion durchführt.
Ein LLM kann eine überzeugende Antwort schreiben, selbst wenn ihm Schlüssel-Fakten fehlen. Das ist fürs Drafting nützlich, aber riskant für Geschäftsentscheidungen. Wenn das Modell den Status eines Kontos, die Stufe eines Kunden, einen regionalen Steuersatz oder ob ein Limit bereits erreicht ist, erraten muss, entstehen selbstsichere Fehler.
Tools lösen das, indem sie "reasoning" in einen zweistufigen Prozess verwandeln: zuerst Beweise holen, dann entscheiden.
In regel- und workflow-intensiven Systemen erledigen ein paar einfache Tools die Hauptarbeit:
Wichtig ist, dass das Modell keine operativen Fakten „erfindet" — es fordert sie an.
Selbst wenn alle Policen zentral gespeichert sind, möchten Sie selten das ganze Dokument in den Prompt kopieren. Retrieval wählt nur die relevantesten Fragmente für den aktuellen Fall aus, z. B.:
Das reduziert Widersprüche und verhindert, dass das Modell einer veralteten Regel folgt, nur weil diese früher im Kontext stand.
Ein verlässliches Muster ist, Tool-Ergebnisse als Belege zu behandeln, die das Modell in seiner Entscheidung zitieren muss. Beispiel:
get_account(account_id) → status=\"past_due\", plan=\"Business\", usage_this_month=12000retrieve_policies(query=\"overage fee Business plan\") → returns rule: "Overage fee applies above 10,000 units at $0.02/unit."calculate_overage(usage=12000, threshold=10000, rate=0.02) → $40.00Jetzt ist die Entscheidung kein Rateversuch: sie ist ein Schluss, der an spezifische Eingaben gebunden ist ("past_due", "12,000 units", "$0.02/unit"). Bei einem Audit kann man sehen, welche Fakten und welche Regelversion verwendet wurden — und genau den Teil korrigieren, wenn sich etwas ändert.
Freier Text ist flexibel, aber auch die einfachste Fehlerquelle. Ein Modell kann eine „vernünftige" Antwort geben, die nicht automatisierbar ist ("looks fine to me") oder inkonsistent zwischen Schritten ("approve" vs. "approved"). Eingeschränkte Ausgaben zwingen jede Entscheidung in eine vorhersehbare Form.
Ein praktisches Muster ist, das Modell anzuweisen, ein einzelnes JSON-Objekt zurückzugeben, das Ihr System parsen und weiterleiten kann:
{
"decision": "needs_review",
"reasons": [
"Applicant provided proof of income, but the document is expired"
],
"next_action": "request_updated_document",
"missing_info": [
"Income statement dated within the last 90 days"
],
"assumptions": [
"Applicant name matches across documents"
]
}
Diese Struktur ist auch dann nützlich, wenn das Modell nicht voll entscheiden kann. missing_info und assumptions machen Unsicherheit zu handlungsfähigen Follow-ups, statt sie zu verbergen.
Um Variabilität zu reduzieren, definieren Sie erlaubte Werte (Enums) für Schlüssel-Felder. Zum Beispiel:
decision: approved | denied | needs_reviewnext_action: approve_case | deny_case | request_more_info | escalate_to_humanMit Enums müssen nachgelagerte Systeme keine Synonyme, Zeichensetzung oder Ton interpretieren. Sie verzweigen einfach auf bekannte Werte.
Schemata sind Leitplanken. Sie:
reasons).decision und next_action getriggert.Das Ergebnis sind weniger Mehrdeutigkeiten, weniger Edge-Case-Fehler und Entscheidungen, die konsistent durch einen Workflow laufen können.
Auch ein gut formulierter Prompt kann überzeugend klingen und dennoch eine Regel verletzen, einen erforderlichen Schritt überspringen oder einen Wert erfinden. Validierung ist das Sicherheitsnetz, das aus einer plausiblen Antwort eine verlässliche Entscheidung macht.
Beginnen Sie damit, zu verifizieren, dass Sie die Mindestinformation haben, die zur Anwendung der Regeln nötig ist. Vorprüfungen laufen, bevor das Modell eine Entscheidung trifft.
Typische Vorprüfungen sind erforderliche Felder (z. B. customer type, order total, region), Grundformate (Dates, IDs, Currency) und erlaubte Bereiche (nicht-negative Beträge, Prozentsätze ≤ 100%). Wenn etwas fehlt, geben Sie eine klare, umsetzbare Fehlermeldung zurück ("Missing 'region'; cannot choose tax rule set") statt das Modell raten zu lassen.
Nachdem das Modell ein Ergebnis liefert, prüfen Sie, ob es konsistent mit Ihrem Regelset ist.
Konzentrieren Sie sich auf:
Fügen Sie einen "zweiten Durchlauf" hinzu, der die erste Antwort neu bewertet. Das kann ein weiterer Modellaufruf sein oder derselbe Modellaufruf mit einem Validator-Prompt, der nur Compliance prüft, nicht Kreativität.
Ein einfaches Muster: erster Durchlauf liefert Entscheidung + Begründung; zweiter Durchlauf gibt entweder valid zurück oder eine strukturierte Liste von Fehlern (fehlende Felder, verletzte Constraints, mehrdeutige Regelinterpretation).
Loggen Sie für jede Entscheidung die verwendeten Eingaben, die Regel-/Policy-Version und die Validierungsergebnisse (einschließlich Befunde des zweiten Durchgangs). Wenn etwas schiefgeht, können Sie so die genauen Bedingungen reproduzieren, die Regelzuordnung korrigieren und die Korrektur bestätigen — ohne zu raten, was das Modell "gewollt" hat.
Tests für LLM-gestützte Regel- und Workflow-Features drehen sich weniger um "wurde etwas generiert?" und mehr um "hat es dieselbe Entscheidung getroffen, die ein sorgfältiger Mensch aus den gleichen Gründen treffen würde?" Die gute Nachricht: Sie können es mit der gleichen Disziplin testen wie traditionelle Entscheidungslogik.
Behandeln Sie jede Regel wie eine Funktion: gegebene Eingaben sollten ein erwartetes Ergebnis liefern.
Beispiel: Für eine Rückerstattungsregel wie "refunds are allowed within 30 days for unopened items" schreiben Sie fokussierte Fälle mit erwarteten Resultaten:
unopened-Feld, widersprüchliche SignaleDiese Unit-Tests fangen Off-by-one-Fehler, fehlende Felder und "helfendes" Modellverhalten ab, bei dem es unbekanntes ausfüllt.
Workflows scheitern, wenn State zwischen Schritten inkonsistent wird. Szenario-Tests simulieren reale Abläufe:
Ziel ist zu verifizieren, dass das Modell den aktuellen State respektiert und nur erlaubte Transitionen vornimmt.
Erstellen Sie ein kuratiertes Dataset realer, anonymisierter Beispiele mit vereinbarten Ergebnissen (und kurzen Begründungen). Versionieren Sie es und überprüfen Sie es bei Policy-Änderungen. Ein kleines Gold-Set (100–500 Fälle) ist mächtig, weil es die unordentliche Realität widerspiegelt — fehlende Daten, ungewöhnliche Formulierungen, Grenzentscheidungen.
Verfolgen Sie Entscheidungsverteilungen und Qualitätskennzahlen über die Zeit:
Kombinieren Sie Monitoring mit sicherem Rollback: Bewahren Sie vorherige Prompt-/Regelpakete, feature-flaggen Sie neue Versionen und rollen Sie zurück, wenn Metriken schlechter werden. Für Betriebs-Playbooks und Release-Gates siehe /blog/validation-strategies.
Wenn Sie die obigen Muster implementieren, bauen Sie typischerweise ein kleines System um das Modell: State-Speicher, Tool-Aufrufe, Retrieval, Schema-Validierung und einen Workflow-Orchestrator. Koder.ai ist ein praktischer Weg, so ein workflow-gestütztes Assistant schneller zu prototypen und auszurollen: Sie können den Workflow im Chat beschreiben, eine funktionierende Web-App (React) plus Backend-Services (Go mit PostgreSQL) generieren und mit Snapshots und Rollback sicher iterieren.
Das ist wichtig für Geschäftsregel-Reasoning, weil die "Leitschienen" oft in der Anwendung liegen, nicht im Prompt:
LLMs können bei alltäglichen Policen überraschend gut sein, aber sie sind kein deterministisches Regelwerk. Behandeln Sie sie als Entscheidungsassistent mit Leitplanken, nicht als endgültige Autorität.
Drei Fehlerarten treten in regelintensiven Workflows regelmäßig auf:
Fügen Sie eine Pflichtprüfung durch Menschen hinzu, wenn:
Statt das Modell etwas "erfinden" zu lassen, definieren Sie klare nächste Schritte:
Verwenden Sie LLMs in regelintensiven Workflows, wenn Sie die meisten dieser Fragen mit "ja" beantworten können:
Wenn nicht, belassen Sie das LLM in einer Entwurfs-/Assistentenrolle, bis diese Kontrollen bestehen.