Moderations-Pipeline
Dreistufige Moderation — Input-Intent-Screen, Output-Content-Screen, Impersonation + PII Checks. Multi-Classifier-Vote mit org-tunbaren Schwellen.
Moderation ist ein paralleler Runtime-Stack — separat von Audit, separat von Drift. Wo Audit fragt "ist diese Persona intern kohärent?" und Drift fragt "ist diese Antwort in der Stimme?", fragt Moderation "ist das sicher, an den Nutzer auszuliefern?"
Drei Stufen, in Reihenfolge.
Stufe 1 — Input-Intent-Screen
Bevor das LLM die User-Nachricht sieht, scannt ein Intent-Classifier nach:
- Impersonations-Anfragen ("tu so, als seist du <celebrity>").
- Jailbreak-Patterns (DAN-Stil, base64-kodierte Instruktionen etc.).
- Unzulässiger Use-Intent (CSAM, gezielte Belästigung, Waffen- Synthese).
- High-PII-Payloads (der Nutzer fügt Kreditkartennummern ein — bitte nicht zurückspiegeln).
Der Classifier ist ein Multi-Vote-Panel: OpenAI Moderation +
Anthropic-Safety-Classifier + ein Moonborn-trainiertes Custom-Modell.
Die aggregierte Entscheidung wird durch
moderation.input.consensus_threshold (Standard 2-of-3) gegated.
Stufe 2 — Output-Content-Screen
Nachdem das LLM eine Antwort generiert hat, bewertet dasselbe Panel den Output:
- Hass, Belästigung, sexueller Content, Selbstverletzung, Gewalt.
- PII-Leakage (das LLM halluzinierte eine Telefonnummer).
- Persona-Impersonation-Drift (die Persona behauptete, eine echte, namentlich genannte Person ohne deren Einwilligung zu sein).
Output-Verdicts: pass, redact (markierte Spans durch
[redacted] ersetzen), refuse (die Antwort nicht ausliefern,
Moderations-Error-Envelope zurückgeben).
Stufe 3 — Impersonation + PII Checks
Zwei spezialisierte Passes ergänzen den allgemeinen Output-Screen:
- Celebrity-Blocklist — Namen aus der kuratierten Public-Figure- Liste lösen sofortiges Refuse aus.
- LLM-basierte Impersonation-Intent — fängt das "Ich bin Elon Musk"-Muster auch ohne Namen in der Blocklist.
- Embedding-Similarity — der Voice-Fingerprint der Antwort gegen ein kuratiertes Set von Public-Figure-Stimmen verglichen.
- PII-Detector — Microsoft Presidio (Standard) plus ein Moonborn-trainiertes Custom-Modell für türkisch-spezifische Identifier.
Konfiguration
Jeder Schwellenwert ist ein Config-Item, jede Org kann tunen:
moderation.input.{categories, consensus_threshold, action_on_block}moderation.output.{categories, action_on_flag}moderation.impersonation.{blocklist_id, intent_model, embedding_floor}moderation.pii.{detectors, action_on_detect}
Für Audience-spezifische Tuning-Muster siehe den Brand-Safety-Moderation-Guide.
Webhook-Event
moderation.flagged feuert, wann immer eine Stufe ein
non-pass-Verdict erzeugt. Payload enthält das Verdict, die Stufe
und (wo rechtlich erlaubt) den getroffenen Span.
Tarif
Standard-Moderation: jeder Tarif (Sicherheits-Boden, kein Feature). Custom-Blocklists, Custom-Embeddings, Per-Org-Classifier-Overrides: Enterprise.
Ehrlicher Scope
Moderation ist kein Content-Qualitäts-Check. Eine Antwort kann die Moderation passieren, den Audit passieren, die Drift-Detection passieren und trotzdem blass oder unbrauchbar sein. Qualität ist die Domäne von Audit + Provokationstest-Suite; Moderation ist der Sicherheits-Boden.