Moonborn — Developers

Moderations-Pipeline

Dreistufige Moderation — Input-Intent-Screen, Output-Content-Screen, Impersonation + PII Checks. Multi-Classifier-Vote mit org-tunbaren Schwellen.

Moderation ist ein paralleler Runtime-Stack — separat von Audit, separat von Drift. Wo Audit fragt "ist diese Persona intern kohärent?" und Drift fragt "ist diese Antwort in der Stimme?", fragt Moderation "ist das sicher, an den Nutzer auszuliefern?"

Drei Stufen, in Reihenfolge.

Stufe 1 — Input-Intent-Screen

Bevor das LLM die User-Nachricht sieht, scannt ein Intent-Classifier nach:

Impersonations-Anfragen ("tu so, als seist du <celebrity>").
Jailbreak-Patterns (DAN-Stil, base64-kodierte Instruktionen etc.).
Unzulässiger Use-Intent (CSAM, gezielte Belästigung, Waffen- Synthese).
High-PII-Payloads (der Nutzer fügt Kreditkartennummern ein — bitte nicht zurückspiegeln).

Der Classifier ist ein Multi-Vote-Panel: OpenAI Moderation + Anthropic-Safety-Classifier + ein Moonborn-trainiertes Custom-Modell. Die aggregierte Entscheidung wird durch moderation.input.consensus_threshold (Standard 2-of-3) gegated.

Stufe 2 — Output-Content-Screen

Nachdem das LLM eine Antwort generiert hat, bewertet dasselbe Panel den Output:

Hass, Belästigung, sexueller Content, Selbstverletzung, Gewalt.
PII-Leakage (das LLM halluzinierte eine Telefonnummer).
Persona-Impersonation-Drift (die Persona behauptete, eine echte, namentlich genannte Person ohne deren Einwilligung zu sein).

Output-Verdicts: pass, redact (markierte Spans durch [redacted] ersetzen), refuse (die Antwort nicht ausliefern, Moderations-Error-Envelope zurückgeben).

Stufe 3 — Impersonation + PII Checks

Zwei spezialisierte Passes ergänzen den allgemeinen Output-Screen:

Celebrity-Blocklist — Namen aus der kuratierten Public-Figure- Liste lösen sofortiges Refuse aus.
LLM-basierte Impersonation-Intent — fängt das "Ich bin Elon Musk"-Muster auch ohne Namen in der Blocklist.
Embedding-Similarity — der Voice-Fingerprint der Antwort gegen ein kuratiertes Set von Public-Figure-Stimmen verglichen.
PII-Detector — Microsoft Presidio (Standard) plus ein Moonborn-trainiertes Custom-Modell für türkisch-spezifische Identifier.

Konfiguration

Jeder Schwellenwert ist ein Config-Item, jede Org kann tunen:

moderation.input.{categories, consensus_threshold, action_on_block}
moderation.output.{categories, action_on_flag}
moderation.impersonation.{blocklist_id, intent_model, embedding_floor}
moderation.pii.{detectors, action_on_detect}

Für Audience-spezifische Tuning-Muster siehe den Brand-Safety-Moderation-Guide.

Webhook-Event

moderation.flagged feuert, wann immer eine Stufe ein non-pass-Verdict erzeugt. Payload enthält das Verdict, die Stufe und (wo rechtlich erlaubt) den getroffenen Span.

Tarif

Standard-Moderation: jeder Tarif (Sicherheits-Boden, kein Feature). Custom-Blocklists, Custom-Embeddings, Per-Org-Classifier-Overrides: Enterprise.

Ehrlicher Scope

Moderation ist kein Content-Qualitäts-Check. Eine Antwort kann die Moderation passieren, den Audit passieren, die Drift-Detection passieren und trotzdem blass oder unbrauchbar sein. Qualität ist die Domäne von Audit + Provokationstest-Suite; Moderation ist der Sicherheits-Boden.