Brand-Safety-Moderation
Tune die dreistufige Moderation-Pipeline für markenkritische Oberflächen — engerer Input-Intent-Threshold, Custom-Output-Classifier, PII-Allowlists.
Die Default-Moderation-Pipeline versendet sichere Werte. Marken- kritische Oberflächen (Customer-Support, Public-Chat) wollen meist strenger.
Stage 1 — Input-Intent
Verenge den Multi-Classifier-Consensus von 2-of-3 auf 1-of-3,
sodass ein einzelner flaggender Classifier blockt:
await client.config.setItem({
key: 'moderation.input.consensus_threshold',
value: '1-of-3',
scope: 'workspace',
scopeId: 'ws_...',
});Trade-Off: mehr False-Positives. Empfohlen nur für Healthcare-, Finance-, Child-Safety-Oberflächen.
Stage 2 — Output-Content
Verenge die Per-Kategorie-Thresholds. Die Defaults lassen alles unter 0.6-Konfidenz durch:
await client.config.setItem({
key: 'moderation.output.thresholds.hate',
value: 0.4,
scope: 'workspace',
scopeId: 'ws_...',
});Kategorien: hate, harassment, sexual, self_harm, violence.
Stage 3 — Impersonation + PII
Zwei Knöpfe:
// Celebrity-Blocklist — Enterprise kann eine Custom-Liste liefern.
await client.config.setItem({
key: 'moderation.impersonation.blocklist_id',
value: 'blocklist_custom_brand',
scope: 'workspace',
});
// PII-Detector — Default nutzt Microsoft Presidio.
await client.config.setItem({
key: 'moderation.pii.action_on_detect',
value: 'redact',
scope: 'workspace',
});action_on_detect: redact (Span durch [redacted] ersetzen),
refuse (Antwort nicht versenden), flag (versenden + loggen).
Custom-Classifier (Enterprise)
Bring deinen eigenen Moderation-Classifier-Endpoint mit. Moonborn ruft ihn als Teil der Output-Stage auf:
await client.config.setItem({
key: 'moderation.output.custom_classifier_url',
value: 'https://your-classifier.internal/moderate',
scope: 'workspace',
});Dein Endpoint muss innerhalb 800ms antworten, sonst fällt der Call auf das Default-Panel zurück.
Webhook-Events
moderation.flagged feuert für jeden non-pass-Verdict. Route in
deine Brand-QA-Queue.
Tarif
Standard-Moderation: jeder Tier. Custom-Blocklists + Classifier: Enterprise.