App öffnen
Moonborn — Developers

Brand-Safety-Moderation

Tune die dreistufige Moderation-Pipeline für markenkritische Oberflächen — engerer Input-Intent-Threshold, Custom-Output-Classifier, PII-Allowlists.

Die Default-Moderation-Pipeline versendet sichere Werte. Marken- kritische Oberflächen (Customer-Support, Public-Chat) wollen meist strenger.

Stage 1 — Input-Intent

Verenge den Multi-Classifier-Consensus von 2-of-3 auf 1-of-3, sodass ein einzelner flaggender Classifier blockt:

await client.config.setItem({
  key: 'moderation.input.consensus_threshold',
  value: '1-of-3',
  scope: 'workspace',
  scopeId: 'ws_...',
});

Trade-Off: mehr False-Positives. Empfohlen nur für Healthcare-, Finance-, Child-Safety-Oberflächen.

Stage 2 — Output-Content

Verenge die Per-Kategorie-Thresholds. Die Defaults lassen alles unter 0.6-Konfidenz durch:

await client.config.setItem({
  key: 'moderation.output.thresholds.hate',
  value: 0.4,
  scope: 'workspace',
  scopeId: 'ws_...',
});

Kategorien: hate, harassment, sexual, self_harm, violence.

Stage 3 — Impersonation + PII

Zwei Knöpfe:

// Celebrity-Blocklist — Enterprise kann eine Custom-Liste liefern.
await client.config.setItem({
  key: 'moderation.impersonation.blocklist_id',
  value: 'blocklist_custom_brand',
  scope: 'workspace',
});
 
// PII-Detector — Default nutzt Microsoft Presidio.
await client.config.setItem({
  key: 'moderation.pii.action_on_detect',
  value: 'redact',
  scope: 'workspace',
});

action_on_detect: redact (Span durch [redacted] ersetzen), refuse (Antwort nicht versenden), flag (versenden + loggen).

Custom-Classifier (Enterprise)

Bring deinen eigenen Moderation-Classifier-Endpoint mit. Moonborn ruft ihn als Teil der Output-Stage auf:

await client.config.setItem({
  key: 'moderation.output.custom_classifier_url',
  value: 'https://your-classifier.internal/moderate',
  scope: 'workspace',
});

Dein Endpoint muss innerhalb 800ms antworten, sonst fällt der Call auf das Default-Panel zurück.

Webhook-Events

moderation.flagged feuert für jeden non-pass-Verdict. Route in deine Brand-QA-Queue.

Tarif

Standard-Moderation: jeder Tier. Custom-Blocklists + Classifier: Enterprise.

Verwandt