Brand-safety moderation
Marka-kritik yüzeyler için üç-stage moderation pipeline'ı tune et — sıkı input intent eşiği, custom output classifier'lar, PII allowlist'leri.
Default moderasyon pipeline'ı güvenli değerler gönderir. Marka-kritik yüzeyler (müşteri desteği, public chat) genelde daha sıkı ister.
Stage 1 — input intent
Multi-classifier consensus'unu 2-of-3'ten 1-of-3'e sıkılaştır,
böylece herhangi bir classifier flag'lediğinde block eder:
await client.config.setItem({
key: 'moderation.input.consensus_threshold',
value: '1-of-3',
scope: 'workspace',
scopeId: 'ws_...',
});Trade-off: daha çok false positive. Sadece sağlık, finans, çocuk- güvenliği yüzeyleri için önerilir.
Stage 2 — output content
Kategori başı eşikleri sıkılaştır. Default'lar 0.6 confidence altında her şeyi geçirir:
await client.config.setItem({
key: 'moderation.output.thresholds.hate',
value: 0.4,
scope: 'workspace',
scopeId: 'ws_...',
});Kategoriler: hate, harassment, sexual, self_harm, violence.
Stage 3 — impersonation + PII
İki düğme:
// Celebrity blocklist — Enterprise custom liste sağlayabilir.
await client.config.setItem({
key: 'moderation.impersonation.blocklist_id',
value: 'blocklist_custom_brand',
scope: 'workspace',
});
// PII detector — default Microsoft Presidio kullanır.
await client.config.setItem({
key: 'moderation.pii.action_on_detect',
value: 'redact',
scope: 'workspace',
});action_on_detect: redact (span'i [redacted] ile değiştir),
refuse (yanıtı gönderme), flag (gönder + logla).
Custom classifier'lar (Enterprise)
Kendi moderasyon classifier endpoint'ini getir. Moonborn output stage'in parçası olarak çağırır:
await client.config.setItem({
key: 'moderation.output.custom_classifier_url',
value: 'https://your-classifier.internal/moderate',
scope: 'workspace',
});Endpoint'in 800ms içinde yanıt vermeli yoksa çağrı default panel'e fallback eder.
Webhook event'leri
moderation.flagged herhangi bir non-pass verdict için tetiklenir.
Marka QA kuyruğuna route et.
Tarif
Standart moderasyon: her tier. Custom blocklist + classifier: Enterprise.