Uygulamayı aç
Moonborn — Developers

Brand-safety moderation

Marka-kritik yüzeyler için üç-stage moderation pipeline'ı tune et — sıkı input intent eşiği, custom output classifier'lar, PII allowlist'leri.

Default moderasyon pipeline'ı güvenli değerler gönderir. Marka-kritik yüzeyler (müşteri desteği, public chat) genelde daha sıkı ister.

Stage 1 — input intent

Multi-classifier consensus'unu 2-of-3'ten 1-of-3'e sıkılaştır, böylece herhangi bir classifier flag'lediğinde block eder:

await client.config.setItem({
  key: 'moderation.input.consensus_threshold',
  value: '1-of-3',
  scope: 'workspace',
  scopeId: 'ws_...',
});

Trade-off: daha çok false positive. Sadece sağlık, finans, çocuk- güvenliği yüzeyleri için önerilir.

Stage 2 — output content

Kategori başı eşikleri sıkılaştır. Default'lar 0.6 confidence altında her şeyi geçirir:

await client.config.setItem({
  key: 'moderation.output.thresholds.hate',
  value: 0.4,
  scope: 'workspace',
  scopeId: 'ws_...',
});

Kategoriler: hate, harassment, sexual, self_harm, violence.

Stage 3 — impersonation + PII

İki düğme:

// Celebrity blocklist — Enterprise custom liste sağlayabilir.
await client.config.setItem({
  key: 'moderation.impersonation.blocklist_id',
  value: 'blocklist_custom_brand',
  scope: 'workspace',
});
 
// PII detector — default Microsoft Presidio kullanır.
await client.config.setItem({
  key: 'moderation.pii.action_on_detect',
  value: 'redact',
  scope: 'workspace',
});

action_on_detect: redact (span'i [redacted] ile değiştir), refuse (yanıtı gönderme), flag (gönder + logla).

Custom classifier'lar (Enterprise)

Kendi moderasyon classifier endpoint'ini getir. Moonborn output stage'in parçası olarak çağırır:

await client.config.setItem({
  key: 'moderation.output.custom_classifier_url',
  value: 'https://your-classifier.internal/moderate',
  scope: 'workspace',
});

Endpoint'in 800ms içinde yanıt vermeli yoksa çağrı default panel'e fallback eder.

Webhook event'leri

moderation.flagged herhangi bir non-pass verdict için tetiklenir. Marka QA kuyruğuna route et.

Tarif

Standart moderasyon: her tier. Custom blocklist + classifier: Enterprise.

İlgili