Uygulamayı aç
Moonborn — Developers

Moderasyon hattı

Üç aşamalı moderasyon — girdi niyeti ekranı, çıktı içerik ekranı, taklit + PII kontrolleri. Org-ayarlanabilir eşiklerle çok-sınıflandırıcı oy.

Moderasyon paralel bir runtime yığınıdır — audit'ten ayrı, drift'ten ayrı. Audit "bu persona iç olarak tutarlı mı?" diye sorar, drift "bu yanıt seste mi?" diye sorar, moderasyon ise "bu kullanıcıya teslim etmek güvenli mi?" diye sorar.

Üç aşama, sırayla.

Aşama 1 — girdi niyeti ekranı

LLM kullanıcı mesajını görmeden önce, bir niyet sınıflandırıcı şunlar için tarar:

  • Taklit istekleri ("<celebrity> gibi davran").
  • Jailbreak desenleri (DAN-stili, base64-kodlu talimatlar vb.).
  • İzin verilmeyen kullanım niyeti (CSAM, hedefli taciz, silah sentezi).
  • Yüksek-PII yükleri (kullanıcı kredi kartı numarası yapıştırıyor — yansıtmayı reddet).

Sınıflandırıcı bir çok-oy paneli: OpenAI Moderation + Anthropic güvenlik sınıflandırıcı + Moonborn-eğitilmiş özel model. Toplam karar moderation.input.consensus_threshold (varsayılan 2-of-3) ile geçit altındadır.

Aşama 2 — çıktı içerik ekranı

LLM yanıt ürettikten sonra, aynı panel çıktıyı puanlar:

  • Nefret, taciz, cinsel içerik, kendine zarar, şiddet.
  • PII sızması (LLM bir telefon numarası halüsinasyonu gördü).
  • Persona taklit drifti (persona, rıza vermemiş gerçek bir isimli kişi olduğunu iddia etti).

Çıktı verdict'leri: pass, redact (işaretli alanları [redacted] ile değiştir), refuse (yanıtı hiç gönderme, moderation hata zarfı döndür).

Aşama 3 — taklit + PII kontrolleri

İki özel geçiş genel çıktı ekranını tamamlar:

  • Ünlü blocklist'i — küratörlü kamu-figürler listesinden isimler anında reddi tetikler.
  • LLM-tabanlı taklit niyeti — blocklist'te isim olmasa bile "Ben Elon Musk'um" desenini yakalar.
  • Embedding benzerliği — yanıtın voice fingerprint'i kamu-figür seslerinin küratörlü setine karşı karşılaştırılır.
  • PII dedektörü — Microsoft Presidio (varsayılan) artı Türkçe-özgü tanımlayıcılar için Moonborn-eğitilmiş özel bir model.

Yapılandırma

Her eşik bir config item'ı, her org ayarlayabilir:

  • moderation.input.{categories, consensus_threshold, action_on_block}
  • moderation.output.{categories, action_on_flag}
  • moderation.impersonation.{blocklist_id, intent_model, embedding_floor}
  • moderation.pii.{detectors, action_on_detect}

Audience başına ayar desenleri için Marka-güvenlik moderasyon kılavuzu.

Webhook olayı

Herhangi bir aşama pass olmayan bir verdict ürettiğinde moderation.flagged tetiklenir. Yük verdict'i, aşamayı ve (yasal olarak izin verildiği yerlerde) eşleşen aralığı içerir.

Tarife

Varsayılan moderasyon: her tarife (güvenlik tabanı, özellik değil). Özel blocklist'ler, özel embedding'ler ve org başına sınıflandırıcı override'ları: Enterprise.

Dürüst kapsam

Moderasyon içerik kalitesi kontrolü değildir. Bir yanıt moderasyonu geçebilir, audit'i geçebilir, drift tespitini geçebilir ve hala sıkıcı veya yardımcı olmayabilir. Kalite audit + provokasyon test suite'inin alanı; moderasyon güvenlik tabanıdır.