Moderasyon hattı
Üç aşamalı moderasyon — girdi niyeti ekranı, çıktı içerik ekranı, taklit + PII kontrolleri. Org-ayarlanabilir eşiklerle çok-sınıflandırıcı oy.
Moderasyon paralel bir runtime yığınıdır — audit'ten ayrı, drift'ten ayrı. Audit "bu persona iç olarak tutarlı mı?" diye sorar, drift "bu yanıt seste mi?" diye sorar, moderasyon ise "bu kullanıcıya teslim etmek güvenli mi?" diye sorar.
Üç aşama, sırayla.
Aşama 1 — girdi niyeti ekranı
LLM kullanıcı mesajını görmeden önce, bir niyet sınıflandırıcı şunlar için tarar:
- Taklit istekleri ("<celebrity> gibi davran").
- Jailbreak desenleri (DAN-stili, base64-kodlu talimatlar vb.).
- İzin verilmeyen kullanım niyeti (CSAM, hedefli taciz, silah sentezi).
- Yüksek-PII yükleri (kullanıcı kredi kartı numarası yapıştırıyor — yansıtmayı reddet).
Sınıflandırıcı bir çok-oy paneli: OpenAI Moderation + Anthropic
güvenlik sınıflandırıcı + Moonborn-eğitilmiş özel model. Toplam
karar moderation.input.consensus_threshold (varsayılan 2-of-3)
ile geçit altındadır.
Aşama 2 — çıktı içerik ekranı
LLM yanıt ürettikten sonra, aynı panel çıktıyı puanlar:
- Nefret, taciz, cinsel içerik, kendine zarar, şiddet.
- PII sızması (LLM bir telefon numarası halüsinasyonu gördü).
- Persona taklit drifti (persona, rıza vermemiş gerçek bir isimli kişi olduğunu iddia etti).
Çıktı verdict'leri: pass, redact (işaretli alanları [redacted]
ile değiştir), refuse (yanıtı hiç gönderme, moderation hata zarfı
döndür).
Aşama 3 — taklit + PII kontrolleri
İki özel geçiş genel çıktı ekranını tamamlar:
- Ünlü blocklist'i — küratörlü kamu-figürler listesinden isimler anında reddi tetikler.
- LLM-tabanlı taklit niyeti — blocklist'te isim olmasa bile "Ben Elon Musk'um" desenini yakalar.
- Embedding benzerliği — yanıtın voice fingerprint'i kamu-figür seslerinin küratörlü setine karşı karşılaştırılır.
- PII dedektörü — Microsoft Presidio (varsayılan) artı Türkçe-özgü tanımlayıcılar için Moonborn-eğitilmiş özel bir model.
Yapılandırma
Her eşik bir config item'ı, her org ayarlayabilir:
moderation.input.{categories, consensus_threshold, action_on_block}moderation.output.{categories, action_on_flag}moderation.impersonation.{blocklist_id, intent_model, embedding_floor}moderation.pii.{detectors, action_on_detect}
Audience başına ayar desenleri için Marka-güvenlik moderasyon kılavuzu.
Webhook olayı
Herhangi bir aşama pass olmayan bir verdict ürettiğinde
moderation.flagged tetiklenir. Yük verdict'i, aşamayı ve (yasal
olarak izin verildiği yerlerde) eşleşen aralığı içerir.
Tarife
Varsayılan moderasyon: her tarife (güvenlik tabanı, özellik değil). Özel blocklist'ler, özel embedding'ler ve org başına sınıflandırıcı override'ları: Enterprise.
Dürüst kapsam
Moderasyon içerik kalitesi kontrolü değildir. Bir yanıt moderasyonu geçebilir, audit'i geçebilir, drift tespitini geçebilir ve hala sıkıcı veya yardımcı olmayabilir. Kalite audit + provokasyon test suite'inin alanı; moderasyon güvenlik tabanıdır.