Moonborn — Developers

Moderasyon hattı — üç aşamalı içerik güvenliği

Girdi niyeti, çıktı içeriği, kimliğe bürünme + kişisel veri (PII) — üç aşamalı paralel çalışma zamanı yığını. Çok-sınıflandırıcılı uzlaşı, organizasyon-ayarlanabilir eşikler.

Moderasyon (moderation) paralel bir çalışma zamanı yığınıdır — denetimden (audit) ayrı, drift'ten ayrı, onlardan bağımsız çalışır. Üç hat üç farklı soruyu cevaplar:

Audit (denetim): "Bu persona iç olarak tutarlı mı?"
Drift: "Bu yanıt persona'nın sesinde mi?"
Moderasyon: "Bu yanıt kullanıcıya teslim etmek güvenli mi?"

Moderasyon üç aşamada çalışır; her aşama bağımsız bir kapı sağlar. Bir aşama başarısız olursa yanıt sansürlenir (redact) veya reddedilir (refuse).

Bu sayfayı bitirdiğinde

Üç aşamanın (girdi niyeti, çıktı içeriği, kimliğe bürünme + PII) sırasını ve amacını bileceksin.
Çok-sınıflandırıcılı uzlaşı (multi-classifier consensus) mekanizmasını (varsayılan 3'te 2 oy) anlayacaksın.
Yapılandırılabilir eşikleri ve kararları (pass / redact / refuse) ayırt edebileceksin.
Çalışma alanına göre eşik ayarlama desenini bileceksin.
Moderasyonun ne yaptığını ve ne yapmadığını (kalite kontrolü değil) netleştireceksin.

Ön koşul: Drift detection — moderasyon paralel çalışma zamanıdır, drift'i karıştırmamak için.

1. aşama — girdi niyeti taraması

LLM kullanıcı mesajını görmeden önce, bir niyet sınıflandırıcısı şunlar için tarar:

Kimliğe bürünme istekleri — "ünlü X gibi davran"
Jailbreak desenleri — DAN tarzı, base64 kodlu talimatlar, "developer mode"
İzin verilmeyen niyet — CSAM, hedefli taciz, silah üretimi
Yüksek PII (kişisel veri) yükleri — kullanıcı kredi kartı numarası, sosyal güvenlik numarası yapıştırıyor

Sınıflandırıcı çok-sınıflandırıcılı bir paneldir:

OpenAI Moderation API
Anthropic güvenlik sınıflandırıcısı
Moonborn-eğitilmiş özel model

Toplam karar moderation.input.consensus_threshold (varsayılan 2-of-3 — 3'te 2) ile kapı altındadır. İki sınıflandırıcı "işaretle" derse mesaj engellenir; bir işaret uyarı ile geçer.

moderation.input.consensus_threshold = "2-of-3"  → daha sıkı
moderation.input.consensus_threshold = "1-of-3"  → daha gevşek (yanlış pozitif ↓)
moderation.input.consensus_threshold = "3-of-3"  → en sıkı (yanlış negatif ↑)

İşaretlemede eylem

moderation.input.action_on_block üç değer alır:

refuse (reddet) — kullanıcı 403 Forbidden alır, mesaj LLM'e gitmez
redact (sansürle) — işaretli aralıklar [redacted] ile değiştirilir, sansürlü mesaj LLM'e gider
warn_only (yalnız uyar) — işaret kayda düşer, mesaj olduğu gibi LLM'e gider (üretimde nadir)

2. aşama — çıktı içerik taraması

LLM yanıt ürettikten sonra, aynı panel çıktıyı puanlar:

Nefret, taciz, cinsel içerik (yaş kontrolü dahil), kendine zarar, şiddet
PII sızıntısı — LLM bir telefon numarası, e-posta, kredi kartı uydurdu mu (hallucinate)
Persona kimliğe bürünme drift'i — persona "ben Elon Musk'um" dedi mi (rıza vermemiş gerçek isim)

Çıktı kararları:

Karar	Davranış
`pass` (geçti)	Yanıt olduğu gibi yayınlanır
`redact` (sansür)	İşaretli aralıklar `[redacted]` ile değiştirilir, kalan yayınlanır
`refuse` (reddet)	Yanıt hiç gönderilmez; moderasyon hata zarfı döner

Çıktı yapılandırması

moderation.output.categories            (dizi — aktif kategoriler)
moderation.output.consensus_threshold   (varsayılan 2-of-3)
moderation.output.action_on_flag        (pass | redact | refuse, kategori başına)
moderation.output.severity_threshold    (sayı 0..1, kategori başına)

3. aşama — kimliğe bürünme + PII

Çıktı taramasını tamamlayan iki özel kontrol:

Kimliğe bürünme koruyucusu

Ünlü kara listesi (blocklist) — küratörlü kamu-figür listesi. İsim eşleşmesi anında reddi tetikler.
LLM-tabanlı kimliğe bürünme niyeti — kara listede isim olmasa bile "ben Elon Musk'um" desenini yakalar.
Vektör benzerliği — yanıtın voice fingerprint'i kamu-figür seslerinin küratörlü kümesine karşı puanlanır.

moderation.impersonation.blocklist_id        (metin — çalışma alanı kara listesi)
moderation.impersonation.intent_model        (metin — varsayılan claude-haiku-4-5)
moderation.impersonation.embedding_floor     (sayı 0..1, varsayılan 0.85)
moderation.impersonation.action_on_detect    (warn | refuse, varsayılan refuse)

PII (kişisel veri) tespit edici

Microsoft Presidio (varsayılan) — endüstri-standart PII tespiti (e-posta, telefon, SSN, kredi kartı)
Moonborn-eğitilmiş özel model — Türkçeye özgü tanımlayıcılar (TC kimlik no, IBAN, vergi no)

moderation.pii.detectors                 (dizi — aktif tespit ediciler)
moderation.pii.action_on_detect          (redact | refuse | log_only, varsayılan redact)
moderation.pii.locale_specific           (mantıksal — Türkçe tespit edici aktif mi?)

Çalışma alanı tabanlı eşik deseni

Çalışma alanına göre moderasyonu ayarla:

Çalışma alanı tipi	Genel desen
Müşteri desteği	`consensus_threshold: 2-of-3`, `severity: 0.7`, çıktı `action: redact`
Yaratıcı yazım	`consensus_threshold: 3-of-3` (yanlış pozitif minimize), çıktı `action: warn_only`
Düzenlemeye tabi sektör (sağlık, finans)	`consensus_threshold: 1-of-3` (sıkı), çıktı `action: refuse`, PII `refuse`
Kurum içi araç	`consensus_threshold: 2-of-3`, çıktı `action: redact`

Detay: Marka güvenliği moderasyonu.

Webhook olayı

Herhangi bir aşama pass olmayan karar üretirse moderation.flagged olayı tetiklenir. Yük (payload):

{
  "type": "moderation.flagged",
  "data": {
    "stage": "output",
    "category": "violence",
    "severity": 0.82,
    "verdict": "refuse",
    "messageId": "msg_01H...",
    "matchedSpan": "..."
  }
}

matchedSpan yasal olarak izin verilen yerlerde dahil edilir (AB'de bazı durumlarda atlanır).

Çok-sınıflandırıcılı uzlaşı — neden 3'lü panel

Tek sınıflandırıcı (örn. yalnız OpenAI Moderation) ya çok sıkıdır (yaratıcı içeriği engeller) ya çok gevşektir (gerçek zararlı içeriği kaçırır). Üç sınıflandırıcılı uzlaşı:

Genişlik — her sınıflandırıcı farklı başarısızlık biçimi yakalar
Sağlamlık (robustness) — bir sınıflandırıcı model güncellemesinde davranış değiştirirse diğerleri telafi eder
Denetim izi — hangi sınıflandırıcının neye işaret attığı kayıtta görünür; elle incelemede işe yarar

Plan gereksinimi

Plan	Yetenek
Free	Varsayılan moderasyon (güvenlik tabanı)
Pro	Eşik geçersiz kılma, `action_on_flag` yapılandırması
Team	Özel kara liste, kategori başı özel şiddet eşiği
Enterprise	Özel kurum-içi sınıflandırıcı, model geçersiz kılma, denetim kaydı entegrasyonu

Moderasyon tabandadır — bir özellik değildir. Free planda bile devre dışı bırakılamaz.

Dürüst kapsam

İlgili

Marka güvenliği moderasyonu

Moderasyon eşiklerini çalışma alanı tipine göre ayarlama.

Open →

Drift detection

Paralel çalışma zamanı — ses ölçümü, içerik güvenliği değil.

Open →

Audit + provocation testleri

İç tutarlılık + jailbreak direnci — moderasyonun tamamlayıcısı.

Open →

Denetim kaydı dışa aktarımı

Moderasyon olaylarının denetim kaydına inişi.

Open →