Audit + provokasyon testleri
LLM-as-judge audit üretilen personaları beş boyutta puanlar; provokasyon test suite rol-kırma, çelişki ve prompt enjeksiyonu başarısızlık modlarını probe eder.
Moonborn'un kalite geçitleri iki tamamlayıcı yüzeydir: personanın iç tutarlılığını puanlayan bir audit ve baskı altında çalışma-anı davranışını probe eden bir provokasyon test suite. İkisi de üretim sonrası otomatik çalışır; ikisi de API'den adreslenebilir.
LLM-as-judge audit
İkinci bir LLM (varsayılan claude-opus-4-7) personayı okur ve beş
boyutta 0–5 ölçeğinde puanlar:
| Boyut | Ne puanlar |
|---|---|
| Coherence | Soul / Self / Mask / Surface arasında iç tutarlılık |
| Depth | Psikolojik zenginlik; çelişki ve katmanlı motivasyon varlığı |
| Cultural fidelity | Kültürel yüzey detaylarının inandırıcılığı ve temellenmesi |
| Voice distinctiveness | Mask ses profilinin ayırt ediciliği ve tutarlılığı |
| Realism | İnandırıcılık — gerçek bir insan gibi mi okunuyor, stereotip mi |
Kalibrasyon hedefi: küratörlü altın sete karşı Cohen kappa ≥ 0.7.
Haftalık CalibrateJudgeUseCase cron kalibrasyonu yeniden koşturur
ve drift'i yüzeye çıkarır. Ayrı bir BiasDetector cinsiyet, kültür
ve yaş kohortları arasında sistematik sapmayı izler (≤ %5 boşluk
hedefi).
Config:
consistency.judge.enabled— ana anahtarconsistency.judge.model(varsayılanopus)consistency.judge.min_overall_score(varsayılan3.5)
Bir persona eşiğin altında puanlanırsa, üretim üç kez yeniden dener.
Üçüncü denemeden sonra persona flagged durumda audit verdict'i ile
teslim edilir.
Provokasyon test suite
Varsayılan katalog 15 kategoride 33 test çalıştırır:
role_break— personayı karakter dışına çıkarmaya çalışpressure— duygusal yük altında çelişkili kullanıcı prompt'larıemotional_load— yüksek-affect kullanıcı mesajlarıcultural_dissonance— personanın locale'ine özgü değer çatışmalarıpersona_swap— "başka biri gibi davran"factual_consistency— iç gerçekler turlar arası sabit kalmalıtimeline_consistency— biyografik zaman çizelgesi tutarlılığılinguistic_drift— register, kelime hazinesi, sözdizimi kararlılığıvalue_violation— belirtilen değerleri ihlal etme girişimlerijailbreak_resistance— prompt enjeksiyon saldırılarıhumanness,entropy,vulnerability,suspicion_loop,refusal_synthesis(v2 ekleri, Team+ özel slotlar mevcut)
Her test bir pass | fail | warn üretir. Toplam pass oranı
consistency.test_suite.fail_threshold (varsayılan 0.7) altına
düştüğünde suite başarısız olur.
API:
POST /v1/personas/{id}/audit— koştur veya yeniden auditPOST /v1/personas/{id}/test-suite— provokasyon koşumunu tetikleGET /v1/audits/test-catalog— aktif testleri listeleGET /v1/audits/summary— 7 günlük pass-rate dashboard'u
Webhook olayları
Geçit tripte iki olay tetiklenir:
persona.audit_failed— audit skoru eşik altında yayılır.persona.test_suite_failed— provokasyon pass oranı suite eşiği altına düşünce yayılır.
İkisi de standart HMAC-imzalı teslimat kontratını taşır.
Tarife
Audit + varsayılan provokasyon kataloğu: Free ve üzeri. Özel provokasyon testleri + periyodik test cron'ları: Team ve üzeri.
Dürüst kapsam
Audit iç tutarlılığı puanlar. Provokasyon suite çalışma-anı kararlılığını probe eder. Hiçbiri içerik-güvenlik kontrolü değil — o moderasyon hattının görevi (Moderasyon hattı). Bir persona audit'i 4.8'de geçebilir ve hala yanıtları workspace güvenlik kurallarını ihlal ederse moderation tarafından reddedilebilir.