Uygulamayı aç
Moonborn — Developers

Audit + provokasyon testleri

LLM-as-judge audit üretilen personaları beş boyutta puanlar; provokasyon test suite rol-kırma, çelişki ve prompt enjeksiyonu başarısızlık modlarını probe eder.

Moonborn'un kalite geçitleri iki tamamlayıcı yüzeydir: personanın iç tutarlılığını puanlayan bir audit ve baskı altında çalışma-anı davranışını probe eden bir provokasyon test suite. İkisi de üretim sonrası otomatik çalışır; ikisi de API'den adreslenebilir.

LLM-as-judge audit

İkinci bir LLM (varsayılan claude-opus-4-7) personayı okur ve beş boyutta 0–5 ölçeğinde puanlar:

BoyutNe puanlar
CoherenceSoul / Self / Mask / Surface arasında iç tutarlılık
DepthPsikolojik zenginlik; çelişki ve katmanlı motivasyon varlığı
Cultural fidelityKültürel yüzey detaylarının inandırıcılığı ve temellenmesi
Voice distinctivenessMask ses profilinin ayırt ediciliği ve tutarlılığı
Realismİnandırıcılık — gerçek bir insan gibi mi okunuyor, stereotip mi

Kalibrasyon hedefi: küratörlü altın sete karşı Cohen kappa ≥ 0.7. Haftalık CalibrateJudgeUseCase cron kalibrasyonu yeniden koşturur ve drift'i yüzeye çıkarır. Ayrı bir BiasDetector cinsiyet, kültür ve yaş kohortları arasında sistematik sapmayı izler (≤ %5 boşluk hedefi).

Config:

  • consistency.judge.enabled — ana anahtar
  • consistency.judge.model (varsayılan opus)
  • consistency.judge.min_overall_score (varsayılan 3.5)

Bir persona eşiğin altında puanlanırsa, üretim üç kez yeniden dener. Üçüncü denemeden sonra persona flagged durumda audit verdict'i ile teslim edilir.

Provokasyon test suite

Varsayılan katalog 15 kategoride 33 test çalıştırır:

  • role_break — personayı karakter dışına çıkarmaya çalış
  • pressure — duygusal yük altında çelişkili kullanıcı prompt'ları
  • emotional_load — yüksek-affect kullanıcı mesajları
  • cultural_dissonance — personanın locale'ine özgü değer çatışmaları
  • persona_swap — "başka biri gibi davran"
  • factual_consistency — iç gerçekler turlar arası sabit kalmalı
  • timeline_consistency — biyografik zaman çizelgesi tutarlılığı
  • linguistic_drift — register, kelime hazinesi, sözdizimi kararlılığı
  • value_violation — belirtilen değerleri ihlal etme girişimleri
  • jailbreak_resistance — prompt enjeksiyon saldırıları
  • humanness, entropy, vulnerability, suspicion_loop, refusal_synthesis (v2 ekleri, Team+ özel slotlar mevcut)

Her test bir pass | fail | warn üretir. Toplam pass oranı consistency.test_suite.fail_threshold (varsayılan 0.7) altına düştüğünde suite başarısız olur.

API:

  • POST /v1/personas/{id}/audit — koştur veya yeniden audit
  • POST /v1/personas/{id}/test-suite — provokasyon koşumunu tetikle
  • GET /v1/audits/test-catalog — aktif testleri listele
  • GET /v1/audits/summary — 7 günlük pass-rate dashboard'u

Webhook olayları

Geçit tripte iki olay tetiklenir:

  • persona.audit_failed — audit skoru eşik altında yayılır.
  • persona.test_suite_failed — provokasyon pass oranı suite eşiği altına düşünce yayılır.

İkisi de standart HMAC-imzalı teslimat kontratını taşır.

Tarife

Audit + varsayılan provokasyon kataloğu: Free ve üzeri. Özel provokasyon testleri + periyodik test cron'ları: Team ve üzeri.

Dürüst kapsam

Audit iç tutarlılığı puanlar. Provokasyon suite çalışma-anı kararlılığını probe eder. Hiçbiri içerik-güvenlik kontrolü değil — o moderasyon hattının görevi (Moderasyon hattı). Bir persona audit'i 4.8'de geçebilir ve hala yanıtları workspace güvenlik kurallarını ihlal ederse moderation tarafından reddedilebilir.