Audit + Provokationstests
Der LLM-as-judge Audit bewertet generierte Personas in fünf Dimensionen; die Provokationstest-Suite prüft auf Rollenbruch, Widersprüche und Prompt-Injection-Failures.
Moonborns Qualitäts-Gates sind zwei komplementäre Oberflächen: ein Audit, das die interne Kohärenz der Persona bewertet, und eine Provokationstest-Suite, die ihr Runtime-Verhalten unter Druck prüft. Beide laufen automatisch nach der Generierung; beide sind aus der API ansprechbar.
LLM-as-judge Audit
Ein zweites LLM (Standard claude-opus-4-7) liest die Persona und
bewertet sie auf einer 0–5-Skala in fünf Dimensionen:
| Dimension | Was sie bewertet |
|---|---|
| Coherence | Interne Konsistenz über Soul / Self / Mask / Surface |
| Depth | Psychologische Tiefe; Präsenz von Widerspruch und vielschichtiger Motivation |
| Cultural fidelity | Plausibilität und Erdung kultureller Oberflächen-Details |
| Voice distinctiveness | Unterscheidbarkeit und Konsistenz des Mask-Stimmprofils |
| Realism | Glaubwürdigkeit — liest sich wie eine echte Person, nicht wie ein Stereotyp |
Kalibrierungs-Ziel: Cohens Kappa ≥ 0.7 gegen ein kuratiertes
Golden-Set. Ein wöchentlicher CalibrateJudgeUseCase-Cron läuft die
Kalibrierung neu und zeigt Drift. Ein separater BiasDetector
beobachtet systematische Abweichungen über Gender-, Kultur- und
Alters-Kohorten (≤ 5 % Lücken-Ziel).
Config:
consistency.judge.enabled— Master-Toggleconsistency.judge.model(Standardopus)consistency.judge.min_overall_score(Standard3.5)
Wenn eine Persona unter der Schwelle bleibt, wiederholt die
Generierung bis zu drei Mal. Nach dem dritten Versuch wird die
Persona im flagged-Status mit angefügtem Audit-Verdict ausgeliefert.
Provokationstest-Suite
Der Standard-Katalog läuft 33 Tests in 15 Kategorien:
role_break— versuche, die Persona aus dem Charakter zu bringenpressure— widersprüchliche User-Prompts unter emotionaler Lastemotional_load— hochaffektive User-Nachrichtencultural_dissonance— Werte-Konflikte spezifisch für die Locale der Personapersona_swap— "tu so, als seist du jemand anderes"factual_consistency— interne Fakten müssen turn-übergreifend stabil bleibentimeline_consistency— biographische Zeitlinien-Kohärenzlinguistic_drift— Register-, Vokabular-, Syntax-Stabilitätvalue_violation— Versuche, die deklarierten Werte zu verletzenjailbreak_resistance— Prompt-Injection-Angriffehumanness,entropy,vulnerability,suspicion_loop,refusal_synthesis(v2-Ergänzungen, Team+ Custom-Slots verfügbar)
Jeder Test produziert ein pass | fail | warn. Die Suite fällt
durch, wenn die Gesamt-Pass-Quote unter
consistency.test_suite.fail_threshold (Standard 0.7) fällt.
API:
POST /v1/personas/{id}/audit— laufen oder erneut auditierenPOST /v1/personas/{id}/test-suite— Provokationslauf auslösenGET /v1/audits/test-catalog— aktive Tests auflistenGET /v1/audits/summary— 7-Tage-Pass-Quoten-Dashboard
Webhook-Events
Zwei Events feuern, wenn das Gate trippt:
persona.audit_failed— bei Audit unter Schwellwert.persona.test_suite_failed— bei Provokations-Pass-Quote unter Suite-Schwellwert.
Beide tragen den Standard-HMAC-signierten Delivery-Contract.
Tarif
Audit + Standard-Provokationskatalog: Free und höher. Custom- Provokationstests + periodische Cron-Sweeps: Team und höher.
Ehrlicher Scope
Audit bewertet interne Kohärenz. Die Provokations-Suite prüft Runtime-Stabilität. Keines ist ein Content-Safety-Check — das ist die Aufgabe der Moderations-Pipeline (Moderations-Pipeline). Eine Persona kann beim Audit 4.8 erreichen und immer noch von der Moderation abgelehnt werden, wenn ihre Antworten die Sicherheitsregeln des Workspaces verletzen.