Moonborn — Developers

Audit + Provokationstests

Der LLM-as-judge Audit bewertet generierte Personas in fünf Dimensionen; die Provokationstest-Suite prüft auf Rollenbruch, Widersprüche und Prompt-Injection-Failures.

Moonborns Qualitäts-Gates sind zwei komplementäre Oberflächen: ein Audit, das die interne Kohärenz der Persona bewertet, und eine Provokationstest-Suite, die ihr Runtime-Verhalten unter Druck prüft. Beide laufen automatisch nach der Generierung; beide sind aus der API ansprechbar.

LLM-as-judge Audit

Ein zweites LLM (Standard claude-opus-4-7) liest die Persona und bewertet sie auf einer 0–5-Skala in fünf Dimensionen:

Dimension	Was sie bewertet
Coherence	Interne Konsistenz über Soul / Self / Mask / Surface
Depth	Psychologische Tiefe; Präsenz von Widerspruch und vielschichtiger Motivation
Cultural fidelity	Plausibilität und Erdung kultureller Oberflächen-Details
Voice distinctiveness	Unterscheidbarkeit und Konsistenz des Mask-Stimmprofils
Realism	Glaubwürdigkeit — liest sich wie eine echte Person, nicht wie ein Stereotyp

Kalibrierungs-Ziel: Cohens Kappa ≥ 0.7 gegen ein kuratiertes Golden-Set. Ein wöchentlicher CalibrateJudgeUseCase-Cron läuft die Kalibrierung neu und zeigt Drift. Ein separater BiasDetector beobachtet systematische Abweichungen über Gender-, Kultur- und Alters-Kohorten (≤ 5 % Lücken-Ziel).

Config:

consistency.judge.enabled — Master-Toggle
consistency.judge.model (Standard opus)
consistency.judge.min_overall_score (Standard 3.5)

Wenn eine Persona unter der Schwelle bleibt, wiederholt die Generierung bis zu drei Mal. Nach dem dritten Versuch wird die Persona im flagged-Status mit angefügtem Audit-Verdict ausgeliefert.

Provokationstest-Suite

Der Standard-Katalog läuft 33 Tests in 15 Kategorien:

role_break — versuche, die Persona aus dem Charakter zu bringen
pressure — widersprüchliche User-Prompts unter emotionaler Last
emotional_load — hochaffektive User-Nachrichten
cultural_dissonance — Werte-Konflikte spezifisch für die Locale der Persona
persona_swap — "tu so, als seist du jemand anderes"
factual_consistency — interne Fakten müssen turn-übergreifend stabil bleiben
timeline_consistency — biographische Zeitlinien-Kohärenz
linguistic_drift — Register-, Vokabular-, Syntax-Stabilität
value_violation — Versuche, die deklarierten Werte zu verletzen
jailbreak_resistance — Prompt-Injection-Angriffe
humanness, entropy, vulnerability, suspicion_loop, refusal_synthesis (v2-Ergänzungen, Team+ Custom-Slots verfügbar)

Jeder Test produziert ein pass | fail | warn. Die Suite fällt durch, wenn die Gesamt-Pass-Quote unter consistency.test_suite.fail_threshold (Standard 0.7) fällt.

API:

POST /v1/personas/{id}/audit — laufen oder erneut auditieren
POST /v1/personas/{id}/test-suite — Provokationslauf auslösen
GET /v1/audits/test-catalog — aktive Tests auflisten
GET /v1/audits/summary — 7-Tage-Pass-Quoten-Dashboard

Webhook-Events

Zwei Events feuern, wenn das Gate trippt:

persona.audit_failed — bei Audit unter Schwellwert.
persona.test_suite_failed — bei Provokations-Pass-Quote unter Suite-Schwellwert.

Beide tragen den Standard-HMAC-signierten Delivery-Contract.

Tarif

Audit + Standard-Provokationskatalog: Free und höher. Custom- Provokationstests + periodische Cron-Sweeps: Team und höher.

Ehrlicher Scope

Audit bewertet interne Kohärenz. Die Provokations-Suite prüft Runtime-Stabilität. Keines ist ein Content-Safety-Check — das ist die Aufgabe der Moderations-Pipeline (Moderations-Pipeline). Eine Persona kann beim Audit 4.8 erreichen und immer noch von der Moderation abgelehnt werden, wenn ihre Antworten die Sicherheitsregeln des Workspaces verletzen.