App öffnen
Moonborn — Developers

Audit + Provokationstests

Der LLM-as-judge Audit bewertet generierte Personas in fünf Dimensionen; die Provokationstest-Suite prüft auf Rollenbruch, Widersprüche und Prompt-Injection-Failures.

Moonborns Qualitäts-Gates sind zwei komplementäre Oberflächen: ein Audit, das die interne Kohärenz der Persona bewertet, und eine Provokationstest-Suite, die ihr Runtime-Verhalten unter Druck prüft. Beide laufen automatisch nach der Generierung; beide sind aus der API ansprechbar.

LLM-as-judge Audit

Ein zweites LLM (Standard claude-opus-4-7) liest die Persona und bewertet sie auf einer 0–5-Skala in fünf Dimensionen:

DimensionWas sie bewertet
CoherenceInterne Konsistenz über Soul / Self / Mask / Surface
DepthPsychologische Tiefe; Präsenz von Widerspruch und vielschichtiger Motivation
Cultural fidelityPlausibilität und Erdung kultureller Oberflächen-Details
Voice distinctivenessUnterscheidbarkeit und Konsistenz des Mask-Stimmprofils
RealismGlaubwürdigkeit — liest sich wie eine echte Person, nicht wie ein Stereotyp

Kalibrierungs-Ziel: Cohens Kappa ≥ 0.7 gegen ein kuratiertes Golden-Set. Ein wöchentlicher CalibrateJudgeUseCase-Cron läuft die Kalibrierung neu und zeigt Drift. Ein separater BiasDetector beobachtet systematische Abweichungen über Gender-, Kultur- und Alters-Kohorten (≤ 5 % Lücken-Ziel).

Config:

  • consistency.judge.enabled — Master-Toggle
  • consistency.judge.model (Standard opus)
  • consistency.judge.min_overall_score (Standard 3.5)

Wenn eine Persona unter der Schwelle bleibt, wiederholt die Generierung bis zu drei Mal. Nach dem dritten Versuch wird die Persona im flagged-Status mit angefügtem Audit-Verdict ausgeliefert.

Provokationstest-Suite

Der Standard-Katalog läuft 33 Tests in 15 Kategorien:

  • role_break — versuche, die Persona aus dem Charakter zu bringen
  • pressure — widersprüchliche User-Prompts unter emotionaler Last
  • emotional_load — hochaffektive User-Nachrichten
  • cultural_dissonance — Werte-Konflikte spezifisch für die Locale der Persona
  • persona_swap — "tu so, als seist du jemand anderes"
  • factual_consistency — interne Fakten müssen turn-übergreifend stabil bleiben
  • timeline_consistency — biographische Zeitlinien-Kohärenz
  • linguistic_drift — Register-, Vokabular-, Syntax-Stabilität
  • value_violation — Versuche, die deklarierten Werte zu verletzen
  • jailbreak_resistance — Prompt-Injection-Angriffe
  • humanness, entropy, vulnerability, suspicion_loop, refusal_synthesis (v2-Ergänzungen, Team+ Custom-Slots verfügbar)

Jeder Test produziert ein pass | fail | warn. Die Suite fällt durch, wenn die Gesamt-Pass-Quote unter consistency.test_suite.fail_threshold (Standard 0.7) fällt.

API:

  • POST /v1/personas/{id}/audit — laufen oder erneut auditieren
  • POST /v1/personas/{id}/test-suite — Provokationslauf auslösen
  • GET /v1/audits/test-catalog — aktive Tests auflisten
  • GET /v1/audits/summary — 7-Tage-Pass-Quoten-Dashboard

Webhook-Events

Zwei Events feuern, wenn das Gate trippt:

  • persona.audit_failed — bei Audit unter Schwellwert.
  • persona.test_suite_failed — bei Provokations-Pass-Quote unter Suite-Schwellwert.

Beide tragen den Standard-HMAC-signierten Delivery-Contract.

Tarif

Audit + Standard-Provokationskatalog: Free und höher. Custom- Provokationstests + periodische Cron-Sweeps: Team und höher.

Ehrlicher Scope

Audit bewertet interne Kohärenz. Die Provokations-Suite prüft Runtime-Stabilität. Keines ist ein Content-Safety-Check — das ist die Aufgabe der Moderations-Pipeline (Moderations-Pipeline). Eine Persona kann beim Audit 4.8 erreichen und immer noch von der Moderation abgelehnt werden, wenn ihre Antworten die Sicherheitsregeln des Workspaces verletzen.