Uygulamayı aç
Moonborn — Developers

Drift tespiti

Her sohbet yanıtı personanın voice fingerprint'ine karşı puanlanır. Eşiğin altında yanıt yayılır; üstte runtime alarm verir (ve isteğe bağlı olarak kurtarmayı uygular).

Bir persona ölçülerek "seste" kalır. Her sohbet yanıtı voice fingerprint için kullanılan aynı modelle gömlür ve ikisi arasındaki cosine mesafe 0 ile 1 arasında bir drift skoru verir.

Yanıt başına ne alırsın

{
  "driftScore": 0.12,
  "driftThreshold": 0.30,
  "driftAlert": false
}

driftScore cosine mesafedir. driftThreshold engine.pipeline.drift_detection.threshold workspace değeridir (varsayılan 0.30). driftAlert boolean — downstream tüketiciler için kullanışlı.

Drift'e ne neden olur

  • Uzun context. Sistem prompt'unun otoritesi konuşma geçmişi büyüdükçe azalır.
  • Konu-dışı yönlendirme. Kullanıcılar personayı üretilmediği bölgeye iter.
  • Sağlayıcı model değişikliği. Claude Opus'tan Sonnet'e geçmek, aynı prompt'larla bile ses yüzeyini değiştirir.
  • Çapraz-tool çağrıları. Tool yanıtları yanıt tonuna geri sızan sistem-benzeri metin enjekte eder.
  • Yüksek sıcaklık. Varyans, persona "hala kendisi" olduğunda bile drift olarak okunur.

Kurtarma eylemleri

engine.pipeline.drift_detection.action_on_alert eşik tripte ne olacağını kontrol eder:

  • warn (varsayılan) — yanıt yayılır, alarm günlüklenir, webhook olayı persona.audit_failed (drift varyantı) tetiklenir.
  • auto_recover — Moonborn fingerprint referansı yeniden enjekte edilmiş tek bir düşük-sıcaklık yeniden üretim koşturur.
  • block — yanıt döndürülmez; çağıran drift zarfı ile 409 Conflict alır.

Eşik ayarlama

Varsayılan 0.30 dengeli bir orta. Marka-güvenli yüzeyler için sıkılaştır:

  • Müşteri desteği, düzenlenmiş içerik → 0.20.
  • Genel ürün sohbeti → 0.30.
  • Açık-uçlu sohbet, yaratıcı oyun → 0.45.

Persona başına override personanın runtime kontratı üzerinden. Drift eşik ayarlama atölyesine bak.

API

  • Her sohbet yanıtı (POST /v1/chat/sessions/{id}/messages) drift alanlarını yanıtında taşır.
  • Webhook olayı persona.audit_failed alarmda tetiklenir (HMAC-SHA256 imzalı, beş yeniden deneme).

Dürüst kapsam

Drift tespiti yanıtın personanın sesine ne kadar yakın olduğunu ölçer. Gerçek doğruluğu veya içerik güvenliğini ölçmez — bu moderasyon hattının görevi. Kusursuz sesle gerçeklik açısından yanlış bir yanıt hala 0.05 puanlar.