Drift tespiti
Her sohbet yanıtı personanın voice fingerprint'ine karşı puanlanır. Eşiğin altında yanıt yayılır; üstte runtime alarm verir (ve isteğe bağlı olarak kurtarmayı uygular).
Bir persona ölçülerek "seste" kalır. Her sohbet yanıtı voice fingerprint için kullanılan aynı modelle gömlür ve ikisi arasındaki cosine mesafe 0 ile 1 arasında bir drift skoru verir.
Yanıt başına ne alırsın
{
"driftScore": 0.12,
"driftThreshold": 0.30,
"driftAlert": false
}driftScore cosine mesafedir. driftThreshold
engine.pipeline.drift_detection.threshold workspace değeridir
(varsayılan 0.30). driftAlert boolean — downstream tüketiciler
için kullanışlı.
Drift'e ne neden olur
- Uzun context. Sistem prompt'unun otoritesi konuşma geçmişi büyüdükçe azalır.
- Konu-dışı yönlendirme. Kullanıcılar personayı üretilmediği bölgeye iter.
- Sağlayıcı model değişikliği. Claude Opus'tan Sonnet'e geçmek, aynı prompt'larla bile ses yüzeyini değiştirir.
- Çapraz-tool çağrıları. Tool yanıtları yanıt tonuna geri sızan sistem-benzeri metin enjekte eder.
- Yüksek sıcaklık. Varyans, persona "hala kendisi" olduğunda bile drift olarak okunur.
Kurtarma eylemleri
engine.pipeline.drift_detection.action_on_alert eşik tripte ne
olacağını kontrol eder:
warn(varsayılan) — yanıt yayılır, alarm günlüklenir, webhook olayıpersona.audit_failed(drift varyantı) tetiklenir.auto_recover— Moonborn fingerprint referansı yeniden enjekte edilmiş tek bir düşük-sıcaklık yeniden üretim koşturur.block— yanıt döndürülmez; çağıran drift zarfı ile409 Conflictalır.
Eşik ayarlama
Varsayılan 0.30 dengeli bir orta. Marka-güvenli yüzeyler için sıkılaştır:
- Müşteri desteği, düzenlenmiş içerik →
0.20. - Genel ürün sohbeti →
0.30. - Açık-uçlu sohbet, yaratıcı oyun →
0.45.
Persona başına override personanın runtime kontratı üzerinden. Drift eşik ayarlama atölyesine bak.
API
- Her sohbet yanıtı (
POST /v1/chat/sessions/{id}/messages) drift alanlarını yanıtında taşır. - Webhook olayı
persona.audit_failedalarmda tetiklenir (HMAC-SHA256 imzalı, beş yeniden deneme).
Dürüst kapsam
Drift tespiti yanıtın personanın sesine ne kadar yakın olduğunu ölçer. Gerçek doğruluğu veya içerik güvenliğini ölçmez — bu moderasyon hattının görevi. Kusursuz sesle gerçeklik açısından yanlış bir yanıt hala 0.05 puanlar.