Kontext-Engine

Die Kontext-Engine verbessert KI-Interaktionen durch drei Mechanismen: Konversationskomprimierung, profiluebergreifende Kontextfreigabe und lokales RAG (Retrieval-Augmented Generation).

Konversationskomprimierung

Wenn Konversationen einen Token-Schwellenwert ueberschreiten, verwendet Claudex ein LLM, um aeltere Nachrichten zusammenzufassen, waehrend neuere unveraendert bleiben.

[context.compression]
enabled = true
threshold_tokens = 50000    # komprimieren, wenn Gesamttoken diesen Wert ueberschreiten
keep_recent = 10            # immer die letzten N Nachrichten behalten
profile = "openrouter"      # base_url + api_key eines Profils wiederverwenden
model = "qwen/qwen-2.5-7b-instruct"  # Modell ueberschreiben (optional)

Funktionsweise

Vor dem Weiterleiten einer Anfrage schaetzt Claudex die Gesamttoken-Anzahl
Wenn Token threshold_tokens ueberschreiten, werden aeltere Nachrichten (jenseits von keep_recent) durch eine Zusammenfassung ersetzt
Die Zusammenfassung wird vom konfigurierten lokalen LLM generiert
Die komprimierte Konversation wird dann an den Anbieter weitergeleitet

Profiluebergreifende Freigabe

Kontext ueber verschiedene Anbieterprofile innerhalb derselben Sitzung teilen.

[context.sharing]
enabled = true
max_context_size = 2000    # maximale Token, die aus anderen Profilen injiziert werden

Dies ist nuetzlich beim Wechseln zwischen Anbietern waehrend einer Aufgabe. Relevanter Kontext aus frueheren Interaktionen wird automatisch einbezogen.

Lokales RAG

Lokalen Code und Dokumentation fuer Retrieval-Augmented Generation indizieren. Relevante Code-Ausschnitte werden automatisch in Anfragen injiziert.

[context.rag]
enabled = true
index_paths = ["./src", "./docs"]     # zu indizierende Verzeichnisse
profile = "openrouter"                 # base_url + api_key eines Profils wiederverwenden
model = "openai/text-embedding-3-small"  # Einbettungsmodell
chunk_size = 512                       # Textchunk-Groesse
top_k = 5                             # Anzahl der zu injizierenden Ergebnisse

Funktionsweise

Beim Start indiziert Claudex Dateien in index_paths mit dem Einbettungsmodell
Fuer jede Anfrage wird die Nachricht des Benutzers eingebettet und mit dem Index verglichen
Die top-k relevantesten Chunks werden als zusaetzlicher Kontext in die Anfrage injiziert
Der Anbieter erhaelt reichhaltigeren Kontext ueber die Codebasis