Motor de Contexto

O motor de contexto aprimora suas interacoes com IA atraves de tres mecanismos: compressao de conversa, compartilhamento de contexto entre profiles e RAG local (Retrieval-Augmented Generation).

Compressao de Conversa

Quando as conversas crescem alem de um limite de tokens, o Claudex usa um LLM para resumir mensagens mais antigas, mantendo as recentes intactas.

[context.compression]
enabled = true
threshold_tokens = 50000    # comprimir quando o total de tokens exceder este valor
keep_recent = 10            # sempre manter as ultimas N mensagens
profile = "openrouter"      # reutilizar base_url + api_key de um profile
model = "qwen/qwen-2.5-7b-instruct"  # substituir modelo (opcional)

Como Funciona

Antes de encaminhar uma requisicao, o Claudex estima a contagem total de tokens
Se os tokens excederem threshold_tokens, mensagens mais antigas (alem de keep_recent) sao substituidas por um resumo
O resumo e gerado pelo LLM local configurado
A conversa comprimida e encaminhada para o provedor

Compartilhamento Entre Profiles

Compartilhe contexto entre diferentes profiles de provedores dentro da mesma sessao.

[context.sharing]
enabled = true
max_context_size = 2000    # maximo de tokens a injetar de outros profiles

Isso e util ao alternar entre provedores no meio de uma tarefa — o contexto relevante de interacoes anteriores e incluido automaticamente.

RAG Local

Indexe codigo e documentacao locais para geracao aumentada por recuperacao. Trechos de codigo relevantes sao injetados automaticamente nas requisicoes.

[context.rag]
enabled = true
index_paths = ["./src", "./docs"]     # diretorios para indexar
profile = "openrouter"                 # reutilizar base_url + api_key de um profile
model = "openai/text-embedding-3-small"  # modelo de embedding
chunk_size = 512                       # tamanho do chunk de texto
top_k = 5                             # numero de resultados a injetar

Como Funciona

Na inicializacao, o Claudex indexa arquivos em index_paths usando o modelo de embedding
Para cada requisicao, a mensagem do usuario e convertida em embedding e comparada com o indice
Os top-k chunks mais relevantes sao injetados como contexto adicional na requisicao
O provedor recebe contexto mais rico sobre seu codebase