RAG em produção: o que mantém o sistema vivo aos seis meses

Quase todo PoC de RAG funciona. O problema é o que acontece depois do mês seis, quando o conteúdo da base mudou, o modelo evoluiu e a equipe trocou de prioridade.

Três coisas mantêm o sistema vivo. Primeiro, um golden set versionado de cinquenta a cem perguntas com respostas de referência, rodado a cada deploy. Segundo, observabilidade que correlaciona pergunta, contexto recuperado e resposta gerada. Terceiro, um caminho rápido para reconstruir embeddings quando o modelo da fronteira muda.

Indexador, ranker e gerador são caixas separadas, com métricas separadas. Quando a qualidade cai, sabemos onde olhar primeiro: recuperação ruim ou prompt frágil são problemas diferentes com correções diferentes.

O custo é tratado como restrição, não como afterthought. Tracking por usuário, alerta de anomalia diário, dashboards por equipe. Sem isso, o RAG vira um buraco discreto na conta do mês.

RAG em produção: o que mantém o sistema vivo aos seis meses

Vamos conversar sobre o seu próximo projeto.