Quase todo PoC de RAG funciona. O problema é o que acontece depois do mês seis, quando o conteúdo da base mudou, o modelo evoluiu e a equipe trocou de prioridade.
Três coisas mantêm o sistema vivo. Primeiro, um golden set versionado de cinquenta a cem perguntas com respostas de referência, rodado a cada deploy. Segundo, observabilidade que correlaciona pergunta, contexto recuperado e resposta gerada. Terceiro, um caminho rápido para reconstruir embeddings quando o modelo da fronteira muda.
Indexador, ranker e gerador são caixas separadas, com métricas separadas. Quando a qualidade cai, sabemos onde olhar primeiro: recuperação ruim ou prompt frágil são problemas diferentes com correções diferentes.
O custo é tratado como restrição, não como afterthought. Tracking por usuário, alerta de anomalia diário, dashboards por equipe. Sem isso, o RAG vira um buraco discreto na conta do mês.
Tags
- #rag
- #ia-aplicada
- #azure-openai