12 avril 2026 · 8 min · Yannis Okonkwo
RAG en prod : ce que personne ne dit
On a déployé six pipelines RAG l'an dernier. Voici les vrais coûts cachés — pas ceux des slides de conf.
La plupart des billets RAG s'arrêtent à "splittez vos docs, embeddez, faites une recherche cosinus". En production, le vrai travail est ailleurs.
1. Les chunks ne sont pas une vérité absolue
Le moteur de chunking est probablement la pièce la plus politique de votre pipeline. Une équipe qui a annoté ses 5 000 documents avec des balises sémantiques aura un retriever 30% plus précis qu'une autre qui s'est contentée de `splitOnTokens(512)`.
2. Le re-ranker n'est pas un luxe
Sans re-ranker, votre top-5 est rempli de documents proches lexicalement mais inutiles. Cohere Rerank, BGE, ou un classifieur maison entraîné sur vos clics : choisissez en, mais choisissez en.
3. Le coût n'est pas dans les LLM, il est dans l'ingestion
On a un client dont la facture OpenAI mensuelle est de 1 200 €. Sa facture d'embedding lors de la rééingestion : 4 800 €. Personne ne parle de ça.
4. Vos utilisateurs ne posent pas les questions que vous testez
Préparez-vous à voir des requêtes type "trouve-moi le truc qu'on avait fait avec David l'an dernier". Aucun benchmark ne vous prépare à ça.
- IA
- RAG
- production