12 avril 2026 · 8 min · Yannis Okonkwo

RAG en prod : ce que personne ne dit

On a déployé six pipelines RAG l'an dernier. Voici les vrais coûts cachés — pas ceux des slides de conf.

La plupart des billets RAG s'arrêtent à "splittez vos docs, embeddez, faites une recherche cosinus". En production, le vrai travail est ailleurs.

1. Les chunks ne sont pas une vérité absolue

Le moteur de chunking est probablement la pièce la plus politique de votre pipeline. Une équipe qui a annoté ses 5 000 documents avec des balises sémantiques aura un retriever 30% plus précis qu'une autre qui s'est contentée de `splitOnTokens(512)`.

2. Le re-ranker n'est pas un luxe

Sans re-ranker, votre top-5 est rempli de documents proches lexicalement mais inutiles. Cohere Rerank, BGE, ou un classifieur maison entraîné sur vos clics : choisissez en, mais choisissez en.

3. Le coût n'est pas dans les LLM, il est dans l'ingestion

On a un client dont la facture OpenAI mensuelle est de 1 200 €. Sa facture d'embedding lors de la rééingestion : 4 800 €. Personne ne parle de ça.

4. Vos utilisateurs ne posent pas les questions que vous testez

Préparez-vous à voir des requêtes type "trouve-moi le truc qu'on avait fait avec David l'an dernier". Aucun benchmark ne vous prépare à ça.

IA
RAG
production