RAG en production : chunking, qualité du retrieval et les problèmes que la démo ne montre pas
Le jour où un métier s'en sert pour travailler, un assistant RAG cesse d'être une démo. À partir de là, le sujet n'est plus le modèle seul, mais toute la mécanique autour.
Limites de fenêtre contextuelle, découpage sous-optimal, évaluation du retrieval, recherche hybride, observabilité et maîtrise des coûts — l'ingénierie réelle derrière un système RAG qui tient après la démo.
À retenir
Traiter l'indexation comme un vrai pipeline
Versions, métadonnées et ré-ingestion différentielle pèsent souvent plus lourd que le prompt.
Mesurer le retrieval pour lui-même
Quand la bonne preuve ne remonte pas, le modèle n'a aucune chance de bien répondre.
Assumer refus et traçabilité
Un assistant fiable cite, sait s'arrêter, et laisse derrière lui une piste de debug exploitable.
Réflexe
Tracer chaque réponse
Angle mort
L'ingestion négligée
Risque
L'improvisation confiante