RAG
Informatique
Génération Augmentée par Récupération
L'acronyme RAG, pour Retrieval-Augmented Generation en anglais, soit Génération Augmentée par Récupération en français, désigne une architecture de modèle de langage qui combine deux étapes fondamentales : la récupération d'informations pertinentes à partir d'une base de connaissances externe, puis la génération d'une réponse textuelle à partir de ces informations récupérées. Contrairement à un modèle de langage classique qui se fie uniquement à ses poids internes appris durant l'entraînement, le RAG accède dynamiquement à une source documentaire actualisée, ce qui lui permet de produire des réponses plus factuelles, plus précises et moins sujettes aux hallucinations.
Le processus se déroule typiquement en trois phases. Premièrement, une requête est formulée par l'utilisateur. Deuxièmement, cette requête est convertie en une représentation vectorielle, puis comparée à des vecteurs pré-calculés d'un corpus de documents ; les passages les plus similaires sont extraits via des techniques de recherche sémantique. Troisièmement, le modèle de langage reçoit en entrée à la fois la requête originale et les extraits récupérés, et génère une réponse cohérente en s'appuyant sur ces informations contextuelles. Cette approche s'apparente à ouvrir un livre pour y chercher la réponse avant de la reformuler.
L'intérêt principal du RAG réside dans sa capacité à fournir des informations à jour et vérifiables, sans nécessiter un réentraînement complet du modèle. Il est particulièrement utilisé dans les systèmes de question-réponse, les chatbots d'entreprise, les assistants documentaires et les outils d'aide à la décision. De grandes sociétés comme Meta ont développé des modèles RAG ouverts, tandis que des frameworks comme LangChain ou LlamaIndex facilitent leur implémentation. En somme, le RAG rend l'intelligence artificielle générative plus fiable en ancrant ses réponses dans des sources concrètes, ouvrant la voie à des applications où la véracité des faits est critique.