Lexique · 55 termes · Mise à jour 2026

Le lexique IA
sans jargon ni vapeur.

55termes essentiels pour comprendre l'IA appliquée au business. Pensé pour décideurs et équipes opérationnelles : pas de définitions Wikipédia recopiées, pas de formules mathématiques, juste les concepts utiles avec des exemples concrets.

Cette page est volontairement libre d'accès et citable. Si vous publiez du contenu IA et avez besoin d'une source de référence claire, vous pouvez créditer KATARIA et faire un lien vers cette page.

Navigation rapide

Modèles et architectures

6 termes

LLM (Large Language Model): Modèle de langage entraîné sur des milliards de textes pour comprendre et générer du texte en langage naturel. Le moteur derrière ChatGPT, Claude ou Mistral.
Transformer: Architecture neuronale (2017) qui a permis l'explosion des LLM modernes. Repose sur un mécanisme d'attention permettant au modèle de pondérer l'importance des mots dans une séquence.
Diffusion (modèles de): Famille de modèles génératifs qui produisent des images, vidéos ou audio en partant du bruit et en le débruitant progressivement. Sora, Flux, Stable Diffusion.
MoE (Mixture of Experts): Architecture qui n'active qu'une partie des paramètres du modèle pour chaque requête. Permet de scaler la taille du modèle sans exploser le coût d'inférence. Mistral 8x22B, GPT-4 Turbo.
SLM (Small Language Model): Modèle plus petit (1 à 30 milliards de paramètres) optimisé pour tourner localement, à coût faible et latence basse. Pertinent pour automatisations B2B ciblées.
Multimodal: Modèle capable de traiter plusieurs types de données (texte, image, audio, vidéo) dans la même requête.

Tokens et contexte

5 termes

Token: Unité de découpage du texte par le modèle (mot, partie de mot ou caractère). 1 token ≈ 0,75 mot français en moyenne. C'est l'unité facturée par les fournisseurs.
Context window: Quantité maximale de tokens que le modèle peut prendre en compte simultanément (entrée + sortie). Plus elle est grande, plus le modèle peut « lire » de documents en une seule passe.
Tokenizer: Algorithme qui découpe le texte en tokens avant de le passer au modèle. Chaque modèle a son propre tokenizer, ce qui explique des écarts de coût d'un fournisseur à l'autre pour le même texte.
Embedding: Représentation vectorielle (suite de nombres) d'un texte, image ou son. Permet de mesurer la similarité sémantique entre deux contenus. Indispensable pour la recherche RAG.
Vector database: Base de données spécialisée dans le stockage et la recherche d'embeddings. Pinecone, Weaviate, Qdrant, pgvector.

RAG et recherche

5 termes

RAG (Retrieval-Augmented Generation): Technique qui consiste à récupérer des extraits pertinents d'une base documentaire avant de demander au LLM de répondre. Permet à l'agent de répondre à partir de vos données sans entraîner un nouveau modèle.
Semantic search: Recherche par sens et non par mots-clés. Repose sur les embeddings : « accident voiture » remontera aussi un document sur « collision automobile ».
Hybrid search: Combinaison de recherche sémantique (embeddings) et lexicale (BM25). Donne les meilleurs résultats en pratique sur la plupart des bases B2B.
Re-ranking: Étape qui affine les résultats d'une première recherche en les re-classant avec un modèle plus précis. Améliore typiquement la qualité de 15 à 30 points.
Knowledge graph: Représentation structurée des relations entre entités (personnes, entreprises, concepts). Complémentaire au RAG pour les questions multi-sauts.

Agents et orchestration

6 termes

Agent IA: Système qui combine un LLM, des outils (calendrier, CRM, base de connaissances) et une boucle de raisonnement pour exécuter des tâches complexes en autonomie. Différent d'un chatbot scripté.
Function calling (tool calling): Capacité d'un LLM à appeler des fonctions externes pour récupérer des données ou déclencher une action. Le mécanisme de base d'un agent IA.
MCP (Model Context Protocol): Protocole ouvert d'Anthropic (2024) standardisant la connexion entre LLM et outils externes. Permet de connecter un modèle à n'importe quelle source de données ou API sans coder un connecteur custom.
A2A (Agent-to-Agent): Protocole de communication entre agents IA, permettant à plusieurs agents spécialisés de collaborer pour résoudre une tâche complexe.
ReAct: Pattern d'orchestration qui alterne raisonnement (Reasoning) et actions (Acting). Standard de fait pour les agents qui doivent enchaîner plusieurs étapes.
Agent autonome: Agent capable de planifier et d'exécuter une tâche multi-étapes sans supervision humaine entre chaque étape. Cas d'usage : qualification de leads, recherche concurrentielle, traitement documentaire.

Techniques d'inférence

6 termes

Prompt engineering: Art de formuler une instruction efficace pour obtenir le résultat attendu d'un LLM. Représente 60 à 80% du travail d'ingénierie sur un projet IA en production.
Few-shot learning: Donner au modèle quelques exemples dans le prompt pour qu'il généralise. Évite le fine-tuning dans 90% des cas.
Zero-shot: Demander au modèle d'exécuter une tâche sans aucun exemple. Fonctionne pour les tâches simples ou très bien décrites.
Chain of thought (CoT): Demander au modèle d'expliciter son raisonnement étape par étape avant de donner la réponse finale. Améliore la qualité sur les tâches complexes (raisonnement, math, code).
Structured output: Force le modèle à répondre dans un format structuré (JSON, XML) conforme à un schéma. Indispensable pour intégrer un LLM dans une chaîne de traitement automatique.
Streaming: Réception progressive de la réponse du modèle, token par token. Améliore la perception de vitesse côté utilisateur (premier mot affiché en 200ms vs 5s pour la réponse complète).

Entraînement et personnalisation

5 termes

Fine-tuning: Ré-entraînement d'un modèle existant sur vos données pour spécialiser son comportement. Coûteux et rarement nécessaire : un bon RAG suffit dans 80% des cas.
RLHF (Reinforcement Learning from Human Feedback): Technique d'entraînement où des humains notent les réponses du modèle pour l'aligner sur leurs préférences. Pilier de la qualité de ChatGPT, Claude, Gemini.
DPO (Direct Preference Optimization): Alternative plus simple au RLHF, qui optimise directement le modèle à partir de paires de réponses préférées/dépréciées. Plus rapide à mettre en œuvre.
Distillation: Transfert des capacités d'un grand modèle (teacher) vers un modèle plus petit (student) pour réduire les coûts d'inférence sans trop perdre en qualité.
Quantization: Compression d'un modèle en réduisant la précision numérique de ses poids (FP16 → INT8 ou INT4). Réduit la consommation mémoire et accélère l'inférence, avec une perte minime de qualité.

Production et opérations

6 termes

Inference: Phase d'utilisation du modèle (par opposition à l'entraînement). Chaque requête utilisateur déclenche une inférence facturée à l'usage par les fournisseurs.
Latency: Temps entre l'envoi de la requête et la réception du premier token. Critère clé pour les agents conversationnels (objectif : sous 500ms).
Throughput: Nombre de tokens par seconde générés par le modèle. Détermine la vitesse de réponse complète et le coût en infrastructure.
Caching: Réutilisation de réponses ou de calculs précédents pour éviter de re-payer une inférence. Anthropic propose un prompt caching natif qui réduit les coûts jusqu'à 90% sur les workflows répétitifs.
Rate limiting: Limite imposée par les fournisseurs sur le nombre de requêtes ou de tokens par minute. Critique à anticiper en production.
Observabilité IA: Monitoring spécifique aux LLM : tracking des prompts, coûts, latence, taux d'hallucination, dérive du modèle. LangSmith, Helicone, Phoenix.

Qualité et limites

6 termes

Hallucination: Réponse fausse mais plausible générée par un modèle. Cause : le modèle prédit le mot le plus probable, pas le plus vrai. Mitigée par le RAG, le grounding et la validation post-génération.
Grounding: Ancrage des réponses du modèle sur des sources vérifiables. Méthode principale : RAG avec citation explicite des extraits sources.
Bias (biais): Tendance du modèle à reproduire ou amplifier les biais présents dans ses données d'entraînement. À auditer dans tout projet B2C ou en relation avec des décisions humaines.
Alignment: Travail visant à aligner le comportement du modèle sur les valeurs et intentions humaines. Englobe la sûreté, l'utilité et l'honnêteté.
Jailbreak: Technique permettant de contourner les garde-fous d'un modèle pour obtenir des réponses qu'il devrait refuser. À tester sur tout système exposé public.
Prompt injection: Attaque qui consiste à injecter des instructions malveillantes dans des données utilisateur traitées par le modèle. Risque #1 OWASP LLM 2024.

SEO, GEO et IA

4 termes

GEO (Generative Engine Optimization): Optimisation pour les moteurs de réponse génératifs (ChatGPT, Claude, Perplexity, Gemini). Successeur du SEO traditionnel : il ne s'agit plus seulement d'apparaître dans Google, mais d'être cité dans les réponses IA.
Schema.org: Vocabulaire de balisage structuré pour décrire le contenu d'une page (Organization, Article, FAQPage, LocalBusiness). Critique pour le SEO et le GEO.
E-E-A-T: Expertise, Experience, Authoritativeness, Trustworthiness. Critères Google de qualité d'un contenu. Renforcés en 2023 avec l'essor de l'IA générative pour distinguer le contenu humain d'expert du contenu IA générique.
Featured snippet: Réponse mise en avant en haut des résultats Google. Cible privilégiée pour le contenu Q&A bien structuré. Précurseur du GEO.

Modèles et fournisseurs

6 termes

GPT (Generative Pre-trained Transformer): Famille de modèles d'OpenAI. GPT-4o, GPT-4o mini, o1, o3 sont les modèles courants en 2026.
Claude: Famille de modèles d'Anthropic. Reconnue pour la qualité de raisonnement, le respect des consignes et la longueur de contexte. Claude Opus 4.7, Claude Sonnet 4.5, Claude Haiku 4.5 en 2026.
Mistral: Modèles open-weight et propriétaires de la société française Mistral AI. Mistral Large, Codestral, Pixtral.
Llama: Famille open-source de Meta. Llama 3 a démocratisé l'IA souveraine pour les entreprises voulant héberger leur modèle en interne.
Open weights: Modèle dont les poids sont publiquement disponibles, permettant un déploiement souverain sans dépendance à un fournisseur cloud. Distinct d'« open source » (qui implique aussi le code et les données d'entraînement).
Open source: Modèle dont le code, les poids ET les données d'entraînement sont publics. Plus rare. Mistral, OLMo et certaines variantes Llama s'en approchent.

Un terme manque ?

On le rajoute, on le précise.

Ce lexique est mis à jour en continu. Si un terme manque ou qu'une définition vous semble imprécise, écrivez-nous — on corrige sous 48h.

Suggérer un terme Lire le journal

Le lexique IAsans jargon ni vapeur.

Modèles et architectures

Tokens et contexte

RAG et recherche

Agents et orchestration

Techniques d'inférence

Entraînement et personnalisation

Production et opérations

Qualité et limites

SEO, GEO et IA

Modèles et fournisseurs

On le rajoute, on le précise.

Le lexique IA
sans jargon ni vapeur.