KATARIA

Agence digitale IA · Paris

KATARIA

Lexique · 55 termes · Mise à jour 2026

Le lexique IA
sans jargon ni vapeur.

55termes essentiels pour comprendre l'IA appliquée au business. Pensé pour décideurs et équipes opérationnelles : pas de définitions Wikipédia recopiées, pas de formules mathématiques, juste les concepts utiles avec des exemples concrets.

Cette page est volontairement libre d'accès et citable. Si vous publiez du contenu IA et avez besoin d'une source de référence claire, vous pouvez créditer KATARIA et faire un lien vers cette page.

Navigation rapide

Modèles et architectures

6 termes

LLM (Large Language Model)
Modèle de langage entraîné sur des milliards de textes pour comprendre et générer du texte en langage naturel. Le moteur derrière ChatGPT, Claude ou Mistral.

Exemple
GPT-4o, Claude Sonnet 4.5, Mistral Large, Llama 3.

Transformer
Architecture neuronale (2017) qui a permis l'explosion des LLM modernes. Repose sur un mécanisme d'attention permettant au modèle de pondérer l'importance des mots dans une séquence.
Diffusion (modèles de)
Famille de modèles génératifs qui produisent des images, vidéos ou audio en partant du bruit et en le débruitant progressivement. Sora, Flux, Stable Diffusion.
MoE (Mixture of Experts)
Architecture qui n'active qu'une partie des paramètres du modèle pour chaque requête. Permet de scaler la taille du modèle sans exploser le coût d'inférence. Mistral 8x22B, GPT-4 Turbo.
SLM (Small Language Model)
Modèle plus petit (1 à 30 milliards de paramètres) optimisé pour tourner localement, à coût faible et latence basse. Pertinent pour automatisations B2B ciblées.

Exemple
Phi-3, Mistral 7B, Llama 3 8B.

Multimodal
Modèle capable de traiter plusieurs types de données (texte, image, audio, vidéo) dans la même requête.

Exemple
GPT-4o, Claude Sonnet, Gemini 1.5 Pro.

Tokens et contexte

5 termes

Token
Unité de découpage du texte par le modèle (mot, partie de mot ou caractère). 1 token ≈ 0,75 mot français en moyenne. C'est l'unité facturée par les fournisseurs.

Exemple
« KATARIA » = environ 3 tokens.

Context window
Quantité maximale de tokens que le modèle peut prendre en compte simultanément (entrée + sortie). Plus elle est grande, plus le modèle peut « lire » de documents en une seule passe.

Exemple
GPT-4o : 128k. Claude Sonnet 4.5 : 200k. Gemini 1.5 Pro : 2M.

Tokenizer
Algorithme qui découpe le texte en tokens avant de le passer au modèle. Chaque modèle a son propre tokenizer, ce qui explique des écarts de coût d'un fournisseur à l'autre pour le même texte.
Embedding
Représentation vectorielle (suite de nombres) d'un texte, image ou son. Permet de mesurer la similarité sémantique entre deux contenus. Indispensable pour la recherche RAG.
Vector database
Base de données spécialisée dans le stockage et la recherche d'embeddings. Pinecone, Weaviate, Qdrant, pgvector.

RAG et recherche

5 termes

RAG (Retrieval-Augmented Generation)
Technique qui consiste à récupérer des extraits pertinents d'une base documentaire avant de demander au LLM de répondre. Permet à l'agent de répondre à partir de vos données sans entraîner un nouveau modèle.

Exemple
Un cabinet d'avocats peut faire un RAG sur ses 800 dossiers pour assister la recherche jurisprudentielle.

Semantic search
Recherche par sens et non par mots-clés. Repose sur les embeddings : « accident voiture » remontera aussi un document sur « collision automobile ».
Hybrid search
Combinaison de recherche sémantique (embeddings) et lexicale (BM25). Donne les meilleurs résultats en pratique sur la plupart des bases B2B.
Re-ranking
Étape qui affine les résultats d'une première recherche en les re-classant avec un modèle plus précis. Améliore typiquement la qualité de 15 à 30 points.
Knowledge graph
Représentation structurée des relations entre entités (personnes, entreprises, concepts). Complémentaire au RAG pour les questions multi-sauts.

Agents et orchestration

6 termes

Agent IA
Système qui combine un LLM, des outils (calendrier, CRM, base de connaissances) et une boucle de raisonnement pour exécuter des tâches complexes en autonomie. Différent d'un chatbot scripté.
Function calling (tool calling)
Capacité d'un LLM à appeler des fonctions externes pour récupérer des données ou déclencher une action. Le mécanisme de base d'un agent IA.

Exemple
L'agent appelle « get_calendar_availability() » avant de proposer un créneau.

MCP (Model Context Protocol)
Protocole ouvert d'Anthropic (2024) standardisant la connexion entre LLM et outils externes. Permet de connecter un modèle à n'importe quelle source de données ou API sans coder un connecteur custom.
A2A (Agent-to-Agent)
Protocole de communication entre agents IA, permettant à plusieurs agents spécialisés de collaborer pour résoudre une tâche complexe.
ReAct
Pattern d'orchestration qui alterne raisonnement (Reasoning) et actions (Acting). Standard de fait pour les agents qui doivent enchaîner plusieurs étapes.
Agent autonome
Agent capable de planifier et d'exécuter une tâche multi-étapes sans supervision humaine entre chaque étape. Cas d'usage : qualification de leads, recherche concurrentielle, traitement documentaire.

Techniques d'inférence

6 termes

Prompt engineering
Art de formuler une instruction efficace pour obtenir le résultat attendu d'un LLM. Représente 60 à 80% du travail d'ingénierie sur un projet IA en production.
Few-shot learning
Donner au modèle quelques exemples dans le prompt pour qu'il généralise. Évite le fine-tuning dans 90% des cas.
Zero-shot
Demander au modèle d'exécuter une tâche sans aucun exemple. Fonctionne pour les tâches simples ou très bien décrites.
Chain of thought (CoT)
Demander au modèle d'expliciter son raisonnement étape par étape avant de donner la réponse finale. Améliore la qualité sur les tâches complexes (raisonnement, math, code).
Structured output
Force le modèle à répondre dans un format structuré (JSON, XML) conforme à un schéma. Indispensable pour intégrer un LLM dans une chaîne de traitement automatique.
Streaming
Réception progressive de la réponse du modèle, token par token. Améliore la perception de vitesse côté utilisateur (premier mot affiché en 200ms vs 5s pour la réponse complète).

Entraînement et personnalisation

5 termes

Fine-tuning
Ré-entraînement d'un modèle existant sur vos données pour spécialiser son comportement. Coûteux et rarement nécessaire : un bon RAG suffit dans 80% des cas.
RLHF (Reinforcement Learning from Human Feedback)
Technique d'entraînement où des humains notent les réponses du modèle pour l'aligner sur leurs préférences. Pilier de la qualité de ChatGPT, Claude, Gemini.
DPO (Direct Preference Optimization)
Alternative plus simple au RLHF, qui optimise directement le modèle à partir de paires de réponses préférées/dépréciées. Plus rapide à mettre en œuvre.
Distillation
Transfert des capacités d'un grand modèle (teacher) vers un modèle plus petit (student) pour réduire les coûts d'inférence sans trop perdre en qualité.
Quantization
Compression d'un modèle en réduisant la précision numérique de ses poids (FP16 → INT8 ou INT4). Réduit la consommation mémoire et accélère l'inférence, avec une perte minime de qualité.

Production et opérations

6 termes

Inference
Phase d'utilisation du modèle (par opposition à l'entraînement). Chaque requête utilisateur déclenche une inférence facturée à l'usage par les fournisseurs.
Latency
Temps entre l'envoi de la requête et la réception du premier token. Critère clé pour les agents conversationnels (objectif : sous 500ms).
Throughput
Nombre de tokens par seconde générés par le modèle. Détermine la vitesse de réponse complète et le coût en infrastructure.
Caching
Réutilisation de réponses ou de calculs précédents pour éviter de re-payer une inférence. Anthropic propose un prompt caching natif qui réduit les coûts jusqu'à 90% sur les workflows répétitifs.
Rate limiting
Limite imposée par les fournisseurs sur le nombre de requêtes ou de tokens par minute. Critique à anticiper en production.
Observabilité IA
Monitoring spécifique aux LLM : tracking des prompts, coûts, latence, taux d'hallucination, dérive du modèle. LangSmith, Helicone, Phoenix.

Qualité et limites

6 termes

Hallucination
Réponse fausse mais plausible générée par un modèle. Cause : le modèle prédit le mot le plus probable, pas le plus vrai. Mitigée par le RAG, le grounding et la validation post-génération.
Grounding
Ancrage des réponses du modèle sur des sources vérifiables. Méthode principale : RAG avec citation explicite des extraits sources.
Bias (biais)
Tendance du modèle à reproduire ou amplifier les biais présents dans ses données d'entraînement. À auditer dans tout projet B2C ou en relation avec des décisions humaines.
Alignment
Travail visant à aligner le comportement du modèle sur les valeurs et intentions humaines. Englobe la sûreté, l'utilité et l'honnêteté.
Jailbreak
Technique permettant de contourner les garde-fous d'un modèle pour obtenir des réponses qu'il devrait refuser. À tester sur tout système exposé public.
Prompt injection
Attaque qui consiste à injecter des instructions malveillantes dans des données utilisateur traitées par le modèle. Risque #1 OWASP LLM 2024.

SEO, GEO et IA

4 termes

GEO (Generative Engine Optimization)
Optimisation pour les moteurs de réponse génératifs (ChatGPT, Claude, Perplexity, Gemini). Successeur du SEO traditionnel : il ne s'agit plus seulement d'apparaître dans Google, mais d'être cité dans les réponses IA.
Schema.org
Vocabulaire de balisage structuré pour décrire le contenu d'une page (Organization, Article, FAQPage, LocalBusiness). Critique pour le SEO et le GEO.
E-E-A-T
Expertise, Experience, Authoritativeness, Trustworthiness. Critères Google de qualité d'un contenu. Renforcés en 2023 avec l'essor de l'IA générative pour distinguer le contenu humain d'expert du contenu IA générique.
Featured snippet
Réponse mise en avant en haut des résultats Google. Cible privilégiée pour le contenu Q&A bien structuré. Précurseur du GEO.

Modèles et fournisseurs

6 termes

GPT (Generative Pre-trained Transformer)
Famille de modèles d'OpenAI. GPT-4o, GPT-4o mini, o1, o3 sont les modèles courants en 2026.
Claude
Famille de modèles d'Anthropic. Reconnue pour la qualité de raisonnement, le respect des consignes et la longueur de contexte. Claude Opus 4.7, Claude Sonnet 4.5, Claude Haiku 4.5 en 2026.
Mistral
Modèles open-weight et propriétaires de la société française Mistral AI. Mistral Large, Codestral, Pixtral.
Llama
Famille open-source de Meta. Llama 3 a démocratisé l'IA souveraine pour les entreprises voulant héberger leur modèle en interne.
Open weights
Modèle dont les poids sont publiquement disponibles, permettant un déploiement souverain sans dépendance à un fournisseur cloud. Distinct d'« open source » (qui implique aussi le code et les données d'entraînement).
Open source
Modèle dont le code, les poids ET les données d'entraînement sont publics. Plus rare. Mistral, OLMo et certaines variantes Llama s'en approchent.

Un terme manque ?

On le rajoute, on le précise.

Ce lexique est mis à jour en continu. Si un terme manque ou qu'une définition vous semble imprécise, écrivez-nous — on corrige sous 48h.