ModèleAPI ou open-source
Une API propriétaire vous donne le meilleur niveau sans gérer d'infrastructure, contre un coût au token. Un modèle open-source (Llama, Mistral…) vous appartient et garde vos données, mais il faut une machine et des compétences pour le faire tourner.
RAGAugmenter le modèle par vos données
Le RAG (Retrieval-Augmented Generation) récupère vos propres documents pertinents et les fournit au modèle avant qu'il réponde. C'est la façon la plus fiable de faire parler une IA de VOTRE métier sans réentraîner quoi que ce soit.
Vector DBLa base vectorielle
Vos textes sont transformés en vecteurs (embeddings) et rangés dans une base qui sait retrouver les passages les plus proches d'une question. C'est le moteur de recherche qui alimente le RAG.
Rate limitsLimites de débit
Les API plafonnent le nombre de requêtes et de tokens par minute. Sous charge, on se fait throttler : il faut prévoir des reprises, de la mise en file et parfois plusieurs fournisseurs en secours.
Coût d'inférenceUne facture qui varie
Avec une API, chaque réponse a un coût proportionnel aux tokens : un prompt long, du RAG ou un agent bavard font grimper l'addition. Le coût d'inférence se conçoit dès l'architecture, pas après.
DonnéesSécurité & confidentialité
Envoyer des données à une API tierce engage votre responsabilité (RGPD, secrets clients). Vérifiez la rétention, l'usage pour l'entraînement, la localisation. Quand c'est sensible, l'auto-hébergement reprend tout son sens.