
Ollama : exécuter des modèles IA en local facilement
Qu'est-ce qu'Ollama ?
Ollama est un outil open source qui permet d'exécuter des modèles de langage (LLM) directement sur votre machine locale. Plus besoin de dépendre d'APIs cloud payantes ou d'une connexion internet — vos données restent chez vous.
Ollama simplifie considérablement le processus d'installation et d'utilisation des LLM en fournissant une interface en ligne de commande intuitive et une API REST locale.
Installation
Linux et macOS
curl -fsSL https://ollama.com/install.sh | sh
Windows
Téléchargez l'installateur depuis le site officiel d'Ollama.
Vérifier l'installation
ollama --version
Télécharger et exécuter un modèle
Ollama propose un large catalogue de modèles. Pour télécharger et lancer un modèle :
# Télécharger et lancer Llama 3
ollama run llama3
# Télécharger et lancer Mistral
ollama run mistral
# Télécharger et lancer un modèle plus léger
ollama run phi3
La première exécution télécharge le modèle. Les lancements suivants sont quasi instantanés.
Commandes essentielles
# Lister les modèles installés
ollama list
# Télécharger un modèle sans le lancer
ollama pull llama3
# Supprimer un modèle
ollama rm llama3
# Afficher les informations d'un modèle
ollama show llama3
Utiliser l'API REST
Ollama expose une API REST locale sur le port 11434 :
# Générer une réponse
curl http://localhost:11434/api/generate -d '{
"model": "llama3",
"prompt": "Explique-moi le machine learning en 3 phrases."
}'
Exemple avec un chat
curl http://localhost:11434/api/chat -d '{
"model": "llama3",
"messages": [
{ "role": "user", "content": "Bonjour, comment ça va ?" }
]
}'
Intégration avec Python
import requests
response = requests.post("http://localhost:11434/api/generate", json={
"model": "llama3",
"prompt": "Qu'est-ce que le deep learning ?",
"stream": False
})
print(response.json()["response"])
Créer un modèle personnalisé
Vous pouvez créer un modèle avec un prompt système personnalisé via un Modelfile :
FROM llama3
SYSTEM """
Tu es un assistant spécialisé en développement web.
Tu réponds toujours en français.
Tu donnes des exemples de code quand c'est pertinent.
"""
PARAMETER temperature 0.7
Puis construisez et utilisez votre modèle :
ollama create mon-assistant -f Modelfile
ollama run mon-assistant
Modèles recommandés
| Modèle | Taille | Usage recommandé |
|---|---|---|
llama3 | 4.7 Go | Usage général, bonne qualité |
mistral | 4.1 Go | Rapide, bon en français |
phi3 | 2.3 Go | Léger, idéal pour les petites machines |
codellama | 3.8 Go | Génération et analyse de code |
llama3:70b | 40 Go | Haute qualité, nécessite un GPU puissant |
Configuration matérielle
- Minimum : 8 Go de RAM, CPU moderne
- Recommandé : 16 Go de RAM, GPU avec 8 Go+ de VRAM
- Optimal : 32 Go+ de RAM, GPU NVIDIA avec 16 Go+ de VRAM
Ollama détecte automatiquement votre GPU (NVIDIA, AMD, Apple Silicon) et l'utilise si disponible.
Conclusion
Ollama rend l'IA locale accessible à tous. En quelques commandes, vous pouvez exécuter des modèles performants sur votre propre machine, garder vos données privées et expérimenter librement sans frais d'API. C'est un outil incontournable pour tout développeur qui souhaite intégrer l'IA dans ses projets.
Articles similaires

Intelligence artificielle et LLM : comprendre les modèles de langage
Découvrez les fondamentaux de l'intelligence artificielle et des grands modèles de langage (LLM) : fonctionnement, cas d'usage, outils et bonnes pratiques.

Guide Complet : Comment Créer un Projet de Développement Structuré
Apprenez à créer un projet de développement bien structuré. Étapes, organisation, outils et bonnes pratiques pour démarrer sur de bonnes bases.
Similaires

Docker : conteneuriser vos applications simplement
Apprenez à utiliser Docker pour conteneuriser vos applications : installation, commandes essentielles, Dockerfile, Docker Compose et bonnes pratiques.
Similaires
Propres