
Faire tourner un LLM en local sur votre iPhone, c’est quand même très pratique. Imaginez une IA locale, sans connexion Internet et sans que les données ne quittent l’appareil ! Il y a certes des concessions drastiques à faire sur la conso batterie et la lenteur de génération du texte, mais ça vaut largement le coup d’essayer et c’est bien souvent plus efficace que l’IA locale embarquée Apple Intelligence, qui pèse en plus très lourd sur l’iPhone.
Concrètement, on peut faire tourner des modèles LLM IA open source sur iOS et l’iPhone/iPad et même des modèles IA locaux d’IA texte sur PC et même d’IA de génération/retouche d’image comme fooocus. Les modèles Llama, Qwen et autres passent souvent par la case régime (“slimmed”) via la quantification, une technique qui compresse le modèle pour qu’il tienne en mémoire mobile sans péter totalement les performances et transformer votre iPhone en chauffe-plat !
Et ça suffit pour résumer du texte, faire un plan, répondre à un mail, reformuler un mail ou message, la plupart des usages en fait, sans envoyer à une société de la tech toutes vos informations…
Oui, mais niveau performance ?
La performance dépendra fortement du matériel (puce, mémoire, etc.). J’estime après quelques tests qu’un iPhone 15 Pro ou 15 Pro Max peut encaisser au maximum des modèles jusqu’à 7B ou 8B (milliards) paramètres (par exemple l’excellent Llama 3.1 8B), alors que des iPhones plus anciens ne pourront faire tourner (parfois avec grande difficulté) que des modèles 3B ou inférieurs.
Sur mon iPhone 16 Pro, la théorie voudrait donc qu’on puisse tenter des modèles 7 à 8B quantifiés, mais on déchante vite. Il vaut mieux taper un peu plus bas (3 à 4B) puis ajuster à la hausse si besoin en fonction de ce que vous tolérez ou recherchez, le triptique magique étant : vitesse, chauffe de l’appareil (/usure batterie) et mémoire.
Locally AI, une app simple pour lancer une IA locale sur l’iPhone
Après avoir testé plusieurs apps, j’ai jeté mon dévolu sur l’excellent Locally AI, développé par un ptit français (cocorico ! 🐓) et gratos ! Il y en a d’autres :
- LLM Farm et MLCChat qui sont gratuits
- Apollo pour les fanatiques
- Private LLM pour ceux qui veulent mettre les mains dans le cambouis avec plein plein de personnalisations et configs possibles
Mais au final Locally AI m’a paru le plus stable et simple à mettre en œuvre.
Quel modèle de langage (LLM) choisir ?
Une fois l’app installée on va dans les options (manage models) et on choisit le modèle par défaut d’Apple ou on télécharge et active un autre modèle LLM.


Les modèles LLM sont alors disponibles en téléchargement et installation directe. ils pèsent généralement entre 2 et 3 Go.
Attention à ne pas viser trop gros en taille sinon cela sera instable et/ou très très lent sur votre iPhone. Ici j’ai copié collé du texte et demandé un résumé avec le LLM Qwen 3 Thinking 4B. Le résumé est rapide mais lorsque j’ai demandé la traduction c’est long (près de 3 minutes) et lourd sur la batterie, mais ça fonctionne nickel et le résultat est très satisfaisant.
On peut aussi poser des questions plus génériques et là où c’est bluffant, c’est qu’un petit fichier de 2 Go contient une quantité de connaissances faramineuses, sur quasi tous les sujets. De la magie dans la poche, même sans connexion internet !


Soyons réalistes : un LLM local ne donnera jamais la même expérience qu’un chatbot cloud, qui dispose d’une puissance supérieure (facteur 10 ou 100 facile) mais quel pied d’être « indépendant ».
Il faut rester simple dans les prompts, j’ai constaté que les réponses ralentissent fortement si on surcharge le modèle. Pour votre iPhone 16, testez 2 ou 3 modèles (en quantified), comparez la ratio vitesse/qualité sur quelques prompts types avant de faire votre choix de LLM local. A vous l’IA en local sur iPhone !


