Reins – Un Ollama sur mobile sans faire tourner Ollama sur mobile

Vous voulez utiliser Ollama sur votre iPhone ou Android pour lancer vos petits LLM en local ? Ce serait super cool non ? Bah j’ai une mauvaise nouvelle pour vous… votre smartphone n’a pas assez de mémoire vive pour faire ça…
Le problème est simple… les LLM bouffent un max de RAM. Par exemple, un LLaMA 7B, c’est dans les 12 GB de RAM. Et même quantifié en int4 pour gagner de la place, vous tombez à environ 3,5 GB. Et ça, c’est juste le modèle hein… Faut y ajouter le contexte, l’OS, les autres apps, et votre smartphone à 8 GB de RAM commence à suer de la raie.
Google a bien sûr sorti
Gemini Nano
pour Android, leur petit LLM optimisé pour mobile mais c’est compatible avec une poignée de smartphone car il faut un NPU dédié, assez de RAM, et une architecture très récente. Les autres, vous irez vous faire voir…
Du coup, une solution “pragmatique”, c’est de laisser votre Mac, votre PC, ou un petit serveur faire tourner Ollama chez vous, et d’utiliser votre smartphone comme simple client pour vous y connecter à distance. Vous gardez vos données locales, vous profitez de toute la puissance des modèles lourds, et votre iPhone ne chauffe pas comme un radiateur.
Et pour ça, il existe tout un tas d’apps mobiles qui font office de client Ollama. Des apps comme
Enchanted
sur iOS,
My Ollama
,
Heat
, et même les solutions cross-platform comme
Ollamb
codé en Flutter. Et aujourd’hui, je vous parle de
Reins
, une app développée par Ibrahim Cetin qui se démarque par des fonctionnalités que j’ai trouvées bien pensées.

Les fonctionnalités sont conçues pour des cas d’usage du monde réel. Vous pouvez ainsi définir un prompt system différent par conversation ce qui est pratique si vous avez un chat pour le code, un pour l’écriture, un pour la traduction et j’en passe… Vous éditez et régénérez les prompts à la volée et vous pouvez changer de modèle en cours de conversation sans tout perdre.
Reins supporte également l’envoi d’images, ce qui est utile si vous utilisez un modèle vision comme LLaVA. Vous pouvez aussi tweaker les paramètres avancés tels que la température, seed, taille du contexte, tokens max…etc. Et le streaming fonctionne en temps réel, comme ça pas besoin d’attendre une réponse complète avant de la voir.

Bien sûr, la question de la sécurité se pose. Il faut quand même exposer votre serveur Ollama sur Internet pour y accéder de l’extérieur donc pensez HTTPS obligatoire, tunnel ngrok temporaire si vous testez, VPN Tailscale ou Wireguard si vous voulez du permanent et sécurisé. Bref, les précautions classiques.
Vous pouvez télécharger Reins sur l’App Store,
en APK ou récupérer les builds macOS/Linux sur GitHub
.
Merci à Lorenper pour l’info.
Source : korben.info