1 aprile 2026 Blog

Ollama integra MLX di Apple per accelerare i modelli locali su Mac

Il runtime per LLM locali aggiunge il supporto al framework MLX, migliora la cache e adotta la compressione NVFP4 di Nvidia, puntando a maggiore efficienza su Apple Silicon.

Ollama integra MLX di Apple per accelerare i modelli locali su Mac

Ollama, il runtime open source per eseguire modelli linguistici di grandi dimensioni su computer locali, ha introdotto il supporto per MLX, il framework di machine learning open source di Apple. L’annuncio, riportato da Ars Technica, riguarda la versione 0.19, attualmente in preview. L’integrazione con MLX promette di ottimizzare l’esecuzione su Mac dotati di chip Apple Silicon, dalla serie M1 in poi. Oltre a questo, gli sviluppatori di Ollama hanno migliorato le prestazioni del sistema di caching e hanno aggiunto il supporto al formato di compressione NVFP4 di Nvidia, una tecnologia che consente un utilizzo più efficiente della memoria per specifici modelli. Al momento, il supporto MLX è disponibile per un solo modello: la variante da 35 miliardi di parametri di Qwen3.5, sviluppato da Alibaba. I requisiti hardware dichiarati sono significativi, richiedendo un Mac con Apple Silicon e almeno 32 GB di RAM.

Questi aggiornamenti hanno un impatto diretto su sviluppatori e professionisti che lavorano con modelli di intelligenza artificiale in locale. L’integrazione con MLX sfrutta l’architettura unificata della memoria (Unified Memory Architecture) dei chip Apple Silicon, potenzialmente riducendo i tempi di inferenza e migliorando la reattività durante lo sviluppo e il testing. La compressione NVFP4 può rendere fattibile l’esecuzione di modelli più grandi su hardware con memoria limitata, un vincolo comune nei computer portatili. Il contesto di utilizzo è quello della programmazione assistita da AI, dove strumenti come Claude Code o ChatGPT Codex operano spesso tramite API cloud, soggette a limiti di utilizzo (rate limits) e costi ricorrenti. Ollama, con la sua recente espansione dell’integrazione per Visual Studio Code, si posiziona come alternativa locale, offrendo maggiore controllo sui dati e costi prevedibili. Il successo di progetti open source come OpenClaw, che ha superato le 300.000 stelle su GitHub, indica un crescente interesse della comunità per soluzioni di questo tipo.

L’implementazione attuale presenta limiti tecnici chiari. Il supporto per MLX è in fase di preview e al momento compatibile con un solo modello, Qwen3.5-35B, il che ne riduce drasticamente l’utilità pratica immediata. I requisiti di sistema, in particolare la necessità di 32 GB di RAM, escludono la maggior parte dei MacBook consumer e molti modelli professionali di fascia base, rendendo la tecnologia accessibile solo a utenti con hardware di alto livello. La fonte originale non menziona benchmark quantitativi che confrontino le prestazioni con e senza MLX, lasciando aperta la questione sull’entità reale del guadagno di velocità. Un rischio implicito è la frammentazione dell’ecosistema: lo sviluppo di ottimizzazioni specifiche per un’architettura hardware (Apple Silicon) potrebbe allontanare risorse dall’ottimizzazione cross-platform, penalizzando utenti Windows e Linux. Inoltre, la gestione di modelli locali richiede competenze tecniche per il setup, l’aggiornamento e il troubleshooting, un onere che le soluzioni cloud gestite eliminano.

L’aggiornamento di Ollama si inserisce in un trend più ampio di decentralizzazione dell’AI, spinto dalla ricerca di sovranità dei dati, riduzione della latenza e controllo dei costi. L’adozione di MLX segnala un riconoscimento della rilevanza dell’hardware Apple Silicon nel calcolo machine learning consumer e professionale. È plausibile che il supporto a MLX venga esteso ad altri modelli nella libreria di Ollama e che future ottimizzazioni sfruttino ancora più a fondo le GPU integrate nei chip Apple. Parallelamente, la scelta di supportare il formato NVFP4 di Nvidia mostra una strategia ibrida, che non trascura l’ecosistema GPU tradizionale. Lo sviluppo futuro dovrà bilanciare l’ottimizzazione per architetture specifiche con la necessità di mantenere un framework ampio e accessibile. La domanda aperta per sviluppatori e aziende è se i benefici in termini di performance, privacy e costi a lungo termine giustifichino l’investimento in hardware specializzato e la complessità operativa aggiuntiva della gestione di modelli locali, rispetto alla semplicità delle API cloud.

Condividi l'articolo

Ti è piaciuto l'articolo?
AB

Alessio Baronti

Consulente Strategico AI & Sviluppatore Web