
Ollama su Mac trasforma il tuo computer in un server AI privato: modelli linguistici che girano in locale, senza connessione internet, senza account, senza abbonamento.1Fonte: Ollama Official Website
Ogni prompt inviato a ChatGPT lascia il computer, viaggia su server remoti, viene registrato, elaborato, e restituito. Per la maggior parte delle persone questo non è un problema. Per chi lavora con dati sensibili, codice proprietario o documenti riservati, è esattamente il problema.
Ollama risolve questo con un approccio radicalmente diverso: i modelli linguistici girano direttamente sul chip del Mac, senza connessione, senza account. I dati non escono mai dal computer.
La coincidenza fortunata è che l’hardware necessario per farlo bene è diventato accessibile. Il Mac mini M4 con 16 GB di RAM unificata, presentato da Apple a fine 2024 a partire da 699 euro2Fonte: Apple Store Italia, Mac mini M4, si è rivelato una delle macchine più efficienti per l’inferenza locale. La memoria unificata dell’architettura Apple Silicon — che CPU e GPU condividono lo stesso pool di RAM — permette ai modelli di girare a velocità che i PC con GPU discrete faticano a eguagliare a parità di costo.
Ollama è lo strumento open source che rende tutto questo semplice: scarica, gestisce ed esegue Large Language Models in locale con comandi che ricordano quelli di un gestore di pacchetti. Installarsi un assistente AI privato sul Mac non è mai stato così diretto.
Indice dei contenuti

Come installare Ollama su Mac
Installare Ollama su Mac richiede meno di due minuti. Il modo più diretto è scaricare il pacchetto ufficiale da ollama.com: un file .zip che contiene l’applicazione macOS. Una volta estratto e trascinato nella cartella Applicazioni, Ollama appare nella barra dei menu come un’icona discreta.
In alternativa, chi usa Homebrew può installarlo da Terminale:
brew install ollamaAl primo avvio, Ollama non apre finestre: avvia un server locale in background sulla porta 11434. Da quel momento è raggiungibile via riga di comando o da qualsiasi client che supporti la sua API REST, compatibile con il formato OpenAI.
Requisiti minimi: macOS 11 Big Sur o versioni successive, almeno 8 GB di RAM (16 GB raccomandati per modelli di medie dimensioni), spazio su disco da 1 GB a oltre 40 GB a seconda dei modelli scelti.
Scaricare e avviare un modello
Una volta installato, il comando per scaricare un modello è:
ollama pull nome-modelloI modelli vengono scaricati una sola volta e salvati in ~/.ollama/models. Per avviare una sessione di chat interattiva:
ollama run llama3.2Se il modello non è ancora scaricato, Ollama lo preleva automaticamente dal registry ufficiale alla prima esecuzione.
Quali modelli scegliere con 16 GB di RAM
Sul Mac mini M4 con 16 GB di RAM unificata, la regola pratica è che un modello LLM richiede circa 1 GB di RAM per miliardo di parametri nella versione quantizzata a 4-bit — il formato più diffuso per l’uso in locale.
| Modello | Parametri | RAM richiesta | Adatto a 16 GB |
|---|---|---|---|
| Llama 3.2 3B | 3B | ~2 GB | ✅ |
| Mistral 7B | 7B | ~4–5 GB | ✅ |
| Llama 3.1 8B | 8B | ~5–6 GB | ✅ |
| Gemma 2 9B | 9B | ~6–7 GB | ✅ |
| Llama 3.1 70B Q4 | 70B | ~40 GB | ❌ |
Per uso quotidiano, i modelli da 7–9 miliardi di parametri rappresentano il punto di equilibrio ottimale. Mistral 7B e Llama 3.1 8B producono testi coerenti per la maggior parte dei compiti: riassunti, stesura, analisi di documenti, risposta a domande. Llama 3.2 3B è il più rapido per task semplici.

Come usare Ollama su Mac in locale
Da riga di comando
La modalità più immediata è il Terminale. Il comando ollama run apre una sessione interattiva. Per un singolo prompt:
ollama run mistral "Spiegami cos'è la memoria unificata di Apple Silicon"Ollama supporta anche il piping da stdin, utile per analizzare file di testo senza aprire interfacce:
cat documento.txt | ollama run llama3.2 "Riassumi in 5 punti"Via API REST
Ollama su Mac espone un’API REST locale compatibile con il formato OpenAI. Questo significa che qualsiasi applicazione normalmente collegata ai modelli di OpenAI o Anthropic può puntare a http://localhost:11434/v1 senza altri cambiamenti — una sostituzione plug-and-play per chi sviluppa.
Con interfacce grafiche
Per chi preferisce evitare il terminale, diversi client si appoggiano a Ollama su Mac. Open WebUI offre un’interfaccia web simile a ChatGPT, con gestione conversazioni, caricamento documenti (RAG) e cambio modello al volo. Enchanted è un’app nativa macOS disponibile su App Store con interfaccia pulita per l’uso quotidiano. Msty aggrega Ollama, OpenAI e altri provider in un’unica schermata — utile per chi vuole confrontare le risposte di modelli diversi. Chi lavora con assistenti AI più avanzati sul Mac potrebbe trovare interessante anche Moltbot, che promette un controllo totale via AI su macOS.
Utilizzi pratici dei modelli AI in locale
Le applicazioni di modelli AI in locale con Ollama coprono scenari molto concreti, accomunati da un denominatore: la privacy.
Scrittura e revisione: bozze di email, riformulazione di testi, correzione grammaticale. Il contenuto di un documento confidenziale non lascia mai il computer.
Analisi di codice: modelli come CodeLlama e Qwen2.5-Coder sono ottimizzati per comprendere e generare codice in decine di linguaggi. Utile per chi sviluppa software e non vuole inviare codice sorgente proprietario a servizi esterni.
Risposta su documenti locali: con strumenti come Anything LLM o Open WebUI, è possibile caricare PDF, note e file di testo e interrogare il modello su quel contenuto — una sorta di motore di ricerca semantico completamente privato.
Automazione offline: integrando Ollama su Mac con n8n o script Python, è possibile costruire flussi automatizzati che sfruttano l’AI senza dipendere da API esterne né da connessione internet. Un approccio che si avvicina al concetto di vibe coding: lasciare che l’AI faccia il lavoro pesante in autonomia.

I limiti reali da considerare
Qualità rispetto ai modelli frontier: i modelli da 7–9 miliardi di parametri producono risultati buoni per molte attività, ma rimangono lontani dalla qualità dei modelli di punta di OpenAI e Anthropic su compiti complessi come ragionamento multi-step o analisi approfondita. La differenza è percepibile.
Pressione sulla RAM: con 16 GB di RAM unificata, eseguire un modello da 8B con altre applicazioni aperte può causare rallentamenti. Quando la RAM è quasi satura, il modello inizia a usare lo swap su SSD, riducendo drasticamente la velocità di generazione.
Nessun aggiornamento automatico: a differenza dei servizi cloud, i modelli locali non si aggiornano da soli. Aggiornare a una nuova versione richiede un ollama pull manuale.
Multimodalità limitata: la gestione di immagini è disponibile solo su alcuni modelli (LLaVA, Llava-Phi3) e la qualità rimane inferiore ai modelli cloud analoghi.
Finestra di contesto ridotta: molti modelli open source elaborano meno testo contemporaneamente rispetto ai modelli proprietari. Questo è legato al concetto di token3Fonte: Ecco il token, la nuova unità di misura del futuro — melamorsicata.it: documenti molto lunghi possono essere troncati o elaborati in modo parziale.
Cosa cambia nella pratica con Ollama su Mac
4 vantaggi concreti
Zero costi ricorrenti: nessun abbonamento mensile, nessuna fattura per token consumati.
Privacy totale: i dati non lasciano il computer — rilevante per chi lavora con documenti legali, medici o aziendali sensibili.
Disponibilità offline: l’AI funziona senza connessione, in treno, in aereo, in luoghi con rete inaffidabile.
Sperimentazione libera: è possibile provare decine di modelli diversi senza costi e trovare quello più adatto al proprio flusso di lavoro.
Con Ollama su Mac, l’AI diventa un’infrastruttura personale: privata, offline e completamente sotto controllo.
Ollama è gratuito?
Sì, Ollama è open source e completamente gratuito. Anche i modelli più diffusi — Llama, Mistral, Gemma — sono rilasciati con licenze permissive per uso personale e commerciale. Non esistono abbonamenti né costi per token.
Qual è il miglior modello da usare con 16 GB di RAM su Mac?
Per uso generale, Llama 3.1 8B e Mistral 7B offrono il miglior equilibrio tra qualità e velocità. Per la scrittura di codice, Qwen2.5-Coder 7B è un’ottima scelta. Per risposte rapide su task semplici, Llama 3.2 3B è il più veloce.
Ollama usa la GPU del Mac?
Sì. Su Mac con Apple Silicon, Ollama su Mac utilizza automaticamente il Metal Performance Shaders (MPS) per sfruttare il chip grafico integrato. È uno dei motivi per cui i Mac Apple Silicon sono particolarmente efficienti per l’inferenza locale.
Posso usare Ollama senza connessione internet?
Sì, una volta completato il download dei modelli. Il download iniziale richiede internet, ma l’esecuzione è completamente offline — senza ping a server esterni.
Ollama funziona su Mac Intel?
Sì, ma con prestazioni significativamente inferiori. I Mac Apple Silicon sfruttano la memoria unificata in modo molto più efficiente. Su Mac Intel l’esecuzione avviene principalmente su CPU, risultando più lenta e con maggiore consumo energetico.
Quanto spazio su disco occupano i modelli?
Un modello da 7B in formato Q4 occupa circa 4–5 GB. Un modello da 70B può arrivare a 40 GB. Con un Mac mini M4, è consigliabile tenere almeno 50 GB liberi per sperimentare con più modelli.
Riferimenti:
- 1Fonte: Ollama Official Website
- 2
- 3
