DevTurtle logo DevTurtle

Ollama – Guida per eseguire modelli di LLM in locale

Ollama è uno strumento open source che permette di eseguire i large language model (LLM) direttamente sul tuo computer locale senza dover dipendere da servizi cloud a pagamento. In questa guida vedremo come installarlo e come utilizzarlo.

Si tratta di un framework leggero che fornisce un’API semplice per l’esecuzione e la gestione di modelli linguistici, insieme a una libreria di modelli pre-costruiti che possono essere facilmente utilizzati in un’ampia varietà di contesti.

Perché eseguire gli LLM in locale?

  • Sicurezza: quando si utilizzano LLM locali, i dati rimangono sul proprio computer, garantendo il pieno controllo delle informazioni.
  • Utilizzo offline: eseguire LLM in locale elimina la necessità di connettersi a Internet.
  • Convenienza economia: i servizi di AI in cloud sono solitamente pay-per-use. Grazie ad Ollama è possibile usare il proprio hardware per eseguire i modelli in maniera completamente gratuita.

Prerequisiti per installare Ollama

I prerequisiti hardware per l’esecuzione di LLM su Ollama possono variare a seconda della dimensione del modello che viene misurata in “miliardi di parametri” (B). Di seguito alcune stime indicative:

  • almeno 8 GB di RAM per i modelli 3B;
  • almeno 16 GB di RAM per i modelli 7B;
  • almeno 32 GB di RAM per i modelli 13B.

Ovviamente la qualità del modello e i risultati che riesce a fornire è proporzionale al numero di parametri su cui esso è installato.

Installare Ollama

Ollama è nativamente compatibile con sistemi operativi Linux o Apple ma recentemente è stata rilasciata anche la versione per Windows che è ancora in beta testing. Su Windows è anche possibile installare la versione Linux a patto di aver prima installato il WSL (Windows Subsystem for Linux).

E’ possibile scaricare la versione compatibile con la propria macchina al seguente link: download Ollama. Per chi preferisce la versione containerizzata, è disponibile anche l’immagine Docker che può essere scaricata da Docker Hub.

Una volta installato ed avviato, per verificare che tutto sia andato a buon fine è possibile eseguire la seguente istruzione nel terminale:

ollama --help

Nel caso in cui il comando venga riconosciuto significa che siete pronti per eseguire il vostro primo LLM in locale.

LLM compatibili

Ollama è compatibile con diversi modelli. Di seguito quelli più conosciuti:

  • llama3: modello sviluppato da Meta Inc. e addestrato su dialoghi e chat. E’ disponibile in due varianti da 8B e 70B.
  • Gemma: modello sviluppato da Google e disponibile in due versioni da 2B e 7B. E’ una versione light di Gemini, addestrato su documenti web.
  • Mistral: un modello open tra i più famosi (distribuito con licenza Apache). Distribuito in una versione da 7.3B.
  • Phi-3 Mini: modello light da 3.8B addestrato da Microsoft su dati di siti web.

Oltre a questi, Ollama dispone anche di altri modelli ed è importante scegliere quello giusto in base all’utilizzo che si vuole fare. Ad esempio esistono modelli addestrati su codice sorgente di applicazioni e sono più idonei se si vuole usarli per scrivere codice (es: Codegemma o Codellama).

Avviare llama3 su Ollama

In questo tutorial proveremo il modello llama3 8B. Per scaricarlo ed eseguirlo è sufficiente lanciare il console il seguente comando:

ollama run llama3

Il modello pesa circa 4.7GB quindi, una volta lanciato il comando bisogna attendere il termine del download. Una volta concluso sarà possibile chattare da linea di comando come nel seguente esempio:

Ollama - llama3 conversation
Ollama – llama3 conversation

Da un primo test, il modello llama3 sembra avere delle buone capacità generative (non solo in inglese) pur essendo leggero e compatibile con l’hardware di un generico personal-computer. E’ quindi un’ottima scelta che suggerisco di provare. In ogni caso, avendo scaricato Ollama potrete divertirvi a provare personalmente tutti i modelli e valutare quale sia quello giusto per le vostre esigenze.

Comandi principali Ollama

Abbiamo visto già il comando “run” che serve per avviare un modello ma Ollama dispone anche di altri comandi utili che riassumerò di seguito.

Scaricare un modello:

ollama pull <nome-modello>

Lista dei modelli:

ollama list

Cancellare un modello:

ollama rm <nome-modello>

Spero che la guida sia vi sia stata utile e vi invito a leggere i prossimi articoli su questo tema.