Ollama 介紹
Ollama 是一款相當方便使用的本地大模型命令行工具,使用者可以透過 Ollama,使用一些簡單的命令,就能在本地下載與執行語言模型。
可以到 https://ollama.com/ 下載來安裝
在 Mac 上用
brew install ollama
命令來安裝的話,預設開機不會自動執行,需用命令ollama serve
執行。用瀏覽器開啟 http://127.0.0.1:11434 可以看到ollama is running
字樣。11434
是 Ollama 預設的 port,等下會用到。
Ollama 網站裡 https://ollama.com/search 可以找到各種可以在本地運行的模型,
如要安裝近期較佳的本地模型如 gemma3 或 qwen3,可運行命令如 ollama run gemma3
,若本地沒有此模型,就會先自動下載 Google 的 gemma3 模型,下載完後自動在本機執行。
(選擇想要使用的模型後,在右上角可以直接複製對應的命令)
用命令 ollama list
即可查看已安裝的模型:
NAME ID SIZE MODIFIED
qwen2.5-coder:7b 2b0496514337 4.7 GB 2 months ago
nomic-embed-text:latest 0a109f422b47 274 MB 4 months ago
前面 NAME
表示下載的模型名稱,SIZE
表示模型佔用的空間。
用命令 ollama --help
可以查看其他支援的命令。
如何挑適合的大模型
- 同一代的本地模型數字越大,能力越強
- 剩餘多大的 RAM -> 跑多少 B 的模型
一般而言,在同一架構或系列的本地模型中,參數規模(通常以 B 為單位表示)較大的模型往往擁有更強的理解和生成能力。在執行順暢的前提下盡量跑大一點的模型,最終得到的效果會更出色。
在選擇模型時,機器剩餘的 RAM 容量是很重要的限制。模型的運行需要佔用大量的系統記憶體(RAM)。模型的參數規模越大,所需的 RAM 也越高。因此機器剩餘的 RAM 大小,直接影響可以跑得動的本地模型。
簡單的選擇方法是看你的系統在跑作業系統和開啟各種服務後,還剩餘多大的 RAM,就可以跑多少 B 的模型。 一種特別狀況是特別標注使用 4 bit 採樣的本地模型,可以跑 RAM x2 倍大小的模型。
就自己的使用經驗,使用 Mac M2 + 16GB RAM 的機型,標示小於 8B 的模型大都可以跑的順,再大的話執行時就比較容易出現系統卡頓等問題,影響使用體驗。
用 Holesail 遠端跑本地模型
要順暢的使用本地模型,除了在本機上使用小一點的本地模型跑之外,還有一種選擇,就是將較大的本地模型跑在更強勁的桌機上,遠端連線回去使用,但是傳統的遠端連線設定較麻煩,需要處理各種網路設定後才能使用。
我使用 holesail 這個點對點的新工具,它可以將遠端機器的 port 對應到本地機器的某個 port,從而得到類似在本地執行的效果(底層也是使用 holepunch 的技術)。
可以透過命令 npm install -g holesail
安裝 holesail。
在桌機上:
執行 Ollama 服務後,使用命令
$ holesail --live 11434 --host localhost
11434
是 Ollama 預設的 port,這命令的作用是通知 holesail 將 port 11434
映射出去。
這時 holesail 會回報一個雜湊碼(hashcode),將這個雜湊碼透過備忘錄等工具記下來,將在另一台機器上使用。
在想使用 Ollama 服務的本地機器上,輸入以下命令
holesail [hashcode]
會回報另一個 port (ex: 8989),這時 holesail 已經將遠端主機的 port 11434
上的服務,映射到本地 port 8989
上,若用瀏覽器開啟網址 http://127.0.0.1:8989 ,可以看到 ollama is running
字樣,表示跑在桌機上的 Ollama 已經透過 port 8989 得以模擬在本機執行。
透過 Cherry Studio 使用本地模型
Ollama 提供了命令行介面,但是一般使用時還是用類似 ChatGPT 的介面更方便。
目前我比較常用的是 Cherry Studio
這套工具(透過 brew cherry-studio
安裝),可以方便的在各家線上大模型與本地模型間切換,也提供許多預設的助手類型可供選擇 (或再進一步修改)。
到設定 > 模型提供者 > Ollama
,將 API 主機地址
改為 http://127.0.0.1:8989/v1/
,再選擇想使用的模型,如此一來就可以在本機上正常使用桌機上的本地模型了。