死狐狸的單行本: 6月 2026

2026-06-06

在 Ubuntu on WSL2 裡打造 localLLM 的環境

硬體環境

CPU: 9800x3d
RAM: 64GB
GPU: Nvidia 3080-ti 12G
OS: Windows 11

準備

Ubuntu 24.04 on WSL2

sudo apt update
sudo apt upgrade
sudo apt install build-essential cmake git wget python3-pip

參考資料

Getting Started with LLaMA.cpp (A Complete Guide)

由此可知需要 cmake

https://github.com/ggml-org/llama.cpp

主要以此 repo 為主

Hugging Face – The AI community building the future.

下載 model 的地方
llama.cpp 有"-hf"可以直接指定 model 的方式

https://developer.download.nvidia.com/compute/cuda/repos/wsl-ubuntu/x86_64/cuda-keyring_1.1-1_all.deb

Nvida CUDA Toolkit

開始

註: 我都是在"~"家目錄下
git clone https://github.com/ggerganov/llama.cpp

把 llama.cpp 抓下來

cd llama.cpp(依需求選擇)

分支 - llama.cpp build no GPU

cmake -B build

這裡會跑一陣子

cmake --build build --config Release -j $(nproc)

-j $(nproc): 啟用多執行緒來進行 build
這裡會跑百分比進度
llama.cpp 裡會多不少東西，但主要是要"bin"裡的東西
註: 建議把"~/llama.cpp/bin"加到 PATH 中

分支 - llama.cpp build with Nvidia GPU

mkdir build
cd build

build 資料匣只是為了要放 cuda toolkit 的東西

wget https://developer.download.nvidia.com/compute/cuda/repos/wsl-ubuntu/x86_64/cuda-keyring_1.1-1_all.deb

下載 cuda toolkit(network)

sudo dpkg -i cuda-keyring_1.1-1_all.deb

安裝 cuda toolkit(network)
這裡是讓 apt repo 有 cuda toolkit 的站台，以方便之後透過 apt 安裝

sudo apt update
sudo apt install cuda-toolkit-13-3

有一說 4000/5000 系列的 n 卡安裝 13.3, 其他的安裝 12.6(cuda-toolkit-12-6)，雖然我的顯卡是 3080ti，但我想用 13.3

ls -liah /usr/local/cuda/bin

如果 toolkit 安裝都正常的話，在這個路徑下就會有東西

export PATH=/usr/local/cuda/bin:$PATH

因為之後 build llama.cpp 時會用到 nvcc，所以要把 cuda/bin 加到 PATH 中，但我個人建議加到".bashrc"

export LD_LIBRARY_PATH=/usr/local/cuda/lib64:$LD_LIBRARY_PATH

也是在 build llama.cpp 會用到，也建議加到".bashrc"

cmake .. -DGGML_CUDA=ON

這裡會跑一陣子
註: 目前的路徑是在"~/llama.cpp/build"

cmake --build . --config Release -j $(nproc)

這裡會跑百分比進度
llama.cpp/build 裡會多不少東西，但主要是要"bin"裡的東西
註1: 目前的路徑是在"~/llama.cpp/build"
註2: 建議把"~/llama.cpp/build/bin"也加到 PATH 中

測試

nvcc -V

如果是走有要用 N 卡的話，可以測試 nvcc

llama-cli --version

要記得相關的 bin 要加到 PATH 中

CLI 啟動

llama-cli -hf unsloth/Qwen3.5-0.8B-GGUF:UD-Q4_K_XL

顯卡有 6G 的可以使用千問這個極簡的小模型
顯卡有 8G 的可以使用 unsloth/gemma-4-E4B-it-GGUF:UD-Q4_K_XL
顯卡有 12G 的可以使用 unsloth/gemma-4-12b-it-GGUF:UD-Q4_K_XL

這個其實會把只剛好有 12G Vram 的給吃的滿滿的，要避免一些問題的話，建議還是上 16G

webUI 啟動

llama-server -hf unsloth/gemma-4-E4B-it-GGUF:UD-Q4_K_XL --port 8088

訂閱：文章 (Atom)