2026-06-06

在 Ubuntu on WSL2 裡打造 localLLM 的環境

  • 硬體環境
    • CPU: 9800x3d
    • RAM: 64GB
    • GPU: Nvidia 3080-ti 12G
    • OS: Windows 11
  • 準備
  • 開始
    • 註: 我都是在"~"家目錄下
    • git clone https://github.com/ggerganov/llama.cpp
      • 把 llama.cpp 抓下來
    • cd llama.cpp(依需求選擇)
      • 分支 - llama.cpp build no GPU
        • cmake -B build
          • 這裡會跑一陣子
        • cmake --build build --config Release -j $(nproc)
          • -j $(nproc): 啟用多執行緒來進行 build
          • 這裡會跑百分比進度
          • llama.cpp 裡會多不少東西,但主要是要"bin"裡的東西
          • 註: 建議把"~/llama.cpp/bin"加到 PATH 中
      • 分支 - llama.cpp build with Nvidia GPU
        • mkdir build
        • cd build
          • build 資料匣只是為了要放 cuda toolkit 的東西
        • wget https://developer.download.nvidia.com/compute/cuda/repos/wsl-ubuntu/x86_64/cuda-keyring_1.1-1_all.deb
          • 下載 cuda toolkit(network)
        • sudo dpkg -i cuda-keyring_1.1-1_all.deb
          • 安裝 cuda toolkit(network)
          • 這裡是讓 apt repo 有 cuda toolkit 的站台,以方便之後透過 apt 安裝
        • sudo apt update
        • sudo apt install cuda-toolkit-13-3
          • 有一說 4000/5000 系列的 n 卡安裝 13.3, 其他的安裝 12.6(cuda-toolkit-12-6),雖然我的顯卡是 3080ti,但我想用 13.3
        • ls -liah /usr/local/cuda/bin
          • 如果 toolkit 安裝都正常的話,在這個路徑下就會有東西
        • export PATH=/usr/local/cuda/bin:$PATH
          • 因為之後 build llama.cpp 時會用到 nvcc,所以要把 cuda/bin 加到 PATH 中,但我個人建議加到".bashrc"
        • export LD_LIBRARY_PATH=/usr/local/cuda/lib64:$LD_LIBRARY_PATH
          • 也是在 build llama.cpp 會用到,也建議加到".bashrc"
        • cmake .. -DGGML_CUDA=ON
          • 這裡會跑一陣子
          • 註: 目前的路徑是在"~/llama.cpp/build"
        • cmake --build . --config Release -j $(nproc)
          • 這裡會跑百分比進度
          • llama.cpp/build 裡會多不少東西,但主要是要"bin"裡的東西
          • 註1: 目前的路徑是在"~/llama.cpp/build"
          • 註2: 建議把"~/llama.cpp/build/bin"也加到 PATH 中
  • 測試
    • nvcc -V
      • 如果是走有要用 N 卡的話,可以測試 nvcc
    • llama-cli --version
      • 要記得相關的 bin 要加到 PATH 中
  • CLI 啟動
    • llama-cli -hf unsloth/Qwen3.5-0.8B-GGUF:UD-Q4_K_XL
      • 顯卡有 6G 的可以使用千問這個極簡的小模型
      • 顯卡有 8G 的可以使用 unsloth/gemma-4-E4B-it-GGUF:UD-Q4_K_XL
      • 顯卡有 12G 的可以使用 unsloth/gemma-4-12b-it-GGUF:UD-Q4_K_XL
        • 這個其實會把只剛好有 12G Vram 的給吃的滿滿的,要避免一些問題的話,建議還是上 16G
  • webUI 啟動
    • llama-server -hf unsloth/gemma-4-E4B-it-GGUF:UD-Q4_K_XL --port 8088