- 硬體環境
- CPU: 9800x3d
- RAM: 64GB
- GPU: Nvidia 3080-ti 12G
- OS: Windows 11
- 準備
- Ubuntu 24.04 on WSL2
- sudo apt update
- sudo apt upgrade
- sudo apt install build-essential cmake git wget python3-pip
- 參考資料
- Getting Started with LLaMA.cpp (A Complete Guide)
- 由此可知需要 cmake
- https://github.com/ggml-org/llama.cpp
- 主要以此 repo 為主
- Hugging Face – The AI community building the future.
- 下載 model 的地方
- llama.cpp 有"-hf"可以直接指定 model 的方式
- https://developer.download.nvidia.com/compute/cuda/repos/wsl-ubuntu/x86_64/cuda-keyring_1.1-1_all.deb
- Nvida CUDA Toolkit
- 開始
- 註: 我都是在"~"家目錄下
- git clone https://github.com/ggerganov/llama.cpp
- 把 llama.cpp 抓下來
- cd llama.cpp(依需求選擇)
- 分支 - llama.cpp build no GPU
- cmake -B build
- 這裡會跑一陣子
- cmake --build build --config Release -j $(nproc)
- -j $(nproc): 啟用多執行緒來進行 build
- 這裡會跑百分比進度
- llama.cpp 裡會多不少東西,但主要是要"bin"裡的東西
- 註: 建議把"~/llama.cpp/bin"加到 PATH 中
- 分支 - llama.cpp build with Nvidia GPU
- mkdir build
- cd build
- build 資料匣只是為了要放 cuda toolkit 的東西
- wget https://developer.download.nvidia.com/compute/cuda/repos/wsl-ubuntu/x86_64/cuda-keyring_1.1-1_all.deb
- 下載 cuda toolkit(network)
- sudo dpkg -i cuda-keyring_1.1-1_all.deb
- 安裝 cuda toolkit(network)
- 這裡是讓 apt repo 有 cuda toolkit 的站台,以方便之後透過 apt 安裝
- sudo apt update
- sudo apt install cuda-toolkit-13-3
- 有一說 4000/5000 系列的 n 卡安裝 13.3, 其他的安裝 12.6(cuda-toolkit-12-6),雖然我的顯卡是 3080ti,但我想用 13.3
- ls -liah /usr/local/cuda/bin
- 如果 toolkit 安裝都正常的話,在這個路徑下就會有東西
- export PATH=/usr/local/cuda/bin:$PATH
- 因為之後 build llama.cpp 時會用到 nvcc,所以要把 cuda/bin 加到 PATH 中,但我個人建議加到".bashrc"
- export LD_LIBRARY_PATH=/usr/local/cuda/lib64:$LD_LIBRARY_PATH
- 也是在 build llama.cpp 會用到,也建議加到".bashrc"
- cmake .. -DGGML_CUDA=ON
- 這裡會跑一陣子
- 註: 目前的路徑是在"~/llama.cpp/build"
- cmake --build . --config Release -j $(nproc)
- 這裡會跑百分比進度
- llama.cpp/build 裡會多不少東西,但主要是要"bin"裡的東西
- 註1: 目前的路徑是在"~/llama.cpp/build"
- 註2: 建議把"~/llama.cpp/build/bin"也加到 PATH 中
- 測試
- nvcc -V
- 如果是走有要用 N 卡的話,可以測試 nvcc
- llama-cli --version
- 要記得相關的 bin 要加到 PATH 中
- CLI 啟動
- llama-cli -hf unsloth/Qwen3.5-0.8B-GGUF:UD-Q4_K_XL
- 顯卡有 6G 的可以使用千問這個極簡的小模型
- 顯卡有 8G 的可以使用 unsloth/gemma-4-E4B-it-GGUF:UD-Q4_K_XL
- 顯卡有 12G 的可以使用 unsloth/gemma-4-12b-it-GGUF:UD-Q4_K_XL
- 這個其實會把只剛好有 12G Vram 的給吃的滿滿的,要避免一些問題的話,建議還是上 16G
- webUI 啟動
- llama-server -hf unsloth/gemma-4-E4B-it-GGUF:UD-Q4_K_XL --port 8088
2026-06-06
在 Ubuntu on WSL2 裡打造 localLLM 的環境
訂閱:
張貼留言 (Atom)
沒有留言:
張貼留言