Skip to content

llama.cpp

llama.cpp 是兩個重要場景中最好的後端:

  • 你沒有 GPU。
  • 您想要運行一個塞不進您的 GPU 顯存的模型。

模型設定

預轉換

  • 將 GGUF 模型直接下載到 text-generation-webui/models 文件夾中。這將是一個文件。
  • 建議使用 q4_K_M 量化。

手建轉換 Llama 模型

按照 llama.cpp README 中的說明生成 GGUF:

GPU 加速

使用 --n-gpu-layers 參數啟用 GPU 加速。

  • 如果您有足夠的 VRAM,請使用較高的數字(例如 --n-gpu-layers 1000)將所有層卸載到 GPU。
  • 否則,從一個較小的數字開始,例如 --n-gpu-layers 10,然後逐漸增加它,直到內存耗盡。

此功能在 Linux (amd64) 或 Windows 上的 NVIDIA GPU 上開箱即用。對於其他 GPU,您需要卸載 llama-cpp-python