OpenLLM 支持的模型¶
OpenLLM 目前支持以下模型。默認情況下,OpenLLM 不包含運行所有模型的依賴項。可以按照以下說明安裝額外的特定於模型所需要的依賴套件。
Llama¶
安裝:
要使用 OpenLLM 運行 Llama 模型,您需要安裝 llama 依賴項,因為默認情況下未安裝它。
快速開始:
運行以下命令快速啟動 Llama 2
服務器並向其發送請求。
或是使用量化模型(--quantize int8
或 --quantize int4
):
openllm start llama --model-id meta-llama/Llama-2-7b-chat-hf --quantize int4
openllm start llama --model-id ziqingyang/chinese-alpaca-2-7b --quantize int4 --serialisation legacy
或是使用 GTPQ 模型:
Tip
要運行 GPTQ
量化過的模型必需要額外安裝下列的依賴套件:
檢查:
Info
要使用官方 Llama 2 模型,您必須通過訪問 Meta AI 網站並接受其許可條款和可接受的使用政策來獲得訪問權限。您還需要在 Hugging Face 上獲取這些模型的訪問權限。請注意,如果您可訪問官方 Llama 2 模型,則任何 Llama 2 變體都可以使用 OpenLLM 進行部署。訪問 Hugging Face 模型中心查看更多 Llama 2 兼容模型。
模型支持¶
您可以使用 --model-id
指定以下任何 Llama 模型。
- meta-llama/Llama-2-70b-chat-hf
- meta-llama/Llama-2-13b-chat-hf
- meta-llama/Llama-2-7b-chat-hf
- meta-llama/Llama-2-70b-hf
- meta-llama/Llama-2-13b-hf
- meta-llama/Llama-2-7b-hf
- NousResearch/llama-2-70b-chat-hf
- NousResearch/llama-2-13b-chat-hf
- NousResearch/llama-2-7b-chat-hf
- NousResearch/llama-2-70b-hf
- NousResearch/llama-2-13b-hf
- NousResearch/llama-2-7b-hf
- openlm-research/open_llama_7b_v2
- openlm-research/open_llama_3b_v2
- openlm-research/open_llama_13b
- huggyllama/llama-65b
- huggyllama/llama-30b
- huggyllama/llama-13b
- huggyllama/llama-7b
- 任何其他嚴格遵循 LlamaForCausalLM 架構的模型
推論後台支援¶
-
PyTorch (Default):
-
vLLM (Recommended):
pip install "openllm[llama, vllm]" openllm start llama --model-id meta-llama/Llama-2-7b-chat-hf --backend vllm
Info
目前,使用 vLLM 後端時,不支持量化(quantization)和適配器(adapter)。
ChatGLM¶
安裝:
要使用 OpenLLM 運行 ChatGLM 模型,您需要安裝 chatglm
依賴項,因為默認情況下未安裝它。
快速開始:
運行以下命令快速啟動 ChatGLM
服務器並向其發送請求。
檢查:
模型支持¶
您可以使用 --model-id
指定以下任何 ChatGLM 模型。
- thudm/chatglm-6b
- thudm/chatglm-6b-int8
- thudm/chatglm-6b-int4
- thudm/chatglm2-6b
- thudm/chatglm2-6b-int4
- 嚴格遵循 ChatGLMForConditionalGeneration 架構的任何其他模型
推論後台支援¶
-
PyTorch (Default):
Dolly-v2¶
安裝:
安裝 openllm 後,Dolly-v2
模型不需要安裝任何特定於模型的依賴項。
快速開始:
運行以下命令快速啟動 Dolly-v2
服務器並向其發送請求。
檢查:
模型支持¶
您可以使用 --model-id
指定以下任何 Dolly-v2 模型。
- databricks/dolly-v2-3b
- databricks/dolly-v2-7b
- databricks/dolly-v2-12b
- 嚴格遵循 GPTNeoXForCausalLM 架構的任何其他模型
推論後台支援¶
-
PyTorch (Default):
-
vLLM (Recommended):
Info
目前,使用 vLLM 後端時,不支持量化(quantization)和適配器(adapter)。
Falcon¶
安裝:
要使用 OpenLLM 運行 Falcon 模型,您需要安裝 falcon
依賴項,因為默認情況下未安裝它。
快速開始:
運行以下命令快速啟動 Falcon
服務器並向其發送請求。
或是使用量化模型(--quantize int8
或 --quantize int4
):
或是使用 GTPQ 模型:
Tip
要運行 GPTQ
量化過的模型必需要額外安裝下列的依賴套件:
檢查:
模型支持¶
您可以使用 --model-id
指定以下任何 Falcon 模型。
- tiiuae/falcon-7b
- tiiuae/falcon-40b
- tiiuae/falcon-7b-instruct
- tiiuae/falcon-40b-instruct
- 任何其他嚴格遵循 FalconForCausalLM 架構的模型
推論後台支援¶
-
PyTorch (Default):
-
vLLM (Recommended):
Info
目前,使用 vLLM 後端時,不支持量化(quantization)和適配器(adapter)。
Flan-T5¶
安裝:
要使用 OpenLLM 運行 Flan-T5 模型,您需要安裝 flan-t5
依賴項,因為默認情況下未安裝它。
快速開始:
運行以下命令快速啟動 Flan-T5
服務器並向其發送請求。
或是使用量化模型(--quantize int8
或 --quantize int4
):
檢查:
模型支持¶
您可以使用 --model-id
指定以下任何 Flan-T5 模型。
- google/flan-t5-small
- google/flan-t5-base
- google/flan-t5-large
- google/flan-t5-xl
- google/flan-t5-xxl
- 任何其他嚴格遵循 T5ForConditionalGeneration 架構的模型
推論後台支援¶
-
PyTorch (Default):
-
Flax:
-
TensorFlow:
GPT-NeoX¶
安裝:
安裝 openllm 後,GPT-NeoX 模型不需要安裝任何特定於模型的依賴項。
快速開始:
運行以下命令快速啟動 GPT-NeoX
服務器並向其發送請求。
檢查:
模型支持¶
您可以使用 --model-id
指定以下任何 Falcon 模型。
- eleutherai/gpt-neox-20b
- 任何其他嚴格遵循 GPTNeoXForCausalLM 架構的模型
推論後台支援¶
-
PyTorch (Default):
-
vLLM (Recommended):
Info
目前,使用 vLLM 後端時,不支持量化(quantization)和適配器(adapter)。
MPT¶
安裝:
要使用 OpenLLM 運行 MPT 模型,您需要安裝 mpt
依賴項,因為默認情況下未安裝它。
快速開始:
運行以下命令快速啟動 MPT
服務器並向其發送請求。
檢查:
模型支持¶
您可以使用 --model-id
指定以下任何 MPT 模型。
- mosaicml/mpt-7b
- mosaicml/mpt-7b-instruct
- mosaicml/mpt-7b-chat
- mosaicml/mpt-7b-storywriter
- mosaicml/mpt-30b
- mosaicml/mpt-30b-instruct
- mosaicml/mpt-30b-chat
- 任何其他嚴格遵循 MPTForCausalLM 架構的模型
推論後台支援¶
-
PyTorch (Default):
-
vLLM (Recommended):
Info
目前,使用 vLLM 後端時,不支持量化(quantization)和適配器(adapter)。
OPT¶
安裝:
要使用 OpenLLM 運行 OPT 模型,您需要安裝 opt
依賴項,因為默認情況下未安裝它。
快速開始:
運行以下命令快速啟動 OPT
服務器並向其發送請求。
檢查:
模型支持¶
您可以使用 --model-id
指定以下任何 OPT 模型。
-facebook/opt-125m -facebook/opt-350m -facebook/opt-1.3b -facebook/opt-2.7b -facebook/opt-6.7b -facebook/opt-66b - 任何其他嚴格遵循 OPTForCausalLM 架構的模型
推論後台支援¶
-
PyTorch (Default):
-
vLLM (Recommended):
Info
目前,使用 vLLM 後端時,不支持量化(quantization)和適配器(adapter)。
-
TensorFlow:
-
Flax:
StableLM¶
安裝:
安裝 openllm 後,StableLM 模型不需要安裝任何特定於模型的依賴項。
快速開始:
運行以下命令快速啟動 StableLM
服務器並向其發送請求。
檢查:
模型支持¶
您可以使用 --model-id
指定以下任何 StableLM 模型。
-stabilityai/stablelm-tuned-alpha-3b -stabilityai/stablelm-tuned-alpha-7b -stabilityai/stablelm-base-alpha-3b -stabilityai/stablelm-base-alpha-7b - 任何其他嚴格遵循 GPTNeoXForCausalLM 架構的模型
推論後台支援¶
-
PyTorch (Default):
-
vLLM (Recommended):
Info
目前,使用 vLLM 後端時,不支持量化(quantization)和適配器(adapter)。
StarCoder¶
安裝:
要使用 OpenLLM 運行 StarCoder 模型,您需要安裝 starcoder
依賴項,因為默認情況下未安裝它。
快速開始:
運行以下命令快速啟動 StarCoder
服務器並向其發送請求。
檢查:
模型支持¶
您可以使用 --model-id
指定以下任何 StarCoder 模型。
-bigcode/starcoder -bigcode/starcoderbase - 任何其他嚴格遵循 GPTBigCodeForCausalLM 架構的模型
推論後台支援¶
-
PyTorch (Default):
-
vLLM (Recommended):
pip install "openllm[startcoder, vllm]" openllm start startcoder --model-id bigcode/starcoder --backend vllm
Info
目前,使用 vLLM 後端時,不支持量化(quantization)和適配器(adapter)。
Baichuan¶
安裝:
要使用 OpenLLM 運行 Baichuan 模型,您需要安裝 baichuan
依賴項,因為默認情況下未安裝它。
快速開始:
運行以下命令快速啟動 Baichuan
服務器並向其發送請求。
檢查:
模型支持¶
您可以使用 --model-id
指定以下任何 Baichuan 模型。
-baichuan-inc/baichuan-7b -baichuan-inc/baichuan-13b-base -baichuan-inc/baichuan-13b-chat -fireballoon/baichuan-vicuna-chinese-7b -fireballoon/baichuan-vicuna-7b -hiyouga/baichuan-7b-sft - 任何其他嚴格遵循 BaiChuanForCausalLM 架構的模型
推論後台支援¶
-
PyTorch (Default):
-
vLLM (Recommended):
pip install "openllm[baichuan, vllm]" openllm start baichuan --model-id baichuan-inc/baichuan-13b-base --backend vllm
Info
目前,使用 vLLM 後端時,不支持量化(quantization)和適配器(adapter)。
更多模型將與 OpenLLM 集成,如果您想將自定義 LLM 納入生態系統,我們歡迎您的貢獻。查看添加新模型指南以了解更多信息。