Skip to content

Huggingface

使用 AutoGPTQ 和 transformers 讓大語言模型更輕量化

原文: Making LLMs lighter with AutoGPTQ and transformers

大語言模型在理解和生成人類水平的文字方面所展現出的非凡能力,正在許多領域帶來應用上的革新。然而,在消費級硬件上訓練和部署大語言模型的需求也變得越來越難以滿足。

🤗 Hugging Face 的核心使命是 讓優秀的機器學習普及化 ,而這正包括了盡可能地讓所有人都能夠使用上大語言模型。本著與 bitsandbytes 合作一樣的精神,我們將 AutoGPTQ 代碼庫集成到了 Transformers 中,讓用戶使用 GPTQ 算法(Frantar et al. 2023) 在 8-bit、4-bit、3-bit,甚至是 2-bit 精度下量化和運行模型成為可能。當使用 4-bit 量化時,精度的下降相當微小,同時在小批量推理上保持著與 fp16 baseline 相當的速度。需要注意的是,GPTQ 方法與 bitsandbytes 提出的訓練後量化方法有所不同:它需要在量化階段提供一個校準數據集(calibration dataset)。

本次整合支持 Nvidia GPU 和基於 RoCm-powered 的 AMD GPU。

bitsandbytes 、4-bit quantization 和 QLoRA

原文: Making LLMs even more accessible with bitsandbytes, 4-bit quantization and QLoRA

眾所周知,LLM 參數規模龐大,在消費類硬件中運行或訓練它們對於用戶和可訪問性來說是一個巨大的挑戰。我們的 LLM.int8 博客文章 展示瞭如何使用 bitsandbytes 套件將 LLM.int8 論文中的技術集成到 transformer 中。

當我們努力讓模型更容易被任何人使用時,我們決定再次與 bitsandbytes 合作,允許用戶以 4-bit 精度運行模型。這包括任何模態(文本、視覺、多模態等)的絕大多數 HF 模型。用戶還可以利用 Hugging Face 生態系統中的工具在 4bit 模型之上訓練 adapters。這是 Dettmers 等人今天在 QLoRA 論文中介紹的一種新方法。