Skip to content

GTPQ

使用 AutoGPTQ 和 transformers 讓大語言模型更輕量化

原文: Making LLMs lighter with AutoGPTQ and transformers

大語言模型在理解和生成人類水平的文字方面所展現出的非凡能力,正在許多領域帶來應用上的革新。然而,在消費級硬件上訓練和部署大語言模型的需求也變得越來越難以滿足。

🤗 Hugging Face 的核心使命是 讓優秀的機器學習普及化 ,而這正包括了盡可能地讓所有人都能夠使用上大語言模型。本著與 bitsandbytes 合作一樣的精神,我們將 AutoGPTQ 代碼庫集成到了 Transformers 中,讓用戶使用 GPTQ 算法(Frantar et al. 2023) 在 8-bit、4-bit、3-bit,甚至是 2-bit 精度下量化和運行模型成為可能。當使用 4-bit 量化時,精度的下降相當微小,同時在小批量推理上保持著與 fp16 baseline 相當的速度。需要注意的是,GPTQ 方法與 bitsandbytes 提出的訓練後量化方法有所不同:它需要在量化階段提供一個校準數據集(calibration dataset)。

本次整合支持 Nvidia GPU 和基於 RoCm-powered 的 AMD GPU。