LLM¶

建立 LLM 應用程式所需了解的一切

本文提供了對文件載入器、詞嵌入、向量儲存和提示模板的 step-by-step 教學內容。

GPT¾、Falcon 和 LLama 等大型語言模型 (LLM) 處理以人為中心的任務的能力正在迅速提高，成為現代知識型產業的重要工具。然而，在現實世界的任務中部署這些模型仍然具有挑戰性：

這些挑戰的關鍵在於增強 LLM 的計算和儲存能力，特別是在處理廣泛的輸入序列時。

在這篇文章中，我們將回顧撰寫本文時最有效的技術，以應對高效 LLM 部署的這些挑戰：

Lower Precision: 研究表明，降低的 LLM 模型參數的數值精度（即 8-bit 和 4-bit）可以實現計算優勢，而不會顯著降低模型性能。
Flash Attention: Flash Attention 是 attention 演算法的變體，它不僅提供了一種更節省記憶體的方法，而且由於優化了 GPU 記憶體利用率而實現了效率的提高。
Architectural Innovations: 考慮到 LLM 在推論過程中總是以相同的方式部署，即具有長輸入上下文的自回歸文本生成 (autoregressive text generation)，因此提出了專門的模型架構，以實現更有效的推論。模型架構中最重要的進展是 Alibi、Rotary embeddings、Multi-Query Attention (MQA) 和 Grouped-Query-Attention (GQA)。

在本文的範示筆記本中，我們將從張量的角度對自迴歸產生進行分析。我們深入研究了採用較低精度的利弊，對最新的注意力演算法進行了全面的探索，並討論了改進的 LLM 架構。在此過程中，我們運行實際範例來展示每項功能改進。