介紹¶
OpenAI API 可以應用於很多不同類型的任務。OpenAI 提供一系列具有不同功能和價位的模型,並且能夠微調客製化模型。
關鍵概念¶
Text generation models¶
OpenAI 的文本生成模型(通常稱為生成式預訓練 Transformer 模型或簡稱「GPT」模型),如 GPT-4 和 GPT-3.5,已經過訓練來理解自然和形式語言。像 GPT-4 這樣的模型允許文字輸出來回應其輸入。
這些模型的輸入也稱為"提示 (prompt)"。設計提示本質上是如何「編程」GPT-4 等模型,通常是透過提供說明或一些如何成功完成任務的範例。
GPT-4 等模型可用於多種任務,包括內容或程式碼產生、摘要、對話、創意寫作等。請閱讀我們的介紹文字產生指南和提示工程指南以了解更多資訊。
Assistants¶
助理是指實體,在 OpenAI API 的情況下,它們由 GPT-4 等大型語言模型提供支持,能夠為使用者執行任務。這些助手根據模型上下文視窗中嵌入的指令進行操作。
他們通常還可以使用允許助理執行更複雜任務的工具,例如運行程式碼或從檔案中檢索資訊。在我們的 Assistants API 概述中了解有關助手的更多資訊。
Embeddings¶
嵌入是一段資料(例如某些文字)的向量表示,旨在保留其內容和/或其含義的各個方面。在某些方面相似的資料塊往往比不相關的資料具有更緊密的嵌入。
OpenAI 提供文字嵌入模型,該模型將文字字串作為輸入並產生嵌入向量作為輸出。嵌入對於搜尋、聚類、推薦、異常檢測、分類等非常有用。在我們的嵌入指南中閱讀有關嵌入的更多資訊。
Tokens¶
文字生成和嵌入模型以稱為標記的區塊的形式處理文字。標記代表常見的字元序列。例如,字串 "tokenization" 被分解為 "token" 和 "ization",而像 "the" 這樣的短而常見的單字則被表示為單一標記。請注意,在句子中,每個單字的第一個標記通常以空格字元開頭。查看我們的標記產生器工具來測試特定字串並查看它們如何轉換為標記。根據粗略的經驗,1 個標記大約相當於 4 個字元或英文文字的 0.75 個單字。
要記住的一個限制是,對於文字生成模型,提示和產生的輸出的總和不得超過模型的最大上下文長度。對於嵌入模型(不輸出標記),輸入必須短於模型的最大上下文長度。每個文字生成和嵌入模型的最大上下文長度可以在模型索引中找到。