Tokens¶
我們的語言模型理解 token 而不是字符或字節。一個 token 可以是單詞的一部分、整個單詞或標點符號。像 "water" 這樣非常常見的詞會有自己獨特的標記。較長、頻率較低的單詞可能會被編碼為 2-3 個標記,例如 "waterfall" 被編碼為兩個標記,一個代表 "water",另一個代表 "fall"。請注意,標記化對空格和大寫敏感。
以下是一些用於校准文本中標記數量的參考:
- 一個單詞往往包含 2-3 個標記。
- 一首歌的歌詞大約有 128 個標記。
- 這篇文章大約有 300 個標記。
每個單詞的標記數量取決於文本的複雜性。簡單文本平均每個單詞可能接近 1 個標記,而複雜文本可能使用不太常見的單詞,平均每個單詞需要 3-4 個標記。我們的表示模型目前僅限於處理最大長度為 512
個標記的序列。生成模型最多支持 4096
個標記。
我們的令牌詞彙表(vocabulary of tokens)是使用 Byte Pair Encoding 創建的。
採樣時如何選取 max_tokens
¶
確定大量令牌的最簡單方法是使用我們的遊樂場進行猜測和檢查。通常會請求比所需數量更多的令牌,然後運行額外的處理來檢索所需的輸出。