Важно понимать, что означают токены, если вы хотите использовать модели или API OpenAI. Токены — это, по сути, части слов. Прежде чем API-интерфейсы OpenAI обработают запросы, ввод разбивается на токены. Эти токены не обязательно разделяются именно там, где начинаются или заканчиваются слова — они могут включать конечные пробелы и даже подслова.
Понимание токенов, их значения и способов их подсчета имеет решающее значение, особенно при использовании языковых моделей OpenAI, таких как GPT-3, Codex и GPT-4.
Думайте о токенах как о строительных блоках языка. Это фрагменты текста, которые языковые модели читают и пишут. В английском языке токен может состоять из одного символа или одного слова (например, «b» или «banana»). В некоторых языках токены могут быть еще короче или длиннее.
Общее количество токенов в вызове API влияет на стоимость, продолжительность и работоспособность вызова. Это связано с тем, что вы платите за токен, и существует максимальное количество токенов, которое может обработать модель.
Понимание количества токенов и управление им имеет решающее значение, поскольку OpenAI взимает плату за каждый токен. Информация об использовании вашего токена может помочь вам оценить стоимость использования моделей OpenAI. Кроме того, это помогает гарантировать, что ваши вызовы API не превышают максимальный предел токена модели.
Токенизатор OpenAI — это инструмент, который разбивает ваш ввод на токены. Этот процесс токенизации важен для языковых моделей, поскольку он позволяет им понимать и генерировать ответы на основе статистических отношений между токенами.
Вот пошаговое руководство по использованию токенизатора OpenAI:
Для программного интерфейса для токенизации текста в Python существует пакет Python под названием Tiktoken
. Это быстрый пакет токенизатора BPE, специально разработанный для моделей OpenAI. Это в 3-6 раз быстрее, чем у сопоставимых токенизаторов с открытым исходным кодом.
Чтобы использовать Tiktoken
пакет в Python, выполните следующие действия:
tiktoken
: используйте команду «%pip install –upgrade tiktoken».tiktoken
в свой файл Pythontiktoken.encoding_for_model()
метод для загрузки моделей GPT-3 или GPT-4.encoding.encode()
метода. Например, используйте encoding.encode("How many tokens are there in this text")
для расчета.Вы также можете использовать другие библиотеки для вычисления токенов на языках программирования.
GPT-3-Encoder
. Это менеджер пакетов узлов, который можно использовать для подсчета токенов в jаvascript с помощью Node.js.jtokkit
библиотекуSharpToken
библиотекуGPT-3 Encode
rOpenAI предлагает разные модели по разным ценам. Каждая модель имеет ряд возможностей, причем GPT-4 является самой дорогой. Стоимость также зависит от токенов, используемых в ваших вызовах API. Вы можете найти подробную информацию о ценах на использование API модели GPT-4 .