Встраивания
Узнайте, как преобразовывать текст в числа, что открывает такие возможности, как поиск.
Обзор
text-embedding-3-small
и text-embedding-3-large
, наши новейшие и самые производительные модели встраивания, теперь доступны с более низкой стоимостью, высокой многоязычной производительностью и новыми параметрами для управления общим размером.
Что такое встраивания?
Текстовые встраивания OpenAI измеряют связанность строк текста. Встраивания обычно используются для:
- Поиска (где результаты ранжируются по релевантности к строке запроса)
- Кластеризации (где строки текста группируются по сходству)
- Рекомендаций (где рекомендуются элементы с похожими строками текста)
- Обнаружения аномалий (где выявляются аутсайдеры с низкой связанностью)
- Измерения разнообразия (где анализируются распределения сходства)
- Классификации (где строки текста классифицируются по их наиболее похожему ярлыку)
Встраивание представляет собой вектор (список) чисел с плавающей запятой. Расстояние между двумя векторами измеряет их связанность. Малые расстояния указывают на высокую связанность, а большие расстояния указывают на низк ую связанность.
Посетите нашу страницу ценообразования, чтобы узнать о стоимости встраиваний. Запросы оплачиваются на основе количества токенов во входных данных.
Как получить встраивания
Чтобы получить встраивание, отправьте строку текста на конечную точку API встраиваний вместе с названием модели встраивания (например, text-embedding-3-small
). Ответ будет содержать встраивание (список чисел с плавающей запятой), которое вы можете извлечь, сохранить в векторной базе данных и использовать для множества различных случаев использования:
Пример: получение встраиваний
curl https://api.openai.com/v1/embeddings \
-H "Content-Type: application/json" \
-H "Authorization: Bearer $OPENAI_API_KEY" \
-d '{
"input": "Ваш текст здесь",
"model": "text-embedding-3-small"
}'
Ответ будет содержать вектор встраивания вместе с некоторыми дополнительными метаданными.
Пример ответа со встраиванием
{
"object": "list",
"data": [
{
"object": "embedding",
"index": 0,
"embedding": [
-0.006929283495992422,
-0.005336422007530928,
... (опущено для краткости)
-4.547132266452536e-05,
-0.024047505110502243
],
}
],
"model": "text-embedding-3-small",
"usage": {
"prompt_tokens": 5,
"total_tokens": 5
}
}
По умолчанию длина вектора встраивания составляет 1536 для text-embedding-3-small
или 3072 для text-embedding-3-large
. Вы можете уменьшить размерность встраивания, передав параметр dimensions
без п отери его концептуальных свойств. Подробности о размерностях встраиваний приведены в разделе о случаях использования встраиваний.
Модели встраивания
OpenAI предлагает две мощные модели встраивания третьего поколения (обозначенные -3
в идентификаторе модели). Вы можете ознакомиться с подробностями в блоге об анонсе встраиваний v3.
Использование оплачивается за входной токен, ниже приведен пример стоимости страниц текста в долларах США (предполагается около 800 токенов на страницу):
МОДЕЛЬ | ~ СТРАНИЦ НА ДОЛЛАР | ПРОИЗВОДИТЕЛЬНОСТЬ НА MTEB ОЦЕНКЕ | МАКС. ВХОД |
---|---|---|---|
text-embedding-3-small | 62,500 | 62.3% | 8191 |
text-embedding-3-large | 9,615 | 64.6% | 8191 |
text-embedding-ada-002 | 12,500 | 61.0% | 8191 |