Современные реалии таковы, что не каждый бизнес может себе позволить сайт, особенно стартующий бизнес. Поэтому выгодно воспользоваться конструктором сайтов, например filandor.com . Запуск сайта через несколько минут.

Workers AI — это наша бессерверная платформа вывода на базе графического процессора, работающая поверх глобальной сети Cloudflare. Он предоставляет растущий каталог готовых моделей, которые прекрасно работают с Workers и позволяют разработчикам создавать мощные и масштабируемые приложения искусственного интеллекта за считанные минуты. Мы уже видели, как разработчики делают удивительные вещи с помощью Workers AI, и нам не терпится увидеть, что они делают, продолжая расширять платформу. С этой целью сегодня мы рады объявить о некоторых из наших наиболее востребованных новых функций: потоковая передача ответов для всех моделей большого языка (LLM) на Workers AI, увеличенные окна контекста и последовательности, а также вариант модели Llama-2 с полной точностью. .
Если вы раньше использовали ChatGPT, то вы знакомы с преимуществами потоковой передачи ответов, когда ответы передаются токен за токеном. LLM работают внутри компании, последовательно генерируя ответы с использованием процесса повторяющегося вывода — полный результат модели LLM, по сути, представляет собой последовательность сотен или тысяч отдельных задач прогнозирования. По этой причине, хотя генерация одного токена занимает всего несколько миллисекунд, генерация полного ответа занимает больше времени, порядка секунд. Хорошей новостью является то, что мы можем начать отображать ответ, как только будут сгенерированы первые токены, и добавлять каждый дополнительный токен, пока ответ не будет завершен. Это обеспечивает гораздо лучший опыт для конечного пользователя — постепенное отображение текста по мере его создания не только обеспечивает мгновенное реагирование, но также дает конечному пользователю время для чтения и интерпретации текста.
На сегодняшний день вы можете использовать потоковую передачу ответов для любой модели LLM в нашем каталоге, включая очень популярную модель Llama-2. Вот как это работает.
События, отправляемые сервером: маленькая жемчужина в API браузера
События, отправляемые сервером, просты в использовании, легко реализуются на стороне сервера, стандартизированы и широко доступны на многих платформах как в исходном виде, так и в виде полифила. События, отправляемые сервером, заполняют нишу обработки потока обновлений с сервера, устраняя необходимость в стандартном коде, который в противном случае был бы необходим для обработки потока событий.
Легко использовать | Потоковое вещание | Двунаправленный | |
---|---|---|---|
принести | ✅ | ||
События, отправленные сервером | ✅ | ✅ | |
Вебсокеты | ✅ | ✅ |
Чтобы начать использовать потоковую передачу в моделях генерации текста Workers AI с событиями, отправленными сервером, установите для параметра «stream» значение true во входных данных запроса. Это изменит формат ответа и mime-type
к text/event-stream
.
Вот пример использования потоковой передачи с REST API:
curl -X POST \
"https://api.cloudflare.com/client/v4/accounts/<account>/ai/run/@cf/meta/llama-2-7b-chat-int8" \
-H "Authorization: Bearer <token>" \
-H "Content-Type:application/json" \
-d '{ "prompt": "where is new york?", "stream": true }'
data: {"response":"New"}
data: {"response":" York"}
data: {"response":" is"}
data: {"response":" located"}
data: {"response":" in"}
data: {"response":" the"}
...
data: [DONE]
А вот пример использования Worker-скрипта:
import { Ai } from "@cloudflare/ai";
export default {
async fetch(request, env, ctx) {
const ai = new Ai(env.AI, { sessionOptions: { ctx: ctx } });
const stream = await ai.run(
"@cf/meta/llama-2-7b-chat-int8",
{ prompt: "where is new york?", stream: true }
);
return new Response(stream,
{ headers: { "content-type": "text/event-stream" } }
);
}
}
Если вы хотите использовать выходной поток событий от этого Worker на странице браузера, клиентский JavaScript будет выглядеть примерно так:
const source = new EventSource("/worker-endpoint");
source.onmessage = (event) => {
if(event.data=="[DONE]") {
// SSE spec says the connection is restarted
// if we don't explicitly close it
source.close();
return;
}
const data = JSON.parse(event.data);
el.innerHTML += data.response;
}
Вы можете использовать этот простой код с любой простой HTML-страницей, сложными одностраничными интерфейсами с использованием React или других веб-фреймворков.
Это создает гораздо более интерактивный опыт для пользователя, который теперь видит обновление страницы по мере постепенного создания ответа, вместо того, чтобы ждать с помощью счетчика, пока будет сгенерирована вся последовательность ответов. Попробуйте потоковую передачу на ai.cloudflare.com.

Workers AI поддерживает потоковую передачу текстовых ответов для модели Llama-2 и любых будущих моделей LLM, которые мы добавляем в наш каталог.
Но это еще не все.
Более высокая точность, большая длина контекста и последовательности
Еще один популярный запрос, который мы услышали от нашего сообщества после запуска Workers AI, касался более длинных вопросов и ответов в нашей модели Llama-2. В терминологии LLM это означает более высокую длину контекста (количество токенов, которые модель принимает в качестве входных данных перед выполнением прогноза) и более высокую длину последовательности (количество токенов, которые модель генерирует в ответе).
Мы слушаем, и сегодня в сочетании с потоковой передачей мы добавляем в каталог более высокий 16-битный вариант Llama-2 полной точности, а также увеличиваем длину контекста и последовательности для существующей 8-битной версии.
Модель | Длина контекста (в дюймах) | Длина последовательности (выход) |
---|---|---|
@cf/meta/llama-2-7b-chat-int8 | 2048 (ранее 768) | 1800 (ранее 256) |
@cf/meta/llama-2-7b-chat-fp16 | 3072 | 2500 |
Потоковая передача, более высокая точность, а также более длинные контексты и последовательности обеспечивают лучший пользовательский опыт и позволяют создавать новые, более многофункциональные приложения, использующие большие языковые модели в Workers AI.
Дополнительную информацию и варианты можно найти в документации разработчика Workers AI. Если у вас есть какие-либо вопросы или отзывы о Workers AI, посетите нас в сообществе Cloudflare и в Discord Cloudflare.
Если вы заинтересованы в машинном обучении и бессерверном искусственном интеллекте, команда Cloudflare Workers AI создает глобальную платформу и инструменты, которые позволяют нашим клиентам выполнять быстрые задачи вывода с малой задержкой поверх нашей сети. Посетите нашу страницу вакансий, чтобы узнать о возможностях.