Стриминг на уровне LLM (Large Language Models) — это процесс поэтапной передачи результатов генерации текста, когда модель начинает отдавать ответ сразу, не дожидаясь полного завершения обработки.

Это особенно важно для улучшения пользовательского опыта в чат-ботах и интерактивных приложениях, где задержка в несколько секунд может быть критичной.

Пример в Node.js с использованием потоков:

const { OpenAI } = require('openai');
const openai = new OpenAI();

async function streamCompletion() {
  const response = await openai.chat.completions.create({
    model: 'gpt-4o-mini',
    messages: [{ role: 'user', content: 'Расскажи анекдот' }],
    stream: true,
  });

  for await (const part of response) {
    process.stdout.write(part.choices[0].delta.content || '');
  }
}

streamCompletion();

Таким образом, стриминг позволяет получать части ответа по мере их генерации, что снижает время ожидания и позволяет реализовывать более интерактивные интерфейсы.

Что такое стриминг на уровне LLM?