Качество ответов ИИ начинается не с самой языковой модели, а с расшифровки речи.
Если система неправильно услышала вопрос, дальше даже сильная модель будет отвечать на искажённый текст.
В Sobes можно выбрать разные модели распознавания речи: Groq Whisper Large v3 Turbo, OpenAI gpt-4o-mini-transcribe, Deepgram Nova-3 и Soniox STT v4. Они отличаются не только точностью, но и задержкой, режимом работы, поддержкой языков и поведением на шумных встречах.
Сначала: что меняет Realtime STT?
В интерфейсе Sobes важен не технический термин, а состояние настройки: Realtime STT выключен или Realtime STT включён.
Realtime STT выключен
Sobes отправляет на распознавание готовый кусок аудио и ждёт итоговый текст.
Так работают Groq Whisper Large v3 Turbo, OpenAI gpt-4o-mini-transcribe, а также Deepgram Nova-3 и Soniox STT v4, если Realtime STT не включён.
Это простая и стабильная схема для коротких фраз: текст приходит уже в готовом виде, без промежуточных исправлений. Обратная сторона — Sobes получает текст только после отправки аудиофрагмента. Если фраза длинная, задержка ощущается сильнее, а живого потока слов во время речи нет.
Выключенный Realtime STT лучше всего подходит для сценария, где вы сказали фразу, запись закончилась, Sobes быстро расшифровал текст и передал его ИИ.
Realtime STT включён
Sobes отправляет аудио потоком и получает промежуточный текст ещё до конца фразы.
Так работают Deepgram Nova-3 и Soniox STT v4, когда Realtime STT включён.
В потоковой расшифровке текст сначала может быть черновым: модель уточняет слова, пока человек продолжает говорить. Финализация — момент, когда фраза закончилась, модель больше не меняет этот кусок текста и Sobes может безопасно передать его дальше.
Главный смысл Realtime STT — скорость реакции. Вы видите, что система слышит прямо сейчас, длинные ответы становятся понятнее ещё до конца фразы, а автоответ можно запускать быстрее. Но промежуточный текст может меняться, качество сильнее зависит от стабильности соединения, и иногда нужно дождаться, пока модель закрепит финальный текст фразы.
Realtime STT стоит включать, когда интервьюер долго формулирует вопрос, а вам нужно видеть текст почти сразу.
В каких режимах записи работает Realtime STT?
Важный нюанс: Realtime STT работает в режимах VAD и Start / Stop. В VAD Sobes сам находит речь, начинает запись и завершает фрагмент после паузы. В Start / Stop вы вручную управляете началом и остановкой записи, но потоковая расшифровка всё равно может идти во время записи.
В One-Shot Realtime STT не используется: Sobes берёт последние секунды из аудиобуфера и отправляет на расшифровку уже готовый фрагмент.
Поэтому если вы выбрали Deepgram или Soniox, но работаете в One-Shot, ориентируйтесь на задержку из колонки «Realtime STT выключен».
Задержка расшифровки
Здесь речь именно про задержку распознавания речи: сколько Sobes в среднем ждёт текст после готового аудио или после того, как потоковая модель закрепила финальный текст фразы. Это не включает время, пока человек говорит, и не включает генерацию ответа ИИ.
| Модель | Realtime STT выключен | Realtime STT включён | Что это значит |
|---|---|---|---|
| Groq Whisper Large v3 Turbo | 500-600 мс | Недоступен | Самый быстрый вариант без потоковой расшифровки. Хорошо подходит для коротких вопросов. |
OpenAI gpt-4o-mini-transcribe |
600-900 мс | Недоступен | Чуть медленнее Groq, но обычно аккуратнее на сложной речи. |
| Deepgram Nova-3 | ≈900 мс | ≈300 мс | При включённом Realtime STT финальный текст фразы появляется заметно быстрее. |
| Soniox STT v4 | ≈2500 мс | ≈200 мс | Без Realtime STT самый медленный, зато с Realtime STT быстрее всего закрепляет финальный текст. |
Поэтому Realtime STT — это не просто галочка в настройках. Для Deepgram и Soniox он радикально меняет ощущение скорости: текст появляется почти сразу, а итоговая расшифровка приходит быстрее, чем при отправке готового аудиофрагмента после фразы.
Коротко: что выбрать?
Если не хочется разбираться, ориентируйтесь так:
- Realtime STT работает в VAD и Start / Stop. В One-Shot ориентируйтесь на варианты с выключенным Realtime STT.
- Groq Whisper Large v3 Turbo — самый быстрый вариант с выключенным Realtime STT для коротких фраз и обычных собеседований.
- OpenAI gpt-4o-mini-transcribe — хороший вариант с выключенным Realtime STT, когда нужна более аккуратная расшифровка через OpenAI.
- Deepgram Nova-3, Realtime STT выключен — вариант с хорошим качеством, но средней задержкой около 900 мс.
- Deepgram Nova-3, Realtime STT включён — быстрый потоковый режим, около 300 мс до финального текста после фразы.
- Soniox STT v4, Realtime STT выключен — точный вариант для русского и смешанных языков, но с самой высокой задержкой: около 2500 мс.
- Soniox STT v4, Realtime STT включён — самый быстрый потоковый режим для русского и переключения между языками: около 200 мс.
Что такое WER?
WER — это Word Error Rate, доля ошибок в распознанных словах.
Чем ниже WER, тем лучше.
Например, WER 6% означает, что примерно 6 слов из 100 были распознаны с ошибкой: заменены, пропущены или добавлены лишними.
Важно: WER нельзя честно сравнивать без контекста. Одна и та же модель может показать 4% на чистой английской записи и 15% на шумном созвоне с акцентами, перебиваниями и плохим микрофоном.
Данные WER по английскому и русскому
Ниже — публичные ориентиры, а не гарантия результата на каждом собеседовании. Важно смотреть на источник: разные провайдеры используют разные датасеты и методики.
Groq Whisper Large v3 Turbo.
Groq указывает общий WER около 12%, но не публикует отдельную разбивку по английскому и русскому. Как ориентир по семейству Whisper можно смотреть FLEURS-бенчмарк: 4.00% на английском и 5.13% на русском.
OpenAI gpt-4o-mini-transcribe.
В FLEURS-бенчмарке из статьи Voxtral Realtime указано 3.65% на английском и 5.30% на русском. OpenAI отдельно заявляет более низкий WER, чем у Whisper v2/v3, но в документации не публикует простую разбивку по этим двум языкам.
Deepgram Nova-3.
Для английского Deepgram приводит 5.26% при обработке готовых записей и 6.84% в потоке. Для русского публичный сравнительный бенчмарк Soniox указывает 8.0%. Сильная сторона Deepgram — варианты английского под акценты: американский, британский, австралийский, индийский и новозеландский.
Soniox STT v4.
Soniox публикует примерно 6.5% на английском и примерно 6.2% на русском в бенчмарке на 60 языках. Для Realtime STT отдельная разбивка по английскому и русскому не опубликована, но Soniox заявляет улучшение точности потокового режима v4.
Главный вывод из цифр: для русского языка Soniox и Deepgram выглядят сильнее старых Whisper-подходов на бенчмарке с реальными записями, а gpt-4o-mini-transcribe хорошо смотрится на FLEURS. Но FLEURS, YouTube, звонки и живое собеседование — разные условия. Поэтому модель лучше выбирать не только по WER, но и по задержке.
Модели по отдельности
Groq Whisper Large v3 Turbo
Groq Whisper Large v3 Turbo — самый быстрый вариант в Sobes, когда Realtime STT выключен. Он лучше всего подходит для коротких реплик, быстрых собеседований и ситуаций, где важнее минимальная задержка, чем максимальная точность на сложной речи.
Его сильная сторона — скорость. Groq в своём ASR-гайде указывает для Whisper Large v3 Turbo общий WER около 12% и ускорение до 247x относительно длительности аудио. Это делает модель хорошим выбором для коротких реплик, где важна минимальная задержка.
Если в речи много русского, имён, аббревиатур, англицизмов, шума или сильного акцента, Groq может чаще ошибаться. В таком случае обычно стоит перейти на OpenAI или Soniox, потому что там важнее аккуратность формулировки, а не только скорость.
OpenAI gpt-4o-mini-transcribe
OpenAI gpt-4o-mini-transcribe — модель OpenAI для расшифровки готового аудиофрагмента. Она медленнее Groq Whisper Large v3 Turbo, но обычно лучше справляется с нюансами речи, техническими терминами и ситуациями, где важно не потерять детали вопроса.
OpenAI пишет, что gpt-4o-transcribe и gpt-4o-mini-transcribe улучшают WER и распознавание языков по сравнению с Whisper. В независимом FLEURS-бенчмарке для gpt-4o-mini-transcribe указаны 3.65% WER на английском и 5.30% на русском.
OpenAI gpt-4o-mini-transcribe хорошо подходит как качественный вариант с выключенным Realtime STT, если Groq Whisper Large v3 Turbo слишком часто ошибается на вашей речи или микрофоне.
Deepgram Nova-3
Deepgram силён в Realtime STT-сценариях. Nova-3 работает и с готовым аудио, и с потоком, а в документации Deepgram указывает WER 6.84% для потоковой расшифровки и 5.26% для обработки готовых записей на наборе из 2 703 реальных аудиофайлов.
В Sobes Deepgram полезен, когда вы хотите видеть текст почти сразу, а не ждать завершения фразы. С выключенным Realtime STT средняя задержка расшифровки около 900 мс, с включённым Realtime STT — около 300 мс. Это делает Deepgram удобным для длинных фраз, живых субтитров, смешанной речи и интервью на английском, особенно если у собеседника региональный акцент.
Отдельный плюс Deepgram — поддержка вариантов английского языка. Можно выбрать не только общий английский, но и конкретный вариант: американский, британский, австралийский, индийский или новозеландский английский. Это полезно на международных собеседованиях, где интервьюер говорит с непривычным акцентом, а технические термины идут вперемешку с быстрым разговорным английским.
Для русского Deepgram тоже выглядит достойно: в сравнительной таблице Soniox для русского указан WER 8.0%.
Soniox STT v4, Realtime STT выключен
Soniox STT v4 хорошо подходит для русского, смешанных языков и сложных терминов, но с выключенным Realtime STT это самый медленный вариант: средняя задержка расшифровки около 2500 мс. Его логично выбирать, когда точность на русском и смешанной речи важнее скорости ответа.
Сильная сторона Soniox — многоязычность и переключение между языками. У него большой пул не самых популярных языков, где универсальные модели часто проседают сильнее, чем на английском. Это важно и для русскоязычных собеседований, где в одной фразе легко появляются React, PostgreSQL, Kafka, thread pool, event loop и русские окончания вокруг английских терминов.
Soniox STT v4, Realtime STT включён
Soniox STT v4 с включённым Realtime STT — лучший вариант, когда нужна и русская речь, и минимальная задержка. В среднем итоговая расшифровка приходит примерно за 200 мс после фразы. Этот вариант особенно уместен в VAD и Start / Stop: текст идёт потоком, хорошо переживает русско-английские фразы и быстро закрепляет финальный текст после паузы.
