Sobes.tech
Вернуться к статьям

Как выбрать модель расшифровки речи?

AlexanderСегодня
Как выбрать модель расшифровки речи?

Качество ответов ИИ начинается не с самой языковой модели, а с расшифровки речи.
Если система неправильно услышала вопрос, дальше даже сильная модель будет отвечать на искажённый текст.

В Sobes можно выбрать разные модели распознавания речи: Groq Whisper Large v3 Turbo, OpenAI gpt-4o-mini-transcribe, Deepgram Nova-3 и Soniox STT v4. Они отличаются не только точностью, но и задержкой, режимом работы, поддержкой языков и поведением на шумных встречах.

Сначала: что меняет Realtime STT?

В интерфейсе Sobes важен не технический термин, а состояние настройки: Realtime STT выключен или Realtime STT включён.

Realtime STT выключен

Sobes отправляет на распознавание готовый кусок аудио и ждёт итоговый текст.
Так работают Groq Whisper Large v3 Turbo, OpenAI gpt-4o-mini-transcribe, а также Deepgram Nova-3 и Soniox STT v4, если Realtime STT не включён.

Это простая и стабильная схема для коротких фраз: текст приходит уже в готовом виде, без промежуточных исправлений. Обратная сторона — Sobes получает текст только после отправки аудиофрагмента. Если фраза длинная, задержка ощущается сильнее, а живого потока слов во время речи нет.

Выключенный Realtime STT лучше всего подходит для сценария, где вы сказали фразу, запись закончилась, Sobes быстро расшифровал текст и передал его ИИ.

Realtime STT включён

Sobes отправляет аудио потоком и получает промежуточный текст ещё до конца фразы.
Так работают Deepgram Nova-3 и Soniox STT v4, когда Realtime STT включён.

В потоковой расшифровке текст сначала может быть черновым: модель уточняет слова, пока человек продолжает говорить. Финализация — момент, когда фраза закончилась, модель больше не меняет этот кусок текста и Sobes может безопасно передать его дальше.

Главный смысл Realtime STT — скорость реакции. Вы видите, что система слышит прямо сейчас, длинные ответы становятся понятнее ещё до конца фразы, а автоответ можно запускать быстрее. Но промежуточный текст может меняться, качество сильнее зависит от стабильности соединения, и иногда нужно дождаться, пока модель закрепит финальный текст фразы.

Realtime STT стоит включать, когда интервьюер долго формулирует вопрос, а вам нужно видеть текст почти сразу.

В каких режимах записи работает Realtime STT?

Важный нюанс: Realtime STT работает в режимах VAD и Start / Stop. В VAD Sobes сам находит речь, начинает запись и завершает фрагмент после паузы. В Start / Stop вы вручную управляете началом и остановкой записи, но потоковая расшифровка всё равно может идти во время записи.

В One-Shot Realtime STT не используется: Sobes берёт последние секунды из аудиобуфера и отправляет на расшифровку уже готовый фрагмент.

Поэтому если вы выбрали Deepgram или Soniox, но работаете в One-Shot, ориентируйтесь на задержку из колонки «Realtime STT выключен».

Задержка расшифровки

Здесь речь именно про задержку распознавания речи: сколько Sobes в среднем ждёт текст после готового аудио или после того, как потоковая модель закрепила финальный текст фразы. Это не включает время, пока человек говорит, и не включает генерацию ответа ИИ.

Модель Realtime STT выключен Realtime STT включён Что это значит
Groq Whisper Large v3 Turbo 500-600 мс Недоступен Самый быстрый вариант без потоковой расшифровки. Хорошо подходит для коротких вопросов.
OpenAI gpt-4o-mini-transcribe 600-900 мс Недоступен Чуть медленнее Groq, но обычно аккуратнее на сложной речи.
Deepgram Nova-3 ≈900 мс ≈300 мс При включённом Realtime STT финальный текст фразы появляется заметно быстрее.
Soniox STT v4 ≈2500 мс ≈200 мс Без Realtime STT самый медленный, зато с Realtime STT быстрее всего закрепляет финальный текст.

Поэтому Realtime STT — это не просто галочка в настройках. Для Deepgram и Soniox он радикально меняет ощущение скорости: текст появляется почти сразу, а итоговая расшифровка приходит быстрее, чем при отправке готового аудиофрагмента после фразы.

Коротко: что выбрать?

Если не хочется разбираться, ориентируйтесь так:

  • Realtime STT работает в VAD и Start / Stop. В One-Shot ориентируйтесь на варианты с выключенным Realtime STT.
  • Groq Whisper Large v3 Turbo — самый быстрый вариант с выключенным Realtime STT для коротких фраз и обычных собеседований.
  • OpenAI gpt-4o-mini-transcribe — хороший вариант с выключенным Realtime STT, когда нужна более аккуратная расшифровка через OpenAI.
  • Deepgram Nova-3, Realtime STT выключен — вариант с хорошим качеством, но средней задержкой около 900 мс.
  • Deepgram Nova-3, Realtime STT включён — быстрый потоковый режим, около 300 мс до финального текста после фразы.
  • Soniox STT v4, Realtime STT выключен — точный вариант для русского и смешанных языков, но с самой высокой задержкой: около 2500 мс.
  • Soniox STT v4, Realtime STT включён — самый быстрый потоковый режим для русского и переключения между языками: около 200 мс.

Что такое WER?

WER — это Word Error Rate, доля ошибок в распознанных словах.
Чем ниже WER, тем лучше.

Например, WER 6% означает, что примерно 6 слов из 100 были распознаны с ошибкой: заменены, пропущены или добавлены лишними.

Важно: WER нельзя честно сравнивать без контекста. Одна и та же модель может показать 4% на чистой английской записи и 15% на шумном созвоне с акцентами, перебиваниями и плохим микрофоном.

Данные WER по английскому и русскому

Ниже — публичные ориентиры, а не гарантия результата на каждом собеседовании. Важно смотреть на источник: разные провайдеры используют разные датасеты и методики.

Groq Whisper Large v3 Turbo.
Groq указывает общий WER около 12%, но не публикует отдельную разбивку по английскому и русскому. Как ориентир по семейству Whisper можно смотреть FLEURS-бенчмарк: 4.00% на английском и 5.13% на русском.

OpenAI gpt-4o-mini-transcribe.
В FLEURS-бенчмарке из статьи Voxtral Realtime указано 3.65% на английском и 5.30% на русском. OpenAI отдельно заявляет более низкий WER, чем у Whisper v2/v3, но в документации не публикует простую разбивку по этим двум языкам.

Deepgram Nova-3.
Для английского Deepgram приводит 5.26% при обработке готовых записей и 6.84% в потоке. Для русского публичный сравнительный бенчмарк Soniox указывает 8.0%. Сильная сторона Deepgram — варианты английского под акценты: американский, британский, австралийский, индийский и новозеландский.

Soniox STT v4.
Soniox публикует примерно 6.5% на английском и примерно 6.2% на русском в бенчмарке на 60 языках. Для Realtime STT отдельная разбивка по английскому и русскому не опубликована, но Soniox заявляет улучшение точности потокового режима v4.

Главный вывод из цифр: для русского языка Soniox и Deepgram выглядят сильнее старых Whisper-подходов на бенчмарке с реальными записями, а gpt-4o-mini-transcribe хорошо смотрится на FLEURS. Но FLEURS, YouTube, звонки и живое собеседование — разные условия. Поэтому модель лучше выбирать не только по WER, но и по задержке.

Модели по отдельности

Groq Whisper Large v3 Turbo

Groq Whisper Large v3 Turbo — самый быстрый вариант в Sobes, когда Realtime STT выключен. Он лучше всего подходит для коротких реплик, быстрых собеседований и ситуаций, где важнее минимальная задержка, чем максимальная точность на сложной речи.

Его сильная сторона — скорость. Groq в своём ASR-гайде указывает для Whisper Large v3 Turbo общий WER около 12% и ускорение до 247x относительно длительности аудио. Это делает модель хорошим выбором для коротких реплик, где важна минимальная задержка.

Если в речи много русского, имён, аббревиатур, англицизмов, шума или сильного акцента, Groq может чаще ошибаться. В таком случае обычно стоит перейти на OpenAI или Soniox, потому что там важнее аккуратность формулировки, а не только скорость.

OpenAI gpt-4o-mini-transcribe

OpenAI gpt-4o-mini-transcribe — модель OpenAI для расшифровки готового аудиофрагмента. Она медленнее Groq Whisper Large v3 Turbo, но обычно лучше справляется с нюансами речи, техническими терминами и ситуациями, где важно не потерять детали вопроса.

OpenAI пишет, что gpt-4o-transcribe и gpt-4o-mini-transcribe улучшают WER и распознавание языков по сравнению с Whisper. В независимом FLEURS-бенчмарке для gpt-4o-mini-transcribe указаны 3.65% WER на английском и 5.30% на русском.

OpenAI gpt-4o-mini-transcribe хорошо подходит как качественный вариант с выключенным Realtime STT, если Groq Whisper Large v3 Turbo слишком часто ошибается на вашей речи или микрофоне.

Deepgram Nova-3

Deepgram силён в Realtime STT-сценариях. Nova-3 работает и с готовым аудио, и с потоком, а в документации Deepgram указывает WER 6.84% для потоковой расшифровки и 5.26% для обработки готовых записей на наборе из 2 703 реальных аудиофайлов.

В Sobes Deepgram полезен, когда вы хотите видеть текст почти сразу, а не ждать завершения фразы. С выключенным Realtime STT средняя задержка расшифровки около 900 мс, с включённым Realtime STT — около 300 мс. Это делает Deepgram удобным для длинных фраз, живых субтитров, смешанной речи и интервью на английском, особенно если у собеседника региональный акцент.

Отдельный плюс Deepgram — поддержка вариантов английского языка. Можно выбрать не только общий английский, но и конкретный вариант: американский, британский, австралийский, индийский или новозеландский английский. Это полезно на международных собеседованиях, где интервьюер говорит с непривычным акцентом, а технические термины идут вперемешку с быстрым разговорным английским.

Для русского Deepgram тоже выглядит достойно: в сравнительной таблице Soniox для русского указан WER 8.0%.

Soniox STT v4, Realtime STT выключен

Soniox STT v4 хорошо подходит для русского, смешанных языков и сложных терминов, но с выключенным Realtime STT это самый медленный вариант: средняя задержка расшифровки около 2500 мс. Его логично выбирать, когда точность на русском и смешанной речи важнее скорости ответа.

Сильная сторона Soniox — многоязычность и переключение между языками. У него большой пул не самых популярных языков, где универсальные модели часто проседают сильнее, чем на английском. Это важно и для русскоязычных собеседований, где в одной фразе легко появляются React, PostgreSQL, Kafka, thread pool, event loop и русские окончания вокруг английских терминов.

Soniox STT v4, Realtime STT включён

Soniox STT v4 с включённым Realtime STT — лучший вариант, когда нужна и русская речь, и минимальная задержка. В среднем итоговая расшифровка приходит примерно за 200 мс после фразы. Этот вариант особенно уместен в VAD и Start / Stop: текст идёт потоком, хорошо переживает русско-английские фразы и быстро закрепляет финальный текст после паузы.