Расшифровка речи интервьюера — критически важная функция Sobes Overlay. От качества распознавания зависит, насколько точными будут подсказки нейросети. Разберем все доступные модели и поможем выбрать оптимальную под ваши задачи.

Что важно при выборе модели?

WER (Word Error Rate) — процент ошибок в распознавании. Чем ниже, тем точнее модель понимает речь. Критично для технических терминов и цифр.

Latency (задержка) — скорость обработки 15-секундного фрагмента. Влияет на то, как быстро вы получите расшифровку и сможете начать формулировать ответ.

Стоимость в кредитах — важно для тех, кто проходит много собеседований и хочет оптимизировать расходы.

Кейвординг и язык — возможность улучшить распознавание через указание ключевых слов и языка интервью.

Сравнение всех моделей

Модель	WER	Latency (15 сек)	Стоимость	Кейвординг	Выбор языка	Работа с шумом
Google Gemini Flash	3.59–5%	0.50 сек	1 кредит	✅ (Не обязателен)	✅ (Не обязателен)	Отлично
Google Gemini Flash Lite	4.59–6.52%	0.36 сек	0.25 кредита	✅ (Не обязателен)	✅ (Не обязателен)	Отлично
Deepgram Nova 3	5.26-6.99%	0.7–0.95 сек	0.1 кредита	❌	❌	Плохо
AssemblyAI Universal	6.89–7.26%	0.66–0.78 сек	0.1 кредита	✅ (Желателньо)	✅ (Желательно)	Нормально
Groq Whisper V3 Turbo	7–10%	0.24–0.25 сек	0.1 кредита	⚠️ (Обязателен)	✅	Плохо
Groq Whisper V3 Large	8.4–10%	0.5–0.6 сек	0.1 кредита	⚠️ (Обязателен)	✅	Плохо

Особенности моделей

Gemini

Если у вас техническое собеседование и нет времени на настройку — берите Google Gemini (Flash или Lite). Он сам определяет язык, отлично понимает англицизмы, спокойно работает в шуме и легко справляется с переключением между русским и английским.

Deepgram Nova 3

Если собеседование проходит в идеальных условиях (тихо, хороший микрофон, один язык) — можно использовать Deepgram Nova 3, но имейте в виду, что модель не поддерживает ни кейворды, ни выбор языка и может ошибаться при слабом звуке.

AssemblyAI Universal

Если вы знаете стек и можете заранее прописать ключевые термины — подойдёт AssemblyAI Universal. Он хорошо понимает англицизмы, поддерживает кейвординг и даёт возможность задать язык вручную. Отличный выбор для смешанной речи «русский + технический английский».

Groq Whisper (V3 Large и V3 Large Turbo)

Если у вас HR-интервью или простые вопросы в тихом помещении, можно взять Groq Whisper (V3 Large/Turbo). Но важно помнить: без настроенных кейвордов (до 256 символов) он работает плохо и абсолютно не справляется с шумом.

Частые вопросы (FAQ)

Почему Whisper путает технические термины?

Потому что без кейвордов он работает плохо. Нужно обязательно их добавить (лимит — 256 символов).

Почему Deepgram не распознаёт тихую речь?

Эта модель не умеет работать с низкой громкостью. В таких случаях лучше переключиться на Gemini или AssemblyAI.

Почему пропадают слова, если есть шум?

Потому что Deepgram и Whisper не справляются с шумными условиями. Для таких ситуаций лучше использовать Gemini — он устойчив к помехам.

Почему англицизмы распознаются неправильно?

Если модель не настроена, она превращает англицизмы в «абракадабру». Здесь помогут AssemblyAI или Gemini — они понимают термины без дополнительной настройки.

Почему модель не понимает, когда я переключаюсь между русским и английским?

Проблема в том, что выбран фиксированный язык. Для смешанной речи используйте Gemini — он автоматически определяет язык.

Заключение

Золотое правило: Если сомневаетесь или нет времени на настройку — берите Gemini Flash Lite. Да, это стоит 0.25 кредита вместо 0.1, но зато работает из коробки с любыми условиями.

Для экономных: Потратьте время на настройку Whisper Turbo с правильными кейвордами — получите быструю модель за 0.1 кредита.

Для перфекционистов: Gemini Flash за 1 кредит даст максимальную точность в любых условиях.

Помните: лучше потратить больше кредитов на надежную модель, чем провалить собеседование из-за неверно распознанного вопроса!

Как выбрать модель распознавания речи для собеседования?