Расшифровка речи интервьюера — критически важная функция Sobes Overlay. От качества распознавания зависит, насколько точными будут подсказки нейросети. Разберем все доступные модели и поможем выбрать оптимальную под ваши задачи.
Что важно при выборе модели?
WER (Word Error Rate) — процент ошибок в распознавании. Чем ниже, тем точнее модель понимает речь. Критично для технических терминов и цифр.
Latency (задержка) — скорость обработки 15-секундного фрагмента. Влияет на то, как быстро вы получите расшифровку и сможете начать формулировать ответ.
Стоимость в кредитах — важно для тех, кто проходит много собеседований и хочет оптимизировать расходы.
Кейвординг и язык — возможность улучшить распознавание через указание ключевых слов и языка интервью.
Сравнение всех моделей
Модель | WER | Latency (15 сек) | Стоимость | Кейвординг | Выбор языка | Работа с шумом |
---|---|---|---|---|---|---|
Google Gemini Flash | 3.59–5% | 0.50 сек | 1 кредит | ✅ (Не обязателен) | ✅ (Не обязателен) | Отлично |
Google Gemini Flash Lite | 4.59–6.52% | 0.36 сек | 0.25 кредита | ✅ (Не обязателен) | ✅ (Не обязателен) | Отлично |
Deepgram Nova 3 | 5.26-6.99% | 0.7–0.95 сек | 0.1 кредита | ❌ | ❌ | Плохо |
AssemblyAI Universal | 6.89–7.26% | 0.66–0.78 сек | 0.1 кредита | ✅ (Желателньо) | ✅ (Желательно) | Нормально |
Groq Whisper V3 Turbo | 7–10% | 0.24–0.25 сек | 0.1 кредита | ⚠️ (Обязателен) | ✅ | Плохо |
Groq Whisper V3 Large | 8.4–10% | 0.5–0.6 сек | 0.1 кредита | ⚠️ (Обязателен) | ✅ | Плохо |
Особенности моделей
Gemini
Если у вас техническое собеседование и нет времени на настройку — берите Google Gemini (Flash или Lite). Он сам определяет язык, отлично понимает англицизмы, спокойно работает в шуме и легко справляется с переключением между русским и английским.
Deepgram Nova 3
Если собеседование проходит в идеальных условиях (тихо, хороший микрофон, один язык) — можно использовать Deepgram Nova 3, но имейте в виду, что модель не поддерживает ни кейворды, ни выбор языка и может ошибаться при слабом звуке.
AssemblyAI Universal
Если вы знаете стек и можете заранее прописать ключевые термины — подойдёт AssemblyAI Universal. Он хорошо понимает англицизмы, поддерживает кейвординг и даёт возможность задать язык вручную. Отличный выбор для смешанной речи «русский + технический английский».
Groq Whisper (V3 Large и V3 Large Turbo)
Если у вас HR-интервью или простые вопросы в тихом помещении, можно взять Groq Whisper (V3 Large/Turbo). Но важно помнить: без настроенных кейвордов (до 256 символов) он работает плохо и абсолютно не справляется с шумом.
Частые вопросы (FAQ)
Почему Whisper путает технические термины?
Потому что без кейвордов он работает плохо. Нужно обязательно их добавить (лимит — 256 символов).
Почему Deepgram не распознаёт тихую речь?
Эта модель не умеет работать с низкой громкостью. В таких случаях лучше переключиться на Gemini или AssemblyAI.
Почему пропадают слова, если есть шум?
Потому что Deepgram и Whisper не справляются с шумными условиями. Для таких ситуаций лучше использовать Gemini — он устойчив к помехам.
Почему англицизмы распознаются неправильно?
Если модель не настроена, она превращает англицизмы в «абракадабру». Здесь помогут AssemblyAI или Gemini — они понимают термины без дополнительной настройки.
Почему модель не понимает, когда я переключаюсь между русским и английским?
Проблема в том, что выбран фиксированный язык. Для смешанной речи используйте Gemini — он автоматически определяет язык.
Заключение
Золотое правило: Если сомневаетесь или нет времени на настройку — берите Gemini Flash Lite. Да, это стоит 0.25 кредита вместо 0.1, но зато работает из коробки с любыми условиями.
Для экономных: Потратьте время на настройку Whisper Turbo с правильными кейвордами — получите быструю модель за 0.1 кредита.
Для перфекционистов: Gemini Flash за 1 кредит даст максимальную точность в любых условиях.
Помните: лучше потратить больше кредитов на надежную модель, чем провалить собеседование из-за неверно распознанного вопроса!