Режимы записи

Режим записи определяет, что произойдет, когда вы нажмете кнопку записи или горячую клавишу. Во всех режимах приложение отправляет на расшифровку только фрагменты, где обнаружена речь.

Автоматический (VAD)

VAD подходит для обычного разговора, интервью или созвона, где речь может начинаться и заканчиваться без вашего участия.

Важно: VAD нужно включить кнопкой записи или горячей клавишей. После включения приложение начинает слушать звук и само определяет, где есть речь. Когда кто-то говорит, фрагмент записывается. После паузы запись закрывается и отправляется на расшифровку. Когда вы выключаете VAD, приложение перестает анализировать звук.

Как работает:

Вы включаете VAD
Приложение слушает выбранные источники звука и ищет речь
Когда речь обнаружена, начинается запись фрагмента
После паузы фрагмент отправляется на расшифровку
Если речь длится долго, запись может разбиваться на части (чанки)

Схема VAD: включение, определение речи, запись и расшифровка

Ручной (Start/Stop)

Toggle подходит, когда вы хотите сами выбрать начало и конец фрагмента. Первое нажатие кнопки записи или Ctrl+R начинает запись, второе нажатие завершает ее и отправляет аудио на расшифровку.

Перед стартом приложение держит короткий фоновый буфер. Если вы нажали горячую клавишу чуть позже начала фразы, первые секунды все равно добавятся в запись. Если в получившемся фрагменте нет речи, он автоматически отбрасывается.

Схема Start / Stop: буфер, старт, запись, стоп и расшифровка

Мгновенная запись (OneShot)

Oneshot подходит для вопросов, которые нужно дослушать до конца. Не включайте запись заранее: дождитесь, пока собеседник закончит фразу, и нажмите кнопку записи или Ctrl+R. Приложение возьмет последние секунды из буфера, расшифрует их и использует для ответа.

Этот режим удобен, когда вы не знаете заранее, какой момент окажется важным. Он не пишет длинный фрагмент между стартом и стопом, а делает один короткий снимок недавнего аудио.

Схема One-shot: фоновый буфер, последние секунды, хоткей и расшифровка

Выбор режима записи

Откройте настройки (шестеренка в боковом меню), раздел "Запись звука". Здесь вы можете выбрать режим записи и настроить другие параметры.

Все настройки записи

Настройки захвата находятся в настройках приложения, раздел "Запись звука". Часть пунктов появляется только для выбранного режима записи, источника звука, платформы или версии приложения.

Основные настройки

Источник звука виден всегда. Он выбирает, что записывать: системный звук + микрофон, только системный звук или только микрофон.

Режим записи виден всегда. Он определяет поведение кнопки записи: VAD, Toggle или Oneshot.

Микрофон появляется, если выбран источник звука с микрофоном. Здесь можно выбрать конкретное устройство. Если оставить вариант по умолчанию, будет использоваться системный микрофон.

Устройство вывода появляется на Windows, если выбран источник с системным звуком. Здесь выбираются динамики или наушники, звук из которых будет записываться.

Источник звука

Системный звук + микрофон подходит для созвонов и интервью: в расшифровку попадет и ваш голос, и звук собеседника.

Только системный звук записывает звук приложения или собеседника. Ваш микрофон в расшифровку не попадет.

Только микрофон записывает только ваш голос. Используйте этот вариант, если системный звук не нужен или мешает.

Настройки VAD

Разбивать на чанки находится в расширенных настройках VAD и включено по умолчанию. Настройка делит длинную речь на отдельные аудиофайлы, чтобы расшифровка и ответ могли начаться раньше.

Длина чанка появляется в расширенных настройках VAD, если включено разбиение на чанки. Диапазон: от 5 до 15 секунд, по умолчанию 7 секунд. Это максимальная длина одного аудиофрагмента перед отправкой на расшифровку.

Триггер остановки записи (микрофон) появляется в расширенных настройках VAD, если источник включает микрофон. Диапазон: от 0.5 до 5 секунд, по умолчанию 0.5 секунды. Настройка определяет, сколько тишины с микрофона нужно, чтобы завершить текущий речевой фрагмент.

Триггер остановки записи (системный звук) появляется в расширенных настройках VAD, если источник включает системный звук. Диапазон: от 0.5 до 5 секунд, по умолчанию 1 секунда. Настройка определяет, сколько тишины в системном звуке нужно, чтобы завершить текущий речевой фрагмент.

Расширенные VAD-настройки лучше менять только если запись слишком рано обрывается, слишком долго ждет паузу или часто отправляет лишние фрагменты.

Настройки Toggle

Длина буфера видна в Toggle. Диапазон: от 0 до 15 секунд, по умолчанию 4 секунды. Буфер добавляет к началу записи несколько секунд до нажатия, если вы включили запись чуть позже начала фразы.

Отправлять скриншоты с аудио видно в Toggle, включено по умолчанию. Настройка автоматически прикрепляет скриншоты из чата к аудиофрагменту.

Проверять аудио на наличие речи находится в расширенных настройках Toggle, включено по умолчанию. Запись прогоняется через Silero VAD, а фрагменты без речи отбрасываются. Выключайте только если нужно отправлять любое аудио, включая тишину и шум.

Настройки Oneshot

Длина захвата видна в Oneshot. Диапазон: от 5 до 60 секунд, по умолчанию 20 секунд. Она определяет, сколько последних секунд взять из буфера при нажатии.

Очищать буфер после захвата видно в Oneshot и выключено по умолчанию. Если включить настройку, буфер будет очищаться после каждого снимка, чтобы следующее нажатие не отправило уже расшифрованный фрагмент повторно.

Отправлять скриншоты с аудио видно в Oneshot, включено по умолчанию. Настройка автоматически прикрепляет скриншоты из чата к аудиофрагменту.

Проверять аудио на наличие речи находится в расширенных настройках Oneshot, включено по умолчанию. Запись прогоняется через Silero VAD, а фрагменты без речи отбрасываются. Выключайте только если нужно отправлять любое аудио, включая тишину и шум.

Частые вопросы

Запись срабатывает от шума

Нейросеть хорошо фильтрует не-речевые звуки, но высокий уровень фонового шума может приводить к ложным срабатываниям. Попробуйте уменьшить чувствительность микрофона в системных настройках или использовать гарнитуру.

Обрезает начало фраз

В ручном режиме — увеличьте длину буфера.

Записи отбрасываются как пустые

Нейросеть проверяет каждую запись на наличие речи. Если модель не обнаруживает голос (например, записан только фоновый шум или музыка), запись автоматически отбрасывается. Убедитесь, что микрофон корректно настроен и ваша речь достаточно чёткая.