Sobes.tech

音频录制

关于录制和语音识别的问题

录制模式

自动(VAD)

当您说话时自动开始录制,在暂停时停止。非常适合连续面试。

工作原理:

  1. 应用程序监听音频并等待音量超过阈值
  2. 一旦出现语音 - 录制开始
  3. 当出现静音时 - 录制结束并发送进行转录
  4. 如果语音持续时间较长,录制会自动拆分为多个部分(块)

手动(切换)

您使用快捷键 Ctrl+R 控制录制的开始和结束。适合需要仅录制特定时刻的情况。

应用程序在后台缓冲区中持续录制音频。当您按下 Ctrl+R 时,这些秒数会添加到录制的开头 - 按下之前的部分对话仍会被保存。

选择录制模式

打开设置(侧边菜单中的齿轮图标),"音频录制"部分。在这里您可以选择录制模式并配置其他参数。


常规设置

音频源

模式 描述
系统音频 + 麦克风 录制系统音频(对话者)和麦克风(您)。非常适合转录对话
仅系统音频 仅录制系统音频。如果您只需要对话者的语音,这很有用
仅麦克风 仅录制麦克风。如果不需要系统音频或引起问题,请使用此选项

麦克风

在设置中,您可以选择特定的麦克风。如果未选择 - 使用系统默认值。

降噪

去除背景噪音、键盘点击声和其他干扰。建议启用以获得清晰的语音录制,这可以提高语音识别的准确性和质量。


自动模式设置(VAD)

静音阈值

对语音的敏感度。较低的值 - 应用程序对安静的声音做出反应。较高的值 - 只有大声的语音才会开始录制。

级别 声音示例
-75 dB 呼吸
-65 dB 背景噪音
-55 dB 耳语
-45 dB 轻声说话
-35 dB 正常说话
-25 dB 大声说话

拆分为块

自动将长录制拆分为单独的文件。

为什么需要这个:如果对话者不间断地说了一分钟,而问题已经在开始时提出 - 应用程序将发送第一部分进行转录,并在对话者仍在完成时开始生成回答。

如果您想更早获得提示,建议启用,但这会降低语音识别准确性。

块长度

一个音频文件的最大持续时间。达到此时间后,录制将被保存并开始新的块。

范围:从 5 到 10 秒。默认值:7 秒。


手动模式设置(切换)

缓冲区长度

应用程序在后台缓冲区中持续录制音频。当您按下 Ctrl+R 时,这些秒数会添加到录制的开头。如果您没有及时按下快捷键,这很有用。

范围:从 0 到 15 秒。默认值:4 秒。


常见问题

录制因噪音触发

增加静音阈值(例如,从 -40 到 -30 dB)或启用降噪。

截断短语开头

在自动模式下 - 降低静音阈值。在手动模式下 - 增加缓冲区长度。

未录制系统音频

在 macOS 上,您需要在安全设置中允许应用程序捕获屏幕。