Sobes.tech

音频录制

关于录制和语音识别的问题

录制模式

自动(VAD)

当您说话时自动开始录制,在暂停时停止。非常适合连续面试。

工作原理:

  1. 应用程序使用 神经网络模型分析音频,能够准确区分语音和背景噪音
  2. 一旦检测到语音 — 录制开始
  3. 当出现静音时 — 录制结束并发送进行转录
  4. 如果语音持续时间较长,录制会自动拆分为多个部分(块)

手动(切换)

您使用快捷键 Ctrl+R 控制录制的开始和结束。适合需要仅录制特定时刻的情况。

应用程序在后台缓冲区中持续录制音频。当您按下 Ctrl+R 时,这些秒数会添加到录制的开头 — 按下之前的部分对话仍会被保存。录制会由 神经网络验证 — 如果未检测到语音,录制会被自动丢弃。

一键快照(Oneshot)

与手动模式类似,但不是从头到尾录制,而是从缓冲区中捕获固定的片段。按下快捷键 — 应用程序将保存最后 N 秒的音频。

适合需要快速捕获刚才所说内容,而无需考虑开启和关闭录制的情况。

选择录制模式

打开设置(侧边菜单中的齿轮图标),"音频录制"部分。在这里您可以选择录制模式并配置其他参数。


常规设置

音频源

模式描述
系统音频 + 麦克风录制系统音频(对话者)和麦克风(您)。非常适合转录对话
仅系统音频仅录制系统音频。如果您只需要对话者的语音,这很有用
仅麦克风仅录制麦克风。如果不需要系统音频或引起问题,请使用此选项

麦克风

在设置中,您可以选择特定的麦克风。如果未选择 — 使用系统默认值。

音频输出设备(Windows)

在 Windows 上,您可以选择用于捕获系统音频的设备 — 例如耳机或扬声器。应用程序将录制通过所选设备播放的音频。


自动模式设置(VAD)

拆分为块

自动将长录制拆分为单独的文件。

为什么需要这个:如果对话者不间断地说了一分钟,而问题已经在开始时提出 — 应用程序将发送第一部分进行转录,并在对话者仍在完成时开始生成回答。

如果您想更早获得提示,建议启用,但这会降低语音识别准确性。

块长度

一个音频文件的最大持续时间。达到此时间后,录制将被保存并开始新的块。

范围:从 5 到 10 秒。默认值:7 秒。


手动模式设置(切换)

缓冲区长度

应用程序在后台缓冲区中持续录制音频。当您按下 Ctrl+R 时,这些秒数会添加到录制的开头。如果您没有及时按下快捷键,这很有用。

范围:从 0 到 15 秒。默认值:4 秒。


一键快照模式设置(Oneshot)

快照时长

按下快捷键时从缓冲区捕获多少秒的音频。

范围:从 5 到 30 秒。默认值:20 秒。

快照后清除缓冲区

如果启用,每次快照后缓冲区会被清除。这可以防止在连续多次按下时重复发送相同的音频片段。


常见问题

录制因噪音触发

神经网络能很好地过滤非语音声音,但高水平的背景噪音可能会导致误触发。尝试在系统设置中降低麦克风灵敏度或使用耳机。

截断短语开头

在手动模式下 — 增加缓冲区长度。

录制被丢弃为空

神经网络会检查每条录制是否包含语音。如果模型未检测到语音(例如,仅录制了背景噪音或音乐),录制会被自动丢弃。请确保您的麦克风配置正确,且您的语音足够清晰。