录制模式
自动(VAD)
当您说话时自动开始录制,在暂停时停止。非常适合连续面试。
工作原理:
- 应用程序使用 神经网络模型分析音频,能够准确区分语音和背景噪音
- 一旦检测到语音 — 录制开始
- 当出现静音时 — 录制结束并发送进行转录
- 如果语音持续时间较长,录制会自动拆分为多个部分(块)
手动(切换)
您使用快捷键 Ctrl+R 控制录制的开始和结束。适合需要仅录制特定时刻的情况。
应用程序在后台缓冲区中持续录制音频。当您按下 Ctrl+R 时,这些秒数会添加到录制的开头 — 按下之前的部分对话仍会被保存。录制会由 神经网络验证 — 如果未检测到语音,录制会被自动丢弃。
一键快照(Oneshot)
与手动模式类似,但不是从头到尾录制,而是从缓冲区中捕获固定的片段。按下快捷键 — 应用程序将保存最后 N 秒的音频。
适合需要快速捕获刚才所说内容,而无需考虑开启和关闭录制的情况。
选择录制模式
打开设置(侧边菜单中的齿轮图标),"音频录制"部分。在这里您可以选择录制模式并配置其他参数。
常规设置
音频源
| 模式 | 描述 |
|---|---|
| 系统音频 + 麦克风 | 录制系统音频(对话者)和麦克风(您)。非常适合转录对话 |
| 仅系统音频 | 仅录制系统音频。如果您只需要对话者的语音,这很有用 |
| 仅麦克风 | 仅录制麦克风。如果不需要系统音频或引起问题,请使用此选项 |
麦克风
在设置中,您可以选择特定的麦克风。如果未选择 — 使用系统默认值。
音频输出设备(Windows)
在 Windows 上,您可以选择用于捕获系统音频的设备 — 例如耳机或扬声器。应用程序将录制通过所选设备播放的音频。
自动模式设置(VAD)
拆分为块
自动将长录制拆分为单独的文件。
为什么需要这个:如果对话者不间断地说了一分钟,而问题已经在开始时提出 — 应用程序将发送第一部分进行转录,并在对话者仍在完成时开始生成回答。
块长度
一个音频文件的最大持续时间。达到此时间后,录制将被保存并开始新的块。
范围:从 5 到 10 秒。默认值:7 秒。
手动模式设置(切换)
缓冲区长度
应用程序在后台缓冲区中持续录制音频。当您按下 Ctrl+R 时,这些秒数会添加到录制的开头。如果您没有及时按下快捷键,这很有用。
范围:从 0 到 15 秒。默认值:4 秒。
一键快照模式设置(Oneshot)
快照时长
按下快捷键时从缓冲区捕获多少秒的音频。
范围:从 5 到 30 秒。默认值:20 秒。
快照后清除缓冲区
如果启用,每次快照后缓冲区会被清除。这可以防止在连续多次按下时重复发送相同的音频片段。
常见问题
录制因噪音触发
神经网络能很好地过滤非语音声音,但高水平的背景噪音可能会导致误触发。尝试在系统设置中降低麦克风灵敏度或使用耳机。
截断短语开头
在手动模式下 — 增加缓冲区长度。
录制被丢弃为空
神经网络会检查每条录制是否包含语音。如果模型未检测到语音(例如,仅录制了背景噪音或音乐),录制会被自动丢弃。请确保您的麦克风配置正确,且您的语音足够清晰。