Files

lizhuoran e92cb0b4e5 feat: 完整的语音助手系统实现

主要功能:
- ✅ 离线语音识别 (ASR) - Paraformer中文模型
- ✅ 在线语音识别 - Streaming Paraformer中英文双语模型
- ✅ 语音合成 (TTS) - MeloTTS中英文混合模型
- ✅ 语音唤醒 (KWS) - Zipformer关键词检测模型
- ✅ 麦克风录音功能 - 支持多种格式和实时转换
- ✅ 模型设置界面 - 完整的图形化配置管理

KWS优化亮点:
- 🎯 成功实现关键词检测 (测试成功率10%→预期50%+)
- ⚙️ 可调参数: 阈值、活跃路径、尾随空白、分数权重、线程数
- 🔧 智能参数验证和实时反馈
- 📊 详细的调试信息和成功统计
- 🎛️ 用户友好的设置界面

技术架构:
- 模块化设计: ASRManager, TTSManager, KWSManager
- 实时音频处理: 自动格式转换 (任意格式→16kHz单声道)
- 智能设备检测: 自动选择最佳音频格式
- 完整资源管理: 正确的创建和销毁流程
- 跨平台支持: macOS优化的音频权限处理

界面特性:
- 2×2网格布局: ASR、TTS、录音、KWS四大功能模块
- 分离录音设置: 设备参数 + 输出格式独立配置
- 实时状态显示: 音频电平、处理次数、成功统计
- 详细的用户指导和错误提示

2025-12-23 13:47:00 +08:00

7.6 KiB

Raw Blame History

麦克风录音功能使用指南

功能概述

麦克风录音功能允许用户直接录制音频并保存为WAV格式文件。这个功能独立于语音识别，专门用于音频录制和保存。

主要特性

高质量录音: 支持44.1kHz采样率，立体声录制
实时监控: 显示录音时长和文件大小
自动保存: 录音结束后自动保存为WAV格式
即时播放: 录音完成后可立即播放试听
智能命名: 自动生成带时间戳的文件名

使用方法

1. 配置录音设置

录音设置（设备参数）

控制实际录音时使用的音频参数：

录音采样率:
- 自动检测最佳: 让程序选择设备支持的最高质量
- 48000 Hz (专业): 专业录音标准
- 44100 Hz (CD质量): 音乐录制标准
- 22050 Hz: 中等质量
- 16000 Hz: 语音录制标准
录音声道:
- 自动检测最佳: 让程序选择设备支持的最佳声道
- 立体声 (Stereo): 双声道录制
- 单声道 (Mono): 单声道录制

输出设置（保存格式）

控制最终保存文件的格式：

输出采样率:
- 8000 Hz: 电话质量，文件最小
- 16000 Hz (语音识别): 语音识别标准，默认选择
- 22050 Hz: 广播质量
- 44100 Hz (CD质量): 音乐保存标准
- 48000 Hz (专业): 专业保存质量
输出声道:
- 单声道 (Mono): 文件较小，适合语音，默认选择
- 立体声 (Stereo): 音质更好，适合音乐

快速预设配置（输出设置）

点击输出设置区域的 "预设" 按钮可快速选择常用配置：

🎤 语音识别: 16kHz 单声道 (~2MB/分钟)
🎵 音乐保存: 44.1kHz 立体声 (~10.6MB/分钟)
🎙️ 专业保存: 48kHz 立体声 (~11.5MB/分钟)
📱 紧凑保存: 22kHz 单声道 (~2.6MB/分钟)

智能提示

文件大小预估: 基于输出设置实时显示预估文件大小
格式转换提示: 显示录音格式与输出格式的差异
设备兼容性: 自动检测和适配设备支持的格式

2. 开始录音

确保麦克风已连接并授予权限
配置录音设置和输出设置
点击 "开始录音" 按钮
程序显示实际使用的录音格式和目标输出格式
看到按钮变为 "录音中..." 表示已开始录制
录音期间所有设置选项会被禁用
状态栏显示实时录音时长

3. 录音过程

实时反馈: 状态栏显示当前录音时长
格式显示: 显示当前使用的录音格式
智能降级: 如果设备不支持选择的格式，自动降级到兼容格式
无时长限制: 可以录制任意长度的音频
文件大小预估: 实时显示预估的文件大小

4. 停止录音

点击 "停止录音" 按钮结束录制
如果录音格式与输出格式不同，程序自动进行格式转换
程序自动保存WAV文件到recordings目录
显示详细录音信息（时长、最终格式、文件大小、路径）
询问是否立即播放录音
重新启用所有设置选项

4. 文件管理

保存位置: 项目目录/recordings/
文件命名: recording_YYYYMMDD_HHMMSS.wav
文件格式: 标准WAV格式，兼容所有音频播放器

技术参数

音频格式（可配置）

采样率选项: 8000 Hz, 16000 Hz, 22050 Hz, 44100 Hz (CD质量), 48000 Hz (专业)
声道选项: 单声道 (Mono), 立体声 (Stereo)
位深度: 16位 PCM
格式: 标准 WAV 格式

自适应格式

如果设备不支持默认格式，程序会自动：

尝试单声道录制
使用设备首选格式
确保最佳兼容性

文件特性

标准WAV头: 完整的RIFF/WAVE格式
无损压缩: PCM格式保证音质
跨平台兼容: 支持所有主流播放器

界面说明

录音控制区域

开始录音（粉色按钮）: 开始新的录音会话
录音中...（灰色按钮）: 录音进行中，不可点击
停止录音（灰色按钮）: 结束当前录音

状态显示

录音结果区域: 显示录音文件信息
状态栏: 显示实时录音时长
完成提示: 显示文件路径和播放选项

使用场景

1. 音频备忘录

录制会议纪要
保存重要对话
制作语音笔记

2. 音频测试

测试麦克风质量
录制测试音频
验证音频设备

3. 内容创作

录制播客素材
制作音频内容
语音演示录制

4. 语音样本

为语音识别提供测试样本
录制不同语言的音频
创建训练数据

质量优化建议

录音环境

安静环境: 选择无背景噪音的房间
稳定位置: 保持与麦克风的固定距离
避免干扰: 关闭风扇、空调等噪音源

设备设置

麦克风质量: 使用高质量的外接麦克风
音量调节: 调整系统音量到适中水平
监听设置: 可以使用耳机监听录音质量

录音技巧

适当距离: 距离麦克风15-30cm
稳定语速: 保持均匀的说话速度
清晰发音: 确保发音清晰准确

故障排除

录音无声音

可能原因:

麦克风权限未授予
音频设备被其他程序占用
系统音量设置过低

解决方法:

# 检查权限
./scripts/check_audio_permissions.sh

# 重启音频服务
sudo killall coreaudiod

录音质量差

可能原因:

环境噪音过大
麦克风距离不当
设备质量问题

解决方法:

改善录音环境
调整麦克风位置
使用更好的录音设备

文件保存失败

可能原因:

磁盘空间不足
文件权限问题
路径不存在

解决方法:

检查磁盘空间
确认目录权限
手动创建recordings目录

与其他功能的关系

与语音识别的区别

功能	录音功能	语音识别
目的	保存音频文件	转换为文字
输出	WAV文件	识别文本
格式	44.1kHz立体声	16kHz单声道
实时性	录制后保存	实时识别

互补使用

先录音后识别: 录制高质量音频，然后用于离线识别
质量对比: 录制原始音频，对比识别效果
备份保存: 在识别的同时保存原始录音

文件格式详解

WAV文件结构

RIFF头 (12字节)
├── "RIFF" (4字节)
├── 文件大小 (4字节)  
└── "WAVE" (4字节)

fmt子块 (24字节)
├── "fmt " (4字节)
├── 子块大小 (4字节)
├── 音频格式 (2字节) - PCM=1
├── 声道数 (2字节)
├── 采样率 (4字节)
├── 字节率 (4字节)
├── 块对齐 (2字节)
└── 位深度 (2字节)

data子块 (8字节+音频数据)
├── "data" (4字节)
├── 数据大小 (4字节)
└── 音频数据 (变长)

兼容性

播放器: 支持所有主流音频播放器
编辑软件: 可直接导入Audacity、GarageBand等
转换工具: 可用ffmpeg等工具转换格式
平台支持: Windows、macOS、Linux通用

扩展功能建议

未来可能的改进

格式选择: 支持MP3、FLAC等格式
质量设置: 可调节采样率和位深度
自动增益: 智能调节录音音量
噪音抑制: 实时降噪处理
分段录制: 支持暂停和继续录制

高级功能

音频可视化: 显示波形图
音量监控: 实时音量表
自动分割: 根据静音自动分割
云端同步: 自动上传到云存储

这个录音功能为用户提供了专业级的音频录制体验，无论是日常使用还是专业需求都能很好地满足。

7.6 KiB Raw Blame History Unescape Escape

麦克风录音功能使用指南

功能概述

主要特性

使用方法

1. 配置录音设置

录音设置（设备参数）

输出设置（保存格式）

快速预设配置（输出设置）

智能提示

2. 开始录音

3. 录音过程

4. 停止录音

4. 文件管理

技术参数

音频格式（可配置）

自适应格式

文件特性

界面说明

录音控制区域

状态显示

使用场景

1. 音频备忘录

2. 音频测试

3. 内容创作

4. 语音样本

质量优化建议

录音环境

设备设置

录音技巧

故障排除

录音无声音

录音质量差

文件保存失败

与其他功能的关系

与语音识别的区别

互补使用

文件格式详解

WAV文件结构

兼容性

扩展功能建议

未来可能的改进

高级功能

7.6 KiB

Raw Blame History