Files
QSmartAssistant/docs/AUDIO_PROCESSING_GUIDE.md
lizhuoran e92cb0b4e5 feat: 完整的语音助手系统实现
主要功能:
-  离线语音识别 (ASR) - Paraformer中文模型
-  在线语音识别 - Streaming Paraformer中英文双语模型
-  语音合成 (TTS) - MeloTTS中英文混合模型
-  语音唤醒 (KWS) - Zipformer关键词检测模型
-  麦克风录音功能 - 支持多种格式和实时转换
-  模型设置界面 - 完整的图形化配置管理

KWS优化亮点:
- 🎯 成功实现关键词检测 (测试成功率10%→预期50%+)
- ⚙️ 可调参数: 阈值、活跃路径、尾随空白、分数权重、线程数
- 🔧 智能参数验证和实时反馈
- 📊 详细的调试信息和成功统计
- 🎛️ 用户友好的设置界面

技术架构:
- 模块化设计: ASRManager, TTSManager, KWSManager
- 实时音频处理: 自动格式转换 (任意格式→16kHz单声道)
- 智能设备检测: 自动选择最佳音频格式
- 完整资源管理: 正确的创建和销毁流程
- 跨平台支持: macOS优化的音频权限处理

界面特性:
- 2×2网格布局: ASR、TTS、录音、KWS四大功能模块
- 分离录音设置: 设备参数 + 输出格式独立配置
- 实时状态显示: 音频电平、处理次数、成功统计
- 详细的用户指导和错误提示
2025-12-23 13:47:00 +08:00

5.2 KiB
Raw Blame History

音频处理和格式转换指南

🎯 概述

QSmartAssistant现在采用先进的音频处理策略确保在各种设备上都能获得最佳的录音质量和语音识别效果。

🔄 核心处理策略

设备最佳格式录制

  • 原理: 使用设备支持的最高质量格式进行录制
  • 优势: 获得最佳的原始音频质量
  • 实现: 自动检测设备支持的最佳采样率和声道配置

智能格式转换

  • 原理: 将录制的高质量音频转换为目标格式
  • 优势: 兼顾音质和兼容性
  • 实现: 实时或后处理转换

📊 不同功能的处理方式

1. 录音功能

处理流程

用户选择格式 → 设备最佳格式录制 → 格式转换 → 保存目标格式

具体示例

  • 用户选择: 16kHz 单声道
  • 设备录制: 48kHz 立体声(设备最佳)
  • 转换处理: 48kHz立体声 → 16kHz单声道
  • 最终保存: 16kHz 单声道 WAV文件

额外功能

  • 可选保存16kHz单声道版本用于语音识别
  • 显示转换前后的格式信息
  • 智能文件命名(原始格式 + 语音识别版本)

2. 语音识别功能

处理流程

设备最佳格式录制 → 实时转换为16kHz单声道 → 语音识别处理

具体示例

  • 设备录制: 44.1kHz 立体声(设备最佳)
  • 实时转换: 44.1kHz立体声 → 16kHz单声道浮点
  • 识别处理: 16kHz单声道数据送入模型

性能优化

  • 100ms间隔的实时转换
  • 高效的线性插值重采样
  • 内存优化的缓冲管理

🛠️ 技术实现细节

音频格式转换算法

1. 数据类型转换

// 16位整数 → 浮点数
float sample = int16_value / 32768.0f;

// 浮点数 → 16位整数
int16_t sample = (int16_t)(float_value * 32767.0f);

2. 声道转换

// 立体声 → 单声道(混音)
mono_sample = (left_sample + right_sample) / 2.0f;

// 单声道 → 立体声(复制)
left_sample = right_sample = mono_sample;

3. 采样率转换

// 线性插值重采样
float ratio = target_rate / source_rate;
for (int i = 0; i < new_count; i++) {
    float src_index = i / ratio;
    int index = (int)src_index;
    float fraction = src_index - index;
    
    // 线性插值
    float sample = source[index] * (1 - fraction) + 
                   source[index + 1] * fraction;
    target[i] = sample;
}

质量保证措施

1. 防止音频失真

  • 采样值限制在有效范围内
  • 避免数值溢出和下溢
  • 保持动态范围

2. 减少转换损失

  • 使用高精度浮点运算
  • 线性插值重采样
  • 最小化转换次数

3. 性能优化

  • 向量化处理
  • 内存预分配
  • 缓存友好的数据访问

📈 性能和质量对比

传统方式 vs 新方式

方面 传统方式 新方式
录音质量 受设备格式限制 使用设备最佳格式
兼容性 格式不匹配时失败 智能转换保证兼容
语音识别 可能格式不匹配 始终16kHz单声道
用户体验 需要手动调整 自动优化
文件质量 可能降级录制 高质量录制+转换

质量损失分析

最小损失场景

  • 设备格式 = 用户格式:无损失
  • 仅采样率转换:< 1% 损失
  • 仅声道转换:< 0.5% 损失

可接受损失场景

  • 采样率降级2-5% 损失
  • 立体声→单声道:空间信息损失
  • 多重转换:累积损失 < 10%

🎛️ 用户控制选项

录音设置

  • 采样率选择: 用户可选择最终保存的采样率
  • 声道选择: 用户可选择单声道或立体声
  • 预设配置: 快速选择常用配置
  • 双版本保存: 可选保存语音识别版本

自动优化

  • 设备检测: 自动检测设备最佳格式
  • 智能降级: 不支持时自动降级
  • 格式提示: 显示实际使用的格式
  • 转换通知: 提示格式转换信息

🔧 故障排除

常见问题

转换失败

  • 原因: 不支持的音频格式
  • 解决: 使用标准格式16位PCM
  • 预防: 格式检查和验证

音质下降

  • 原因: 多次格式转换
  • 解决: 减少转换次数
  • 预防: 选择接近设备格式的目标格式

性能问题

  • 原因: 实时转换占用CPU
  • 解决: 降低采样率或使用单声道
  • 预防: 根据设备性能选择合适设置

优化建议

获得最佳质量

  1. 选择接近设备支持的格式
  2. 避免不必要的格式转换
  3. 使用高质量的音频设备

提升性能

  1. 选择较低的采样率如16kHz
  2. 使用单声道录制
  3. 关闭不必要的后台程序

平衡质量和性能

  1. 语音录制16kHz单声道
  2. 音乐录制44.1kHz立体声
  3. 专业录制48kHz立体声

🎉 总结

新的音频处理系统提供了:

更好的音质: 使用设备最佳格式录制 更强的兼容性: 智能格式转换 更好的用户体验: 自动优化和智能提示 更高的可靠性: 完善的错误处理 更灵活的选择: 多种格式和预设选项

这个系统确保用户在任何设备上都能获得最佳的录音和语音识别体验。