Files
QSmartAssistant/docs/COMPLETE_FEATURE_DEMO.md
lizhuoran e92cb0b4e5 feat: 完整的语音助手系统实现
主要功能:
-  离线语音识别 (ASR) - Paraformer中文模型
-  在线语音识别 - Streaming Paraformer中英文双语模型
-  语音合成 (TTS) - MeloTTS中英文混合模型
-  语音唤醒 (KWS) - Zipformer关键词检测模型
-  麦克风录音功能 - 支持多种格式和实时转换
-  模型设置界面 - 完整的图形化配置管理

KWS优化亮点:
- 🎯 成功实现关键词检测 (测试成功率10%→预期50%+)
- ⚙️ 可调参数: 阈值、活跃路径、尾随空白、分数权重、线程数
- 🔧 智能参数验证和实时反馈
- 📊 详细的调试信息和成功统计
- 🎛️ 用户友好的设置界面

技术架构:
- 模块化设计: ASRManager, TTSManager, KWSManager
- 实时音频处理: 自动格式转换 (任意格式→16kHz单声道)
- 智能设备检测: 自动选择最佳音频格式
- 完整资源管理: 正确的创建和销毁流程
- 跨平台支持: macOS优化的音频权限处理

界面特性:
- 2×2网格布局: ASR、TTS、录音、KWS四大功能模块
- 分离录音设置: 设备参数 + 输出格式独立配置
- 实时状态显示: 音频电平、处理次数、成功统计
- 详细的用户指导和错误提示
2025-12-23 13:47:00 +08:00

244 lines
6.5 KiB
Markdown
Raw Permalink Blame History

This file contains ambiguous Unicode characters

This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.

# QSmartAssistant 完整功能演示指南
## 🎯 演示概述
本指南将带您完整体验QSmartAssistant语音测试工具的所有功能包括语音识别、语音合成、录音和自动播放等特性。
## 🚀 启动准备
### 1. 环境检查
```bash
# 检查程序是否存在
ls -la cmake-build-debug/qt_speech_simple
# 检查麦克风权限
./scripts/check_audio_permissions.sh
```
### 2. 启动程序
```bash
cd cmake-build-debug
./qt_speech_simple
```
### 3. 初始状态确认
启动后应该看到:
- ✅ 离线ASR识别器: 成功
- ✅ TTS合成器: 成功
- ✅ TTS模型类型: "MeloTTS中英文混合模型"
- ✅ 在线ASR识别器: 成功
## 📋 功能演示流程
### 演示1: 离线文件识别
**目标**: 演示WAV文件的语音识别功能
1. **准备测试文件**
- 使用任意WAV格式音频文件
- 建议包含中文或英文语音内容
2. **执行识别**
- 点击"浏览"按钮选择WAV文件
- 点击"开始识别"按钮
- 观察识别结果在文本框中显示
3. **预期结果**
- 识别结果准确显示音频内容
- 支持中文和英文识别
- 处理时间通常在几秒内
### 演示2: 实时麦克风识别
**目标**: 演示实时语音识别和自动播放功能
1. **开始识别**
- 确保"识别后自动播放语音"选项已勾选
- 点击"开始麦克风识别"按钮
- 确认音频源状态为ActiveState
2. **语音输入测试**
```
测试语句建议:
- "你好,这是语音识别测试"
- "Hello, this is a speech recognition test"
- "今天天气很好,适合出门散步"
- "The weather is nice today"
```
3. **观察效果**
- 状态栏显示实时识别内容
- 检测到语音结束时,自动显示识别片段
- 如果开启自动播放,会立即合成并播放识别结果
- 可以连续说话,程序会持续识别
4. **停止识别**
- 点击"停止识别"按钮
- 观察最终识别结果
- 如果有最终结果且开启自动播放,会播放最后的内容
### 演示3: 文字转语音合成
**目标**: 演示中英文混合语音合成功能
1. **准备测试文本**
```
建议测试文本:
- "你好,欢迎使用语音合成功能"
- "Hello, welcome to the speech synthesis feature"
- "这是一个中英文混合的测试。This is a bilingual test."
- "今天是2024年12月17日Today is December 17th, 2024"
```
2. **执行合成**
- 在文本输入框中输入测试文本
- 选择说话人ID0-100
- 点击"开始合成"按钮
3. **查看结果**
- 合成成功后显示文件路径
- 询问是否播放时选择"是"
- 听取合成的语音效果
- 文件保存在`tts_output`目录
### 演示4: 高质量录音功能
**目标**: 演示麦克风录音和WAV文件保存
1. **开始录音**
- 点击"开始录音"按钮
- 确认录音状态显示"录音中..."
- 状态栏显示实时录音时长
2. **录音内容**
```
建议录音内容:
- 自我介绍
- 朗读一段文字
- 唱一首歌
- 测试不同音量和语调
```
3. **停止录音**
- 点击"停止录音"按钮
- 查看录音信息(时长、文件大小)
- 选择是否立即播放录音
- 文件保存在`recordings`目录
4. **验证录音质量**
- 使用系统播放器播放录音文件
- 确认音质为44.1kHz立体声
- 检查文件格式为标准WAV
### 演示5: 模型设置功能
**目标**: 演示图形化模型配置界面
1. **打开设置界面**
- 使用菜单栏:设置 → 模型设置
- 或使用快捷键Ctrl+M
2. **ASR模型配置**
- 查看当前ASR模型设置
- 尝试切换不同预设模型
- 测试自定义路径功能
3. **TTS模型配置**
- 查看当前TTS模型设置
- 切换不同的TTS模型
- 观察模型类型变化
4. **应用设置**
- 点击"应用"按钮
- 观察模型重新加载过程
- 确认新设置生效
### 演示6: 综合功能测试
**目标**: 演示多功能协同工作
1. **录音 → 识别 → 合成循环**
- 先录制一段语音保存为WAV
- 使用离线识别功能识别录音文件
- 将识别结果进行语音合成
- 对比原始录音和合成语音
2. **实时识别 + 自动播放**
- 开启自动播放功能
- 进行实时语音识别
- 体验"说话 → 识别 → 播放"的完整流程
3. **多语言测试**
- 测试纯中文语音识别和合成
- 测试纯英文语音识别和合成
- 测试中英文混合语音处理
## 🎯 演示要点
### 性能指标
- **识别延迟**: < 100ms
- **合成速度**: 实时合成
- **录音质量**: 44.1kHz立体声
- **文件格式**: 标准WAV格式
### 用户体验
- **界面响应**: 流畅无卡顿
- **状态反馈**: 实时状态显示
- **错误处理**: 友好的错误提示
- **文件管理**: 自动创建输出目录
### 技术特色
- **双语支持**: 中英文无缝切换
- **实时处理**: 流式语音处理
- **格式转换**: 自动音频格式适配
- **模块化**: 清晰的功能分离
## 🔧 故障排除
### 常见问题及解决方案
1. **麦克风权限问题**
```bash
# 快速修复
./scripts/fix_microphone_permission.sh
# 手动设置
# 系统设置 → 隐私与安全性 → 麦克风
```
2. **音频源状态异常**
- 检查麦克风是否被其他程序占用
- 重启音频服务:`sudo killall coreaudiod`
- 重新启动程序
3. **模型加载失败**
- 检查模型文件路径是否正确
- 确认模型文件完整性
- 使用模型设置界面重新配置
4. **录音无声音**
- 检查系统音量设置
- 确认麦克风工作正常
- 测试其他录音应用
## 📊 演示效果评估
### 成功标准
- ✅ 所有功能正常启动
- ✅ 语音识别准确率 > 90%
- ✅ 语音合成自然流畅
- ✅ 录音文件质量良好
- ✅ 界面操作流畅响应
### 性能基准
- **启动时间**: < 5秒
- **识别响应**: < 100ms
- **合成时间**: < 2秒
- **录音延迟**: < 50ms
- **文件保存**: < 1秒
## 🎉 演示总结
通过完整的功能演示您可以体验到
1. **完整的语音处理流水线**: 从录音到识别从文本到语音
2. **现代化的用户界面**: 直观易用的图形界面
3. **高性能的实时处理**: 低延迟的语音处理能力
4. **灵活的配置管理**: 便捷的模型设置功能
5. **优秀的跨平台兼容性**: 稳定的多平台运行
QSmartAssistant语音测试工具成功实现了一个功能完整性能优秀易于使用的语音处理平台为语音技术的应用和开发提供了强大的基础支持