# QSmartAssistant 完整功能演示指南 ## 🎯 演示概述 本指南将带您完整体验QSmartAssistant语音测试工具的所有功能,包括语音识别、语音合成、录音和自动播放等特性。 ## 🚀 启动准备 ### 1. 环境检查 ```bash # 检查程序是否存在 ls -la cmake-build-debug/qt_speech_simple # 检查麦克风权限 ./scripts/check_audio_permissions.sh ``` ### 2. 启动程序 ```bash cd cmake-build-debug ./qt_speech_simple ``` ### 3. 初始状态确认 启动后应该看到: - ✅ 离线ASR识别器: 成功 - ✅ TTS合成器: 成功 - ✅ TTS模型类型: "MeloTTS中英文混合模型" - ✅ 在线ASR识别器: 成功 ## 📋 功能演示流程 ### 演示1: 离线文件识别 **目标**: 演示WAV文件的语音识别功能 1. **准备测试文件** - 使用任意WAV格式音频文件 - 建议包含中文或英文语音内容 2. **执行识别** - 点击"浏览"按钮选择WAV文件 - 点击"开始识别"按钮 - 观察识别结果在文本框中显示 3. **预期结果** - 识别结果准确显示音频内容 - 支持中文和英文识别 - 处理时间通常在几秒内 ### 演示2: 实时麦克风识别 **目标**: 演示实时语音识别和自动播放功能 1. **开始识别** - 确保"识别后自动播放语音"选项已勾选 - 点击"开始麦克风识别"按钮 - 确认音频源状态为ActiveState 2. **语音输入测试** ``` 测试语句建议: - "你好,这是语音识别测试" - "Hello, this is a speech recognition test" - "今天天气很好,适合出门散步" - "The weather is nice today" ``` 3. **观察效果** - 状态栏显示实时识别内容 - 检测到语音结束时,自动显示识别片段 - 如果开启自动播放,会立即合成并播放识别结果 - 可以连续说话,程序会持续识别 4. **停止识别** - 点击"停止识别"按钮 - 观察最终识别结果 - 如果有最终结果且开启自动播放,会播放最后的内容 ### 演示3: 文字转语音合成 **目标**: 演示中英文混合语音合成功能 1. **准备测试文本** ``` 建议测试文本: - "你好,欢迎使用语音合成功能" - "Hello, welcome to the speech synthesis feature" - "这是一个中英文混合的测试。This is a bilingual test." - "今天是2024年12月17日,Today is December 17th, 2024" ``` 2. **执行合成** - 在文本输入框中输入测试文本 - 选择说话人ID(0-100) - 点击"开始合成"按钮 3. **查看结果** - 合成成功后显示文件路径 - 询问是否播放时选择"是" - 听取合成的语音效果 - 文件保存在`tts_output`目录 ### 演示4: 高质量录音功能 **目标**: 演示麦克风录音和WAV文件保存 1. **开始录音** - 点击"开始录音"按钮 - 确认录音状态显示"录音中..." - 状态栏显示实时录音时长 2. **录音内容** ``` 建议录音内容: - 自我介绍 - 朗读一段文字 - 唱一首歌 - 测试不同音量和语调 ``` 3. **停止录音** - 点击"停止录音"按钮 - 查看录音信息(时长、文件大小) - 选择是否立即播放录音 - 文件保存在`recordings`目录 4. **验证录音质量** - 使用系统播放器播放录音文件 - 确认音质为44.1kHz立体声 - 检查文件格式为标准WAV ### 演示5: 模型设置功能 **目标**: 演示图形化模型配置界面 1. **打开设置界面** - 使用菜单栏:设置 → 模型设置 - 或使用快捷键:Ctrl+M 2. **ASR模型配置** - 查看当前ASR模型设置 - 尝试切换不同预设模型 - 测试自定义路径功能 3. **TTS模型配置** - 查看当前TTS模型设置 - 切换不同的TTS模型 - 观察模型类型变化 4. **应用设置** - 点击"应用"按钮 - 观察模型重新加载过程 - 确认新设置生效 ### 演示6: 综合功能测试 **目标**: 演示多功能协同工作 1. **录音 → 识别 → 合成循环** - 先录制一段语音保存为WAV - 使用离线识别功能识别录音文件 - 将识别结果进行语音合成 - 对比原始录音和合成语音 2. **实时识别 + 自动播放** - 开启自动播放功能 - 进行实时语音识别 - 体验"说话 → 识别 → 播放"的完整流程 3. **多语言测试** - 测试纯中文语音识别和合成 - 测试纯英文语音识别和合成 - 测试中英文混合语音处理 ## 🎯 演示要点 ### 性能指标 - **识别延迟**: < 100ms - **合成速度**: 实时合成 - **录音质量**: 44.1kHz立体声 - **文件格式**: 标准WAV格式 ### 用户体验 - **界面响应**: 流畅无卡顿 - **状态反馈**: 实时状态显示 - **错误处理**: 友好的错误提示 - **文件管理**: 自动创建输出目录 ### 技术特色 - **双语支持**: 中英文无缝切换 - **实时处理**: 流式语音处理 - **格式转换**: 自动音频格式适配 - **模块化**: 清晰的功能分离 ## 🔧 故障排除 ### 常见问题及解决方案 1. **麦克风权限问题** ```bash # 快速修复 ./scripts/fix_microphone_permission.sh # 手动设置 # 系统设置 → 隐私与安全性 → 麦克风 ``` 2. **音频源状态异常** - 检查麦克风是否被其他程序占用 - 重启音频服务:`sudo killall coreaudiod` - 重新启动程序 3. **模型加载失败** - 检查模型文件路径是否正确 - 确认模型文件完整性 - 使用模型设置界面重新配置 4. **录音无声音** - 检查系统音量设置 - 确认麦克风工作正常 - 测试其他录音应用 ## 📊 演示效果评估 ### 成功标准 - ✅ 所有功能正常启动 - ✅ 语音识别准确率 > 90% - ✅ 语音合成自然流畅 - ✅ 录音文件质量良好 - ✅ 界面操作流畅响应 ### 性能基准 - **启动时间**: < 5秒 - **识别响应**: < 100ms - **合成时间**: < 2秒 - **录音延迟**: < 50ms - **文件保存**: < 1秒 ## 🎉 演示总结 通过完整的功能演示,您可以体验到: 1. **完整的语音处理流水线**: 从录音到识别,从文本到语音 2. **现代化的用户界面**: 直观易用的图形界面 3. **高性能的实时处理**: 低延迟的语音处理能力 4. **灵活的配置管理**: 便捷的模型设置功能 5. **优秀的跨平台兼容性**: 稳定的多平台运行 QSmartAssistant语音测试工具成功实现了一个功能完整、性能优秀、易于使用的语音处理平台,为语音技术的应用和开发提供了强大的基础支持。