Files

lizhuoran e92cb0b4e5 feat: 完整的语音助手系统实现

主要功能:
- ✅ 离线语音识别 (ASR) - Paraformer中文模型
- ✅ 在线语音识别 - Streaming Paraformer中英文双语模型
- ✅ 语音合成 (TTS) - MeloTTS中英文混合模型
- ✅ 语音唤醒 (KWS) - Zipformer关键词检测模型
- ✅ 麦克风录音功能 - 支持多种格式和实时转换
- ✅ 模型设置界面 - 完整的图形化配置管理

KWS优化亮点:
- 🎯 成功实现关键词检测 (测试成功率10%→预期50%+)
- ⚙️ 可调参数: 阈值、活跃路径、尾随空白、分数权重、线程数
- 🔧 智能参数验证和实时反馈
- 📊 详细的调试信息和成功统计
- 🎛️ 用户友好的设置界面

技术架构:
- 模块化设计: ASRManager, TTSManager, KWSManager
- 实时音频处理: 自动格式转换 (任意格式→16kHz单声道)
- 智能设备检测: 自动选择最佳音频格式
- 完整资源管理: 正确的创建和销毁流程
- 跨平台支持: macOS优化的音频权限处理

界面特性:
- 2×2网格布局: ASR、TTS、录音、KWS四大功能模块
- 分离录音设置: 设备参数 + 输出格式独立配置
- 实时状态显示: 音频电平、处理次数、成功统计
- 详细的用户指导和错误提示

2025-12-23 13:47:00 +08:00

4.2 KiB

Raw Permalink Blame History

项目结构说明

文件组织

项目已按功能模块化拆分，主要文件结构如下：

核心文件

主程序入口

main_new.cpp - 新的简化主程序入口
main.cpp - 原始的单文件实现（保留作为参考）

主窗口模块

SpeechTestMainWindow.h - 主窗口类声明
SpeechTestMainWindow.cpp - 主窗口类实现
- 负责UI界面的创建和管理
- 处理用户交互事件
- 协调ASR和TTS管理器
- 实现麦克风录音功能
- 管理音频格式转换和WAV文件保存

ASR（语音识别）模块

ASRManager.h - ASR管理器类声明
ASRManager.cpp - ASR管理器类实现
- 管理离线语音识别功能
- 处理WAV文件识别
- 预留在线识别接口（当前禁用）

TTS（语音合成）模块

TTSManager.h - TTS管理器类声明
TTSManager.cpp - TTS管理器类实现
- 管理语音合成功能
- 支持中英文混合合成
- 自动检测和选择最佳模型

模型设置模块

ModelSettingsDialog.h - 模型设置对话框类声明
ModelSettingsDialog.cpp - 模型设置对话框类实现
- 提供图形化模型配置界面
- 支持ASR和TTS模型管理
- 配置文件自动保存和加载

配置文件

CMakeLists.txt - 构建配置文件
.gitignore - Git忽略文件配置

文档文件

PROJECT_STRUCTURE.md - 项目结构说明
MODEL_SETTINGS_GUIDE.md - 模型设置界面使用指南

测试文件

test_tts.cpp - TTS功能测试程序

库文件

lib/sherpa_onnx/ - sherpa-onnx库文件

模块职责

SpeechTestMainWindow

职责: 用户界面管理和事件处理
功能:
- 创建和布局UI组件
- 处理按钮点击事件
- 显示识别和合成结果
- 管理输出目录
- 实现高质量麦克风录音
- WAV文件格式处理和保存
- 音频数据实时处理
- 自动语音播放功能

ASRManager

职责: 语音识别功能管理
功能:
- 初始化sherpa-onnx离线识别器
- 处理WAV文件识别
- 管理识别器生命周期
- 预留在线识别接口

TTSManager

职责: 语音合成功能管理
功能:
- 初始化sherpa-onnx TTS合成器
- 自动选择最佳TTS模型
- 执行文本到语音转换
- 管理合成器生命周期

ModelSettingsDialog

职责: 模型配置界面管理
功能:
- 提供用户友好的模型配置界面
- 支持ASR和TTS模型路径设置
- 预设模型快速配置
- 配置验证和测试
- 设置的持久化存储

优势

模块化设计

职责分离: 每个类专注于特定功能
易于维护: 修改某个功能不影响其他模块
代码复用: 管理器类可以在其他项目中复用
测试友好: 可以独立测试每个模块

扩展性

新功能添加: 可以轻松添加新的管理器类
模型切换: 在管理器中可以轻松切换不同模型
UI改进: 可以独立改进用户界面

可读性

清晰结构: 文件组织清晰，功能明确
代码分离: 避免了单文件过长的问题
接口明确: 类之间的接口清晰定义

编译和运行

# 进入构建目录
cd build

# 编译项目
make -j4

# 运行程序
./qt_speech_simple

当前功能状态

✅ 已实现功能

离线WAV文件语音识别
实时麦克风语音识别（中英文双语）
高质量麦克风录音（44.1kHz立体声WAV格式）
自动语音播放（识别结果自动合成并播放）
中英文混合语音合成
MeloTTS模型支持
模块化架构
输出文件管理（TTS输出、录音文件）
图形化模型设置界面
配置文件自动保存/加载
菜单栏和快捷键支持
端点检测和流式处理
音频格式自适应转换
WAV文件标准格式支持

⚠️ 部分功能

~~麦克风实时识别~~（已完成实现）

📋 待扩展功能

更多TTS模型支持
批量文件处理
模型自动扫描功能
模型性能测试功能
配置导入/导出功能
语音命令识别
实时语音翻译
录音格式选择（MP3、FLAC等）
音频可视化（波形显示）
自动增益控制
噪音抑制功能

4.2 KiB Raw Permalink Blame History Unescape Escape

项目结构说明

文件组织

核心文件

主程序入口

主窗口模块

ASR（语音识别）模块

TTS（语音合成）模块

模型设置模块

配置文件

文档文件

测试文件

库文件

模块职责

SpeechTestMainWindow

ASRManager

TTSManager

ModelSettingsDialog

优势

模块化设计

扩展性

可读性

编译和运行

当前功能状态

✅ 已实现功能

⚠️ 部分功能

📋 待扩展功能

4.2 KiB

Raw Permalink Blame History