适配Xiaozhi的AI agent服务器程序
本服务端致力于能跑到NAS
, 路由器
, 树莓派
等轻量级设备,因此所有大模型均调用API服务
使用Xiaozhi来进行对话。
没有联网能力
- 对话时大概76M
- 非对话时大概36M常驻内存
- Docker部署,镜像大概80M
SileroVad
用来提前去除一些非人类声音, 降低ASR
的开销ASR
使用了腾讯提供的服务,每个月5000
次的免费额度足够了TTS
使用了AzureTTS
服务,每月10W
字符,应该也够用了,AzureTTS
不支持流式,目前是通过标点切分来实现流式TTS的。Embedding
使用了硅基流动
提供的免费API, 虽然有并发限制,在只有一个设备的情况下,并发也够了大模型
分别使用了智谱AI
和硅基流动
提供的免费API, 同时使用可解决并发问题向量数据库
使用了Redis-Stack提供的免费数据库,免费的32M内存目前应该也足够做记忆召回了
配置文件, 里面包含了所有的配置信息,包括ASR
, TTS
, Embedding
, 大模型
, 向量数据库
等
- 优化TTS延迟问题
- 接入喜马拉雅讲故事
- 基础知识库召回(主要是一些儿童读物,课本,防止大模型的幻觉让小朋友学到错误的知识)