打造AIKokoron — 个性化AI桌面伙伴
about 1 month agoby Shin1分钟阅读
AI
AIKokoron
Desktop App
Electron
MCP
分享:
打造AIKokoron — 个性化AI桌面伙伴
我正在做一个叫AIKokoron的项目——一个结合了语音交互、Live2D动画角色和可扩展工具能力的个性化AI桌面伙伴。可以把它想象成一个常驻在桌面上的AI助手,能听你说话、看得见、还能帮你做事。
为什么要做这个
在尝试了LLM API和RAG系统之后,我想更进一步。浏览器里的聊天机器人很有用,但如果AI能更"在场"呢?一直待在桌面上,响应语音,还能实际在你的电脑上执行任务。
灵感来自 Open-LLM-VTuber,一个将LLM与Live2D虚拟角色结合实现语音对话的开源项目。我fork了它作为起点,然后根据自己的设想做了大量改进。
AIKokoron的不同之处
Open-LLM-VTuber定位为灵活的多角色VTuber平台,而AIKokoron被设计为注重实用性的个人AI助手:
- MCP工具集成 — 通过Model Context Protocol(MCP)赋予AI实际能力:执行shell命令、网页搜索、查看时间,甚至通过摄像头进行人脸识别。从对话延伸到实际的任务执行
- 扩展架构 — 构建了插件式扩展系统,为文件浏览、浏览器监控、游戏检测等未来功能做好准备
- 人脸识别 — 基于DeepFace的用户识别功能。AI可以认出正在对话的人并个性化回复
- 聚焦的角色设计 — 不追求任意切换角色,而是围绕一个深度定制的陪伴型角色进行设计
- 简化部署 — Windows一键启动脚本,通过YAML文件进行清晰配置
技术栈
采用双架构设计:
后端(Python + FastAPI):
- 多LLM支持(Gemini、Claude、OpenAI、Ollama等)
- 语音识别(Sherpa-ONNX、Faster-Whisper、Azure)
- 带语音克隆的文本转语音(GPT-SoVITS)
- MCP客户端实现工具调用
- DeepFace人脸识别
前端(Electron + React):
- 音频驱动口型同步的Live2D角色渲染
- 实时语音活动检测
- 透明背景的桌面宠物模式
- 多语言UI(中英日)
目前状态
项目已经可以日常使用,但仍在积极开发中。还没有上传到GitHub——打算整理好代码和文档后再公开,很快就会发布。
学到的东西
开发AIKokoron让我对系统集成有了很多了解:
- 实时音频管线很复杂 — 让VAD、ASR、LLM、TTS流畅协作需要精细的工程
- MCP是颠覆性的 — 有了LLM使用工具的标准化方式,系统的可扩展性大大提升
- 2026年做桌面应用依然很难 — Electron有不少坑,尤其是音频和透明窗口方面