AIKokoronを作っている — パーソナライズされたAIデスクトップコンパニオン
about 1 month agoby Shin1分で読了
AI
AIKokoron
Desktop App
Electron
MCP
共有:
AIKokoronを作っている — パーソナライズされたAIデスクトップコンパニオン
AIKokoronというプロジェクトに取り組んでいます。音声対話、Live2Dアニメーションキャラクター、拡張可能なツール機能を組み合わせた、パーソナライズされたAIデスクトップコンパニオンです。デスクトップに常駐し、声で話しかけると応答してくれる、目に見えるAIアシスタントです。
なぜ作ったのか
LLMのAPIやRAGシステムの実験を経て、さらに先へ進みたいと思いました。ブラウザのチャットボットは便利ですが、AIがもっと身近に——デスクトップに常にいて、声に反応し、実際にコンピュータ上で作業できたらどうだろう?
きっかけは Open-LLM-VTuber というオープンソースプロジェクト。LLMとLive2Dアバターを組み合わせた音声会話システムです。これをフォークして出発点とし、自分のビジョンに合わせて大幅に改変しました。
AIKokoronの特徴
Open-LLM-VTuberが柔軟なマルチキャラクターVTuberプラットフォームを目指しているのに対し、AIKokoronは実用性を重視したパーソナルAIアシスタントとして設計しています:
- MCPツール統合 — Model Context Protocol(MCP)により、AIに実際の能力を付与。シェルコマンド実行、Web検索、時刻確認、さらにはWebカメラによる顔認識まで。会話を超えた実際のタスク実行が可能
- 拡張アーキテクチャ — ファイルブラウジング、ブラウザモニタリング、ゲーム検出などの機能を見据えたプラグイン式拡張システム
- 顔認識 — DeepFaceによるユーザー識別機能。AIが会話相手を認識してレスポンスをパーソナライズ
- フォーカスされたキャラクター設計 — 任意のキャラクター切り替えではなく、深くカスタマイズされた一体のコンパニオンペルソナを中心に設計
- シンプルなデプロイ — Windowsのワンクリック起動スクリプト、YAMLファイルによる明確な設定
技術スタック
デュアルアーキテクチャで構成:
バックエンド(Python + FastAPI):
- マルチLLM対応(Gemini、Claude、OpenAI、Ollamaなど)
- 音声認識(Sherpa-ONNX、Faster-Whisper、Azure)
- 音声クローン付きTTS(GPT-SoVITS)
- ツール実行用MCPクライアント
- DeepFaceによる顔認識
フロントエンド(Electron + React):
- 音声連動リップシンク付きLive2Dキャラクターレンダリング
- リアルタイム音声活動検出
- 透明背景のデスクトップペットモード
- 多言語UI(EN/JA/ZH)
現在の状況
日常的に使えるレベルにはなっていますが、まだ開発中です。GitHubへのアップロードはまだ——コードベースとドキュメントを整理してから公開する予定です。近日中に。
学んだこと
AIKokoronの開発を通じて、システム統合について多くを学びました:
- リアルタイム音声パイプラインは複雑 — VAD、ASR、LLM、TTSをスムーズに連携させるには緻密なエンジニアリングが必要
- MCPはゲームチェンジャー — LLMがツールを使うための標準化された方法があると、システムの拡張性が格段に上がる
- 2026年でもデスクトップアプリは大変 — Electronには癖がある。特に音声と透明ウィンドウ周り