ケーススタディ一覧
電話応対 AI SaaS
音声対音声 (STS) AI 電話応対サービス開発
LLM + 音声合成を組み合わせた電話応対 AI SaaS の開発に参画。自然な対話体験とリアルタイム性を両立する音声基盤を設計。
2026-04〜·役割: SES 開発
Python音声合成LLMSTS
課題
- 電話応対では数秒の無音が許されないため、LLM 応答をストリーミング + 音声合成の並行処理が必須。
- 誤認識 / 聞き直しのフォールバックを自然に実装する必要がある。
- 通話ログの暗号化保管と個人情報マスキングを高精度で行う必要がある。
打ち手
- STT → LLM ストリーミング応答 → 音声合成をパイプライン化、応答開始までの遅延を 1 秒以下に。
- 音声認識に confidence score を付与し、低信頼時は聞き直しプロンプトを自動挿入。
- 録音データの暗号化 + 個人情報マスキング (名前・電話番号・住所パターン) を自動適用。
技術選定の意思決定
なぜ Python をバックエンドに据えたか
音声処理・ML ライブラリのエコシステムが Python に集中しており、他言語ラッパー経由より直接扱う方がデバッグ容易。
成果
応答開始までの遅延
< 1 秒
STT → LLM ストリーミング → TTS のパイプライン化で実現
認識精度
95%+
業界用語を含む対話で。confidence score で低信頼時は自動聞き直し
個人情報マスキング
氏名 / 電話番号 / 住所パターン 自動適用
録音データの暗号化保管前に処理
通話ログ暗号化
保管時 + 転送時の二重暗号化
AES-256 + TLS 1.3
体制
当社エンジニア 1 名 (SES) + クライアント側チーム