この記事は GMI Cloud のテクニカルデモシリーズの一部です。
最近リリースされたChatGPT 4oにより、AI音声エージェントは世間の注目を集めています。しかし、多くの企業にとって、この形式のAIは、顧客との対話を自動化および強化し、社内業務を合理化することで成長と収益性を高めるためのツールとして、すでに注目されています。この記事では、GMI Cloud を使用して、必要なすべてのツールを 1 か所にまとめて AI 音声エージェントを作成する方法について説明します。
GMI クラウドによる AI 音声エージェントの作成
基本的に、AI音声エージェントはLLMに似ていますが、応答を音声として抽象化するには追加のレイヤーが必要です。音声エージェントは、音声を入力として受け取り、LLM で処理し、音声を使用して応答を返す必要があります。エンジンを追加して応答をカスタマイズしたり、感情管理や中断管理などの機能を追加したりできます。GMI Cloud は、既存のオープンソースモデルを使用して AI 音声エージェントを構築するのに必要なすべてのソフトウェアレイヤーを組み立てました。
デモビデオ
ステップ・バイ・ステップ・ガイド:
1。GMI クラウドプラットフォームにログインします。
- アカウントを作成するか、以前に作成したアカウントを使用してログインします
2。コンテナを起動する
- ページの左側にあるナビゲーションバーを使用して「コンテナ」ページに移動します
- 右上隅にある [コンテナを起動する] ボタンをクリックします
3。モデルテンプレートとパラメーターを選択します。
- 最初のドロップダウンメニューで、ASR と TTS を含む GMI Cloud 音声エージェントテンプレートを選択します。(デモでは、エージェントの LM として Chat GLM 6B を使用していますが、これは Llama 3 などの任意のモデルに置き換えることができます)
- [ハードウェアリソースの選択] セクションで、NVIDIA H100など、導入するハードウェアの種類を選択します。これにより、特定のパラメーターが自動入力されます。
- ストレージ、認証、およびコンテナ名の詳細を入力します
4。コンテナを起動:
- ページの下部にある [コンテナを起動] をクリックします。
- 「Containers」ページに戻ると、指定したコンテナ名で作成したコンテナが表示されます
- Jupyter Notebook アイコンをクリックしてコンテナに接続します
- ここでは、共通ライブラリをインポートして、ハグフェイストークンを入力できます
5。機能の追加とテスト
- Jupyter Notebook ワークスペース内に、文字起こしと音声応答機能を追加します
- Gradio UI を使用して関数を実行する
- テスト用に公開 UI で実行
AI 音声エージェントの新登場:インタラクションとオペレーションの変革
AI 音声エージェントのユースケースは非常に幅広いです。つまり、対話に基づくサービスや機能はすべて、理論的には AI 音声エージェントを使用して実現できるようになりました。
以下は、AI音声エージェントが企業に利益をもたらすためにできることのほんの一例です。
- 大規模なコールセンターや多言語対応のスタッフ配置が不要になるため、企業はそれに比例してコストを増やすことなく、グローバルなリーチを拡大し、24時間365日の高品質なサービスを提供できます。大規模な AI により、カスタマーサービスの生産性が 30 ~ 50% 向上すると推定されています。
- 見込み客の認定、フォローアップのスケジューリング、CRMシステムへのデータ入力などの販売プロセスを合理化し、販売効率とデータ精度を最大 10% 向上させます。
- 経営幹部や他の従業員の強力なパーソナルアシスタントとしての役割を果たす
- より複雑なタスクに人的スタッフを解放し、運用コストを削減します。たとえば、よくある人事リクエストに音声エージェントを使用したり、IT 部門でトラブルシューティングを行ったりできます。
GMI クラウドが選ばれる理由
アクセシビリティ:
GMI クラウドは、H100 および H200 モデルを含む最新の NVIDIA GPU への幅広いアクセスを保証します。アジアを拠点とするデータセンターと認定パートナーとしての NVIDIA との緊密な関係を活用して、AI と機械学習のニーズを満たす比類ない GPU アクセスを提供します。
使いやすさ:
当社のプラットフォームは、オーケストレーション、仮想化、コンテナ化用に設計された豊富なソフトウェアスタックを通じて、AIの導入を簡素化します。GMI クラウドソリューションは TensorRT などの NVIDIA ツールと互換性があり、イメージがあらかじめ組み込まれているため、AI ワークフローを簡単に開始して効率的に管理できます。
パフォーマンス:
GMI Cloudは、AIモデルのトレーニング、推論、微調整に不可欠な高性能コンピューティングを提供します。当社のインフラストラクチャは、費用対効果が高く効率的な運用を実現するように最適化されているため、Llama 3 のようなモデルの可能性を最大限に引き出すことができます。
GMI Cloudは、すべてのAIニーズに対応するフルスタックのAIプラットフォームを提供するため、複数の機能層を必要とする音声エージェントなどの機能を構築するのに理想的な選択肢です。当社の統合ソリューションにより、AI プロセスを合理化し、パフォーマンスを向上させ、運用のセキュリティとコンプライアンスを確保できます。
リソース
- https://a16z.com/ai-voice-agents/#:~:text=For%20consumers%2C%20voice%20agents%20can,of%20experiences%20built%20around%20voice
- https://www.iffort.com/blog/2024/05/11/disruption-in-how-ai-voice-agents-will-transform-customer-experience/

