GMI Cloudは、トレーニング、微調整、推論を簡素化する堅牢なプラットフォームを提供し、ユーザーは数回クリックするだけでAI戦略を展開できます。NVIDIA の最上位の GPU への即時アクセスを提供することに加えて、当社のサービススタックには Llama 3 などの主要なオープンソース LLM との互換性も含まれています。このブログ記事では、GMI Cloud で Llama 3 を使用して推論するプロセスについて説明し、このプラットフォーム独自の利点と Llama 3 の主な機能に焦点を当てます。

GMI クラウド上の Llama 3 による推論

数回クリックするだけで Llama 3 を使い始めるためのステップバイステップガイド:

1。GMI クラウドプラットフォームへのログイン

アカウントを作成するか、以前に作成したアカウントを使用してログインします

2。コンテナを起動する

ページの左側にあるナビゲーションバーを使用して「コンテナ」ページに移動します
右上隅にある [コンテナを起動する] ボタンをクリックします

3。モデルテンプレートとパラメーターを選択します。

最初のドロップダウンメニューで、テンプレートとして Llama 3 を選択します。GMI クラウドでは、ラマ3 70b モデルと 8b モデルの両方にアクセスできます。
[ハードウェアリソースの選択] セクションで、NVIDIA H100など、導入するハードウェアの種類を選択します。これにより、特定のパラメーターが自動入力されます。
ストレージ、認証、およびコンテナ名の詳細を入力します

4。Jupyter ノートブックに接続:

「Containers」ページに戻ると、指定したコンテナ名で作成したコンテナが表示されます
Jupyter Notebook アイコンをクリックしてコンテナに接続します

5。テストと推論を始める

Jupyter ノートブックワークスペース内では、Llama 3 を使用してテストと推論を開始できます。

ラマ3の主な機能:

Llama 3 は Meta のオープンソースの次世代大規模言語モデルであり、AI 機能の限界を押し広げるように設計されています。Llama 3 が開発者や研究者にとって傑出した選択肢となっている主な機能と仕様は次のとおりです。

モデルバリエーション:

モデルサイズ：Llama 3には、80億（8B）と700億（70B）のパラメーターを持つモデルが含まれており、幅広いユースケースに合わせて調整されています。
パフォーマンス:これらのモデルは、業界ベンチマークで最先端のパフォーマンスを示し、推論能力も向上しています。

設計と建築:

トークナイザー：128Kトークンのボキャブラリーを持つトークナイザーを利用し、より効率的な言語エンコーディングを実現します。
推論効率：グループ化されたクエリアテンション（GQA）機能により、特に8Bモデルと70Bモデルで推論効率が向上します。
シーケンスの長さ:最大8,192トークンのシーケンスでトレーニングされているため、長いコンテキストでも確実に処理できます。

トレーニングデータ:

スケール:15兆個以上のトークンで事前トレーニング済み。これは、Llama 2で使用されたデータセットの7倍です。
多様性:30 以上の言語をカバーする、英語以外の高品質なデータのかなりの部分が含まれています。
品質:高度なデータフィルタリングパイプラインを利用して、ヒューリスティックフィルター、NSFWフィルター、セマンティック重複排除、テキスト分類器などの最高品質のトレーニングデータを保証します。

事前トレーニングと微調整:

事前トレーニング:データミックスとトレーニングコンピューティングを最適化するための詳細なスケーリングルールによる大規模なスケールアップが必要で、95% 以上の効果的なトレーニング時間を達成できます。
微調整：教師付き微調整、拒否サンプリング、近位ポリシー最適化（PPO）、および直接選好最適化（DPO）を組み込んで、推論およびコーディングタスクのパフォーマンスを向上させます。

信頼と安全:

安全ツール:責任ある使用と導入を確実にするために、ラマガード2、コードシールド、CyberSec Eval 2などの新しいツールを導入しました。
レッドチーム：誤用によるリスクを軽減するために、社内外のレッドチームによる取り組みを通じて、広範な安全性試験を実施しました。

GMI クラウドが選ばれる理由

アクセシビリティ:

GMI クラウドは、H100 および H200 モデルを含む最新の NVIDIA GPU への幅広いアクセスを保証します。アジアを拠点とするデータセンターと認定パートナーとしての NVIDIA との緊密な関係を活用して、AI と機械学習のニーズを満たす比類ない GPU アクセスを提供します。

使いやすさ:

当社のプラットフォームは、オーケストレーション、仮想化、コンテナ化用に設計された豊富なソフトウェアスタックを通じて、AIの導入を簡素化します。GMI クラウドソリューションは TensorRT などの NVIDIA ツールと互換性があり、イメージがあらかじめ組み込まれているため、AI ワークフローを簡単に開始して効率的に管理できます。

パフォーマンス:

GMI Cloudは、AIモデルのトレーニング、推論、微調整に不可欠な高性能コンピューティングを提供します。当社のインフラストラクチャは、費用対効果が高く効率的な運用を実現するように最適化されているため、Llama 3 のようなモデルの可能性を最大限に引き出すことができます。

ガバナンス:

最高レベルのデータセキュリティとコンプライアンスを確保するために、堅牢なマルチテナンシーセキュリティと制御メカニズムを提供しています。当社のプラットフォームは、お客様のデータを保護し、厳格なガバナンス基準を維持するように設計されているため、AI ソリューションを安心して拡張できます。

GMI Cloudは、あらゆるAIニーズに対応する包括的で強力な環境を提供するため、Llama 3のような高度なモデルをデプロイするのに理想的な選択肢です。当社の統合ソリューションにより、AI プロセスを合理化し、パフォーマンスを向上させ、運用のセキュリティとコンプライアンスを確保できます。

‍

GMI クラウドで Llama 3 (70b と 8b) を使用して推論する方法