Google の自社モデルのリスト
次の表に、Model Garden で利用できる Google の自社モデルを示します。
モデル名 | モダリティ | 説明 | クイックスタート |
---|---|---|---|
Gemini 2.5 Flash(プレビュー) | 言語、音声、ビジョン | 価格とパフォーマンスのバランスをとるように設計された思考モデル。 | モデルカード |
Gemini 2.5 Pro(プレビュー) | 言語、音声、ビジョン | 次世代の機能と改善された機能を備えた思考モデル。 | モデルカード |
Gemini 2.0 Flash | 言語、音声、ビジョン | あらゆる日常業務に使用できる主力モデルで、パフォーマンスが向上し、リアルタイムの Live API をサポートしています。 | モデルカード |
Gemini 2.0 Flash-Lite | 言語、音声、ビジョン | 最も高速で費用対効果の高い Flash モデル。同じ価格とスピードで、1.5 よりも優れた品質を実現しています。 | モデルカード |
画像生成用の Imagen | Vision | テキスト プロンプトを使用して、高品質な画像を大規模に作成できます。このモデルを使用して、画像をアップスケールすることもできます。 | モデルカード |
編集およびカスタマイズ用の Imagen | ビジョン | 少数ショット学習を編集または使用し、ベース画像とテキスト プロンプト、または参照画像とテキスト プロンプトを使用して高品質な画像を大規模に作成できます。 | モデルカード |
Vertex 画像セグメンテーション(プレビュー) | Vision | テキスト プロンプトを使用するか、フリーハンド機能で描画して画像をセグメント化します。画像セグメンテーションを使用すると、オブジェクトの検出、画像の背景の削除、画像の前景のセグメンテーションなどを行うことができます。 | モデルカード |
キャプションと VQA 用の Imagen | 言語 | 指定された画像に関連する説明を生成します。 | モデルカード |
マルチモーダル エンベディング | ビジョン | 画像に基づいてベクトルを生成します。このベクトルは、画像分類や画像検索などのダウンストリーム タスクに使用できます。 | モデルカード |
Chirp 2 | 音声 | Chirp 2 は、Google が開発した、音声文字変換(Speech-to-Text)のための多言語自動音声認識(ASR)モデルです。初代 Chirp モデルと比較して、Chirp 2 では精度と速度が向上しており、単語レベルのタイムスタンプ、モデル適応、音声翻訳などの新機能が提供されます。 | モデルカード |
Model Garden のオープンソース チューニングまたはサービス提供レシピを含むモデルのリスト
次の表に、Model Garden でオープンソースのチューニングまたはレシピの提供をサポートする OSS モデルを示します。
モデル名 | モダリティ | 説明 | クイックスタート |
---|---|---|---|
Llama 4 | 言語、ビジョン | Mixture-of-Experts(MoE)アーキテクチャと早期融合を使用するマルチモーダル モデルのファミリー。 | Colab モデルカード |
Llama 3.3 | 言語 | Meta Llama 3.3 多言語大規模言語モデル(LLM)は、70B(テキスト入力/テキスト出力)の事前トレーニング済みで指示用にチューニングされた生成モデルです。 | モデルカード |
Flux | ビジョン | テキストの説明から高品質の画像を生成する 120 億のパラメータ修正フロー トランスフォーマー モデル。 | モデルカード |
プロンプト ガード | 言語 | ジェイルブレイク手法と間接インジェクションから LLM 入力を保護します。 | モデルカード |
Llama 3.2 | 言語 | 1B と 3B の事前トレーニング済みで指示用にチューニングされた生成モデルである、多言語大規模言語モデルのコレクション。 | モデルカード |
Llama 3.2-Vision | 言語、ビジョン | 11B と 90B の事前トレーニング済みで指示用にチューニングされた画像推論生成モデルである、マルチモーダル大規模言語モデルのコレクション。これらのモデルは、画像認識、画像推論、キャプション、画像に関する一般的な質問への回答用に最適化されています。 | モデルカード |
Llama Guard 3 | 言語 | コンテンツの安全性分類用にファインチューニングされた Llama-3.1-8B 事前トレーニング済みモデル。 | モデルカード |
Qwen2 | 言語 | 大規模言語モデルの基盤モデルシリーズである Qwen2 をデプロイします。 | Colab モデルカード |
Phi-3 | 言語 | 大規模言語モデルの基盤モデルシリーズである Phi-3 をデプロイします。 | Colab モデルカード |
E5 | 言語 | E5(テキスト エンベディング モデル シリーズ)をデプロイします。 | Colab モデルカード |
Instant ID | 言語、ビジョン | Instant ID をデプロイします。これは、ID を保持するテキストから画像の生成モデルです。 | Colab モデルカード |
Llama 3 | 言語 | Vertex AI で Meta の Llama 3 モデル(8B、70B、405B)を使用して、モデルの探索と構築を行います。 | モデルカード |
Gemma 3n | 言語、ビジョン、音声 | Google の Gemini モデルの作成に使用された研究成果とテクノロジーから構築されたオープン ウェイト モデル(E2B、E4B)。 | モデルカード |
Gemma 3 | 言語、ビジョン | Google の Gemini モデルの作成に使用された研究成果とテクノロジーから構築されたオープン ウェイト モデル(1B テキストのみ、4B、12B、27B)。 | モデルカード |
Gemma 2 | 言語 | Google の Gemini モデルの作成に使用された研究成果とテクノロジーから構築されたオープン ウェイト モデル(9B、27B)。 | モデルカード |
Gemma | 言語 | Google の Gemini モデルの作成に使用された研究成果とテクノロジーから構築されたオープン ウェイト モデル(2B、7B)。 | モデルカード |
CodeGemma | 言語 | コードの生成と補完用に設計されたオープン ウェイト モデル(2B、7B)。Google の Gemini モデルの作成に使用された研究成果とテクノロジーから構築されています。 | モデルカード |
PaliGemma 2 | 言語、ビジョン | 画像キャプション タスク、画像に関する質問応答タスク用に設計されたオープン ウェイトの 3B、10B、28B モデル。Google の Gemini モデルの作成に使用された研究成果とテクノロジーから構築されています。 | モデルカード |
PaliGemma | 言語、ビジョン | 画像キャプション タスク、画像に関する質問応答タスク用に設計されたオープン ウェイトの 3B モデル。Google の Gemini モデルの作成に使用された研究成果とテクノロジーから構築されています。 | モデルカード |
ShieldGemma 2 | 言語、ビジョン | Gemma 3 の 4B IT チェックポイントでトレーニングされたオープン ウェイトの 4B モデル。画像を入力し、ポリシーごとに安全ラベルを出力します。 | モデルカード |
TxGemma | 言語 | Gemma 2 を基盤として構築された、治療開発用に設計されたオープン ウェイト モデル(2B、9B、27B)。 | モデルカード |
MedGemma | 言語、ビジョン | 医療のテキストと画像の理解におけるパフォーマンスを重視して設計されたオープン ウェイト モデル(4B、27B)。 | モデルカード |
MedSigLIP | 言語、ビジョン | 医療画像とテキストを共通のエンベディング空間にエンコードするように設計されたオープン ウェイト モデル(4 億個のパラメータのビジョン エンコーダと 4 億個のパラメータのテキスト エンコーダ)。 | モデルカード |
T5Gemma | 言語 | Google の Gemini モデルの作成に使用された研究成果とテクノロジーから構築されたオープン ウェイトのエンコーダ デコーダ モデル(2B-2B、9B-9B、9B-2B、S-S、B-B、L-L、M-L、XL-XL)。 | モデルカード |
Vicuna v1.5 | 言語 | LLama2 からテキスト生成のためにファインチューニングされた基盤モデルである Vicuna v1.5 シリーズモデルをデプロイします。 | モデルカード |
NLLB | 言語 | 多言語翻訳用の NLLB シリーズモデルをデプロイします。 | モデルカード Colab |
Mistral-7B | 言語 | テキスト生成の基盤モデルである Mistral-7B をデプロイします。 | モデルカード |
BioGPT | 言語 | 生物医学分野向けのテキスト生成モデル BioGPT をデプロイします。 | モデルカード Colab |
BiomedCLIP | 言語、ビジョン | 生物医学分野向けのマルチモーダル基盤モデルである BiomedCLIP をデプロイします。 | モデルカード Colab |
ImageBind | 言語、ビジョン、 音声 |
マルチモーダル エンベディングの基盤モデルである ImageBind をデプロイします。 | モデルカード Colab |
DITO | 言語、ビジョン | DITO(オープンな語彙オブジェクト検出タスクのためのマルチモーダル基盤モデル)をファインチューニングしてデプロイします。 | モデルカード Colab |
OWL-ViT v2 | 言語、ビジョン | OWL-ViT v2(オープン語彙オブジェクト検出タスク用のマルチモーダル基盤モデル)をデプロイします。 | モデルカード Colab |
FaceStylizer(Mediapipe) | ビジョン | 人の顔の画像を新しいスタイルに変換する生成パイプライン。 | モデルカード Colab |
Llama 2 | 言語 | Meta の Llama 2 基盤モデル(7B、13B、70B)をファインチューニングして Vertex AI にデプロイします。 | モデルカード |
Code Llama | 言語 | Meta の Code Llama 基盤モデル(7B、13B、34B)を Vertex AI にデプロイします。 | モデルカード |
Falcon-instruct | 言語 | PEFT を使用して Falcon-instruct のモデル(7B、40B)をファインチューニングしてデプロイします。 | Colab モデルカード |
OpenLLaMA | 言語 | PEFT を使用して OpenLLaMA モデル(3B、7B、13B)をファインチューニングしてデプロイします。 | Colab モデルカード |
T5-FLAN | 言語 | T5-FLAN(ベース、小、大)をファインチューニングしてデプロイします。 | モデルカード(ファインチューニング パイプラインを含む) |
BERT | 言語 | PEFT を使用して BERT をファインチューニングしてデプロイします。 | Colab モデルカード |
BART-large-cnn | 言語 | 双方向(BERT-like)のエンコーダと自己回帰(GPT-like)デコーダを備えた Transformer Encoder-Encoder(seq2seq)モデルである BART をデプロイします。 | Colab モデルカード |
RoBERTa-large | 言語 | PEFT を使用して RoBERTa-large をファインチューニングしてデプロイします。 | Colab モデルカード |
XLM-RoBERTa-large | 言語 | PEFT を使用して XLM-RoBERTa-large(RoBERTa の多言語バージョン)をファインチューニングしてデプロイします。 | Colab モデルカード |
Stable Diffusion XL v1.0 | 言語、ビジョン | テキストからの画像の生成をサポートする Stable Diffusion XL v1.0 をデプロイします。 | Colab モデルカード |
Stable Diffusion XL Lightning | 言語、ビジョン | Stable Diffusion XL Lightning(テキストから画像の生成モデル)をデプロイします。 | Colab モデルカード |
Stable Diffusion v2.1 | 言語、ビジョン | Dreambooth を使用して Stable Diffusion v2.1(テキストから画像の生成をサポート)のファインチューニングとデプロイを行います。 | Colab モデルカード |
Stable Diffusion 4x アップスケーラー | 言語、ビジョン | Stable Diffusion 4x アップスケーラー(テキスト条件の画像スーパー解像度をサポート)をデプロイします。 | Colab モデルカード |
InstructPix2Pix | 言語、ビジョン | InstructPix2Pix(テキスト プロンプトを使用した画像の編集をサポート)をデプロイします。 | Colab モデルカード |
Stable Diffusion Inpainting | 言語、ビジョン | Stable Diffusion Inpainting(テキスト プロンプトを使用してマスクされた画像の描画をサポート)をファインチューニングしてデプロイします。 | Colab モデルカード |
SAM | 言語、ビジョン | Segment Anything(ゼロショット画像セグメンテーションをサポート)をデプロイします。 | Colab モデルカード |
Pic2Word Composed Image Retrieval | 言語、ビジョン | Pic2Word(マルチモーダルな合成画像の取得をサポート)をデプロイします。 | Colab モデルカード |
BLIP2 | 言語、ビジョン | BLIP2(画像のキャプションと視覚的な質問応答をサポート)をデプロイします。 | Colab モデルカード |
Open-CLIP | 言語、ビジョン | Open-CLIP(ゼロショット分類をサポート)をファインチューニングしてデプロイします。 | Colab モデルカード |
F-VLM | 言語、ビジョン | F-VLM(オープン語彙画像オブジェクト検出をサポート)をデプロイします。 | Colab モデルカード |
tfhub / EfficientNetV2 | ビジョン | EfficientNetV2 画像分類モデルの TensorFlow Vision 実装をファインチューニングしてデプロイします。 | Colab モデルカード |
EfficientNetV2(TIMM) | ビジョン | EfficientNetV2 画像分類モデルの PyTorch 実装をファインチューニングしてデプロイします。 | Colab モデルカード |
Proprietary / EfficientNetV2 | ビジョン | EfficientNetV2 画像分類モデルの Google 独自のチェックポイントをファインチューニングしてデプロイします。 | Colab モデルカード |
EfficientNetLite(MediaPipe) | ビジョン | MediaPipe モデルメーカーを使用して EfficientNetLite 画像分類モデルをファインチューニングします。 | Colab モデルカード |
tfvision / vit | ビジョン | ViT 画像分類モデルの TensorFlow Vision 実装をファインチューニングしてデプロイします。 | Colab モデルカード |
ViT(TIMM) | ビジョン | ViT 画像分類モデルの PyTorch 実装をファインチューニングしてデプロイします。 | Colab モデルカード |
Proprietary / ViT | ビジョン | ViT 画像分類モデルの Google 独自のチェックポイントをファインチューニングしてデプロイします。 | Colab モデルカード |
Proprietary / MaxViT | ビジョン | MaxViT ハイブリッド(CNN + ViT)画像分類モデルの Google 独自のチェックポイントをファインチューニングしてデプロイします。 | Colab モデルカード |
ViT(JAX) | ビジョン | ViT 画像分類モデルの JAX 実装をファインチューニングしてデプロイします。 | Colab モデルカード |
tfvision / SpineNet | ビジョン | SpineNet オブジェクト検出モデルの TensorFlow Vision 実装をファインチューニングしてデプロイします。 | Colab モデルカード |
Proprietary / Spinenet | ビジョン | Spinenet オブジェクト検出モデルの Google 独自のチェックポイントをファインチューニングしてデプロイします。 | Colab モデルカード |
tfvision / YOLO | ビジョン | YOLO の 1 ステージ オブジェクト検出モデルの TensorFlow Vision 実装をファインチューニングしてデプロイします。 | Colab モデルカード |
Proprietary / YOLO | ビジョン | YOLO の 1 ステージ オブジェクト検出モデルの Google 独自のチェックポイントをファインチューニングしてデプロイします。 | Colab モデルカード |
YOLOv8(Keras) | ビジョン | オブジェクト検出用の YOLOv8 モデルの Keras 実装をファインチューニングしてデプロイします。 | Colab モデルカード |
tfvision / YOLOv7 | ビジョン | オブジェクト検出用の YOLOv7 モデルをファインチューニングしてデプロイします。 | Colab モデルカード |
ByteTrack Video Object Tracking | ビジョン | ByteTrack トラッカーを使用して、動画オブジェクト トラッキングのバッチ予測を実行します。 | Colab モデルカード |
ResNeSt(TIMM) | ビジョン | ResNeSt 画像分類モデルの PyTorch 実装をファインチューニングしてデプロイします。 | Colab モデルカード |
ConvNeXt(TIMM) | ビジョン | ConvNeXt(Vision Transformers の設計にヒントを得た画像分類の純粋な畳み込みモデル)のファインチューニングとデプロイを行います。 | Colab モデルカード |
CspNet(TIMM) | ビジョン | CSPNet(クロスステージ部分ネットワーク)画像分類モデルをファインチューニングしてデプロイします。 | Colab モデルカード |
Inception(TIMM) | ビジョン | Inception 画像分類モデルをファインチューニングしてデプロイします。 | Colab モデルカード |
DeepLabv3+(チェックポイントを使用) | ビジョン | セマンティック画像セグメンテーション用に DeepLab-v3 Plus モデルをファインチューニングしてデプロイします。 | Colab モデルカード |
Faster R-CNN(Detectron2) | ビジョン | 画像オブジェクト検出の Faster R-CNN モデルの Detectron2 実装をファインチューニングしてデプロイします。 | Colab モデルカード |
RetinaNet(Detectron2) | ビジョン | 画像オブジェクト検出用に RetinaNet モデルの Detectron2 実装をファインチューニングしてデプロイします。 | Colab モデルカード |
Mask R-CNN(Detectron2) | ビジョン | 画像オブジェクト検出とセグメンテーションのための Mask R-CNN モデルの Detectron2 実装をファインチューニングしてデプロイします。 | Colab モデルカード |
ControlNet | ビジョン | ControlNet のテキストからの画像の生成モデルをファインチューニングしてデプロイします。 | Colab モデルカード |
MobileNet(TIMM) | ビジョン | MobileNet 画像分類モデルの PyTorch 実装をファインチューニングしてデプロイします。 | Colab モデルカード |
MobileNetV2(MediaPipe)Image Classification | ビジョン | MediaPipe モデルメーカーを使用して MobileNetV2 画像分類モデルをファインチューニングします。 | Colab モデルカード |
MobileNetV2(MediaPipe)Object Detection | ビジョン | MediaPipe モデルメーカーを使用して MobileNetV2 オブジェクト検出モデルをファインチューニングします。 | Colab モデルカード |
MobileNet-MultiHW-AVG(MediaPipe) | ビジョン | MediaPipe モデルメーカーを使用して MobileNet-MultiHW-AVG オブジェクト検出モデルをファインチューニングします。 | Colab モデルカード |
DeiT | ビジョン | 画像分類用の DeiT(Data-efficient Image Transformers)モデルをファインチューニングしてデプロイします。 | Colab モデルカード |
BEiT | ビジョン | 画像分類用の BEiT(Bidirectional Encoder representation from Image Transformers)モデルをファインチューニングしてデプロイします。 | Colab モデルカード |
Hand Gesture Recognition(MediaPipe) | ビジョン | MediaPipe を使用して、デバイス上で Hand Gesture Recognition モデルをファインチューニングしてデプロイします。 | Colab モデルカード |
Average Word Embedding Classifier(MediaPipe) | ビジョン | MediaPipe を使用して Average Word Embedding Classifier モデルをデバイス上でファインチューニングしてデプロイします。 | Colab モデルカード |
MobileBERT Classifier(MediaPipe) | ビジョン | MediaPipe を使用して、デバイス上で MobileBERT Classifier モデルをファインチューニングし、デプロイします。 | Colab モデルカード |
MoViNet Video Clip Classification | 動画 | MoViNet の動画クリップ分類モデルをファインチューニングしてデプロイします。 | Colab モデルカード |
MoViNet Video Action Recognition | 動画 | 動作認識推論用の MoViNet モデルをファインチューニングしてデプロイします。 | Colab モデルカード |
Stable Diffusion XL LCM | ビジョン | このモデルは Latent Consistency Model(LCM)を使用します。デプロイすると、より少ないステップで迅速かつ高品質の画像を作成できるため、潜在拡散モデルにおけるテキストから画像の生成が強化されます。 | Colab モデルカード |
LLaVA 1.5 | ビジョン、言語 | LLaVA 1.5 モデルをデプロイします。 | Colab モデルカード |
Pytorch-ZipNeRF | ビジョン、動画 | Pytorch-ZipNeRF モデルをトレーニングします。このモデルは、Pytorch フレームワークの ZipNeRF アルゴリズムの最先端の実装であり、2D 画像から効率的かつ正確に 3D を再構成するように設計されています。 | Colab モデルカード |
Mixtral | 言語 | Mistral AI が開発した Mixture of Experts(MoE)大規模言語モデル(LLM)である Mixtral モデルをデプロイします。 | モデルカード |
Llama 2(量子化) | 言語 | Meta の Llama 2 モデルの量子化バージョンをファインチューニングしてデプロイします。 | Colab モデルカード |
LaMa(Large Mask Inpainting) | ビジョン | Fast Fourier Convolution(FFC)、High Receptive Field Perceptual Loss、Large Training Masks を使用する LaMa をデプロイします。これにより、解像度の高い画像修復を行います。 | Colab モデルカード |
AutoGluon | 表形式 | AutoGluon を使用すると、表形式データ用の高精度 ML モデルとディープ ラーニング モデルをトレーニングしてデプロイできます。 | Colab モデルカード |
MaMMUT | 言語、ビジョン | マルチモーダル タスク(Visual Question Answering、画像テキスト検索、テキスト画像検索、マルチモーダル エンベディングの生成など)用のビジョン エンコーダとテキスト デコーダのアーキテクチャ。 | Colab モデルカード |
Whisper Large | 音声 | OpenAI の最先端自動音声認識モデル(ASR)である Whisper Large をデプロイします。 | Colab モデルカード |
Model Garden で利用できるパートナー モデルのリスト
一部のパートナー モデルは、Vertex AI Model Garden でマネージド API(Model as a Service)として提供されます。次の表に、Model Garden で Google パートナーから入手可能なモデルを示します。
モデル名 | モダリティ | 説明 | クイックスタート |
---|---|---|---|
Claude Opus 4 | 言語、ビジョン | Anthropic のこれまでで最も強力なモデルであり、最先端のコーディング モデルです。Claude Opus 4 は、集中的な作業と数千ものステップを必要とする長時間実行タスクで安定したパフォーマンスを発揮し、AI エージェントが解決できる範囲を大幅に拡大します。 | モデルカード |
Claude Sonnet 4 | 言語、ビジョン | コーディング、詳細な調査、エージェントなど、大量のユースケースに優れたインテリジェンスを備えた Anthropic の中規模モデル。 | モデルカード |
Anthropic の Claude 3.7 Sonnet | 言語、ビジョン | コーディングと AI エージェントの強化に最適な業界をリードするモデル。思考が強化された初の Claude モデル。 | モデルカード |
Anthropic の Claude 3.5 Sonnet v2 | 言語、ビジョン | アップグレードされた Claude 3.5 Sonnet は、現実世界のソフトウェア エンジニアリング タスクとエージェント機能向けの最先端モデルです。Claude 3.5 Sonnet は、前のモデルと同じ価格とスピードでこれらの進歩を実現しています。 | モデルカード |
Anthropic の Claude 3.5 Haiku | 言語、ビジョン | Anthropic の最も高速で費用対効果の高い次世代モデルである Claude 3.5 Haiku は、スピードと手頃な価格が重視されるユースケースに最適です。 | モデルカード |
Anthropic の Claude 3 Opus | 言語 | 強力な AI モデルで、非常に複雑なタスクでもトップレベルのパフォーマンスを発揮します。自由形式のプロンプトや未知のシナリオを、きわめて流暢に、人間のような理解力でナビゲートできます。 | モデルカード |
Anthropic の Claude 3 Haiku | 言語 | Anthropic で最も高速なビジョンとテキストのモデルです。基本的なクエリにほぼ瞬時に応答し、人間のやり取りに近いシームレスな AI エクスペリエンスを実現します。 | モデルカード |
Anthropic の Claude 3.5 Sonnet | 言語 | Anthropic の Claude 3.5 Sonnet は、Anthropic の幅広い評価において Claude 3 Opus を上回っています。また、そのスピードと料金は Anthropic の中間モデルである Claude 3 Sonnet と同じです。 | モデルカード |
DeepSeek-R1-0528(プレビュー) | 言語 | DeepSeek の最新バージョンの DeepSeek R1 モデル。 | モデルカード |
Jamba 1.5 Large(プレビュー) | 言語 | AI21 Labs の Jamba 1.5 Large は、同サイズクラスの他のモデルと比較して、優れた品質のレスポンス、高いスループット、競争力のある価格を実現するように設計されています。 | モデルカード |
Jamba 1.5 Mini(プレビュー) | 言語 | AI21 Labs の Jamba 1.5 Mini は、品質、スループット、低コストのバランスが取れています。 | モデルカード |
Llama 4 Maverick 17B-128E(GA) | 言語、ビジョン | コーディング、推論、画像処理の機能を備えた、最大かつ最高性能の Llama 4 モデル。Llama 4 Maverick 17B-128E は、Mixture of Experts(MoE)アーキテクチャと早期融合を使用するマルチモーダル モデルです。 | モデルカード |
Llama 4 Scout 17B-16E(GA) | 言語、ビジョン | Llama 4 Scout 17B-16E は、そのサイズクラスで最先端の結果を提供し、複数のベンチマークで以前の Llama 世代や他のオープンモデルや独自のモデルを上回っています。Llama 4 Scout 17B-16E は、Mixture-of-Experts(MoE)アーキテクチャと早期融合を使用するマルチモーダル モデルです。 | モデルカード |
Llama 3.3(GA) | 言語 | Llama 3.3 は、テキストのみの 70B 指示用にチューニングされたモデルです。テキストのみのアプリケーションに使用すると、Llama 3.1 70B と Llama 3.2 90B と比較してパフォーマンスが向上します。また、一部のアプリケーションでは、Llama 3.3 70B のパフォーマンスが Llama 3.1 405B に近づきます。 | モデルカード |
Llama 3.2(プレビュー) | 言語、ビジョン | チャートやグラフの分析、画像キャプションなど、画像推論をサポートできる中規模の 90B マルチモーダル モデル。 | モデルカード |
Llama 3.1(一般提供およびプレビュー) | 言語 |
多言語の会話のユースケース用に最適化された多言語 LLM のコレクション。一般的な業界ベンチマークでは、利用可能なオープンソース チャットモデルやクローズド チャットモデルの多くを上回るパフォーマンスを発揮します。 Llama 3.1 405B は一般提供(GA)されています。価格は、100 万トークンあたり 1 ドルです。料金をご覧ください。 Llama 3.1 8B と Llama 3.1 70B はプレビュー版で、料金はかかりません。 |
モデルカード |
Mistral OCR(25.05) | 言語、ビジョン | Mistral OCR(25.05)は、ドキュメントの理解のための光学式文字認識 API です。モデルは、メディア、テキスト、表、数式など、ドキュメントの各要素を理解します。 | モデルカード |
Mistral Small 3.1(25.03) | 言語 | Mistral Small 3.1(25.03)は、マルチモーダル機能と拡張されたコンテキスト長を備えた Mistral の Small モデルの最新バージョンです。 | モデルカード |
Mistral Large(24.11) | 言語 | Mistral Large(24.11)は Mistral Large(24.07)モデルの次期バージョンで、推論機能と関数呼び出し機能が強化されています。 | モデルカード |
Codestral(25.01) | コード | Fill-in-the-Middle やコード補完など、コード生成向けに設計された最先端モデルです。 | モデルカード |