Gemini 3.5 Flashは素晴らしい。私たちが実際に発見したこと。

Built for Speed: ~10ms Latency, Even Under Load
Blazingly fast way to build, track and deploy your models!
- Handles 350+ RPS on just 1 vCPU — no tuning needed
- Production-ready with full enterprise support
AIモデルのリリースには不文律があります。Proは賢く、Flashは速い。どちらを選ぶかはトレードオフでした。Googleはその常識を打ち破りました。
2026年5月19日のGoogle I/Oで発表されたGemini 3.5 Flashは、新しいGemini 3.5ファミリーの最初のモデルであり、これまでのFlashクラスのモデルでは成し得なかったことを実現しました。コーディングおよびエージェント関連のベンチマークにおいて、以前のフラッグシップProモデルを上回る性能を発揮し、しかもFlashの速度で動作します。
背景
Gemini 3.1 Proは2026年2月にリリースされ、複雑な視覚的推論とマルチモーダルタスクにおいて、すぐにArtificial Analysis Intelligence Indexのトップに立ちました。それはGoogleのフラッグシップモデルであり、わずか3ヶ月前にリリースされたばかりでした。
3.5 Flashは現在、ほとんどのコーディングおよびエージェント関連のベンチマークでそれを上回っています。しかも、より高速です。
ベンチマーク
出典: Google DeepMind — Gemini 3.5 Flash
Flashは、エージェント関連、ツール利用、マルチモーダルの各ベンチマークでリードしています。コーディングにおいては、Gemini 3.1 Proを両方のタスクで上回りますが、GPT-5.5とClaude Opus 4.7がそれぞれのカテゴリでリードしています。深い推論と長文コンテキスト検索においては、フラッグシップのProモデルが優位性を保っています。これはGoogleが今後登場する3.5 Proのために残している差であるようです。
GoogleがProではなくFlashを先行させた理由
Googleが3.5シリーズでProではなくFlashを先行させたという決定は、ある兆候を示しています。今日の本番環境で最も重要なワークフロー、つまりエージェント、ツール利用、コーディングループにおいては、純粋な推論の深さよりも、品質、速度、コストの組み合わせが重要になります。
同等のフロンティアモデルよりも4倍高速に動作し、入力/出力トークン100万個あたり1.50ドル/9.00ドルという価格設定により、Flashは、エージェント関連のパイプラインを大規模に実行するコストを劇的に削減します。
本番環境での評価がこれを裏付けています。BoxのCTOであるベン・クス氏は、3.5 Flashが実際の企業ワークフローにおいて、以前のFlash世代を19.6%上回ったと報告し、ライフサイエンスのデータ抽出精度は96.4%向上しました。JetBrainsのニック・フロロフ氏は、以前のFlash世代と比較してコーディング性能が10~20%向上したと述べています。
Gemini 3.5 Flashは、お使いのエンドポイントで通用しますか?
公式ベンチマークは、独自のハーネス、完全なタスクセット、およびベンダー独自の評価スタックを使用しています。プラットフォームチームにとっての関連する質問は異なります。それは、 お使いの ベースURLで、 お使いの モデルIDで、再実行可能なプロンプトで、何が得られるか、です。
15プロンプトのテキストのみのハーネスを、 TrueFoundry AI Gateway Googleが強調したのと同じ3つのカテゴリ(CharXivスタイル、MMMU-Proスタイル、Finance Agent v2スタイル)で、参照回答と比較して採点しました。
この実行結果はGoogleの公式な数値を否定するものではありません。彼らは異なるハーネスと評価スタックを使用しているためです。しかし、ベンチマークのランキングがエンドポイントに自動的に適用されるわけではないことを示しています。我々のテストでは、FlashのFinanceスタイルスコアは0/5で、期待される形式と一致しない長い完了が失敗の原因でした。コスト面でも同様に顕著で、Flashは最も高い総費用と最も少ない正答数となり、正答あたりのコストはGPT-5.5の約6倍になりました。
ゲートウェイの背後でモデルが交換可能である場合に重要な指標は、 正答あたりのコスト:トークンあたりの価格 × 試行あたりのトークン数 ÷ 使用可能な応答の確率
100万トークンのコンテキストウィンドウ
Gemini 3.5 Flashは100万トークンのコンテキストウィンドウをサポートしています。これは、単一セッションでコードベース全体、長大な規制文書、または長時間実行される自律タスクの完全なトレースを保持するのに十分な量です。検索ベンチマークによると、このウィンドウはその長さでも実際に使用可能であり、長文の末尾で性能が低下することはありません。
Gemini SparkとGoogleが示唆していること
I/Oで発表されたもう一つは、Googleの新しい24時間年中無休のパーソナルAIエージェントであるGemini Sparkが、3.5 Flashを搭載していることです。このモデルは現在、GeminiアプリとGoogle検索のAIモードで世界的にデフォルトとなっています。Googleは、最もトラフィックの多い消費者向け製品と、最も野心的なエージェント実験の両方で、3.5 Flashを本番環境のデフォルトとして展開しており、これは単なる足がかりではありません。
注目すべき点
来月の3.5 Pro。 Googleは、3.5 Proがすでに社内で使用されていることを確認しました。もし3.5 Flashがほとんどのベンチマークで3.1 Proをすでに上回っているとすれば、Flashがまだ遅れをとっている推論や長文コンテキストのタスクにおいて、3.5 Proがどのような性能を発揮するかが問題となります。
MCP Atlasにおけるリーダーシップ。 Model Context Protocolを使用した多段階ツールワークフローのベンチマークであるMCP AtlasにおけるFlashの優位性は、Googleがツールオーケストレーションを最優先のトレーニング目標としていることを示しています。MCPネイティブアーキテクチャを構築しているチームにとって、これは真剣に受け止めるべきことです。
TrueFoundryで実行する
TrueFoundry AI Gateway 単一のエンドポイントを通じて、Gemini 3.5 Flash、GPT-5.5、Claude Opus 4.7、およびその他の最先端モデルへのアクセスを提供します。これは上記の検証で使用されたのと同じ設定です。統合されたリクエストトレース、モデルとチームごとのコスト配分、プロバイダーごとの個別のAPIキーは不要です。
公式ベンチマークデータ: Google DeepMind — Gemini 3.5 Flash、2026年5月19日。TrueFoundry検証実行:2026年5月20日、TrueFoundry AI Gatewayを介した15プロンプトのテキスト専用ハーネス。
TrueFoundry AI Gateway delivers ~3–4 ms latency, handles 350+ RPS on 1 vCPU, scales horizontally with ease, and is production-ready, while LiteLLM suffers from high latency, struggles beyond moderate RPS, lacks built-in scaling, and is best for light or prototype workloads.
The fastest way to build, govern and scale your AI
















.webp)




.png)








.webp)
.webp)








