Blank white background with no objects or features visible.

TrueFoundryはSeldon AIの買収を発表し、エンタープライズAI向けコントロールプレーンを拡張します。プレスリリース全文はこちら→

Gemini 3.5 Flashは素晴らしい。私たちが実際に発見したこと。

By アムルタ・ポトルリ

Published: July 4, 2026

AIモデルのリリースには不文律があります。Proは賢く、Flashは速い。どちらを選ぶかはトレードオフでした。Googleはその常識を打ち破りました。

2026年5月19日のGoogle I/Oで発表されたGemini 3.5 Flashは、新しいGemini 3.5ファミリーの最初のモデルであり、これまでのFlashクラスのモデルでは成し得なかったことを実現しました。コーディングおよびエージェント関連のベンチマークにおいて、以前のフラッグシップProモデルを上回る性能を発揮し、しかもFlashの速度で動作します。

背景

Gemini 3.1 Proは2026年2月にリリースされ、複雑な視覚的推論とマルチモーダルタスクにおいて、すぐにArtificial Analysis Intelligence Indexのトップに立ちました。それはGoogleのフラッグシップモデルであり、わずか3ヶ月前にリリースされたばかりでした。

3.5 Flashは現在、ほとんどのコーディングおよびエージェント関連のベンチマークでそれを上回っています。しかも、より高速です。

ベンチマーク

CategoryBenchmarkGemini 3.5 FlashGemini 3 FlashGemini 3.1 ProClaude Sonnet 4.6Claude Opus 4.7GPT-5.5
CodingTerminal-Bench 2.1 (agentic terminal coding)76.2%58.0%70.3%66.1%78.2%
CodingSWE-Bench Pro (diverse agentic coding tasks)55.1%49.6%54.2%64.3%58.6%
AgenticMCP Atlas (multi-step workflows using MCP)83.6%62.0%78.2%69.5%79.1%75.3%
AgenticToolathlon (real-world general tool use)56.5%49.4%55.6%
UI ControlOSWorld-Verified (agentic computer use)78.4%65.1%76.2%72.5%78.0%78.7%
Expert TasksFinance Agent v2 (financial analysis and decision-making)57.9%42.6%43.0%51.0%51.5%51.8%
Expert TasksGDPval-AA (economically valuable knowledge work, Elo)165612041314167617531769
MultimodalCharXiv Reasoning (information synthesis from complex charts)84.2%80.3%83.3%72.4%82.1%84.1%
MultimodalMMMU-Pro (multimodal understanding and reasoning)83.6%81.2%80.5%74.5%75.2%81.2%
MultimodalBlueprint-Bench 2 (agentic spatial reasoning)33.6%0.0%26.5%6.7%24.5%36.2%
Long ContextMRCR v2 — 128k (long context retrieval)77.3%67.2%84.9%84.9%59.3%94.8%
Long ContextMRCR v2 — 1M (long context retrieval)26.6%22.1%26.3%
ReasoningHumanity's Last Exam (academic reasoning, text + multimodal)40.2%33.7%44.4%33.2%46.9%41.4%
ReasoningARC-AGI-2 (abstract reasoning puzzles)72.1%33.6%77.1%58.3%75.8%84.6%

出典: Google DeepMind — Gemini 3.5 Flash

Flashは、エージェント関連、ツール利用、マルチモーダルの各ベンチマークでリードしています。コーディングにおいては、Gemini 3.1 Proを両方のタスクで上回りますが、GPT-5.5とClaude Opus 4.7がそれぞれのカテゴリでリードしています。深い推論と長文コンテキスト検索においては、フラッグシップのProモデルが優位性を保っています。これはGoogleが今後登場する3.5 Proのために残している差であるようです。

GoogleがProではなくFlashを先行させた理由

Googleが3.5シリーズでProではなくFlashを先行させたという決定は、ある兆候を示しています。今日の本番環境で最も重要なワークフロー、つまりエージェント、ツール利用、コーディングループにおいては、純粋な推論の深さよりも、品質、速度、コストの組み合わせが重要になります。

同等のフロンティアモデルよりも4倍高速に動作し、入力/出力トークン100万個あたり1.50ドル/9.00ドルという価格設定により、Flashは、エージェント関連のパイプラインを大規模に実行するコストを劇的に削減します。

本番環境での評価がこれを裏付けています。BoxのCTOであるベン・クス氏は、3.5 Flashが実際の企業ワークフローにおいて、以前のFlash世代を19.6%上回ったと報告し、ライフサイエンスのデータ抽出精度は96.4%向上しました。JetBrainsのニック・フロロフ氏は、以前のFlash世代と比較してコーディング性能が10~20%向上したと述べています。

Gemini 3.5 Flashは、お使いのエンドポイントで通用しますか?

公式ベンチマークは、独自のハーネス、完全なタスクセット、およびベンダー独自の評価スタックを使用しています。プラットフォームチームにとっての関連する質問は異なります。それは、 お使いの ベースURLで、 お使いの モデルIDで、再実行可能なプロンプトで、何が得られるか、です。

15プロンプトのテキストのみのハーネスを、 TrueFoundry AI Gateway Googleが強調したのと同じ3つのカテゴリ(CharXivスタイル、MMMU-Proスタイル、Finance Agent v2スタイル)で、参照回答と比較して採点しました。

Model Accuracy Mean latency Total cost Cost / correct
Claude Opus 4.7 66.7%(10/15) 2,538 ms $0.045 $0.0045
GPT-5.5 60.0% (9/15) 3,017 ms $0.020 $0.0022
Gemini 3.5 Flash 46.7% (7/15) 3,529 ms $0.091 $0.0130
Suite Claude Opus 4.7 GPT-5.5 Gemini 3.5 Flash
CharXiv-style80%80%80%
MMMU-Pro-style80%80%60%
Finance Agent v2-style40%20%0%

この実行結果はGoogleの公式な数値を否定するものではありません。彼らは異なるハーネスと評価スタックを使用しているためです。しかし、ベンチマークのランキングがエンドポイントに自動的に適用されるわけではないことを示しています。我々のテストでは、FlashのFinanceスタイルスコアは0/5で、期待される形式と一致しない長い完了が失敗の原因でした。コスト面でも同様に顕著で、Flashは最も高い総費用と最も少ない正答数となり、正答あたりのコストはGPT-5.5の約6倍になりました。

ゲートウェイの背後でモデルが交換可能である場合に重要な指標は、 正答あたりのコスト:トークンあたりの価格 × 試行あたりのトークン数 ÷ 使用可能な応答の確率

100万トークンのコンテキストウィンドウ

Gemini 3.5 Flashは100万トークンのコンテキストウィンドウをサポートしています。これは、単一セッションでコードベース全体、長大な規制文書、または長時間実行される自律タスクの完全なトレースを保持するのに十分な量です。検索ベンチマークによると、このウィンドウはその長さでも実際に使用可能であり、長文の末尾で性能が低下することはありません。

Gemini SparkとGoogleが示唆していること

I/Oで発表されたもう一つは、Googleの新しい24時間年中無休のパーソナルAIエージェントであるGemini Sparkが、3.5 Flashを搭載していることです。このモデルは現在、GeminiアプリとGoogle検索のAIモードで世界的にデフォルトとなっています。Googleは、最もトラフィックの多い消費者向け製品と、最も野心的なエージェント実験の両方で、3.5 Flashを本番環境のデフォルトとして展開しており、これは単なる足がかりではありません。

注目すべき点

来月の3.5 Pro。 Googleは、3.5 Proがすでに社内で使用されていることを確認しました。もし3.5 Flashがほとんどのベンチマークで3.1 Proをすでに上回っているとすれば、Flashがまだ遅れをとっている推論や長文コンテキストのタスクにおいて、3.5 Proがどのような性能を発揮するかが問題となります。

MCP Atlasにおけるリーダーシップ。 Model Context Protocolを使用した多段階ツールワークフローのベンチマークであるMCP AtlasにおけるFlashの優位性は、Googleがツールオーケストレーションを最優先のトレーニング目標としていることを示しています。MCPネイティブアーキテクチャを構築しているチームにとって、これは真剣に受け止めるべきことです。

TrueFoundryで実行する

TrueFoundry AI Gateway 単一のエンドポイントを通じて、Gemini 3.5 Flash、GPT-5.5、Claude Opus 4.7、およびその他の最先端モデルへのアクセスを提供します。これは上記の検証で使用されたのと同じ設定です。統合されたリクエストトレース、モデルとチームごとのコスト配分、プロバイダーごとの個別のAPIキーは不要です。

お試しください · クイックスタート · デモを予約する

公式ベンチマークデータ: Google DeepMind — Gemini 3.5 Flash、2026年5月19日。TrueFoundry検証実行:2026年5月20日、TrueFoundry AI Gatewayを介した15プロンプトのテキスト専用ハーネス。

The fastest way to build, govern and scale your AI

Sign Up
Table of Contents

One Gateway for Every LLM, Agent and MCP Server

Book a 30-min with our AI expert

Book a Demo

The fastest way to build, govern and scale your AI

Book Demo
Summarize with
ChatGPT logo by OpenAI
Perplexity AI logo
Blurry red snowflake on white background, symmetrical frosty design with soft edges and abstract shape.

Discover More

July 20, 2023
|
5 min read

LLMOps CoE: MLOpsランドスケープにおける次のフロンティア

May 25, 2023
|
5 min read

Open Source LLMs: Embrace or Perish

August 27, 2025
|
5 min read

Mapping the On-Prem AI Market: From Chips to Control Planes

September 28, 2023
|
5 min read

What is Lora Fine Tuning? The Definitive Guide

OpenRouter vs AI Gateway
July 4, 2026
|
5 min read

OpenRouter 対 AIゲートウェイ:どちらがあなたに最適ですか?

comparison
July 4, 2026
|
5 min read

プロンプトエンジニアリング:LLMとの対話方法を学ぶ

Thought Leadership
LLMs & GenAI
July 4, 2026
|
5 min read

True ML Talks #12 - Llama-Index共同創設者

True ML Talks
July 4, 2026
|
5 min read

AIワークロードがクラウド料金を膨らませていませんか?

Thought Leadership
No items found.

Recent Blogs

Black left pointing arrow symbol on white background, directional indicator.
Black left pointing arrow symbol on white background, directional indicator.
Take a quick product tour
Start Product Tour
Product Tour