Google、Gemini 3.5 Flashにコンピュータ操作機能を追加

● Google

Google.

// 3行まとめ

TL;DR

01GoogleがGemini 3.5 Flashにコンピュータ操作機能を導入しました。
02AIが画面を認識し、実際のPC操作を自律的に実行できます。
03軽量モデルへの実装により、幅広い用途での活用が想定されます。

GoogleがGemini 3.5 Flashにコンピュータ操作機能を導入しました。

AIが画面を認識し、実際のPC操作を自律的に実行できます。

軽量モデルへの実装により、幅広い用途での活用が想定されます。

#01 何が起きたのか

2026年6月25日、GoogleはAIモデル「Gemini 3.5 Flash」にコンピュータ使用機能（Computer Use）を導入したと発表しました。この機能は、AIが画面上の表示内容を視覚的に認識し、マウスのクリックやキーボード入力などのPC操作を自律的に実行できる能力を指します。

Gemini 3.5 Flashは、Googleが提供する比較的軽量かつ高速な推論に特化したモデルです。今回の発表では、この軽量モデルに対してコンピュータ操作機能を統合したことが明らかにされました。AIエージェント（自律的にタスクを実行するAIシステム）がウェブブラウザやデスクトップアプリケーションを直接操作し、複数のステップにわたる作業を連続して遂行することが可能になります。Google DeepMindの公式ブログにて、機能の概要と対応する操作の範囲が公開されています。

#02 なぜ重要なのか

コンピュータ操作機能は、AIエージェントの実用化において重要な技術的マイルストーンとされています。これまでAIはテキストや画像の生成・解析を主な役割としていましたが、コンピュータを直接操作できる能力を持つことで、人間が行っていたデジタル作業の自動化が可能になります。

また、今回の実装先がGemini 3.5 Flashという軽量モデルである点も注目されます。OpenAIやAnthropicも同様のコンピュータ操作機能を上位モデルで提供しており、軽量モデルへの展開はコスト面での競争力や開発者向けAPIでの利用しやすさに直結します。AI各社がエージェント機能の拡充を競う中、Googleの軽量モデルへの機能統合は業界全体の技術動向に影響を与えるものとみられます。