米Googleは「Gemini 3.5 Flash」にComputer Useを標準搭載したと発表した。
AIが画面を見て判断し、ブラウザやアプリを操作するエージェント開発を支える。
画面操作機能をGemini 3.5 Flashに統合
2026年6月24日、GoogleはGemini 3.5 FlashでComputer Useを組み込みツールとして利用できるようにしたと発表した。
開発者や企業は、Gemini APIおよびGemini Enterprise Agent Platformを通じて、本機能を使用できる。
Computer Useは、AIが画面上の情報を確認し、推論し、操作を実行するための機能である。
これまではGemini 2.5のComputer Use専用モデルとして提供されていたが、今回、Gemini 3.5 Flashにネイティブ統合された。
Geminiはこれまでも、関数呼び出しやSearch、Maps groundingなどの組み込みツールに対応してきた。
Computer Useの統合により、開発者はブラウザ、モバイル、デスクトップ環境をまたいで動作するカスタムAIエージェントを構築できる。
用途としては、継続的なソフトウェアテストや、業務アプリケーションを使ったナレッジワークなどが挙げられている。
Geminiアプリを分析して機能をカテゴリ別に整理する例や、Geminiのドキュメントを対象にアクセシビリティ問題を監査する例も示された。
安全面では、ライブ環境で動作するエージェントのプロンプトインジェクション(※)リスクを抑えるため、Googleは標的型の敵対的トレーニングを実施しているという。
企業向けには、重要操作でユーザー確認を求める仕組みや、間接的なプロンプトインジェク
※ プロンプトインジェクション:外部の文章や画面表示に仕込まれた指示によって、AIが本来の目的と異なる動作をしてしまう攻撃手法。
自動化拡大と安全設計が鍵か
今回の統合は、AIエージェントを実験段階から業務実装へ近づける動きと言える。
画面を介して操作できれば、既存システムを大きく作り替えずに自動化できる領域が広がる可能性がある。
特に企業では、ソフトウェアテスト、社内ツールの確認、複数アプリを横断する事務処理などで活用余地があるだろう。
人が画面を見ながら進めていた定型作業の一部をAIに任せられれば、業務効率化だけでなく、作業手順の標準化にもつながるとみられる。
一方で、AIが実際の画面を操作する以上、誤操作や意図しない処理のリスクは残る。
送信、削除、購入、権限変更など取り消しにくい操作では、完全自動化よりも人間の確認を挟む設計が重要になりそうだ。
今後は、AIエージェントの評価軸が「正しい回答を返せるか」から、「安全に作業を完了できるか」へ広がると考えられる。
権限制御や人間による承認、必要に応じた監査体制を組み合わせられる企業ほど、Computer Useを実務に取り込みやすくなるだろう。
関連記事:
Google、AIエージェントの接続先発見を標準化 オープン仕様「ARD」で企業間連携を後押し

Googleが広告運用AI「Ask Ad Manager」を発表 媒体社の収益管理とキャンペーン実務をGeminiで支援

OpenAI、画面操作の録画で定型作業をAI化 Codex新機能「Record & Replay」が業務自動化を広げる
