Geminiを使用したコンピュータ使用ツールセット¶
ADKでサポートPython v1.17.0プレビュー
コンピュータ使用ツールセットを使用すると、エージェントはブラウザなどのコンピュータのユーザーインターフェイスを操作してタスクを完了できます。このツールは、特定のGeminiモデルとPlaywrightテストツールを使用してChromiumブラウザを制御し、スクリーンショットの撮影、クリック、入力、ナビゲーションによってWebページと対話できます。
コンピュータ使用モデルの詳細については、Gemini API コンピュータ使用またはGoogle Cloud Vertex AI API コンピュータ使用を参照してください。
プレビューリリース
コンピュータ使用モデルとツールはプレビューリリースです。詳細については、リリース段階の説明を参照してください。
セットアップ¶
コンピュータ使用ツールセットを使用するには、Playwrightとその依存関係(Chromiumを含む)をインストールする必要があります。
推奨:Python仮想環境の作成とアクティブ化
Python仮想環境を作成します。
Python仮想環境をアクティブ化します。
コンピュータ使用ツールセットに必要なソフトウェアライブラリをセットアップするには:
- Pythonの依存関係をインストールします。
- Chromiumブラウザを含むPlaywrightの依存関係をインストールします。
ツールの使用¶
エージェントにツールとして追加して、コンピュータ使用ツールセットを使用します。ツールを設定するときは、エージェントがコンピュータを使用するためのインターフェイスを定義するBaseComputerクラスの実装を提供する必要があります。次の例では、この目的のためにPlaywrightComputerクラスが定義されています。この実装のコードは、computer_useエージェントサンプルプロジェクトのplaywright.pyファイルにあります。
from google.adk import Agent
from google.adk.models.google_llm import Gemini
from google.adk.tools.computer_use.computer_use_toolset import ComputerUseToolset
from typing_extensions import override
from .playwright import PlaywrightComputer
root_agent = Agent(
model='gemini-2.5-computer-use-preview-10-2025',
name='hello_world_agent',
description=(
'コンピュータ上のブラウザを操作してユーザーのタスクを完了できるコンピュータ使用エージェント'
),
instruction='あなたはコンピュータ使用エージェントです',
tools=[
ComputerUseToolset(computer=PlaywrightComputer(screen_size=(1280, 936)))
],
)
完全なコード例については、computer_useエージェントサンプルプロジェクトを参照してください。