コンテンツにスキップ

Geminiを使用したコンピュータ使用ツールセット

ADKでサポートPython v1.17.0プレビュー

コンピュータ使用ツールセットを使用すると、エージェントはブラウザなどのコンピュータのユーザーインターフェイスを操作してタスクを完了できます。このツールは、特定のGeminiモデルとPlaywrightテストツールを使用してChromiumブラウザを制御し、スクリーンショットの撮影、クリック、入力、ナビゲーションによってWebページと対話できます。

コンピュータ使用モデルの詳細については、Gemini API コンピュータ使用またはGoogle Cloud Vertex AI API コンピュータ使用を参照してください。

プレビューリリース

コンピュータ使用モデルとツールはプレビューリリースです。詳細については、リリース段階の説明を参照してください。

セットアップ

コンピュータ使用ツールセットを使用するには、Playwrightとその依存関係(Chromiumを含む)をインストールする必要があります。

推奨:Python仮想環境の作成とアクティブ化

Python仮想環境を作成します。

python -m venv .venv

Python仮想環境をアクティブ化します。

.venv\Scripts\activate.bat
.venv\Scripts\Activate.ps1
source .venv/bin/activate

コンピュータ使用ツールセットに必要なソフトウェアライブラリをセットアップするには:

  1. Pythonの依存関係をインストールします。
    pip install termcolor==3.1.0
    pip install playwright==1.52.0
    pip install browserbase==1.3.0
    pip install rich
    
  2. Chromiumブラウザを含むPlaywrightの依存関係をインストールします。
    playwright install-deps chromium
    playwright install chromium
    

ツールの使用

エージェントにツールとして追加して、コンピュータ使用ツールセットを使用します。ツールを設定するときは、エージェントがコンピュータを使用するためのインターフェイスを定義するBaseComputerクラスの実装を提供する必要があります。次の例では、この目的のためにPlaywrightComputerクラスが定義されています。この実装のコードは、computer_useエージェントサンプルプロジェクトのplaywright.pyファイルにあります。

from google.adk import Agent
from google.adk.models.google_llm import Gemini
from google.adk.tools.computer_use.computer_use_toolset import ComputerUseToolset
from typing_extensions import override

from .playwright import PlaywrightComputer

root_agent = Agent(
    model='gemini-2.5-computer-use-preview-10-2025',
    name='hello_world_agent',
    description=(
        'コンピュータ上のブラウザを操作してユーザーのタスクを完了できるコンピュータ使用エージェント'
    ),
    instruction='あなたはコンピュータ使用エージェントです',
    tools=[
        ComputerUseToolset(computer=PlaywrightComputer(screen_size=(1280, 936)))
    ],
)

完全なコード例については、computer_useエージェントサンプルプロジェクトを参照してください。