WebBrain は無料・オープンソースのブラウザ拡張で、Chrome と Firefox に AI エージェント機能を持ち込みます。ページの読み取り、データの抽出、Web タスクの自動化を、あなたが選んだ LLM で。プロプライエタリなブラウザ AI プラグインに代わる、セルフホスト可能な選択肢です。
WebBrain がページを読み、データを抽出し、ブラウザのタスクを自動化する様子をご覧ください。
ブラウザのサイドパネルに常駐し、あらゆる Web ページを理解する、フル機能の AI エージェント。
あらゆる Web ページを読んで理解 — 記事、ドキュメント、ダッシュボード、フォーム。現在のページ内容に対して質問し、即座に回答が得られます。
クリック、入力、スクロール、ナビゲートをあなたの代わりに行い、ページと対話します。自然言語の指示で繰り返し作業を自動化。
あらゆるページから構造化データを抽出 — 表、リスト、リンク、フォーム。製品カタログや検索結果、ページの任意の内容をエクスポート。PDF にも対応。
ローカルの llama.cpp、OpenAI、Claude、OpenRouter に対応。お好みのモデルを使用 — あるいはローカル AI で完全オフラインで動作。
あなたのデータはあなたのもの。ローカル LLM ならデータ漏えいはゼロ。テレメトリ、トラッキング、アカウントは一切不要。完全オープンソース。
自動的なコンテキスト管理がトークン溢れを防ぎます。会話履歴をうまくトリムし、ツール出力を制限することで、途切れないスムーズなセッションを実現。
計画用に高速なテキスト専用モデルを使い、スクリーンショットの読み取り用に別の画像認識対応モデルを組み合わせます。単一の大きなマルチモーダルモデルで全部やるより安く、速く。
任意のプレーンテキスト bio — 名前、仕事用メール、所属、低リスクなサインアップ向けの使い捨てパスワード — を入れておくと、エージェントが毎回聞かずにフォームを通過できます。既定はオフ、データはすべてローカルに保存。
ページを推論する前に同意バナー(OneTrust、Cookiebot、Didomi、Quantcast)を閉じます。ペイウォールを検出したら、本文を捏造したり迂回したりせず、その旨を正直に伝えます。
Plug in a CapSolver API key and the agent will auto-solve reCAPTCHA v2/v3, hCaptcha, and Cloudflare Turnstile when they block a step — instead of stopping to ask. Off by default, BYO key, no captcha service is shipped or contacted unless you turn it on.
拡張は English、Español、Français、Türkçe、中文 で提供されます。初回起動時にブラウザの言語を自動検出。サイドパネルの地球アイコンからいつでも切り替え可能。マーケティングサイトもそれに合わせてローカライズされています。
スクリーンショットは、あなたのマシンから出ていく前にリサイズされ、JPEG で反復的に圧縮されるので、画像トークンは小さく抑えられます。スマートなコンテキスト圧縮とツール出力の上限が、クラウド料金を予測可能に — 長いセッションでの想定外の支出はなし。
OpenAI 互換の任意の API に接続するか、ローカルモデルを動かす。プロバイダーは拡張設定からいつでも切り替えられます。
Chrome と Firefox で利用可能。無料、オープンソース、アカウント不要。
Manifest V3 · Chrome 116+ · Brave、Edge、Opera、Vivaldi など Chromium 互換ブラウザでも動作。
WebBrain はブラウザネイティブの AI プラグインと本格的なエージェントフレームワークの中間に位置します。位置づけは次のとおりです。
| 機能 | WebBrain | Claude in Chrome |
|---|---|---|
| オープンソース | MIT ライセンス | プロプライエタリ |
| 価格 | 永久無料 | Claude Pro が必要 ($20/月) |
| ローカル LLM 対応 | llama.cpp、Ollama | なし — Claude のみ |
| マルチプロバイダー | All OpenAI-compatible endpoints | Claude のみ |
| Chrome | あり (MV3) | あり |
| Firefox | あり (MV2) | なし |
| サイドパネル UI | あり | あり |
| 質問 / 実行 モード | あり | 類似 |
| 完全オフライン | 可 (ローカル LLM 利用時) | 不可 — クラウド必須 |
| セルフホスト可 | あり | なし |
| 観点 | WebBrain | OpenClaw / Browser-Use / その他 |
|---|---|---|
| これは何? | ブラウザ拡張 (エンドユーザー向けツール) | エージェントフレームワーク / SDK (開発者向けツール) |
| 対象ユーザー | 誰でも — コーディング不要 | 自動化を構築する開発者 |
| インストール | ブラウザにワンクリック | Python/Docker のセットアップが必要 |
| UI | サイドパネルのチャットを内蔵 | UI なし — コード/API のみ |
| ブラウザ制御 | Content script (軽量) | CDP / Playwright (フル制御) |
| マルチタブワークフロー | タブごとの会話 | プログラム可能なマルチタブのオーケストレーション |
| ヘッドレスモード | なし — あなたのブラウザ内で動作 | あり — ヘッドレス自動化 |
| 拡張性 | カスタム LLM プロバイダーを追加可能 | 本格的な Python SDK、カスタムツール |
| 向いている用途 | 日常のブラウジング AI アシスタント | 自動スクレイピング / テストパイプライン |
WebBrain は、ブラウジング中に AI アシスタントが欲しいエンドユーザー向けのブラウザ拡張です。OpenClaw のようなエージェントフレームワークは、自動化ブラウザパイプラインを構築する開発者向けのツールです。違う仕事には違う道具を — そして両方を併用することもできます。
はい。WebBrain は同様の AI ブラウザエージェント機能を提供します — ページを読み、データを抽出し、ボタンをクリックし、フォームを入力し、多段のワークフローを自動化します。Claude Pro のサブスクリプションが必要で Anthropic のモデルしか使えないプロプライエタリな Claude のプラグインと違い、WebBrain は完全無料・オープンソース (MIT ライセンス) で、ローカルマシン上で完全に動作するモデルも含め、複数の LLM プロバイダーに対応しています。
それらは別カテゴリのツールです。WebBrain はブラウザ拡張で、Chrome や Firefox にインストールし、サイドパネルでチャットします。コーディングは不要です。OpenClaw や Browser-Use のようなフレームワークは、Python で自動ブラウザパイプラインを構築するための開発者向け SDK で、通常はヘッドレスブラウザと CDP を使います。要するに WebBrain は日常のブラウジングを AI アシスタントと一緒に行うためのもの、エージェントフレームワークはスクレイピングボットやテスト自動化を作るためのもの。両方を併用してもよく、補完関係にあります。
はい。WebBrain のデフォルトプロバイダーは llama.cpp で、ローカルの AI モデルをあなたのコンピューター上で実行します。API キーは不要、AI の利用にインターネットは不要、データもマシンから出ません。GGUF モデルをダウンロードして llama-server を起動すれば、完全にプライベートな AI ブラウザエージェントが手に入ります。Ollama の OpenAI 互換エンドポイントも使えます。
WebBrain は 4 種類のプロバイダーに対応しています: llama.cpp (任意のローカル GGUF モデル)、OpenAI (GPT-4o、GPT-4 など)、Claude (ネイティブ API 経由で Claude Opus、Sonnet、Haiku)、OpenRouter (さまざまなプロバイダーの 100 を超えるモデルにアクセス)。OpenAI 互換の API エンドポイントなら何でも動くので、Together AI、Groq、Mistral、あるいは OpenAI 互換インターフェイスを備えた任意のローカルサーバーも使えます。
2026 年 4 月 21 日 時点でのトップ推奨は Qwen 3.6 35B です。理由: 当方のビジョンベンチマーク (vision-model-shootout) で、スクリーンショット理解において Gemma 4 を上回り、ローカル推論でも実用的なままでした。
コンシューマー GPU なら RTX 5090 が理想で、RTX 4090 でも Intel/Qwen3.6-35B-A3B-int4-AutoRound による INT4 AutoRound 量子化で多くの場合実用に足ります。
最高速度を狙うなら vLLM でサーブすることをおすすめします。コマンド例:
python -u -m vllm.entrypoints.openai.api_server --model Intel/Qwen3.6-35B-A3B-int4-AutoRound --served-model-name qwen3.6-35b --quantization auto --dtype bfloat16 --max-model-len 65536 --max-num-batched-tokens 32768 --max-num-seqs 4 --host 0.0.0.0 --port 8000 --gpu-memory-utilization 0.92 --enable-prefix-caching --enable-chunked-prefill --limit-mm-per-prompt '{"image": 4, "video": 1}' --mm-processor-cache-type shm --reasoning-parser qwen3 --enable-auto-tool-choice --tool-call-parser qwen3_coder --trust-remote-code --allowed-origins '["*"]' --speculative-config '{"method": "dflash", "model": "z-lab/Qwen3.6-35B-A3B-DFlash", "num_speculative_tokens": 15}' --attention-backend flash_attn
DFlash speculative decoding は任意です。
LLM サーバーがローカルネットワーク上の別のマシン (例: http://192.168.1.x:8000) にある場合、サーバーが CORS ヘッダー を返さないと Chrome がリクエストをブロックします。対処はサーバーごとに異なります:
vLLM: --allowed-origins '["*"]' 付きで起動 (値は必ず JSON 配列)。
Ollama: 起動前に環境変数 OLLAMA_ORIGINS=* を設定。
llama.cpp: CORS はデフォルトで有効 — 変更不要です。
サーバーが localhost (ブラウザと同じマシン) で動いている場合、通常 CORS は不要です。問題が出るのはローカルネットワークの別マシンに接続するときだけ。WebBrain の設定で Base URL が /v1 で終わっていることも確認してください (例: http://192.168.1.47:8000/v1)。
はい。WebBrain は Chrome 版 (Manifest V3、sidePanel API を使用) と Firefox 版 (Manifest V2、sidebar_action を使用) の両方を提供します。機能はどちらも同じです。Firefox 版は開発用の一時的なアドオンとして読み込むこともでき、addons.mozilla.org に公開して恒久インストールすることもできます。
はい — Firefox のサイドバーはデフォルトでは左ですが、移動できます。サイドバーのヘッダー上で右クリックし、「サイドバーを右に移動」を選びます (メニューバーの 「表示 → サイドバー → サイドバーを右に移動」 でも可)。位置は再起動後も保持されます。Chrome の sidePanel はデフォルトで右側にあり、パネル自体からユーザーが移動することはできません。
WebBrain には 2 つのモードがあります。質問モード (デフォルト) は読み取り専用で、ページ上の何も変更できません。実行モードはフルブラウザエージェント機能 (クリック、入力、ナビゲーション) を有効にしますが、起動前に明示的なユーザー確認が必要で、目に見える警告バナーが表示されます。エージェントは「停止」ボタンでいつでも止められます。拡張のソースコードは GitHub で完全公開されており、監査可能です。
任意の Web ページを開き、WebBrain のサイドパネルを開いて、自然言語で頼むだけです。「このページのすべての製品名と価格を抽出して」「このページにあるメールアドレスを全部取得して」「この記事を箇条書きで要約して」。AI エージェントはページ内容を読み、構造を理解し、抽出データを返します。より複雑なスクレイピングをしたいときは実行モードに切り替えれば、ページ間を移動し、ページネーションのボタンを押し、複数ページのデータを集約できます。
デフォルトでは、WebBrain は何かを作成・変更・削除・送信・送出・投稿・購入するあらゆる操作を、必ず可視 UI 経由で行います。ページに移動し、フォームを埋め、ボタンを押す — あなたが普段やる手順そのままです。バックグラウンドの fetch() で REST/GraphQL エンドポイントを直接呼んでミューテーションを行うことは拒否します。これは意図的なものです: API 操作は不可視で (何が送られているかが見えません)、別途設定が必要な認証トークンを要求することが多く、可視のクリックミス 1 つよりはるかに広い影響範囲を持ちます。UI-first とはつまり、すべてが画面上、いつもの認証済みブラウザセッション内で起こり、いつでも止められるということです。
データの読み取り — README を取りに行く、issue を調べる、サイト間で価格を比較する、ステータスページを確認するなど — については、WebBrain は fetch_url や research_url ツール経由でバックグラウンド HTTP リクエストを自由に使います。読み取りは操作とは違い、リモートサービス上の何も変えないので、同じ安全上の懸念は当てはまりません。
特定のタスクで API ミューテーションを許可したい場合は、メッセージ冒頭に /allow-api と入力します (短いタスク記述を続けても構いません)。この会話単位のオーバーライドにより、UI が本当に動かない/使えないときには WebBrain が API エンドポイントにフォールバックできるようになりますが、UI で済む場合は UI を優先するという方針は維持されます。オーバーライドが有効な間、入力欄の上に固定のバッジが表示され、会話をリセットすると解除されます。
はい。WebBrain の読み取り専用ネットワークツール — fetch_url と research_url — は単独の LM Studio プラグインとしても webbrain/web-tools で提供されています。lms clone webbrain/web-tools でインストールし、LM Studio の任意のチャットでオンに切り替えれば、ツール呼び出しに対応した任意のモデルが、ブラウザ拡張を入れなくてもこの 2 つのツールを呼び出せます。純粋な Node で、ヘッドレスブラウザは不要。ソース: lmstudio-plugin/。
Chrome なら大丈夫です — エージェントはバックグラウンドの service worker で動き、起動時のタブに紐づけられているので、フォーカスを他に移してもそのタブで引き続きクリック・入力・読み取りを行います。タブを対象とするツール (CDP のクリック、入力、ナビゲーション、スクリーンショット) は、Chrome ではバックグラウンドタブでもすべて動作します。タスク実行中はサイドバーが入力欄をロックするので、新しいタブで誤って 2 つ目のタスクを開始してしまうことはありません — 待つか、現在のタスクを止める必要があります。なお、ブラウザはバックグラウンドタブのタイマーやアニメーションを絞るので、アニメーションの多いサイトでは反応がやや遅くなることがあります。
Firefox でもエージェントは元のタブで動き続けますが、自動スクリーンショットには制限があります。Firefox のスクリーンショット API は現在アクティブなタブしか撮れず、バックグラウンドの特定タブは撮れません。WebBrain はこれを検知し、関係ないページの画像をモデルに食わせる代わりに、その回はスクリーンショットをスキップします。エージェントはあなたがそのタブに戻るまで、テキストベースの文脈で計画を続けます。
エージェントが作業しているのと同じタブで自分から積極的にクリックや入力をするのは避けてください — あなたとエージェントが同じページを取り合うレース状態になります。タブを切り替えるのはかまいませんが、同じタブを共同運転するのはダメです。
プロフィール自動入力は 設定 → プロフィール にあるオプション機能です。短い bio — 名前、仕事用メール、所属、低リスクなサインアップ向けの使い捨てパスワード — を入力してオンにします。有効にすると、WebBrain はそのテキストをエージェントのシステムプロンプトに付け足し、毎回聞かずにサインアップフォームを埋められるようにします。
テキストはブラウザのローカルストレージに平文で保存されます。WebBrain プロジェクトへは送信されませんが、設定済みの LLM プロバイダーへはシステムプロンプトの一部として毎ターン送信されます。既定はオフです。
ここに重要アカウント (Google、Apple、iCloud、銀行、社内 SSO、メインのメール) のパスワードは絶対に入れないでください。それらは 2FA を有効にすべきで、そもそもエージェントに渡すべきではありません。意図された使い方は、ニュースレターの登録や無料体験などで使い回す使い捨てパスワードです。
Cookie バナー: WebBrain は一般的なフレームワーク (OneTrust、Cookiebot、Didomi、Quantcast、Google Funding Choices、TrustArc) の同意バナーを認識し、ページについて推論する前に閉じます。優先順位は「すべて拒否」/「必須でないものを拒否」/「必要なものだけ」がはっきり見えるときはそれら。そうでなければ「すべて受け入れる」にフォールバックし、「設定を管理」の迷路にハマるのを避けます。
ペイウォール: WebBrain はペイウォールがあれば正直にそれを報告し、実際に見えた範囲 (見出し、リード、最初の段落) を伝えます。ペイウォールの迂回は試みません — archive.today も 12ft.io も、Cookie の削除も JS の無効化もリーダーモードのトリックも使いません。記事全文が必要なら、サブスクでログインするか、同じ話題を扱う無料の記事を WebBrain に探してもらってください。
7.0.0 時点では未対応です。dry-run モードは計画済みで、すでにロードマップに載っています。
独立した 3 層構造です:
トークンに配慮したスクリーンショット。 画像があなたのマシンから出ていく前に、WebBrain はリサイズ (短辺をキャップしつつアスペクト比を維持) し、JPEG で反復的に圧縮して 1 ターンあたりの画像トークン予算に収めます。GPT-4o で約 1,500 入力トークンかかる 2000×1200 のスクリーンショットも、ページ読み取り用途では実用上の損失なく ~300–500 トークンに圧縮されます。実装は _fitImageDimensions にあり、予算計算のユニットテストも備えています。
スマートなコンテキストトリミング。 会話履歴、ツール出力、インラインの DOM ダンプは 1 ターンあたりで上限がかかり、アクティブモデルのコンテキスト窓が満杯に近づくと古いものから順にトリミングされます。read_page が小説並みの長さの記事を返したからといって、実行が静かに 10k トークンから 100k トークンに膨らむことはありません。
専用の画像認識モデル。 計画とツール呼び出しには安いテキストモデル (例: GPT-4o-mini)、スクリーンショットだけは別の画像認識対応モデル (例: GPT-4o) というふうに組み合わせれば、毎ターン マルチモーダルモデルの料金を払わずに済みます。設定は 設定 → 画像認識 から。
結果として、クラウドプロバイダーとの長時間セッションは予測可能なままです。完全な制御が欲しいなら、ローカルで llama.cpp を — トークン単価はゼロです。
もちろんです! WebBrain は MIT ライセンスでコントリビュートを歓迎します。Issue、機能要望、コントリビューションガイドラインは GitHub リポジトリ をご覧ください。