Ang WebBrain ay isang libre at open-source na extension ng browser na nagdadala ng AI agent capabilities sa Chrome at Firefox. Basahin ang mga pahina, kumuha ng datos, at i-automate ang mga gawain sa web — pinapagana ng LLM na napili mo. Ang self-hostable na alternatibo sa mga proprietary na browser AI plugin.
Tingnan kung paano binabasa ng WebBrain ang mga pahina, kumukuha ng datos, at nag-aautomat ng mga gawain sa browser.
Isang full-featured na AI agent na nakatira sa side panel ng iyong browser at nakakaunawa sa anumang web page.
Bumabasa at nakakaintindi sa anumang web page — mga artikulo, dokumentasyon, dashboard, form. Magtanong at makakuha kaagad ng sagot mula sa kasalukuyang nilalaman ng pahina.
Nag-cli-click, nagta-type, nag-i-scroll, nagna-navigate, at nakikipag-interact sa mga pahina para sa iyo. I-automate ang mga paulit-ulit na gawain gamit ang mga tagubilin sa natural na wika.
Kumuha ng structured data mula sa anumang pahina — mga talahanayan, listahan, link, form. I-export ang catalog ng produkto, mga resulta ng paghahanap, o anumang nilalaman ng pahina. Gumagana sa PDF.
Gumagana sa lokal na llama.cpp, OpenAI, Claude, at OpenRouter. Gamitin ang gusto mong modelo — o patakbuhin ito nang lubos na offline gamit ang lokal na AI.
Sa iyo pa rin ang iyong datos. Patakbuhin gamit ang lokal na LLM para sa zero data leakage. Walang telemetry, walang tracking, walang kinakailangang account. Ganap na open-source.
Pinipigilan ng awtomatikong pamamahala sa konteksto ang pag-apaw ng tokens. Marunong magbawas ng kasaysayan ng usapan at naglilimita sa output ng mga tool para sa maayos at walang patid na sesyon.
Magsama ng isang mabilis at puro-teksto na modelo para sa pagpaplano sa isang hiwalay na vision-capable na modelo para basahin ang mga screenshot. Mas mura at mas mabilis kaysa gumamit ng iisang malaking multimodal model para sa lahat.
Isang opsyonal na plaintext bio — pangalan, email sa trabaho, kumpanya, isang isahang-gamit na password — ang nagbibigay-daan sa ahente na lumagpas sa mga low-stakes na signup form nang hindi nagtatanong tuwing kailangan. Naka-off bilang default, lahat naka-store nang lokal.
Isinasara ang consent banners (OneTrust, Cookiebot, Didomi, Quantcast) bago mag-reason tungkol sa pahina. Tinutukoy ang paywall at sasabihin sa iyo nang totoo sa halip na gumawa-gawa ng nilalaman ng artikulo o subukang i-bypass ito.
Plug in a CapSolver API key and the agent will auto-solve reCAPTCHA v2/v3, hCaptcha, and Cloudflare Turnstile when they block a step — instead of stopping to ask. Off by default, BYO key, no captcha service is shipped or contacted unless you turn it on.
Ang plugin ay nasa English, Español, Français, Türkçe at 中文. Awtomatikong tinutukoy ang wika ng iyong browser sa unang paggamit; lumipat anumang oras mula sa globe icon sa side panel. Ang marketing site ay isinalin upang tumugma.
Ang mga screenshot ay binabago ang sukat at iteratively na nila-JPEG-compress bago umalis sa iyong makina, kaya nananatiling maliit ang image tokens. Ang smart context trimming at tool-output caps ay nagpapanatili ng predictable na cloud bills — walang kagulat-gulat na gastos sa mahabang sesyon.
Mag-connect sa anumang OpenAI-compatible na API o magpatakbo ng lokal na modelo. Lumipat ng provider anumang oras mula sa setting ng extension.
Available para sa Chrome at Firefox. Libre, open-source, walang kailangang account.
Manifest V3 · Chrome 116+ · Gumagana rin sa Brave, Edge, Opera, Vivaldi, at iba pang mga Chromium-compatible browser.
Nasa intersection ang WebBrain ng browser-native AI plugins at full agent frameworks. Narito ang paghahambing.
| Tampok | WebBrain | Claude sa Chrome |
|---|---|---|
| Open Source | MIT License | Proprietary |
| Presyo | Libre habambuhay | Kailangan ng Claude Pro ($20/buwan) |
| Suporta sa lokal na LLM | llama.cpp, Ollama | Hindi — Claude lamang |
| Multi-provider | All OpenAI-compatible endpoints | Claude lamang |
| Chrome | Oo (MV3) | Oo |
| Firefox | Oo (MV2) | Hindi |
| UI sa side panel | Oo | Oo |
| Mode ng Pagtatanong / Pagkilos | Oo | Magkatulad |
| Ganap na offline | Oo (gamit ang lokal na LLM) | Hindi — kailangan ang cloud |
| Self-hostable | Oo | Hindi |
| Aspeto | WebBrain | OpenClaw / Browser-Use / atbp. |
|---|---|---|
| Ano ito? | Browser extension (gamit ng end-user) | Agent framework / SDK (gamit ng developer) |
| Target user | Sino man — walang coding | Mga developer na gumagawa ng automation |
| Pagi-install | One-click browser install | Kailangan ng Python/Docker setup |
| UI | Built-in na side panel chat | Walang UI — code o API lamang |
| Kontrol sa browser | Content script (magaan) | CDP / Playwright (buong kontrol) |
| Multi-tab workflows | Bawat-tab na conversation | Programmable multi-tab orchestration |
| Headless mode | Hindi — tumatakbo sa iyong browser | Oo — headless automation |
| Kakayahang palawakin | Magdagdag ng custom LLM providers | Buong Python SDK, mga custom na tool |
| Pinakamabuti para sa | Pang-araw-araw na AI assistant sa browsing | Mga automated scraping / testing pipelines |
Ang WebBrain ay isang browser extension para sa mga end user na gustong magkaroon ng AI assistant habang nagba-browse. Ang mga agent framework tulad ng OpenClaw ay mga tool ng developer para sa paggawa ng automated browser pipelines. Magkaibang tool para sa magkaibang trabaho — at maaari mong gamitin ang dalawa.
Oo. Nagbibigay ang WebBrain ng katulad na AI browser agent capabilities — pagbabasa ng mga pahina, pagkuha ng datos, pag-click sa mga button, pagpu-puno ng form, at pag-automate ng multi-step na workflow. Hindi tulad ng proprietary Claude browser plugin na nangangailangan ng Claude Pro subscription at gumagana lamang sa mga modelo ng Anthropic, ang WebBrain ay ganap na libre, open-source (MIT license), at sumusuporta sa maraming LLM provider kasama ang mga lokal na modelo na buong-buong tumatakbo sa iyong makina.
Magkaibang kategorya ng tool ang mga ito. Ang WebBrain ay isang browser extension — iinstall mo ito sa Chrome o Firefox at makikipag-usap sa side panel, walang coding na kinakailangan. Ang mga framework tulad ng OpenClaw at Browser-Use ay mga developer SDK para sa paggawa ng automated browser pipelines sa Python, kadalasang gumagamit ng headless browser at CDP. Isipin mo na lang: ang WebBrain ay para sa pang-araw-araw na pagba-browse kasama ang AI assistant; ang mga agent framework ay para sa paggawa ng scraping bot at test automation. Maaari mong gamitin ang dalawa — komplementaryo ang mga ito.
Oo. Ang default na provider ng WebBrain ay ang llama.cpp na nagpapatakbo ng lokal na AI model sa iyong computer. Walang kailangang API key, walang kailangang internet para sa AI, at walang dataong umaalis sa iyong makina. Mag-download lang ng GGUF model, simulan ang llama-server, at meron ka nang isang ganap na pribadong AI browser agent. Maaari mo ring gamitin ang Ollama gamit ang OpenAI-compatible endpoint nito.
Sinusuportahan ng WebBrain ang apat na uri ng provider: llama.cpp (anumang lokal na GGUF model), OpenAI (GPT-4o, GPT-4, atbp.), Claude (Claude Opus, Sonnet, Haiku sa pamamagitan ng native API), at OpenRouter (access sa 100+ models mula sa iba't ibang provider). Anumang OpenAI-compatible na API endpoint ay gumagana, kaya magagamit mo rin ang mga serbisyong tulad ng Together AI, Groq, Mistral, o anumang lokal na server na may OpenAI-compatible interface.
Sa petsang Abril 21, 2026, ang nangungunang rekomendasyon ay ang Qwen 3.6 35B. Dahilan: sa aming vision benchmark (vision-model-shootout), nadaig nito ang Gemma 4 sa pag-unawa sa mga screenshot habang nananatiling praktikal para sa lokal na inference.
Para sa mga consumer GPU, perpekto ang RTX 5090, at madalas na pwede ang RTX 4090 gamit ang INT4 AutoRound quantization sa pamamagitan ng Intel/Qwen3.6-35B-A3B-int4-AutoRound.
Para sa max speed, inirerekomenda naming i-serve ito gamit ang vLLM. Halimbawang command:
python -u -m vllm.entrypoints.openai.api_server --model Intel/Qwen3.6-35B-A3B-int4-AutoRound --served-model-name qwen3.6-35b --quantization auto --dtype bfloat16 --max-model-len 65536 --max-num-batched-tokens 32768 --max-num-seqs 4 --host 0.0.0.0 --port 8000 --gpu-memory-utilization 0.92 --enable-prefix-caching --enable-chunked-prefill --limit-mm-per-prompt '{"image": 4, "video": 1}' --mm-processor-cache-type shm --reasoning-parser qwen3 --enable-auto-tool-choice --tool-call-parser qwen3_coder --trust-remote-code --allowed-origins '["*"]' --speculative-config '{"method": "dflash", "model": "z-lab/Qwen3.6-35B-A3B-DFlash", "num_speculative_tokens": 15}' --attention-backend flash_attn
Opsyonal ang DFlash speculative decoding.
Kung ang iyong LLM server ay nasa ibang makina sa iyong lokal na network (hal. http://192.168.1.x:8000), hinaharangan ng Chrome ang request maliban kung magpadala ang server ng CORS headers. Ang ayos ay depende sa iyong server:
vLLM: Simulan gamit ang --allowed-origins '["*"]' (ang value ay dapat na JSON list).
Ollama: Itakda ang environment variable na OLLAMA_ORIGINS=* bago magsimula.
llama.cpp: Naka-enable ang CORS by default — walang kailangang baguhin.
Kung tumatakbo ang iyong server sa localhost (parehong makina ng browser), kadalasan ay hindi kinakailangan ang CORS. Ang isyu ay para lamang sa cross-machine na koneksyon sa lokal na network. Tiyaking nagtatapos sa /v1 ang base URL sa setting ng WebBrain (hal. http://192.168.1.47:8000/v1).
Oo. Mayroong WebBrain Chrome version (Manifest V3, gamit ang sidePanel API) at Firefox version (Manifest V2, gamit ang sidebar_action). Magkapareho ang mga tampok ng dalawang bersyon. Ang Firefox version ay maaaring i-load bilang temporary add-on para sa development, o i-publish sa addons.mozilla.org para sa permanenteng pag-install.
Oo — ang sidebar ng Firefox ay nasa kaliwa by default, ngunit maaari mo itong i-flip. Mag-right-click kahit saan sa header ng sidebar at piliin ang Move Sidebar to Right (o gamitin ang View → Sidebar → Move Sidebar to Right mula sa menu bar). Mananatili ang posisyon kahit pagkatapos mag-restart. Ang sidePanel ng Chrome ay nasa kanan by default at hindi maililipat ng user mula sa panel mismo.
May dalawang mode ang WebBrain: ang mode ng Pagtatanong (default) ay read-only at hindi maaaring baguhin ang anumang bagay sa pahina. Ang mode ng Pagkilos ay nag-e-enable ng buong browser agent capabilities (pag-click, pag-type, pagna-navigate) ngunit nangangailangan ng tahasang kumpirmasyon ng user bago i-activate, at may kasamang nakikitang warning banner. Maaari mong itigil ang ahente anumang oras gamit ang Stop button. Ang source code ng extension ay buong nakabukas sa GitHub para sa audit.
Buksan lang ang anumang web page, buksan ang WebBrain side panel, at tumanong gamit ang natural na wika: "Kunin ang lahat ng pangalan at presyo ng produkto sa pahinang ito", "Kunin ang lahat ng email address sa pahinang ito", o "Mag-summarize ng artikulong ito sa bullet points". Babasahin ng AI agent ang nilalaman ng pahina, mauunawaan ang istruktura, at ibabalik ang nakuhang datos. Para sa mas kumplikadong scraping, lumipat sa Mode ng Pagkilos at ang ahente ay maaaring mag-navigate sa pagitan ng mga pahina, mag-click sa mga pagination button, at mag-aggregate ng datos sa maraming pahina.
Bilang default, ang WebBrain ay palaging dumadaan sa nakikitang UI para sa anumang aksyon na gumagawa, nagbabago, nagtatanggal, nagpapadala, nagpo-post, o bumibili ng anuman. Magna-navigate ito sa pahina, magpu-puno ng form, at magki-click ng button — eksakto kung paano mo gagawin. Tumatanggi itong tumawag ng mga REST/GraphQL endpoint nang direkta sa pamamagitan ng background fetch() para sa mga mutation. Sadyang ginagawa ito: ang mga aksyon sa API ay hindi nakikita (hindi mo nakikita kung ano ang ipinapadala), madalas nangangailangan ng hiwalay na auth token na maaaring hindi mo nakonfigure, at may mas malaking blast radius kaysa sa isang nakikitang maling click. Ang UI-first ay nangangahulugang nasa screen ang lahat, sa normal na browser session mo, at maaaring ipahinto anumang oras.
Para sa pagbabasa ng datos — pagkuha ng README, pagtingin sa isang issue, paghahambing ng presyo sa iba't ibang site, pagtingin sa status page — malayang gumagamit ang WebBrain ng background HTTP requests sa pamamagitan ng fetch_url at research_url tools. Ang pagbabasa ay hindi pagkilos; hindi nito binabago ang anumang bagay sa remote service, kaya hindi nagagamit ang parehong concerns sa kaligtasan.
Kung partikular mong gustong payagan ang mga API mutation para sa isang partikular na gawain, mag-type ng /allow-api sa simula ng iyong mensahe (opsyonal na sundan ng maikling task description). Pinapayagan ng per-conversation override na ito ang WebBrain na bumalik sa mga API endpoint kapag tunay na hindi gumagana o hindi pwede ang UI, habang nananatiling iniprefer ang UI kapag gumagana ang UI. May isang sticky badge na nananatiling nakikita sa itaas ng input area habang aktibo ang override, at mati-clear ito kapag nag-reset ka ng conversation.
Oo. Ang read-only na network tools ng WebBrain — fetch_url at research_url — ay ipinapadala rin bilang standalone na LM Studio plugin sa webbrain/web-tools. I-install gamit ang lms clone webbrain/web-tools at i-on sa anumang LM Studio chat — anumang tool-capable na modelo ay maaaring tumawag sa dalawang tool na ito nang hindi mo kailangang i-install ang browser extension. Pure Node, walang headless browser. Source: lmstudio-plugin/.
Oo, sa Chrome — tumatakbo ang ahente sa background service worker at naka-bind sa tab kung saan ito nagsimula, kaya patuloy itong magki-click, magta-type, at magbabasa sa partikular na tab na iyon kahit gumagalaw ka sa ibang lugar. Ang mga tool na may target na tab (CDP click, type, navigate, screenshot) ay gumagana lahat sa mga backgrounded tab sa Chrome. Nilalock ng sidebar ang input habang tumatakbo ang isang task para hindi ka makapagsimula nang aksidente ng pangalawang task sa bagong tab — kailangan mong maghintay o ipahinto ang kasalukuyan. Tandaan na nililimitahan ng mga browser ang mga timer at animation sa mga background tab, kaya maaaring medyo bumagal ang pagresponde ng mga animated na site.
Sa Firefox, magpapatuloy ang ahente na tumakbo sa orihinal nitong tab, pero limitado ang auto-screenshots: ang screenshot API ng Firefox ay nakakakuha lamang ng kasalukuyang aktibong tab, hindi ng partikular na tab sa background. Tinutukoy ito ng WebBrain at nilalaktawan ang screenshot para sa turn na iyon sa halip na ipakain sa modelo ang isang larawan ng isang walang kaugnayang pahina. Patuloy na magpa-plan ang ahente mula sa text-based na konteksto hanggang sa bumalik ka sa tab nito.
Iwasang aktibong mag-click o mag-type sa parehong tab na ginagamit ng ahente — gumagawa iyon ng race conditions kung saan kayong dalawa ng ahente ay naglalaban para sa parehong pahina. OK lang ang paglipat sa ibang tab; hindi OK ang sabay na pagpapatakbo ng parehong tab.
Ang Profile auto-fill ay isang opsyonal na tampok sa Settings → Profile. Maglalagay ka ng maikling bio — pangalan, work email, kumpanya, at isang isahang-gamit na password para sa mga low-stakes na signup — at i-on ito. Kapag naka-enable, idinaragdag ng WebBrain ang text na iyon sa system prompt ng ahente para makapag-puno ito ng signup forms nang hindi nagtatanong tuwing kailangan.
Ang text ay nakaimbak bilang plain text sa local storage ng iyong browser. Hindi ito ipinapadala sa proyektong WebBrain, ngunit ipinapadala ito sa kung anong LLM provider ang iyong na-configure sa bawat turn, bilang bahagi ng system prompt. Naka-off bilang default.
Huwag maglagay ng mga password para sa mahahalagang account (Google, Apple, iCloud, banking, work SSO, primary email) dito. Dapat gumamit ng 2FA ang mga account na iyon at hindi naman dapat ipinapasa sa isang ahente. Ang inilaang gamit ay isang isahang-gamit na password na ginagamit mo ulit para sa mga newsletter signup at libreng trial.
Cookie banners: Tinutukoy ng WebBrain ang consent banners mula sa mga karaniwang framework (OneTrust, Cookiebot, Didomi, Quantcast, Google Funding Choices, TrustArc) at isinasara ang mga ito bago mag-reason tungkol sa pahina. Ang priority ay "Reject all" / "Reject non-essential" / "Only necessary" kapag malinaw na nakikita; bumabalik ito sa "Accept all" sa halip na maglaho sa "Manage preferences" na maze.
Paywalls: Tapat na inulat ng WebBrain ang paywall at sasabihin sa iyo kung ano talaga ang nakita nito (headline, dek, mga unang talata). Hindi nito sinusubukang i-bypass ang mga paywall — walang archive.today, 12ft.io, pagtatanggal ng cookie, pag-disable ng JS, o reader-mode tricks. Kung gusto mo ang buong artikulo, mag-log in gamit ang subscription o hilingin sa WebBrain na maghanap ng libreng coverage ng parehong kwento.
Sa 7.0.0, hindi pa. Ang dry-run mode ay planado at nasa roadmap na.
Tatlong magkakahiwalay na layer:
Mga screenshot na pinatipid sa tokens. Bago umalis sa iyong makina ang anumang larawan, binabago ng WebBrain ang sukat nito (may cap sa shorter side, pinapanatili ang aspect ratio) at iteratively na nila-JPEG-compress hanggang kasya ito sa per-turn image-token budget. Ang isang 2000×1200 na screenshot na gagastos ng ~1,500 input tokens sa GPT-4o ay napi-compress sa ~300–500 tokens na walang praktikal na pagkawala para sa mga gawaing nagbabasa ng pahina. Ipinatupad sa _fitImageDimensions kasama ang unit tests para sa budget math.
Matalinong context trimming. Ang kasaysayan ng usapan, output ng mga tool, at mga inline DOM dump ay limitado per turn at binabawasan na nag-uunang sa pinakamatandang kapag ang context window ng aktibong modelo ay malapit nang mapuno. Hindi mo makikita na ang isang run ay tahimik na lumaki mula 10k tokens patungong 100k dahil nagbalik ang read_page ng isang artikulong kasinghaba ng nobela.
Nakalaang vision model. Magsama ng murang text model (hal. GPT-4o-mini) para sa pagpaplano at tool calls sa isang hiwalay na vision-capable na modelo (hal. GPT-4o) para lang sa mga screenshot, kaya hindi mo babayaran ang presyo ng multimodal-model sa bawat turn. I-configure sa ilalim ng Settings → Vision.
Net result: mananatiling predictable ang mahahabang sesyon sa cloud providers. Para sa buong kontrol, gamitin ang llama.cpp nang lokal — zero ang cost per token.
Talagang pwede! Naka-MIT license ang WebBrain at tumatanggap ng mga contribution. Tingnan ang GitHub repository para sa mga issue, feature request, at contribution guidelines.