WebBrain เป็นส่วนขยายเบราว์เซอร์ฟรีและโอเพนซอร์สที่นำความสามารถของ AI agent มาสู่ Chrome และ Firefox อ่านหน้า สกัดข้อมูล และทำให้งานบนเว็บเป็นอัตโนมัติ — ขับเคลื่อนด้วย LLM ที่คุณเลือก เป็นทางเลือกที่โฮสต์เองได้ของปลั๊กอิน AI เบราว์เซอร์ที่เป็นกรรมสิทธิ์
ดูว่า WebBrain อ่านหน้า สกัดข้อมูล และทำให้งานในเบราว์เซอร์เป็นอัตโนมัติได้อย่างไร
AI agent เต็มรูปแบบที่อยู่ในแถบด้านข้างของเบราว์เซอร์และเข้าใจหน้าเว็บใด ๆ
อ่านและเข้าใจหน้าเว็บใด ๆ — บทความ เอกสาร แดชบอร์ด ฟอร์ม ถามคำถามและรับคำตอบทันทีจากเนื้อหาของหน้าปัจจุบัน
คลิก พิมพ์ เลื่อน นำทาง และโต้ตอบกับหน้าแทนคุณ ทำให้งานซ้ำ ๆ เป็นอัตโนมัติด้วยคำสั่งภาษาธรรมชาติ
สกัดข้อมูลที่มีโครงสร้างจากหน้าใด ๆ — ตาราง รายการ ลิงก์ ฟอร์ม ส่งออกแค็ตตาล็อกสินค้า ผลการค้นหา หรือเนื้อหาของหน้าใด ๆ รองรับ PDF
ใช้งานกับ llama.cpp ภายในเครื่อง, OpenAI, Claude และ OpenRouter ได้ ใช้โมเดลที่คุณชอบ — หรือทำงานออฟไลน์เต็มรูปแบบด้วย AI ในเครื่อง
ข้อมูลของคุณยังเป็นของคุณ ใช้กับ LLM ภายในเครื่องเพื่อให้ไม่มีการรั่วไหลของข้อมูล ไม่มีการเก็บข้อมูลผู้ใช้ ไม่มีการติดตาม ไม่ต้องมีบัญชี โอเพนซอร์สเต็มรูปแบบ
การจัดการ context อัตโนมัติป้องกันไม่ให้โทเค็นล้น ตัดประวัติการสนทนาอย่างชาญฉลาดและจำกัดเอาต์พุตของเครื่องมือ เพื่อให้เซสชันราบรื่นไม่สะดุด
จับคู่โมเดลเฉพาะข้อความที่รวดเร็วสำหรับวางแผน กับโมเดลที่รองรับการมองเห็นสำหรับอ่านภาพหน้าจอ ถูกและเร็วกว่าการใช้โมเดลมัลติโมดัลขนาดใหญ่ตัวเดียวทำทุกอย่าง
ประวัติย่อแบบเลือกได้ — ชื่อ อีเมลที่ทำงาน บริษัท และรหัสผ่านใช้ครั้งเดียว — ช่วยให้เอเจนต์ผ่านฟอร์มสมัครที่มีความเสี่ยงต่ำได้โดยไม่ต้องถามทุกครั้ง ปิดเป็นค่าเริ่มต้น และทุกอย่างเก็บอยู่ในเครื่อง
ปิดแบนเนอร์ยินยอม (OneTrust, Cookiebot, Didomi, Quantcast) ก่อนวิเคราะห์หน้า ตรวจพบ paywall และบอกตามตรงแทนที่จะแต่งเนื้อหาบทความหรือพยายามหลีกเลี่ยง
Plug in a CapSolver API key and the agent will auto-solve reCAPTCHA v2/v3, hCaptcha, and Cloudflare Turnstile when they block a step — instead of stopping to ask. Off by default, BYO key, no captcha service is shipped or contacted unless you turn it on.
ปลั๊กอินมาพร้อม English, Español, Français, Türkçe และ 中文 ตรวจจับภาษาเบราว์เซอร์ของคุณอัตโนมัติเมื่อใช้งานครั้งแรก เปลี่ยนได้ทุกเมื่อจากไอคอนลูกโลกในแถบด้านข้าง เว็บไซต์การตลาดมีการแปลให้สอดคล้องกัน
ภาพหน้าจอจะถูกปรับขนาดและบีบอัด JPEG ซ้ำ ๆ ก่อนออกจากเครื่องของคุณ ทำให้โทเค็นรูปภาพเล็ก การตัด context อัจฉริยะและขีดจำกัดเอาต์พุตของเครื่องมือทำให้บิลคลาวด์คาดเดาได้ — ไม่มีค่าใช้จ่ายเซอร์ไพรส์ในเซสชันยาว ๆ
เชื่อมต่อกับ API ที่เข้ากันได้กับ OpenAI ใด ๆ หรือรันโมเดลภายในเครื่อง สลับผู้ให้บริการได้ทุกเมื่อจากการตั้งค่าของส่วนขยาย
ใช้ได้กับ Chrome และ Firefox ฟรี โอเพนซอร์ส ไม่ต้องมีบัญชี
Manifest V3 · Chrome 116+ · ใช้งานได้กับ Brave, Edge, Opera, Vivaldi และเบราว์เซอร์ที่เข้ากันได้กับ Chromium อื่น ๆ ด้วย
WebBrain ยืนอยู่บนจุดตัดของปลั๊กอิน AI ในเบราว์เซอร์และเฟรมเวิร์กเอเจนต์เต็มรูปแบบ นี่คือการเปรียบเทียบ
| คุณสมบัติ | WebBrain | Claude ใน Chrome |
|---|---|---|
| โอเพนซอร์ส | สัญญาอนุญาต MIT | เป็นกรรมสิทธิ์ |
| ราคา | ฟรีตลอดไป | ต้องใช้ Claude Pro ($20/เดือน) |
| รองรับ LLM ภายในเครื่อง | llama.cpp, Ollama | ไม่ — เฉพาะ Claude |
| หลายผู้ให้บริการ | All OpenAI-compatible endpoints | เฉพาะ Claude |
| Chrome | ใช่ (MV3) | ใช่ |
| Firefox | ใช่ (MV2) | ไม่ |
| UI แถบด้านข้าง | ใช่ | ใช่ |
| โหมดถาม / ทำ | ใช่ | คล้ายกัน |
| ออฟไลน์เต็มรูปแบบ | ใช่ (พร้อม LLM ภายในเครื่อง) | ไม่ — ต้องใช้คลาวด์ |
| โฮสต์เองได้ | ใช่ | ไม่ |
| ด้าน | WebBrain | OpenClaw / Browser-Use / ฯลฯ |
|---|---|---|
| มันคืออะไร? | ส่วนขยายเบราว์เซอร์ (เครื่องมือผู้ใช้ปลายทาง) | เฟรมเวิร์กเอเจนต์ / SDK (เครื่องมือสำหรับนักพัฒนา) |
| ผู้ใช้เป้าหมาย | ทุกคน — ไม่ต้องเขียนโค้ด | นักพัฒนาที่สร้างระบบอัตโนมัติ |
| การติดตั้ง | ติดตั้งในเบราว์เซอร์ด้วยคลิกเดียว | ต้องตั้งค่า Python/Docker |
| UI | แชตในแถบด้านข้างในตัว | ไม่มี UI — โค้ดหรือ API เท่านั้น |
| ควบคุมเบราว์เซอร์ | Content script (เบา) | CDP / Playwright (ควบคุมเต็มที่) |
| เวิร์กโฟลว์หลายแท็บ | การสนทนาแยกตามแท็บ | ออเคสเตรชันหลายแท็บที่โปรแกรมได้ |
| โหมด headless | ไม่ — รันในเบราว์เซอร์ของคุณ | ใช่ — ระบบอัตโนมัติแบบ headless |
| ความสามารถในการขยาย | เพิ่มผู้ให้บริการ LLM ที่กำหนดเองได้ | Python SDK เต็มรูปแบบ เครื่องมือกำหนดเอง |
| เหมาะที่สุดสำหรับ | ผู้ช่วย AI สำหรับท่องเว็บประจำวัน | ไปป์ไลน์ scraping / ทดสอบอัตโนมัติ |
WebBrain คือส่วนขยายเบราว์เซอร์สำหรับผู้ใช้ปลายทางที่ต้องการผู้ช่วย AI ขณะท่องเว็บ เฟรมเวิร์กเอเจนต์อย่าง OpenClaw คือเครื่องมือสำหรับนักพัฒนาในการสร้างไปป์ไลน์เบราว์เซอร์อัตโนมัติ เครื่องมือต่างกันสำหรับงานต่างกัน — และคุณสามารถใช้ทั้งสองอย่างได้
ใช่ WebBrain ให้ความสามารถของ AI browser agent ที่คล้ายกัน — อ่านหน้า สกัดข้อมูล คลิกปุ่ม กรอกฟอร์ม และทำให้เวิร์กโฟลว์หลายขั้นเป็นอัตโนมัติ ต่างจากปลั๊กอินเบราว์เซอร์ของ Claude ที่เป็นกรรมสิทธิ์ ซึ่งต้องใช้สมาชิก Claude Pro และทำงานเฉพาะกับโมเดลของ Anthropic เท่านั้น WebBrain ฟรีโดยสิ้นเชิง โอเพนซอร์ส (สัญญาอนุญาต MIT) และรองรับผู้ให้บริการ LLM หลายราย รวมถึงโมเดลภายในเครื่องที่ทำงานทั้งหมดบนเครื่องของคุณ
เป็นเครื่องมือคนละหมวด WebBrain คือส่วนขยายเบราว์เซอร์ — คุณติดตั้งใน Chrome หรือ Firefox และสนทนากับมันในแถบด้านข้าง ไม่ต้องเขียนโค้ด ส่วนเฟรมเวิร์กอย่าง OpenClaw และ Browser-Use คือ SDK สำหรับนักพัฒนาเพื่อสร้างไปป์ไลน์เบราว์เซอร์อัตโนมัติด้วย Python โดยทั่วไปจะใช้เบราว์เซอร์แบบ headless และ CDP คิดอย่างนี้: WebBrain ใช้สำหรับท่องเว็บประจำวันคู่กับผู้ช่วย AI; เฟรมเวิร์กเอเจนต์ใช้สำหรับสร้างบอท scraping และระบบทดสอบอัตโนมัติ ใช้คู่กันได้ — เสริมกัน
ได้ ผู้ให้บริการเริ่มต้นของ WebBrain คือ llama.cpp ซึ่งรันโมเดล AI ในเครื่องคุณ ไม่ต้องใช้คีย์ API, AI ไม่ต้องใช้อินเทอร์เน็ต และข้อมูลก็ไม่ออกจากเครื่องคุณเลย เพียงดาวน์โหลดโมเดล GGUF เริ่ม llama-server แล้วคุณจะมี AI browser agent ที่เป็นส่วนตัวเต็มรูปแบบ คุณยังสามารถใช้ Ollama ผ่าน endpoint ที่เข้ากันได้กับ OpenAI ได้ด้วย
WebBrain รองรับผู้ให้บริการ 4 ประเภท: llama.cpp (โมเดล GGUF ภายในเครื่องใด ๆ), OpenAI (GPT-4o, GPT-4 ฯลฯ), Claude (Claude Opus, Sonnet, Haiku ผ่าน API ดั้งเดิม) และ OpenRouter (เข้าถึงโมเดลกว่า 100 โมเดลจากผู้ให้บริการต่าง ๆ) endpoint API ใด ๆ ที่เข้ากันได้กับ OpenAI ก็ใช้ได้ ดังนั้นคุณยังใช้บริการอย่าง Together AI, Groq, Mistral หรือเซิร์ฟเวอร์ภายในเครื่องใด ๆ ที่มีอินเทอร์เฟซเข้ากันได้กับ OpenAI ก็ได้
ณ 21 เมษายน 2026 คำแนะนำอันดับหนึ่งคือ Qwen 3.6 35B เหตุผล: ในเบนช์มาร์กด้านการมองเห็นของเรา (vision-model-shootout) มันทำได้ดีกว่า Gemma 4 ในการเข้าใจภาพหน้าจอ ขณะที่ยังใช้งานจริงสำหรับการอินเฟอเรนซ์ภายในเครื่องได้
สำหรับ GPU ระดับผู้บริโภค RTX 5090 เหมาะที่สุด ส่วน RTX 4090 มักใช้งานได้ด้วยการควอนไทซ์ INT4 AutoRound ผ่าน Intel/Qwen3.6-35B-A3B-int4-AutoRound
เพื่อความเร็วสูงสุด เราแนะนำให้เซิร์ฟด้วย vLLM ตัวอย่างคำสั่ง:
python -u -m vllm.entrypoints.openai.api_server --model Intel/Qwen3.6-35B-A3B-int4-AutoRound --served-model-name qwen3.6-35b --quantization auto --dtype bfloat16 --max-model-len 65536 --max-num-batched-tokens 32768 --max-num-seqs 4 --host 0.0.0.0 --port 8000 --gpu-memory-utilization 0.92 --enable-prefix-caching --enable-chunked-prefill --limit-mm-per-prompt '{"image": 4, "video": 1}' --mm-processor-cache-type shm --reasoning-parser qwen3 --enable-auto-tool-choice --tool-call-parser qwen3_coder --trust-remote-code --allowed-origins '["*"]' --speculative-config '{"method": "dflash", "model": "z-lab/Qwen3.6-35B-A3B-DFlash", "num_speculative_tokens": 15}' --attention-backend flash_attn
DFlash speculative decoding เป็นทางเลือก
หากเซิร์ฟเวอร์ LLM อยู่บนเครื่องอื่นในเครือข่ายภายในของคุณ (เช่น http://192.168.1.x:8000) Chrome จะบล็อกคำขอเว้นแต่เซิร์ฟเวอร์จะส่ง เฮดเดอร์ CORS วิธีแก้ขึ้นกับเซิร์ฟเวอร์ของคุณ:
vLLM: เริ่มด้วย --allowed-origins '["*"]' (ค่าต้องเป็นลิสต์ JSON)
Ollama: ตั้งตัวแปรสภาพแวดล้อม OLLAMA_ORIGINS=* ก่อนเริ่ม
llama.cpp: เปิด CORS เป็นค่าเริ่มต้น — ไม่ต้องเปลี่ยน
หากเซิร์ฟเวอร์ของคุณรันที่ localhost (เครื่องเดียวกับเบราว์เซอร์) ปกติไม่จำเป็นต้องใช้ CORS ปัญหานี้กระทบเฉพาะการเชื่อมต่อข้ามเครื่องบนเครือข่ายภายในเท่านั้น ตรวจสอบให้แน่ใจว่า base URL ในการตั้งค่าของ WebBrain ลงท้ายด้วย /v1 (เช่น http://192.168.1.47:8000/v1)
ได้ WebBrain มาพร้อมทั้งเวอร์ชัน Chrome (Manifest V3 ใช้ sidePanel API) และเวอร์ชัน Firefox (Manifest V2 ใช้ sidebar_action) ทั้งสองเวอร์ชันมีคุณสมบัติเหมือนกัน เวอร์ชัน Firefox สามารถโหลดเป็นแอดออนชั่วคราวเพื่อใช้พัฒนา หรือเผยแพร่ไปยัง addons.mozilla.org เพื่อการติดตั้งถาวรได้
ได้ — แถบด้านข้างของ Firefox โดยปกติจะอยู่ทางซ้าย แต่คุณสามารถสลับได้ คลิกขวาที่ส่วนหัวของแถบด้านข้าง แล้วเลือก Move Sidebar to Right (หรือใช้ View → Sidebar → Move Sidebar to Right จากแถบเมนู) ตำแหน่งจะคงอยู่หลังจากรีสตาร์ท ส่วน sidePanel ของ Chrome โดยปกติอยู่ทางขวาและผู้ใช้ไม่สามารถย้ายจากตัวพาเนลเองได้
WebBrain มีสองโหมด: โหมดถาม (ค่าเริ่มต้น) เป็นอ่านอย่างเดียวและไม่สามารถแก้ไขอะไรบนหน้าได้ โหมดทำเปิดความสามารถของ browser agent เต็มรูปแบบ (คลิก พิมพ์ นำทาง) แต่ต้องได้รับการยืนยันจากผู้ใช้อย่างชัดเจนก่อนเปิดใช้งาน และมีแบนเนอร์เตือนที่มองเห็นได้ คุณสามารถหยุดเอเจนต์ได้ทุกเมื่อด้วยปุ่มหยุด ซอร์สโค้ดของส่วนขยายเปิดเผยเต็มที่บน GitHub เพื่อการตรวจสอบ
เพียงเปิดหน้าเว็บใด ๆ เปิดแถบด้านข้างของ WebBrain แล้วถามเป็นภาษาธรรมชาติ: "สกัดชื่อสินค้าและราคาทั้งหมดจากหน้านี้", "ดึงที่อยู่อีเมลทั้งหมดบนหน้านี้" หรือ "สรุปบทความนี้เป็นข้อ ๆ" AI agent จะอ่านเนื้อหาของหน้า เข้าใจโครงสร้าง และส่งข้อมูลที่สกัดได้กลับมา สำหรับ scraping ที่ซับซ้อนกว่านั้น สลับไปที่โหมดทำ เอเจนต์สามารถเดินทางข้ามหน้า กดปุ่มแบ่งหน้า และรวบรวมข้อมูลจากหลายหน้าได้
โดยค่าเริ่มต้น WebBrain จะ ผ่าน UI ที่มองเห็นได้เสมอ สำหรับทุกการกระทำที่สร้าง แก้ไข ลบ ส่ง โพสต์ หรือซื้ออะไรก็ตาม มันจะเดินทางไปยังหน้า กรอกฟอร์ม และคลิกปุ่ม — แบบเดียวกับที่คุณจะทำ มันจะปฏิเสธการเรียก endpoint REST/GraphQL โดยตรงผ่าน fetch() ในพื้นหลังเพื่อทำการเปลี่ยนแปลง สิ่งนี้เป็นความตั้งใจ: การกระทำผ่าน API มองไม่เห็น (คุณไม่เห็นว่าส่งอะไรไป) มักต้องใช้โทเค็นยืนยันแยกที่คุณอาจยังไม่ได้ตั้งค่า และมีรัศมีผลกระทบที่กว้างกว่าการคลิกผิดที่มองเห็นได้ UI-first หมายถึงทุกอย่างปรากฏบนหน้าจอ ในเซสชันเบราว์เซอร์ปกติของคุณ และสามารถหยุดได้
สำหรับการ อ่าน ข้อมูล — ดึง README, ดู issue, เปรียบเทียบราคาระหว่างไซต์, ตรวจสอบหน้าแสดงสถานะ — WebBrain ใช้คำขอ HTTP พื้นหลังได้อย่างอิสระผ่านเครื่องมือ fetch_url และ research_url การอ่านไม่ใช่การกระทำ; ไม่เปลี่ยนอะไรในบริการระยะไกล จึงไม่มีข้อกังวลด้านความปลอดภัยแบบเดียวกัน
หากคุณต้องการอนุญาตให้แก้ไขผ่าน API สำหรับงานเฉพาะ พิมพ์ /allow-api ที่ต้นข้อความ (ตามด้วยคำอธิบายงานสั้น ๆ ก็ได้) การข้ามผ่านระดับการสนทนานี้ช่วยให้ WebBrain ถอยไปใช้ endpoint API เมื่อ UI ใช้งานไม่ได้จริง ๆ ในขณะที่ยังคงให้ความสำคัญกับ UI เมื่อ UI ใช้งานได้ ป้ายติดถาวรจะปรากฏเหนือพื้นที่ป้อนข้อความขณะที่การข้ามผ่านยังทำงานอยู่ และจะหายไปเมื่อคุณรีเซ็ตการสนทนา
ได้ เครื่องมือเครือข่ายแบบอ่านอย่างเดียวของ WebBrain — fetch_url และ research_url — มาในรูปของปลั๊กอิน LM Studio เดี่ยว ๆ ที่ webbrain/web-tools ติดตั้งด้วย lms clone webbrain/web-tools แล้วเปิดใช้ในแชต LM Studio ใดก็ได้ — โมเดลใด ๆ ที่รองรับการเรียกใช้เครื่องมือจะสามารถเรียกใช้สองเครื่องมือนี้ได้โดยไม่ต้องติดตั้งส่วนขยายเบราว์เซอร์ Node ล้วน ไม่ใช้เบราว์เซอร์ headless ซอร์ส: lmstudio-plugin/
ได้ บน Chrome — เอเจนต์ทำงานใน service worker เบื้องหลัง และผูกกับแท็บที่มันเริ่มทำงาน จึงคลิก พิมพ์ และอ่านแท็บนั้นต่อไปแม้คุณจะย้ายโฟกัสไปที่อื่น เครื่องมือที่กำหนดเป้าหมายเป็นแท็บ (CDP click, type, navigate, screenshot) ใช้งานกับแท็บเบื้องหลังบน Chrome ได้ทั้งหมด แถบด้านข้างจะล็อกช่องป้อนข้อความขณะที่งานกำลังทำอยู่ เพื่อไม่ให้คุณเผลอเริ่มงานที่สองในแท็บใหม่ — คุณต้องรอหรือหยุดงานปัจจุบันก่อน หมายเหตุ: เบราว์เซอร์จะจำกัด timer และอนิเมชันบนแท็บเบื้องหลัง ดังนั้นเว็บไซต์ที่มีอนิเมชันมากอาจตอบสนองช้าลงเล็กน้อย
บน Firefox เอเจนต์ก็จะทำงานต่อบนแท็บเดิม แต่ภาพหน้าจออัตโนมัติมีข้อจำกัด: API ภาพหน้าจอของ Firefox จับได้แค่แท็บที่ใช้งานอยู่ปัจจุบัน ไม่สามารถจับแท็บเฉพาะที่อยู่เบื้องหลังได้ WebBrain ตรวจจับสิ่งนี้และข้ามการถ่ายภาพหน้าจอในเทิร์นนั้น แทนที่จะป้อนภาพของหน้าที่ไม่เกี่ยวข้องให้กับโมเดล เอเจนต์จะวางแผนต่อจากบริบทแบบข้อความจนกว่าคุณจะสลับกลับไปยังแท็บของมัน
หลีกเลี่ยงการคลิกหรือพิมพ์ในแท็บเดียวกับที่เอเจนต์กำลังทำงาน — สิ่งนี้สร้างสภาวะแข่งขัน ที่คุณกับเอเจนต์แย่งกันใช้หน้าเดียวกัน การสลับแท็บไม่เป็นไร แต่ขับพร้อมกันในแท็บเดียวกันนั้นไม่
การกรอกโปรไฟล์อัตโนมัติเป็นคุณสมบัติเลือกได้ใน การตั้งค่า → โปรไฟล์ คุณกรอกประวัติย่อ — ชื่อ อีเมลที่ทำงาน บริษัท และรหัสผ่าน ใช้แล้วทิ้ง สำหรับการสมัครเสี่ยงต่ำ — แล้วเปิดใช้งาน เมื่อเปิดใช้ WebBrain จะเพิ่มข้อความนั้นต่อท้าย system prompt ของเอเจนต์ เพื่อให้มันกรอกฟอร์มสมัครได้โดยไม่ต้องถามทุกครั้ง
ข้อความถูกเก็บ เป็นข้อความธรรมดา ใน local storage ของเบราว์เซอร์ มัน จะไม่ ถูกส่งไปยังโปรเจกต์ WebBrain แต่ จะถูกส่ง ไปยังผู้ให้บริการ LLM ที่คุณตั้งค่าไว้ในทุกเทิร์น ในฐานะส่วนหนึ่งของ system prompt ปิดเป็นค่าเริ่มต้น
อย่าใส่รหัสผ่านของบัญชีสำคัญ ที่นี่ (Google, Apple, iCloud, ธนาคาร, SSO ที่ทำงาน, อีเมลหลัก) บัญชีเหล่านั้นควรใช้ 2FA และไม่ควรมอบให้เอเจนต์อยู่แล้ว กรณีใช้งานที่ตั้งใจคือรหัสผ่านใช้แล้วทิ้งที่คุณใช้ซ้ำสำหรับการสมัครจดหมายข่าวและการทดลองใช้ฟรี
แบนเนอร์ Cookie: WebBrain รู้จักแบนเนอร์ยินยอมจากเฟรมเวิร์กที่พบทั่วไป (OneTrust, Cookiebot, Didomi, Quantcast, Google Funding Choices, TrustArc) และปิดมันก่อนวิเคราะห์หน้า ลำดับความสำคัญคือ "ปฏิเสธทั้งหมด" / "ปฏิเสธที่ไม่จำเป็น" / "เฉพาะจำเป็น" เมื่อมองเห็นชัดเจน หากไม่เห็นจะกลับไปใช้ "ยอมรับทั้งหมด" แทนที่จะหลงทางในเขาวงกต "จัดการการตั้งค่า"
Paywall: WebBrain รายงาน paywall อย่างตรงไปตรงมาและบอกคุณว่ามองเห็นอะไรจริง ๆ (พาดหัว สาระสั้น ๆ ย่อหน้าแรก) มัน ไม่ พยายามผ่าน paywall — ไม่มี archive.today, 12ft.io, การล้าง Cookie, การปิด JS หรือเล่ห์ของโหมดผู้อ่าน หากต้องการบทความเต็ม ให้เข้าสู่ระบบด้วยสมาชิก หรือขอให้ WebBrain หาแหล่งฟรีของเรื่องเดียวกัน
ณ 7.0.0 ยังไม่รองรับ โหมด dry-run มีแผนแล้วและอยู่ในแผนงาน
มีสามชั้นที่เป็นอิสระต่อกัน:
ภาพหน้าจอประหยัดโทเค็น ก่อนรูปจะออกจากเครื่องของคุณ WebBrain ปรับขนาด (จำกัดด้านที่สั้นกว่า โดยรักษาสัดส่วน) และบีบอัด JPEG ซ้ำ ๆ จนกระทั่งพอดีกับงบโทเค็นรูปต่อเทิร์น ภาพหน้าจอ 2000×1200 ที่จะใช้โทเค็นอินพุตประมาณ 1,500 บน GPT-4o จะถูกบีบลงเหลือ ~300–500 โทเค็น โดยไม่มีความสูญเสียในทางปฏิบัติสำหรับงานอ่านหน้า ใช้งานอยู่ใน _fitImageDimensions พร้อมยูนิตเทสต์สำหรับคณิตศาสตร์ของงบ
การตัด context อัจฉริยะ ประวัติการสนทนา เอาต์พุตของเครื่องมือ และดัมป์ DOM แบบฝังในแต่ละเทิร์นล้วนมีขีดจำกัด และจะถูกตัดจากเก่าที่สุดก่อนเมื่อหน้าต่าง context ของโมเดลที่ใช้งานอยู่ใกล้เต็ม คุณจะไม่เห็นการรันบวมขึ้นเงียบ ๆ จาก 10k โทเค็นเป็น 100k เพราะ read_page คืนบทความยาวขนาดนวนิยาย
โมเดลด้านการมองเห็นโดยเฉพาะ จับคู่โมเดลข้อความราคาถูก (เช่น GPT-4o-mini) สำหรับการวางแผนและเรียกใช้เครื่องมือ กับโมเดลที่รองรับการมองเห็นแยก (เช่น GPT-4o) เฉพาะภาพหน้าจอ คุณจะได้ไม่ต้องจ่ายราคาของโมเดลมัลติโมดัลในทุกเทิร์น ตั้งค่าได้ที่ การตั้งค่า → การมองเห็น
ผลลัพธ์สุดท้าย: เซสชันยาว ๆ กับผู้ให้บริการคลาวด์ยังคาดเดาได้ หากต้องการการควบคุมเต็มที่ ใช้ llama.cpp ภายในเครื่อง — ต้นทุนต่อโทเค็นเป็นศูนย์
ได้สิ! WebBrain ใช้สัญญาอนุญาต MIT และยินดีรับการมีส่วนร่วม ดู รีโพ GitHub สำหรับ issue คำขอคุณสมบัติ และแนวทางการมีส่วนร่วม