OpenClaw 浏览器插件重磅更新:5步配置实现 AI 自动截图分析
——
OpenClaw 浏览器插件重磅更新:5步配置实现 AI 自动截图分析
OpenClaw 浏览器插件最新版本引入了革命性的视觉理解(Vision Understanding)功能,让纯文本大模型也能”看懂”网页内容。本文将带你深入了解这次架构重构的核心变化,以及如何在 5 分钟内完成配置迁移,启用安全的自动截图分析能力。
—
为什么需要这次更新?
传统 AI Agent 在处理浏览器任务时面临一个关键限制:主流大模型(如 GPT-4、Claude 等)通常是纯文本的,无法直接理解网页截图的视觉信息。开发者不得不手动上传图片或依赖多模态模型,增加了使用门槛。
本次更新通过 Media Understanding 共享服务,将截图自动路由到专用视觉模型进行分析,生成文本描述后返回给主模型——让任何文本模型都能获得”视觉能力”。
—
核心变化:配置架构重构
从 tools.browser 迁移到 browser.models
最显著的变化是视觉配置的位置调整。旧配置分散在工具层级,新架构将其统一到插件顶层命名空间:
| 旧配置路径 | 新配置路径 |
|———–|———–|
| tools.browser.visionEnabled | browser.visionEnabled |
| tools.browser.visionPrompt | browser.visionPrompt |
| tools.browser.models | browser.models |
迁移原因:避免工具级与插件级设置的混淆,与浏览器插件现有的配置位置保持一致。
// 新配置示例(openclaw.config.js)
module.exports = {
browser: {
// 启用截图视觉分析
visionEnabled: true,
// 自定义分析提示词
visionPrompt: "分析这个网页截图,提取关键信息:页面标题、主要功能区域、任何错误提示",
// 视觉模型配置
models: {
// 使用 OpenAI GPT-4 Vision
preferredProfile: "openai-vision",
model: "gpt-4-vision-preview",
// 或本地 CLI 工具
command: "python",
args: ["-m", "vision_analyzer"]
}
}
};
—
5步快速启用视觉分析
步骤 1:更新 OpenClaw 到最新版本
通过 npm 更新
npm update @openclaw/browser-plugin
或通过 Docker
docker pull openclaw/browser-plugin:latest
步骤 2:迁移配置文件
将原有的 tools.browser 相关配置移动到 browser 命名空间:
// 删除旧配置
- tools: {
- browser: {
- visionEnabled: true,
- visionPrompt: "..."
- }
- }
// 添加新配置
+ browser: {
+ visionEnabled: true,
+ visionPrompt: "...",
+ models: { ... }
+ }
步骤 3:配置视觉模型
支持两种模式:API 配置模式 或 CLI 工具模式。
API 模式(推荐用于生产环境):
browser: {
models: {
preferredProfile: "anthropic", // 引用 profiles 中的认证配置
model: "claude-3-opus-20240229",
maxTokens: 4096
}
}
CLI 模式(适合本地自定义模型):
browser: {
models: {
command: "ollama",
args: ["run", "llava"],
env: { OLLAMA_HOST: "http://localhost:11434" }
}
}
步骤 4:验证配置
运行内置测试确保配置正确:
npx openclaw test browser-vision
步骤 5:在 Agent 中使用
配置完成后,Browser Tool 的 screenshot 操作将自动触发视觉分析:
// Agent 调用示例(无需修改代码)
const result = await agent.tools.browser.screenshot({
url: "https://example.com/dashboard",
fullPage: true
});
// 返回:包含视觉模型生成的文本描述,而非原始图片
—
安全加固:防止敏感信息泄露
本次更新包含多层安全机制,确保网页内容不会被意外暴露:
1. 移除自动媒体标记(P1 安全修复)
视觉分析成功后,不再在结果中附加 MEDIA: 指令和原始截图 URL。这防止了聊天渠道自动将敏感页面内容作为可交付文件发送。
旧行为(风险)
[MEDIA:/tmp/screenshot_xxx.png]
页面显示登录表单,包含用户名和密码输入框...
新行为(安全)
页面显示登录表单,包含用户名和密码输入框...
(原始截图不附加到输出)
2. 防御 MEDIA: 指令注入(P1 安全修复)
视觉模型的输出可能包含恶意构造的 MEDIA: 行。系统会在包装输出前中和所有行首的 MEDIA: 指令,防止攻击者通过页面内容或视觉提供商输出来合成可交付的媒体工件。
// 内部处理逻辑(简化示意)
function sanitizeVisionOutput(text) {
// 将行首的 "MEDIA:" 替换为无害标记
return text.replace(/^MEDIA:/gm, "[NEUTRALIZED:MEDIA]:");
}
3. 失败回退时的图片清理
当视觉分析失败时,系统会恢复图片清理流程,确保不会残留未处理的敏感截图。
—
架构深度解析
Media Understanding 共享服务
视觉理解功能通过 Media Understanding 模块实现,该模块为多个插件提供统一的图像分析能力:
┌─────────────────┐ ┌─────────────────────┐ ┌─────────────────┐
│ Browser Tool │────▶│ Media Understanding │────▶│ Vision Model │
│ (screenshot) │ │ (describeImage) │ │ (GPT-4V/Claude) │
└─────────────────┘ └─────────────────────┘ └─────────────────┘
│
▼
┌─────────────────┐
│ Text Description │
│ (返回给 Agent) │
└─────────────────┘
关键参数传递
profile/preferredProfile:指定使用哪个认证配置访问视觉模型 APIagentDir/workspaceDir:从插件工具上下文传递,确保文件路径正确解析maxBytes:限制输入图片大小,防止超大图片导致 API 失败
—
FAQ:常见问题解答
Q1: 视觉分析功能是否额外收费?
取决于你配置的视觉模型。如果使用 OpenAI GPT-4 Vision 或 Anthropic Claude,将按照相应 API 的定价计费;如果使用本地 Ollama 等免费方案,则无额外费用。OpenClaw 本身不收取中间费用。
Q2: 配置迁移后旧配置还能用吗?
不能。tools.browser 中的视觉相关配置已被完全移除,必须在 browser 命名空间重新配置。启动时会校验配置 schema,旧配置将导致启动失败并提示迁移指南。
Q3: 可以关闭特定网站的视觉分析吗?
目前不支持按域名过滤,但可以通过 visionPrompt 自定义提示词来指导模型忽略敏感内容。未来版本计划增加 visionExcludePatterns 配置。
Q4: 视觉分析失败会怎样?
系统会优雅降级:返回截图的基础元数据(尺寸、格式)并附加错误说明,不会阻塞 Agent 执行。可通过日志查看详细错误:
DEBUG=openclaw:browser:vision npm start
Q5: 支持哪些视觉模型?
理论上支持任何兼容 OpenAI Vision API 或提供 CLI 接口的模型。已测试:
- OpenAI GPT-4 Vision / GPT-4o
- Anthropic Claude 3 (Opus/Sonnet/Haiku)
- Google Gemini Pro Vision
- 本地模型:LLaVA、CogVLM(通过 Ollama 或 vLLM)
—
总结与下一步
本次 OpenClaw 浏览器插件更新实现了三项关键目标:
1. 架构统一:视觉配置迁移到 browser 命名空间,消除配置歧义
2. 能力扩展:任何纯文本模型都能通过视觉分析”看懂”网页
3. 安全加固:多层防护防止敏感页面内容意外泄露
推荐行动:
- 立即检查现有配置,规划迁移时间表
- 在测试环境验证视觉分析效果
- 订阅 OpenClaw 官方更新 获取后续功能
—
相关阅读
—