有意思了,DeepSeek 自动操作浏览器!已开源!

在 AI 技术飞速发展的当下,一个个令人惊叹的应用不断涌现。

今天,我想给大家分享一个超有意思的开源项目 —— browser-use,它凭借 DeepSeek 实现了 AI 自动化操作浏览器。

图片

目前在 GitHub 上的 Star 数已经高达 35.7K,足见其受欢迎程度。

图片

browser-use 简介

browser-use 是一款能够将 AI 代理与浏览器相连的工具,让 AI 得以控制浏览器,进而实现网页抓取、自动化测试和数据收集等操作。

图片

以往,这些任务需要编写和维护复杂的 xpath正则css 选择器脚本,耗费大量精力。

而如今,借助 browser-use,无需这些繁琐步骤,大大提升了工作效率。

图片


安装和使用方法

安装

首先,要确保 Python 环境版本大于 3.11。然后,通过以下命令安装必要的依赖项:

pip install browser-use
playwright install

使用示例

以下是一个简单的 Python 脚本示例,用于将杂货项添加到购物车并结账:

from langchain_openai import ChatOpenAI
from browser_use import Agent
import asyncio

if __name__ == '__main__':
    # 初始化语言模型
    llm = ChatOpenAI(
        model="deepseek-ai/DeepSeek-V2.5",  # 指定使用 DeepSeek 提供的 ChatGPT-4 模型
        api_key="your_api_key",            # 替换为你的 API 密钥
        base_url="https://api.siliconflow.cn"# 指定 API 的基础 URL
    )

    # 定义异步主函数
    asyncdef main():
        # 创建 Agent 实例
        agent = Agent(
            task="将杂货项添加到购物车并结账",  # 定义任务
            llm=llm,          # 指定使用的语言模型
            use_vision=False# 是否使用视觉功能(目前未启用)
        )
        # 执行任务并获取结果
        result = await agent.run()
        # 打印结果
        print(result)

    # 运行异步主函数
    asyncio.run(main())
  • ChatOpenAI:用于指定使用的语言模型。
  • Agent:创建一个代理对象,用于执行浏览器操作任务。“task”参数定义了具体任务,“llm”参数指定使用的语言模型。
  • async def main() 和 asyncio.run(main()) :表示使用异步编程方式运行主函数。

示例和演示

添加商品到购物车并结账

你可以命令 AI 代理自动打开购物网站,搜索指定的杂货项,将它们添加到购物车,并完成结账流程。这一功能对于线上购物爱好者来说,简直是福音,能够节省大量的时间和精力。

图片

写信和文档处理

在 Google Docs 中写一封感谢信并保存为 PDF。Browser-use 能自动完成这件事,还能保证整个过程流畅无误。

图片

未来如何

browser-use 的出现只是一个开始,它向我们展示了 AI 在自动化领域的巨大潜力。

随着技术的不断进步,未来 AI 可能会大面积替代一些相对简单的工作。

例如:

  • 数据录入员可能会被自动化数据抓取工具所取代;
  • 客服代表可能会被智能聊天机器人所取代;
  • 甚至是一些内容创作者,也可能会面临 AI 内容生成工具的竞争。

开源地址和官网地址

  • GitHub 开源地址https://github.com/browser-use/browser-use
  • 官网地址https://browser-use.com/