如何使用人工智能浏览器自动抓取

如何使用 BrowserUse 的人工智能浏览器自动化功能进行爬取

在本文中,我将向你展示如何使用 BrowserUse 自动搜索数据。你将看到它如何为你节省时间和精力,让刮擦任务变得轻而易举!

什么是 BrowserUse?

BrowserUse 是一款功能强大的工具,可实现人工智能驱动的浏览器自动化。它能让用户自动执行浏览网站、与页面元素交互和搜索数据等任务。有了 BrowserUse,你可以通过编程控制浏览器,模仿人类的操作,如点击按钮、填写表格和从网页中提取信息。

BrowserUse 的独特之处在于它能将人工智能整合到流程中。这意味着你可以用简单的英语向工具发出高级指令,而人工智能会找出执行指令的最佳方法。这一功能使 BrowserUse 对那些希望自动执行任务而无需编写复杂代码的人特别有用。

简要说明:BrowserUse 的最佳网络抓取替代方案

  • Bright Data - 先进的人工智能驱动型企业搜索平台
  • ParseHub - 用于交互式 JavaScript 页面的无代码刮擦工具
  • ScrapingBee - 快速提取 HTML 数据的单一应用程序接口方法
  • Octoparse - 结构化数据提取任务的用户友好界面
  • Scraper API - 轻松刮削、JS 支持、旋转代理

为什么使用人工智能进行网络抓取?

网络搜索通常用于收集价格、产品描述、库存水平、评论等信息。利用人工智能将这一过程自动化的优势在于,它可以比人类更快地处理大量数据。人工智能还能理解复杂的页面结构、处理弹出窗口并即时做出决策,是网络搜索的强大工具。

以下是您可能希望使用人工智能自动执行刮擦任务的几个原因:

1.速度和效率

人工智能搜索数据的速度比人类快得多。人工从一个网站收集数据可能需要几个小时,而人工智能只需几分钟甚至几秒钟就能完成。当你需要从多个页面或网站收集数据时,这一点尤其有用。

2.准确性和一致性

人工智能不会疲倦,也不会犯错,这意味着它可以高度准确地搜索数据。它可以遵循预定义的规则,每次都能始终如一地提取相同类型的数据,确保结果的可靠性。

3.处理复杂网站

网站是不断发展变化的,它们通常具有复杂的结构、弹出式窗口或动态内容,这些都会给刮擦带来困难。然而,人工智能代理能够适应页面上的变化,即使布局发生变化或存在弹出窗口等意外障碍,仍能提取数据。

4.只需最低限度的编码知识

有了 BrowserUse,你不需要成为网络搜索或编程方面的专家。您可以使用简单的、人类可读的提示与人工智能进行交互。这让更多人,包括那些没有编码背景的人,都能使用它。

开始使用 BrowserUse

要开始使用 BrowserUse 进行网络搜索,你需要准备一些东西:

  1. Python:Python 是用于编写脚本的编程语言。您可以从官方网站下载并安装 Python。
  2. 浏览器使用:你需要安装 BrowserUse,可以用 pip 或 Poetry 安装。
  3. Playwright:BrowserUse 依赖于 Playwright,这是一个自动运行浏览器的库。你需要安装 Playwright 并设置它来运行你的脚本。
  4. OpenAI API 密钥:由于 BrowserUse 集成了人工智能,因此需要 OpenAI API 密钥才能使用其功能。

安装必要的工具

首先创建一个新的 Python 项目并安装所需的库:

poetry new browser-demo
cd 浏览器-演示
诗歌添加浏览器使用
pip install playwright
安装

安装这些依赖项后,您需要设置 OpenAI API 密钥。您可以通过在 OpenAI 平台注册并创建密钥来获取 API 密钥。

在项目目录下创建一个 .env 文件,并像这样添加 API 密钥:

OPENAI_API_KEY=your_api_key_here

设置脚本

接下来,您就可以开始编写脚本了。下面是一个使用 BrowserUse 初始化人工智能代理并运行浏览器自动化任务的简单脚本:

from 朗链开放平台 import ChatOpenAI
from 浏览器使用 import 代理
import asyncio
from dotenv import load_dotenv
加载_dotenv()
async def main():
任务 = "从网页中抓取产品价格"。
Agent = Agent(
task=task、
llm=ChatOpenAI(model="gpt-4o"),
)
await agent.run()
input(按回车键关闭...)
asyncio.run(main())

此脚本使用 OpenAI API 运行一个人工智能代理,该代理将从一个网站上抓取数据。您可以自定义任务变量,以定义代理应该做什么。

网络搜索写作提示

BrowserUse 最强大的功能之一是使用简单的自然语言与人工智能进行交互。无需编写复杂的代码,您可以给人工智能一个详细的提示,描述您想要自动执行的任务。

例 1:搜索产品价格

比方说,您想从网上商店搜索产品价格。您可以写这样的提示

### **AI 代理任务:搜索产品价格**
#### **目标:**
搜索[......]中列出的前 5 种产品的价格。示例商店](https://www.example.com).
 - -
### **第 1 步:打开网站**
1. 打开网页 [示例商店](https://www.example.com).
2. 等待页面完全加载后再继续。
### **第 2 步:提取产品价格**
1. 找出页面上排名前 5 位的产品。
2. 为每个产品提取产品名称和价格。
### **第 3 步:总结数据**
1. 将提取的数据格式化为可读列表。
2. 提供包含产品名称和各自价格的简洁摘要。
### **主要要求:**
- 确保提取的数据准确无误,包括产品名称和价格。
- 以清晰易读的格式返回信息。

该提示清楚地列出了人工智能代理需要遵循的步骤。一旦根据此提示运行脚本,人工智能就会访问网页,提取价格,并以结构化格式提供结果。

示例 2:搜索天气数据

下面是另一个例子,人工智能代理搜索特定地点的天气数据:

### **AI 代理任务:搜索天气数据**
#### **目标:**
在 [ ] 中检索明天的天气预报纽约市](https://www.weather.com).
 - -
### **第 1 步:打开天气网站**
1. 打开 [天气网](https://www.weather.com).
2. 导航至纽约市天气预报。
3. 等待页面完全加载。
### **第 2 步:提取天气信息**
1. 查找明天的天气预报。
2. 提取温度、湿度和任何特殊天气条件(如雨、雪)。
### **第 3 步:总结数据**
1. 提供简洁易读的明日天气摘要,包括温度、湿度和天气状况。
### **主要要求:**
- 确保数据准确,并反映明天的天气情况。
- 以简洁的格式返回数据。

根据这一提示,人工智能代理将导航到天气网站,提取必要的详细信息,并以易于阅读的格式提供信息。

处理错误和复杂网站

网络搜索的挑战之一是处理复杂或不断变化的网站。BrowserUse 的人工智能代理专为处理弹出窗口、动态内容和登录表单等常见障碍而设计。不过,您需要确保您的提示足够具体,以应对这些问题。

例如,如果要从一个需要登录的网站上抓取数据,可以在提示中包含登录信息:

### **AI 代理任务:从会员专用网站抓取数据**
#### **目标:**
从会员专用网站上抓取产品信息 [独家产品](https://www.exclusiveproducts.com).
 - -
### **第 1 步:登录网站**
1. 打开 [独家产品](https://www.exclusiveproducts.com).
2. 使用以下凭据登录:
- **电子邮件:** 您的[email protected]
- **密码:** 您的暗号这里
### **第 2 步:搜索产品信息**
1.登录后,导航至产品列表。
2.提取前 10 种产品的名称、价格和可用性。
### **第 3 步:总结数据**
1.提供一份前 10 种产品的清单,包括其名称、价格和供应情况。
### **主要要求:**
- 确保在扫描数据前登录成功。
- 提供包含产品名称、价格和可用性的结构化列表。

使用网络界面实现浏览器自动化

虽然编写代码是与 BrowserUse 交互的一种有效方式,但你也可以使用网页界面来更轻松地运行自动化任务。BrowserUse 提供了一个简单的网页界面,让你无需接触代码就能编写和执行提示。

要设置网络用户界面,请按照以下步骤操作:

从 GitHub 克隆网络用户界面软件源:

笨蛋 复制 https://github.com/browser-use/web-ui.git
CD web-ui

安装所需的依赖项:

pip install -r 要求。文本

将 .env.example 文件复制到 .env 中,并添加 OpenAI API 密钥。

在本地运行网络用户界面:

蟒蛇 webui.py - ip 127.0.0.1 - port 7788

网络用户界面运行后,您可以通过浏览器访问它,网址是 http://127.0.0.1:7788/. 在这里,您可以输入您的提示,然后看到人工智能代理执行任务,而无需编写任何代码。

结论

BrowserUse 的人工智能浏览器自动化功能真正改变了网络搜刮的游戏规则。它能让你自动完成枯燥的任务,从复杂的网站中抓取数据,并像人一样与浏览器进行交互。无论你是在搜索产品价格、天气信息还是其他信息,BrowserUse 都能帮助你快速、准确、省力地完成任务。你只需给人工智能一些简单的提示,剩下的就交给它吧。无论你是新手还是老手,BrowserUse 都能让整个过程变得更简单、更强大。

类似文章