智能体网络智能采集利器 Crawl4AI

电脑网络维修
2024-11-15

Crawl是一款收费的开源工具，应用AI技术简化网络爬取和数据提取，提高消息搜集与剖析的效率。它智能识别网页内容，并将数据转换为易于解决的格局，性能片面且操作简便。

1 经常使用 Crawl 的步骤

步骤 1：装置与设置

pip install “crawl4ai @ git+" transformers torch nltk

步骤 2：数据提取

创立Python脚本，启动网络爬虫并从URL提取数据：

from crawl4ai import WebCrawler# 创立 WebCrawler 的实例crawler = WebCrawler()# 预热爬虫（加载必要的模型）crawler.warmup()# 在 URL 上运转爬虫result = crawler.run(url="https://openai.com/api/pricing/")# 打印提取的内容print(result.markdown)

步骤 3：数据结构化

经常使用LLM（大型言语模型）定义提取战略，将数据转换为结构化格局：

import osfrom crawl4ai import WebCrawlerfrom crawl4ai.extraction_strategy import LLMExtractionStrategyfrom pydantic import BaseModel, Fieldclass OpenAIModelFee(BaseModel):model_name: str = Field(..., description="OpenAI 模型的称号。")input_fee: str = Field(..., description="OpenAI 模型的输入令牌费用。")output_fee: str = Field(..., description="OpenAI 模型的输入令牌费用。")url = 'https://openai.com/api/pricing/'crawler = WebCrawler()crawler.warmup()result = crawler.run(url=url,word_count_threshold=1,extraction_strategy= LLMExtractionStrategy(provider= "openai/gpt-4o", api_token = os.getenv('OPENAI_API_KEY'),schema=OpenAIModelFee.schema(),extraction_type="schema",instruction="""从爬取的内容中提取一切提到的模型称号以及它们的输入和输入令牌费用。不要遗漏整个内容中的任何模型。提取的模型 JSON 格局应该像这样：{"model_name": "GPT-4", "input_fee": "US$10.00 / 1M tokens", "output_fee": "US$30.00 / 1M tokens"}."""),bypass_cache=True,)print(result.extracted_content)

步骤 4：集成AI智能体

将 Crawl 与 Praison CrewAI 智能体集成，成功高效的数据解决：

pip install praisonai

创立工具文件（tools.py）来包装 Crawl 工具：

# tools.pyimport osfrom crawl4ai import WebCrawlerfrom crawl4ai.extraction_strategy import LLMExtractionStrategyfrom pydantic import BaseModel, Fieldfrom praisonai_tools import BaseToolclass ModelFee(BaseModel):llm_model_name: str = Field(..., description="模型的称号。")input_fee: str = Field(..., description="模型的输入令牌费用。")output_fee: str = Field(..., description="模型的输入令牌费用。")class ModelFeeTool(BaseTool):name: str = "ModelFeeTool"description: str = "从给定的定价页面提取模型的费用消息。"def _run(self, url: str):crawler = WebCrawler()crawler.warmup()result = crawler.run(url=url,word_count_threshold=1,extraction_strategy= LLMExtractionStrategy(provider="openai/gpt-4o",api_token=os.getenv('OPENAI_API_KEY'),schema=ModelFee.schema(),extraction_type="schema",instruction="""从爬取的内容中提取一切提到的模型称号以及它们的输入和输入令牌费用。不要遗漏整个内容中的任何模型。提取的模型 JSON 格局应该像这样：{"model_name": "GPT-4", "input_fee": "US$10.00 / 1M tokens", "output_fee": "US$30.00 / 1M tokens"}."""),bypass_cache=True,)return result.extracted_contentif __name__ == "__main__":# 测试 ModelFeeTooltool = ModelFeeTool()url = "https://www.openai.com/pricing"result = tool.run(url)print(result)

AI智能体性能

性能AI智能体经常使用Crawl工具启动网络抓取和数据提取。在crewai框架下，咱们设定了三个外围角色，独特成功网站模型定价消息的提取义务：

整个流程无需额外依赖，各角色独立成功各自义务。

2 AI 智能体运行实例

以Crawl为基础，Praison-AI智能体能够口头网络抓取、数据荡涤和剖析上班。它们相互单干，从多个网站抓取定价数据，并汇总成详尽的报告，以展现剖析结果。

3 结语

Crawl是一个弱小的工具，它赋予AI智能体更高的效率和准确性口头网络爬取和数据提取义务。其开源个性、AI驱动的才干和多性能性，使其成为构建智能且数据驱动智能体的贵重资产。

本文转载自，作者：

关注微信

上一篇：从此远离海报设计烦恼超适用！手把手教你十分钟制造一个海报生

下一篇：21个指令让数据剖析更轻松 GPT神速剖析

本网站的文章部分内容可能来源于网络和网友发布，仅供大家学习与参考，如有侵权，请联系站长进行删除处理，不代表本网站立场，转载联系作者并注明出处：http://www.duobeib.com/diannaowangluoweixiu/5617.html

智能体网络智能采集利器 Crawl4AI

1 经常使用 Crawl 的步骤

AI智能体性能

2 AI 智能体运行实例

3 结语

猜你喜欢

热门标签

随便看看

TCP发送窗口接纳窗口以及其上班原理

I 如何发现 PostgreSQL 和中那些消耗 CPU

如何改良DevOps上班流

安保无大事安保防范从Nginx性能做起程序员安保规范

斯坦福学者提出Edu

热门资讯

阅读排行

如何经常使用Hugging Face Transformers微调F5以回答疑问

百度CFO李昕皙谷歌分开百度流质变动不大

开发者该选哪个呢 PyCharm与Sublime比拟

这里是小米百货公司您好

Python vs 你该经常使用哪个 Bash

关注我们

智能体网络智能采集利器 Crawl4AI

1 经常使用 Crawl 的步骤

AI智能体性能

2 AI 智能体运行实例

3 结语

猜你喜欢

热门标签

随便看看

热门资讯

阅读排行

关注我们

微信公众号