AI 代理正在接管世界,标志着 AI 进化的下一个重大步骤 🦖。那么,所有这些代理有什么共同点?它们在处理网页内容时使用 Markdown 而不是原始 HTML ⛓️。想知道为什么吗? 这篇博文将向您展示如何通过这个简单的技巧节省高达 99% 的代币和金钱! 人工智能代理和数据处理:简介 是利用人工智能的力量代表用户完成任务和追求目标的软件系统。这些代理具备推理、规划和记忆能力,可以自行做出决策、学习和适应。🤯 AI 代理 近几个月来,AI 代理已开始流行,尤其是在浏览器自动化领域。这些 AI 代理浏览器使您可以使用 LLM 以编程方式控制浏览器,自动执行将产品添加到 Amazon 购物车等任务 🛒。 有没有想过哪些库和框架为 、 和 等 AI 代理提供支持? Crawl4AI ScrapeGraphAI LangChain 在处理网页数据时, (或提供这样做的方法)。但为什么这些 AI 代理更喜欢 Markdown 而不是 HTML?🧐 这些解决方案通常会在将数据发送到 LLM 之前自动将 HTML 转换为 Markdown 简短的回答是: ⏩ 为了节省代币并加快处理速度! 是时候深入挖掘了!但首先,让我们看看 AI 代理用来减少数据负载的另一种流行方法。👀 从数据过载到清晰:人工智能代理的第一步 想象一下,你希望你的人工智能代理能够: 连接到电子商务网站(例如亚马逊) 搜索产品(例如 PlayStation 5) 从特定产品页面提取数据 对于 AI 代理来说,这是一种常见情况,因为 🎢。毕竟,产品页面布局不断变化,混乱不堪,使程序化数据解析成为一场噩梦。这就是 AI 代理展示其超能力的地方 💪,利用 LLM 无缝提取数据——无论页面结构多么混乱! 电子商务抓取是一项艰巨的任务 现在,假设你的任务是从亚马逊上的 获取所有有趣的详细信息: PlayStation 5 产品页面 以下是你如何命令你的AI代理浏览器来实现这一点: Navigate to Amazon's homepage. Search for 'PlayStation 5' and select the top result. Extract the product title, price, availability, and customer ratings. Return the data in a structured JSON format. 这就是人工智能代理应该(希望如此)做的事情: 在浏览器中打开亚马逊🌍 搜索“PlayStation 5”🔍 识别正确的产品🎯 从页面中提取产品详细信息并以 JSON 形式返回 📄 但真正的挑战是 。亚马逊 PlayStation 5 产品页面太复杂了!HTML 包含大量信息,其中大部分您甚至不需要。 ——第 4 步 想要证据吗?从浏览器的 DOM 复制页面的完整 HTML,然后将其放入 等工具中: LLM Token Calculator 工具 🚨做好准备…… 😱 是的,你没看错——八十九万六千八百七十一枚代币! 896,871 个代币?! 这是海量的数据,也就是巨额资金!💸(GPT-4o 上每个请求收费超过 2 美元!😬) 可以想象,将所有数据传递给人工智能代理会带来很大的局限性: 可能需要支持高代币使用率的高级/专业计划💰 花费一大笔钱 — — 特别是如果你经常运行查询的话 🤑 由于人工智能必须处理大量信息,因此响应速度变慢 ⏳ 解决方法:减少脂肪 大多数 AI 代理允许您指定 CSS 选择器以仅提取网页的相关部分。其他代理使用启发式算法来自动过滤内容 - 例如删除页眉和页脚(通常没有任何价值)。✂️ 例如,如果你检查亚马逊的 PlayStation 5 产品页面,你会注意到大多数有用的内容都位于 标识的 HTML 元素内: #ppd CSS 选择器 现在,如果你告诉你的 AI 代理只关注 元素而不是整个页面会怎么样? #ppd 这会有所不同吗?🤔 让我们在下面的面对面对决中测试一下吧!🔥 Markdown 与 HTML 在 AI 数据处理中的对比 比较直接处理网页一部分与将其转换为 Markdown 时的令牌使用情况。 HTML 在您的浏览器中,复制 元素的 HTML,然后将其放入 LLM Token Calculator 工具中: #ppd 从 896,871 个代币降至仅 309,951 个 ——节省了近 65%! 当然,这是一个巨大的下降,但让我们面对现实吧——代币数量还是太多了!😵💸 Markdown 现在,让我们利用在线 HTML 到 Markdown 转换工具来复制 AI 代理使用的技巧。但首先,请记住,AI 代理会执行一些预处理来删除内容无关紧要的标签,例如 和 标签。 <style> <script> 您可以在浏览器控制台中使用这个简单的脚本过滤目标元素的 HTML: function removeScriptsAndStyles(element) { let htmlString = ppdElement.innerHTML; // Regex to match all <script>...</script> and <style>...</style> tags const scriptRegex = /<script[^>]*>[\s\S]*?<\/script>/gi; const styleRegex = /<style[^>]*>[\s\S]*?<\/style>/gi; // Remove all <script> and <style> tags let cleanHTML = htmlString.replace(scriptRegex, ''); cleanHTML = cleanHTML.replace(styleRegex, ''); } // select the target element and get its cleaned HTML const ppdElement = document.getElementById('ppd'); removeScriptsAndStyles(ppdElement); 接下来,复制清理后的 HTML,并使用在线 将其转换为 Markdown: HTML 到 Markdown 转换工具 生成的 Markdown 明显较小,但 仍然包含所有重要的文本数据! 现在,将此 Markdown 粘贴到 LLM Token Calculator 工具中: 轰!💣 从 896,871 个代币降至仅 7,943 个代币。 ! 这真是令人瞠目结舌的节省,节省了约 99% 只需删除基本内容并将 HTML 转换为 Markdown,您就可以获得更精简的有效负载、更低的成本和更快的处理速度。 💰 大获全胜! Markdown 与 HTML:代币之争和成本节约 最后一步是验证 Markdown 文本是否仍包含所有关键数据。为此,将其与原始提示的最后一部分一起传递给 LLM,您将获得以下 JSON 结果: { "product_title": "PlayStation®5 console (slim)", "price": "$499.00", "availability": "In stock", "customer_ratings": { "rating": 4.6, "total_ratings": 5814 } } 这正是您的 AI 代理将返回的结果 — — 完全正确! 为了快速概览,请查看下面的最终摘要表: 方法 代币 o1-mini 价格 gpt-4o-mini 价格 gpt-4o 价格 整个 HTML 896,871 13.4531美元 0.1345 美元 2.2422美元 HTML #ppd 309,951 $4.6493 0.0465 美元 0.7749美元 Markdown #ppd 7,943 0.0596 美元 0.0012美元 0.0199美元 人工智能代理失败之处 如果你的 AI 代理被目标站点阻止,那么所有这些节省令牌的技巧都是无用的😅(曾经看到过 🤣)。 AI CAPTCHA 失败有多搞笑吗? 那么,为什么会发生这种情况?很简单!大多数网站都使用 ,可以轻松阻止自动浏览器。想要全面了解吗?请观看我们即将举行的网络研讨会: 反抓取措施 https://www.youtube.com/watch?v=RArxdFeijd4&embedable=true 如果您遵循了我们的 ,您就会知道问题不在于浏览器自动化工具(为您的 AI 代理提供支持的库)。不, 。🤖 高级网页抓取指南 真正的罪魁祸首是浏览器本身 为了避免被阻止,您需要一个专为云自动化构建的浏览器。进入 ,该浏览器具有以下功能: Scraping Browser 像常规浏览器一样以头戴式模式运行,这使得反机器人系统更难检测到您。🔍 轻松在云中扩展,节省您在基础设施上的时间和金钱。💰 自动解决 CAPTCHA、处理浏览器指纹、自定义 cookie/标头并重试以确保一切顺利运行。⚡ 从最大的、最可靠的代理网络之一轮换 IP。🌍 与 Playwright、Selenium 和 Puppeteer 等流行的自动化库无缝集成。🔧 了解有关 Bright Data 的 Scraping Browser 的更多信息, : 它是集成到您的 AI 代理中的完美工具 https://www.youtube.com/watch?v=kuDuJWvho7Q&embedable=true 最后的想法 现在您知道了为什么 AI 代理使用 Markdown 进行数据处理。这是一个节省代币(和金钱)并加快 LLM 处理速度的简单技巧。 想要你的 AI 代理在不碰到障碍物的情况下运行吗?看看 !加入我们,让每个人都能访问互联网——即使通过自动 AI 代理浏览器也可以。🌐 Bright Data 的 AI 工具套件 下次见,继续自由地上网吧!🏄♂️