Агентите со вештачка интелигенција го преземаат светот, означувајќи го следниот голем чекор во еволуцијата на вештачката интелигенција 🦖. Значи, што имаат заедничко сите овие агенти? Тие користат Markdown наместо необработен HTML кога обработуваат содржина на веб-страници ⛓️. Љубопитни да знаете зошто?  Овој блог пост ќе ви покаже како овој едноставен трик може да ви заштеди до 99% во токени и пари!  Агенти за вештачка интелигенција и обработка на податоци: вовед    се софтверски системи кои ја користат моќта на вештачката интелигенција за да ги извршуваат задачите и да ги следат целите во име на корисниците. Опремени со расудување, планирање и меморија, овие агенти можат да донесуваат одлуки, да учат и да се приспособат - сето тоа сами. 🤯 Агентите за вештачка интелигенција  Во последниве месеци, агентите за вештачка интелигенција тргнаа, особено во светот на автоматизацијата на прелистувачите. Овие прелистувачи на агенти за вештачка интелигенција ви овозможуваат да користите LLM за програмски да ги контролирате прелистувачите, автоматизирајќи ги задачите како додавање производи во вашата количка на Amazon 🛒.  Дали некогаш сте се запрашале кои библиотеки и рамки ги напојуваат агентите за вештачка интелигенција како   ,   и   ? Crawl4AI ScrapeGraphAI LangChain  Кога обработуваат податоци од веб-страници,   - или нудат методи за тоа - пред да ги испратат податоците до LLM. Но, зошто овие агенти за вештачка интелигенција го фаворизираат Markdown пред HTML? 🧐  овие решенија често го претвораат HTML во Markdown автоматски  Краткиот одговор е:   ⏩ да заштедите токени и да ја забрзате обработката!  Време е да се копа подлабоко! Но, прво, ајде да погледнеме во друг популарен пристап што го користат агентите за вештачка интелигенција за да го намалат оптоварувањето на податоци. 👀  Од преоптоварување податоци до јасност: Првиот потег на агентите со вештачка интелигенција  Замислете дека сакате вашиот агент за вештачка интелигенција:  Поврзете се на страница за е-трговија (на пр. Амазон)  Пребарајте производ (на пр. PlayStation 5)  Извлечете податоци од таа специфична страница на производот  Тоа е вообичаено сценарио за агент за вештачка интелигенција, бидејќи   🎢. На крајот на краиштата, страниците со производи се хаотичен хаос од постојано менување на распоредот, што го прави програмското парсирање на податоци кошмар. Тоа е местото каде што агентите со вештачка интелигенција ги флексија своите супермоќи 💪, користејќи LLM за беспрекорно да извлечат податоци - без разлика колку е неуредна структурата на страницата! стружењето на е-трговија е диво возење  Сега, да речеме дека сте во мисија да ги зграпчите сите сочни детали од   на Amazon 🎮:  страницата за производи на PlayStation 5  Еве како ќе му наредите на вашиот прелистувач на агент за вештачка интелигенција да го оствари тоа:   Navigate to Amazon's homepage. Search for 'PlayStation 5' and select the top result. Extract the product title, price, availability, and customer ratings. Return the data in a structured JSON format.  Тоа е она што треба да го направи агентот за вештачка интелигенција (се надеваме 🤞):  Отворете Амазон во прелистувачот 🌍  Пребарајте го „PlayStation 5“ 🔍  Идентификувајте го точниот производ 🎯  Извлечете ги деталите за производот од страницата и вратете ги во JSON 📄  Но, тука е вистинскиот предизвик -   . Страницата со производи на Amazon PlayStation 5 е ѕвер! HTML е преполн со тони информации, од кои повеќето не ви се потребни. Чекор 4  Сакате доказ? Копирајте го целосниот HTML на страницата на страницата од DOM-от на вашиот прелистувач и испуштете го во алатка како   :  алатката LLM Token Calculator  🚨 Подгответе се…     😱 Да, добро прочитавте - осумстотини деведесет и шест илјади, осумстотини седумдесет и еден чудат жетони! 896.871 токени?!  Тоа е МАСИВНО оптоварување на податоци - ака еден тон пари! 💸 (Над 2 долари по барање на GPT-4o! 😬)   Како што можете да замислите, пренесувањето на сите тие податоци на агент за вештачка интелигенција доаѓа со големи ограничувања:  Може да бара премиум/професионални планови кои поддржуваат висока употреба на токени 💰  Чини цело богатство - особено ако често поставувате прашања 🤑  Ги успорува одговорите бидејќи вештачката интелигенција мора да обработи смешна количина на информации ⏳  Поправка: Намалете ги мастите  Повеќето агенти за вештачка интелигенција ви дозволуваат да одредите CSS избирач за да ги извлечете само релевантните делови од веб-страницата. Други користат хеуристички алгоритми за автоматско филтрирање на содржината - како симнување на заглавија и подножја (кои обично не додаваат вредност). ✂️  На пример, ако ја прегледате страницата со производи на Амазон за PlayStation 5, ќе забележите дека поголемиот дел од корисната содржина живее во HTML елементот идентификуван од     :  #ppd CSS избирачот  Сега, што ако му кажете на вашиот агент за вештачка интелигенција да се фокусира само на елементот   наместо на целата страница?  #ppd Дали тоа би направило разлика? 🤔  Ајде да го ставиме на тест во пресметката од глава до глава подолу! 🔥  Markdown наспроти HTML во обработката на податоци со вештачка интелигенција: споредба од глава до глава  Споредете го користењето на токен при обработка на дел од веб-страница директно наспроти конвертирање во Markdown.  HTML  Во вашиот прелистувач, копирајте го HTML-от на елементот   и ставете го во алатката LLM Token Calculator:  #ppd  Од 896.871 токени на само 309.951  - речиси 65% заштеда!  Тоа е огромен пад, секако, но ајде да бидеме реални - сè уште е премногу токени! 😵‍💸  Маркдаун  Сега, ајде да го повториме трикот што го користат агентите со вештачка интелигенција со користење на алатката за конверзија HTML-to-Markdown онлајн. Но, прво, запомнете дека агентите за вештачка интелигенција вршат одредена преобработка за да ги отстранат ознаките за содржината како што се ознаките   и   . <style> <script>  Можете да го филтрирате HTML-от на целниот елемент користејќи ја оваа едноставна скрипта во конзолата на вашиот прелистувач:   function removeScriptsAndStyles(element) { let htmlString = ppdElement.innerHTML; // Regex to match all <script>...</script> and <style>...</style> tags const scriptRegex = /<script[^>]*>[\s\S]*?<\/script>/gi; const styleRegex = /<style[^>]*>[\s\S]*?<\/style>/gi; // Remove all <script> and <style> tags let cleanHTML = htmlString.replace(scriptRegex, ''); cleanHTML = cleanHTML.replace(styleRegex, ''); } // select the target element and get its cleaned HTML const ppdElement = document.getElementById('ppd'); removeScriptsAndStyles(ppdElement);  Следно, копирајте го исчистениот HTML и претворете го во Markdown користејќи онлајн   :  алатка за конверзија HTML-to-Markdown  Резултирачкиот Markdown е значително помал, но    сепак ги содржи сите важни текстуални податоци!  Сега, залепете го овој Markdown во алатката LLM Token Calculator:   Бум! 💣 Од 896.871 токени на само 7.943 токени.   !  Тоа е неверојатно ~ 99% заштеда  Со само отстранување на основната содржина и конверзија од HTML во Markdown, имате послаб товар, пониски трошоци и многу побрза обработка.   💰 Голема победа!  Маркдаун против HTML: Битка за токени и заштеда на трошоци  Последниот чекор е да се потврди дека текстот Markdown сè уште ги содржи сите клучни податоци. За да го направите тоа, префрлете го на LLM со последниот дел од оригиналното известување, и еве го резултатот JSON што ќе го добиете:   { "product_title": "PlayStation®5 console (slim)", "price": "$499.00", "availability": "In stock", "customer_ratings": { "rating": 4.6, "total_ratings": 5814 } }  Токму тоа би го вратил вашиот агент со вештачка интелигенција - на место!  За брз преглед, проверете ја конечната сумарна табела подолу:   Метод   Жетони   o1-мини Цена   gpt-4o-mini Цена   gpt-4o Цена  Цел HTML  896.871  13,4531 долари  0,1345 $  2,2422 долари    HTML #ppd  309.951  4,6493 долари  0,0465 $  0,7749 долари    Обележување #ppd  7.943  0,0596 $  0,0012 долари  0,0199 долари  Каде што агентите со вештачка интелигенција не успеваат  Сите тие трикови за заштеда на токени се бескорисни ако вашиот агент за вештачка интелигенција биде блокиран од целната локација 😅 (сте сте виделе некогаш   🤣 ). колку урнебесно може да биде неуспехот на AI CAPTCHA?  Па, зошто се случува ова? Едноставно! Повеќето сајтови користат   кои лесно можат да ги блокираат автоматските прелистувачи. Сакате целосен дефект? Погледнете го нашиот претстоен вебинар подолу: мерки против гребење   https://www.youtube.com/watch?v=RArxdFeijd4&embedable=true  Ако сте го следеле нашиот   , знаете дека проблемот не е со алатките за автоматизација на прелистувачот (библиотеките што ги напојуваат вашите агенти за вештачка интелигенција). Не,   . 🤖 напреден водич за стругање на веб вистинскиот виновник е самиот прелистувач  За да избегнете блокирање, потребен ви е прелистувач направен специјално за автоматизација на облакот. Внесете го   , прелистувач кој: Scraping Browser  Работи во режим на глава исто како и обичен прелистувач, што им отежнува на системите против ботови да ве детектираат. 🔍  Размерете без напор во облакот, заштедувајќи ви време и пари на инфраструктурата. 💰  Автоматски го решава CAPTCHA, се справува со отпечатоци од прелистувач, ги приспособува колачињата/заглавијата и се обидува повторно да ги одржува работите непречено. ⚡  Ротира IP-адреси од една од најголемите, најсигурни прокси мрежи таму. 🌍  Беспрекорно се интегрира со популарните библиотеки за автоматизација како Playwright, Selenium и Puppeteer. 🔧  Дознајте повеќе за Bright Data's Scraping Browser,   : совршената алатка за интегрирање во вашите агенти за вештачка интелигенција   https://www.youtube.com/watch?v=kuDuJWvho7Q&embedable=true  Завршни мисли  Сега сте во тек зошто агентите со вештачка интелигенција користат Markdown за обработка на податоци. Тоа е едноставен трик за да заштедите токени (и пари) додека ја забрзувате обработката на LLM.  Сакате вашиот агент за вештачка интелигенција да работи без да ги погодува блоковите? Погледнете го   ! Придружете ни се да го направиме интернетот достапен за секого — дури и преку автоматизирани прелистувачи на агенти за вештачка интелигенција. 🌐 пакетот алатки за вештачка интелигенција на Bright Data  До следниот пат, продолжете да сурфате на Интернет со слобода! 🏄‍♂️

Hot off the press! This story contains factual information about a recent event.

2022 - HackerNoon Contributor of the Year - Amazon

Request Your Own Data

Nominated for 2022 - HackerNoon Contributor of the Year - Amazon

Ова аудио е произведено на оригиналниот јазик на приказната!

Зошто новите агенти за вештачка интелигенција избираат Markdown наместо HTML?

About Author

КОМЕНТАРИ

ВИСЕТЕ ТАГОВИ

ОВОЈ СТАТИЈА БЕШЕ ПРЕТСТАВЕН ВО

Related Stories

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps