Aha, agenci AI... najgorętszy trend w technologii właśnie teraz. Wszyscy hype o nich, że są przyszłością pracy.Po tym wszystkim, mogą to wszystko zrobić i zautomatyzują większość zadań, aby dać nam więcej czasu, prawda? Rzeczywistość? Większość agentów zostaje zablokowana przez strony internetowe lub zagubiona podczas próby wykonywania zadań. Aby faktycznie stworzyć jedną, która działa, potrzebujesz najlepszej w swojej klasie tech stack. Postępuj zgodnie z tym samouczkiem i dowiedz się, jak stworzyć agenta AI, który może naprawdę zautomatyzować zadania dla Ciebie! Dlaczego większość agentów nie dostarcza Marzenie o posiadaniu zautomatyzowanych zadań AI dla nas jest dokładnie tym, dlaczego agenci AI zostali wynalezieni na pierwszym miejscu. stał się trendem, i dlaczego hype jest nadal niebo-wysoki. Agenci AI Agenci AI Wyobraź sobie świat, w którym wszystkie nudne, powtarzające się rzeczy są obsługiwane przez sztuczną inteligencję, abyśmy mogli zaoszczędzić czas. W ten sposób moglibyśmy skupić się na tym, co naprawdę ma znaczenie: gromadzenie V-Bucks w Fortnite lub rozdrabnianie run w Elden Ring. Żarty na bok, jeśli kiedykolwiek bawiłeś się z agentem AI lub próbował zbudować jeden sam, już znasz smutną prawdę: Operator otwarty AI agents rarely live up to expectations! Oto niektóre z głównych powodów, dla których agenci AI upadają: Nie mogą wchodzić w interakcje z witrynami internetowymi lub aplikacjami desktopowymi, jak prawdziwy człowiek. LLM, które je wspierają, mogą być nieprzewidywalne, dając różne wyniki na tym samym wkładzie. Nawet gdy korzystają z przeglądarki, techniki antybotujące, takie jak CAPTCHA, zatrzymują je na zimno. W przeciwieństwie do ludzi, agenci AI często nie mają rozsądku i starają się dostosować, gdy stoją przed sytuacjami poza ich programowaniem. Problemem nie jest Zamiast tego jest to stos technologiczny, którego używasz do ich budowania. Idea Więc przestańmy marnować czas i dowiedzmy się, jak zbudować . AI agent that can actually automate browser tasks for you Zrób agenta AI Automatyzuj to, co nienawidzisz robić: instrukcja krok po kroku W tym rozdziale przejdziesz przez budowę agenta AI, który może poradzić sobie z jednym z najbardziej nudnych (choć krytycznych) zadań: Polowanie na pracę! W rezultacie agent AI będzie wystarczająco inteligentny, aby: Odwiedź Google Odkryj platformy pracy Przeglądanie list w oparciu o pożądane pozycje i preferencje Znalezienie ciekawych miejsc pracy Wyeksportuj je do czystego pliku JSON A jeśli chcesz iść dalej, znajdziesz również zasoby na temat tego, jak zasilać swoje CV, aby agent mógł poznać twój profil i automatycznie ubiegać się o najlepsze mecze - wszystko bez podnoszenia palca. Jak wspomniano przed końcem niniejszego przewodnika, ten sam agent można dostosować do niemal każdego przepływu pracy opartego na przeglądarce, po prostu zmieniając opis zadania. Jak wspomniano przed końcem niniejszego przewodnika, ten sam agent można dostosować do niemal każdego przepływu pracy opartego na przeglądarce, po prostu zmieniając opis zadania. Wejdźmy więc na dywany! Wymagania Aby śledzić ten samouczek, upewnij się, że masz: Klucz API LLM (użyjemy Gemini, ponieważ jest on zasadniczo wolny do użycia za pośrednictwem API, ale OpenAI, Anthropic, Ollama, Groq i inni również działają). Konto Bright Data z włączonym API przeglądarki (nie martw się o instalację, ponieważ zostaniesz poprowadzony przez to w tym samouczku). Python ≥ 3.11 zainstalowany lokalnie. Aby przyspieszyć proces, załóżmy również, że masz już projekt Python zainstalowany z Wirtualne środowisko na miejscu. uv Krok #1: Zainstaluj przeglądarkę Jak wspomniano wcześniej, większość agentów sztucznej inteligencji zawiodła, ponieważ uderzyła w ścianę ograniczeń technologicznych . Samo modele po prostu nie wystarczą. ! Korzystanie z browsera Korzystanie z browsera Nigdy o tym nie słyszałeś? Nie martw się! Zdobądź ten film lub obejrzyj jego oficjalne dokumenty: https://www.youtube.com/watch?v=zGkVKix_CRU&embedable=true Najpierw zacznij od aktywacji venv i zainstalować Pakiet z PIP: uv browser-use uv pip install browser-use Pod kapturem ta biblioteka działa na Playwright, więc będziesz musiał również uchwycić binary Chromium, od którego zależy. uvx playwright install chromium --with-deps --no-shell Boom! 💥 Jesteś teraz skonfigurowany z agencją automatyzacji przeglądarki AI powerhouse. Krok #2: Integracja z LLM Agenci AI nie zrobią wiele bez AI (szok, prawda? 😅), więc Korzystanie z przeglądarki obsługuje długą listę dostawców LLM, ale skupimy się na Gemini, który został podkreślony na . your agent needs a language model to properly think Oficjalna strona przeglądarki GitHub Dlaczego Gemini? Ponieważ jest to jeden z niewielu LLM z dostępem do API i hojnymi limitami stawek, które sprawiają, że jest to zasadniczo wolne do gry. Złap Twój klucz API Gemini i przechowuj go w Plik w folderze projektu wygląda tak: .env GEMINI_API_KEY=<YOUR_GEMINI_API_KEY> Następnie utworzyć plik, który będzie zawierał logikę definicji agenta AI. Zacznij od czytania envs z Używanie (który pochodzi z ) do : agent.py .env python-dotenv browser-use from dotenv import load_dotenv # Read the environment variables from the .env file load_dotenv() Następnie zdefiniuj swoją integrację LLM: from browser_use import ChatGoogle # The LLM powering the AI agent llm = ChatGoogle(model="gemini-2.5-flash") Niesamowite! masz swój silnik AI gotowy. Czas zdefiniować i zbudować resztę logiki twojego agenta... Krok #3: Opisz zadanie oparte na przeglądarce do automatyzacji LLM, który skonfigurowałeś w Użyj przeglądarki, działa tylko tak samo jak twoje instrukcje, więc spędź czas przygotowując prośbę, która jest jasna, szczegółowa, ale nie zbyt skomplikowana. Jest to najważniejszy krok wdrożenia. Sprawdź więc wskazówki dotyczące szybkiego projektowania i postępuj zgodnie z najlepszymi praktykami przeglądarki, aby zmaksymalizować wyniki. Ponieważ jest to tylko przykład, zachowajmy to proste i opisujmy zadania polowania na pracę w przeglądarce w ten sposób: task = """ Search on Google for software engineer jobs in New York. 1. Choose a job posting page. 2. On the chosen site, filter for jobs published within the last 24 hours. 3. For each job listing, extract the key details, including the job posting URL and the apply URL (if available). 4. Return all results as a JSON list. """ Jak widać, dajesz swojemu agentowi dużo swobody, co jest w porządku, biorąc pod uwagę, jak zdolne i elastyczne jest korzystanie z przeglądarki! : W rzeczywistym ustawieniu powinieneś przeczytać preferencje z pliku konfiguracyjnego i wstrzyknąć je do polecenia. To sprawia, że twój agent jest dostosowywany do różnych wyszukiwań. Pomyśl o różnych tytułach pracy, lokalizacjach, wymaganych umiejętnościach, preferencjach firmy, zdalnym vs. na miejscu i więcej. . Tip budowanie LinkedIn Job Hunting AI Asystent Krok #4: Definiuj i uruchom agenta Użyj przeglądarki Użyj do tworzenia agenta AI kontrolowanego przez skonfigurowany LLM, który może rozwiązać zadania, które zdefiniowałeś wcześniej: from browser_use import Agent agent = Agent( llm=llm, task=task, ) Strzelaj swojego agenta w ten sposób: history = agent.run_sync() Teraz pozostaje tylko przechwycić wyjście z agenta AI i wyeksportować go do JSON (lub dowolnego formatu, którego potrzebujesz). Krok #5: Eksport wyjścia do JSON Zrób wyjście od swojego agenta (który powinien być czystą listą zadań JSON) i rzuć go na Z archiwum: .json import json output_data = history.structured_output with open("jobs.json", "w", encoding="utf-8") as f: json.dump(output_data, f, ensure_ascii=False, indent=4) Tutaj idziemy! Misja zakończona. nudny agent obsługi zadań do Twojej dyspozycji! Krok #6: Rozwiązywanie ograniczeń agentów Użycie przeglądarki jest niesamowite – ale nie magiczne, niestety... Jeśli teraz spróbujesz uruchomić agenta AI opartego na przeglądarce, prawdopodobnie zostanie zablokowany. (zobacz i) Jak zautomatyzować reCAPTCHA Jeśli w jakiś sposób to ominie, nadal istnieje strona weryfikacji ludzkiej Indeed obsługiwana przez Cloudflare: Te błędy są szczególnie powszechne, jeśli — co, bądźmy szczerzy, jest dokładnie tym, czego chcesz. nikt nie chce, aby maszyna była przywiązana przez kilka minut, podczas gdy zajmuje się zadaniem! run the script on a server or in headless mode Więc tak, wszystko to tworzy agenta AI, który zawiódł... tak jak wszystkie inne 🙂 Czy to strata czasu? ! the tutorial isn’t over yet Jest jeszcze najważniejszy krok. ten, który naprawdę sprawia, że cała sprawa działa. Krok #8: Zintegruj agenta przeglądarki Twój agent zawiedzie, ponieważ witryny, z którymi interaguje, mogą go wykryć jako automatycznego boto. Odcisk palca przeglądarki: Sesja przeglądarki utworzona domyślnie w Playwright jest super ogólna i nie wygląda jak prawdziwy użytkownik. Ograniczenia stopy: Twój agent kończy się zbyt wielu żądań w krótkim czasie (klasyczne dla automatyzacji, a nie ludzi), co natychmiast wyzwala podejrzenia. Reputacja IP: Im więcej skryptów automatyzacji uruchamiasz z IP, tym więcej rozwiązań, takich jak Cloudflare, oznaczają Cię jako potencjalnego bot – zwiększając szanse na CAPTCHA lub inną weryfikację. Jaka jest więc odpowiedź? przeglądarka, która: Uruchamia sesje podobne do ludzkich, naśladując rzeczywiste zachowanie użytkownika. Może automatycznie rozwiązywać CAPTCHA, jeśli się pojawią. Integruje się z siecią proxy z milionami obracających się adresów IP, aby uniknąć ograniczeń stawek. Działa w chmurze dla nieskończonej skalowalności. Integruje się z AI. Czy to marzenie?Nope! istnieje i nazywa się (w tym ) ! Agent przeglądarki przeglądarka API Agent przeglądarki Agent przeglądarki https://www.youtube.com/watch?v=T59GCkpk5zY&embedable=true I skończysz na takiej stronie: Postępuj zgodnie z oficjalnym przewodnikiem integracji Agent Browser, Skopiuj adres URL połączenia (wyświetlony na czerwono) i dodaj go do Pliki takie jak: .env BRIGHT_DATA_BROWSER_AGENT_URL=<YOUR_AGENT_BROWSER_URL> Następnie przeczytaj w i zdefiniować Obiecaj polecenie Użyj przeglądarki, aby połączyć się z przeglądarką zdalną: agent.py Browser import os from browser_use import Browser BRIGHT_DATA_BROWSER_AGENT_URL = os.getenv("BRIGHT_DATA_BROWSER_AGENT_URL") browser = Browser( cdp_url=BRIGHT_DATA_BROWSER_AGENT_URL ) Następnie przejdź przez Przejdź do swojego agenta: browser agent = Agent( llm=llm, task=task, browser=browser, # <--- ) Twój agent AI wykona teraz zadania w zdalnych instancjach przeglądarki Agent, podczas gdy Co za kleszcz! 🙂 no longer being blocked or interrupted Połóż to wszystko razem Twój finał Powinny one zawierać: agent.py from browser_use import ChatGoogle, Agent, Browser from dotenv import load_dotenv import json import os # Read the environment variables from the .env file load_dotenv() # The LLM powering the AI agent llm = ChatGoogle(model="gemini-2.5-flash") # The task the AI agent will do on your behalf task = """ Search on Google for software engineer jobs in New York. 1. Choose a job posting page. 2. On the chosen site, filter for jobs published within the last 24 hours. 3. For each job listing, extract the key details, including the job posting URL and the apply URL (if available). 4. Return all results as a JSON list. """ # Read the Bright Data Browser Agent CDP URL from the env BRIGHT_DATA_BROWSER_AGENT_URL = os.getenv("BRIGHT_DATA_BROWSER_AGENT_URL") # Configure a remote browser browser = Browser( cdp_url=BRIGHT_DATA_BROWSER_AGENT_URL ) # Define an AI agent to perform the task in the configured browser agent = Agent( llm=llm, task=task, browser=browser, ) # Execute the AI agent history = agent.run_sync() # Export the found jobs to a JSON output file output_data = history.structured_output with open("jobs.json", "w", encoding="utf-8") as f: json.dump(output_data, f, ensure_ascii=False, indent=4) Spróbuj go uruchomić za pomocą: python agent.py Jak widać z wykonawstwa GIF, które można wygenerować z użycia przeglądarki (doskonałe do usuwania błędów ), agent AI może teraz uzyskać dostęp do Google, a następnie Indeed i filtrować zadania przy użyciu wymaganych kryteriów (opublikowanych w ciągu ostatnich 24 godzin): Rezultatem będzie a Pliki w folderze projektu: jobs.json Ten plik zawiera wszystkie dane o pracy wyodrębnione z Indeed, gotowe do ubiegania się o: [ { "job_title": "Software Engineer", "company": "Twitch Interactive, Inc.", "location": "New York, NY", "salary": "$99,500 - $200,000 a year", "employment_type": "Full-time", "benefits": [ "Parental leave", "401(k)", "Health insurance", "Paid time off", "Employee discount", "Vision insurance" ], "apply_url": "https://www.indeed.com/rc/clk?jk=d57f1f5ae2ce39b2&bb=KSTlUgVEMf-eBJjV36L3azapF2zEi4bBvUN2hIAcYXrYbXRZ5eWSuITPoUpo_Z8dlLX2UOM82XGDxHt0-Ahisofl6e8m0YvqC6Hh37bUv4Ph18Wp4oM2lqjW0jgm6q24kmXmCEOn4ZCXxMbVvGx1Lw%3D%3D&xkcb=SoAR67M3sAK4p3SDqh0LbzkdCdPP&fccid=fe2d21eef233e94a&vjs=3" }, // other job postings omitted for brevity... { "job_title": "Fullstack .NET Developer, Analyst", "company": "MUFG Bank, Ltd.", "location": "Hybrid work in Jersey City, NJ 07302", "salary": "$87,000 - $123,000 a year", "employment_type": "Full-time", "benefits": [ "Tuition reimbursement", "Paid parental leave", "Parental leave", "Health insurance", "Retirement plan", "Paid holidays" ], "apply_url": "https://www.indeed.com/rc/clk?jk=88f53bba78bb73d9&bb=KSTlUgVEMf-eBJjV36L3a5W1vAjJi2KOYfFuFmAdZolzMxeST7LmPwBH3Nh_N5WyZz05vH6_vGPa9dHkj6jgfo9yTQnbXCmfxYezDirnxuSYqjnNthL3s5UtUFYUkLK_DbCh8F545E0wDidVKUnxVQ%3D%3D&xkcb=SoBM67M3sAK4p3SDqh0FbzkdCdPP&fccid=3b98171e4a0fd997&vjs=3" } ] W około 40 wierszach kodu, właśnie zbudowałeś (Chcesz pomysłów? zawiesić na kilka minut i sprawdzić następny rozdział.) AI agent that can automate virtually any browser task for you! Jeśli chcesz podnieść poziom , możesz nawet zintegrować go z logiką, aby przeczytać swoje CV i automatycznie ubiegać się o stanowiska, jak pokazano w . Oficjalna przeglądarka Użyj przykładu na GitHub Dzięki za , możesz teraz stworzyć niepowstrzymującego agenta AI, który poradzi sobie ze wszystkimi nudnymi zadaniami, które zużywają Twój czas i energię. Bright Data's Agent Browser integration in Browser Use Przykłady nudnych zadań, które możesz zautomatyzować za pomocą tego agenta Potrzebujesz pomysłów na zadania i zadania, z którymi ten agent AI może sobie poradzić? Znajdź i zaplanuj loty ✈️: Pozwól AI wyszukać loty, porównywać opcje, a nawet zarezerwować bilety na podstawie Twoich preferencji. Wyodrębnij dane pogodowe dla wielu miast ️: Uzyskaj informacje o pogodzie w czasie rzeczywistym dla wszystkich miast, do których podróżujesz, więc zawsze jesteś przygotowany. Zaplanuj połączenia dla Ciebie : Zaufaj Calendly lub podobnemu narzędziu, a AI zorganizuje spotkania zgodnie z dostępnością. Śledź ceny produktów Amazon i kupuj na niskim poziomie: Monitoruj ceny produktów i automatycznie kupuj przedmioty, gdy trafią na cenę docelową. Zbieraj nagłówki wiadomości : Zbierz i podsumuj najnowsze wiadomości z wielu źródeł, aby nie przegapić niczego ważnego. Kup żywność dla Ciebie: Podaj listę zakupów, a AI automatycznie kupi Twoje żywności online, oszczędzając czas. Potrzebujesz więcej pomysłów?Zobacz więcej . Agenci AI używają przypadków i scenariuszy Ostatnie myśli Teraz wiesz, jak zbudować agenta AI, który poradzi sobie z nudnymi, powtarzającymi się, nudnymi i czasochłonnymi zadaniami przeglądarki. Nie byłoby to możliwe bez , jedna z najciekawszych bibliotek agentów sztucznej inteligencji - ale prawdziwym zmieniaczem gry jest Bright Data , który daje Twojej AI nie do zatrzymania, agent-gotowe instancje przeglądarki w chmurze. Browser Use Agent Browser W firmie Bright Data nasza misja jest prosta: uczynić sztuczną inteligencję dostępną dla wszystkich, wszędzie – nawet dla zautomatyzowanych użytkowników.