ああ、AIエージェント...今、テクノロジーで最も熱いトレンドだ! 誰もが彼らが仕事の未来だということをヒッピーしている。 結局のところ、彼らはすべてを成し遂げることができ、ほとんどのタスクを自動化し、私たちにより多くの時間を与えるだろうか? うん... 現実? ほとんどのエージェントは、ウェブサイトによってブロックされるか、タスクを実行しようとしている間に迷う。 実際に機能するものを作成するには、クラスのベストテクノロジーステックが必要です。 このチュートリアルに従って、あなたのために本当にタスクを自動化できるAIエージェントを作成する方法を学びましょう! なぜほとんどのAIエージェントは配達しないのか 私たちのためのAI自動化タスクを持つという夢は、AIエージェントが最初に発明された理由です。 」がトレンドとなり、なぜハイプは依然として高く続いているのか。 エージェント AI エージェント AI すべての退屈で繰り返しの物事がAIによって処理される世界を想像して、私たちは時間を節約することができます。 このようにして、私たちは本当に重要なものに焦点を当てることができます: Fortnite で V-Bucks を積み重ねるか、Elden Ring でルンを磨くか。 ジョークを除いて、AIエージェントと遊んだことがありますか? もしくは、自分で作ってみたかったら、あなたはすでに悲しい真実を知っています。 オープンオペレーター AI agents rarely live up to expectations! これらは、AIエージェントがフロップする主な理由のいくつかです。 彼らは本物の人間のようにウェブサイトやデスクトップアプリと相互作用することはできません。 彼らを支えるLLMは予測不能であり、同じ入力で異なる結果を与えることができます。 彼らがブラウザを使用する場合でも、CAPTCHAsのような反ボット技術は彼らを冷やさないようにします。 人間とは異なり、AIエージェントはしばしば常識的な推論を欠いており、プログラミング以外の状況に直面するときに適応することに苦労します。 問題は、The AIエージェントの代わりに、あなたがそれらを構築するために使用するテクノロジースタックです。 アイデア 時間の無駄遣いをやめて、どうやって作るかを考えましょう。 . AI agent that can actually automate browser tasks for you Make an AI Agent Automate the Thing You Hate Doing: Step-by-Step Tutorial(AIエージェントを作る) この章では、最も退屈な(それでも重要な)タスクの1つに対処できるAIエージェントを構築する方法を学びます。 仕事狩り! 得られたAIエージェントは、以下のように賢くなるでしょう: Google 訪問 雇用プラットフォームの発見 あなたの望むポジションと好みに基づいてリストを閲覧する 興味深い仕事の抽出 クリーン JSON ファイルにエクスポートする そして、それをさらに進めたい場合は、エージェントがあなたのプロフィールを学び、あなたが指を上げることなく、最高のマッチに自動的に応募できるように、あなたのCVを送る方法についてのリソースも見つけるでしょう。 ⚠️重要:これはたった一例です! このガイドの終わりに述べたように、同じエージェントは、タスク説明を変更することによって、ほぼすべてのブラウザベースのワークフローに適応することができます。 ⚠️重要:これはたった一例です! このガイドの終わりに述べたように、同じエージェントは、タスク説明を変更することによって、ほぼすべてのブラウザベースのワークフローに適応することができます。 入り込んでみよう! 前提条件 このチュートリアルに従うには、あなたが持っていることを確認してください: LLM API キー (Geminini を使用しますが、基本的に API で使用することは無料ですが、OpenAI、Anthropic、Ollama、Groq、およびその他も動作します)。 ブラウザAPIを有効にしたBright Dataアカウント(インストールについてまだ心配しないでください、このチュートリアルで導かれるようになります)。 Python ≥ 3.11 はローカルにインストールされています。 スピードアップするには、すでにPythonプロジェクトを設定していると仮定します。 現地の仮想環境です。 uv ステップ1:ブラウザのインストール 以前述べたように、ほとんどのAIエージェントはテクノロジーの制限の壁に打たれたため失敗します。 単にモデルだけでは十分ではありません。 ブラウザ内で実際に物事をすることができるAIエージェントを構築するための最高のツールの1つは何ですか? 👉 ! ブラウザ利用 ブラウザ利用 聞いたことがない? 心配しないでください! このビデオを捕まえたり、公式ドキュメントをご覧ください: https://www.youtube.com/watch?v=zGkVKix_CRU&embedable=true まず第一に、あなたのアクティベーションを venv をインストールする PyPIのパッケージ: uv browser-use uv pip install browser-use キャップの下で、このライブラリはPlaywrightで実行されますので、あなたもそれに依存するChromiumバイナリをキャプする必要があります。 uvx playwright install chromium --with-deps --no-shell Boom! 💥あなたは今、ブラウザ自動化エージェントのAIパワハウスとセットアップされています。 ステップ #2:LLMを統合する AIエージェントはAIなしではあまりできないでしょう(ショッカーですよね。 ブラウザの使用は、LLMプロバイダーの長いリストをサポートしますが、我々はジェミニに焦点を当てるでしょう。 . your agent needs a language model to properly think 公式ブラウザ使用 GitHub ページ なぜ双子座なのか? なぜなら、APIアクセスと寛大な料金制限を持つ数少ないLLMの1つだからです。 あなたの Gemini API キーをキャプチャし、それを 1 つに保存します。 あなたのプロジェクト フォルダのファイルは、こんな感じです。 .env GEMINI_API_KEY=<YOUR_GEMINI_API_KEY> 次に、Create an AI エージェントの定義ロジックを含むファイル. Start by reading the envs from 利用 (所属するもの) ) : agent.py .env python-dotenv browser-use from dotenv import load_dotenv # Read the environment variables from the .env file load_dotenv() 次に、あなたのLLM統合を定義してください: from browser_use import ChatGoogle # The LLM powering the AI agent llm = ChatGoogle(model="gemini-2.5-flash") 素晴らしい!あなたはあなたのAIエンジンを準備しています。 あなたのエージェントの論理の残りを定義し、構築する時間です。 Step #3: Describe the Browser-Based Task to Automate (ブラウザベースのタスクを自動化する) あなたのエージェントにタスクを説明する方法はすべてです。ブラウザの使用で設定したLLMはあなたの指示と同様に機能しますので、明確で詳細なプロンプトを作成するのに時間を費やしますが、過度に複雑ではありません。 これは実装の最も重要なステップです. したがって、迅速な設計に関するガイドを見て、ブラウザを使用するためのベスト・プラクティスに従って結果を最大化します. あなたはいくつかの試用とエラーのラウンドが必要かもしれません. これはたった1つの例であるため、それを単純にし、このようにブラウザの仕事狩りのタスクを説明しましょう。 task = """ Search on Google for software engineer jobs in New York. 1. Choose a job posting page. 2. On the chosen site, filter for jobs published within the last 24 hours. 3. For each job listing, extract the key details, including the job posting URL and the apply URL (if available). 4. Return all results as a JSON list. """ あなたが見ることができるように、あなたはあなたのエージェントに多くの自由を与えていますが、それがどれほど有能で柔軟なブラウザの使用を考慮して完全に良いです! : 現実世界の設定では、構成ファイルから好みを読み込み、プロンプトに注入する必要があります。これはあなたのエージェントを異なる検索にカスタマイズできるようにします。さまざまな仕事タイトル、場所、必要なスキル、会社の好み、リモート対オンサイトなどを考えてください。 . Tip 「LinkedIn Job Hunting AI Assistant」 STEP #4: エージェントを定義して実行する ブラウザを使用して、以前定義したタスクに対処できる設定されたLLMによって制御されるAIエージェントをスピンアップする: from browser_use import Agent agent = Agent( llm=llm, task=task, ) あなたのエージェントをこのように撃ちます: history = agent.run_sync() 完璧! 今、残っているのは、AIエージェントから出力を取り出し、JSON(または必要なフォーマット)にエクスポートすることです。 Step #5: 出力を JSON にエクスポートする Grab the output from your agent (which should be a clean JSON list of jobs) and dump it to a ファイル: .json import json output_data = history.structured_output with open("jobs.json", "w", encoding="utf-8") as f: json.dump(output_data, f, ensure_ascii=False, indent=4) ここへ行こう! ミッション完了! 退屈なタスクマネージャーのエージェントがあなたのサービスに! STEP #6: エージェントの制限を解決する ブラウザの使用は信じられないが、残念ながら魔法ではない。 あなたのブラウザベースのトレーダー AI エージェントを今実行しようとすると、それはおそらくブロックされます。 (見る) ( ) how to automate reCAPTCHA solving それがどうにかしてそれを回避するなら、Cloudflareによって動作するIndeed Human Verification Pageはまだあります。 このような失敗は、特にあなたが 正直に言うと、あなたが望むのはまさにこのことだ! 誰も仕事を処理している間、数分間機械を縛ることを望んでいない! run the script on a server or in headless mode だから、はい、これらすべては、失敗するAIエージェントを構築します...他のすべてのものと同様に...それは時間の無駄でしたか? ! the tutorial isn’t over yet もっとも重要なステップは、実際にこのすべてを働かせるステップです。 ステップ8:エージェントブラウザを統合する あなたのエージェントは、彼が相互作用するサイトが自動ボットとして検出できるため、失敗します。 ブラウザの指紋:Playwrightでデフォルトで作成されたブラウザセッションは超一般的で、実際のユーザーには見えない。 レート制限:あなたのエージェントは短時間であまりにも多くのリクエストをする(自動化のための古典的で、人間ではありません)で、すぐに疑惑を引き起こします。 IP 評判: IP から実行する自動化スクリプトの数が増えれば、Cloudflare のようなソリューションが潜在的なボットとして表示されるほど、CAPTCHA またはその他の検証の可能性が高まります。 では、解決策は何でしょうか? 以下のようなブラウザです。 人間のようなセッションを実行し、実際のユーザーの行動を模します。 CAPTCHAが表示されたら自動で解決できます。 割引制限を回避するために、何百万ものロータリングIPを含むプロキシネットワークと統合します。 無限のスケーラビリティのためにクラウドで動作します。 AIと密接に統合する。 これは夢ですか?ノープ! それは存在し、そしてそれは呼ばれています。 (アカ) )です。 エージェントブラウザ ブラウザ API エージェントブラウザ エージェントブラウザ https://www.youtube.com/watch?v=T59GCkpk5zY&embedable=true あなたは、このようなページで終わります: Agent Browserの正式な統合ガイドに従って、 接続 URL をコピー(赤に強調)し、接続に追加します。 ファイルはこんな感じ: .env BRIGHT_DATA_BROWSER_AGENT_URL=<YOUR_AGENT_BROWSER_URL> その後、読んでみて、 を定義する。 object to instruct Browser Use to connect to the remote browser: agent.py Browser import os from browser_use import Browser BRIGHT_DATA_BROWSER_AGENT_URL = os.getenv("BRIGHT_DATA_BROWSER_AGENT_URL") browser = Browser( cdp_url=BRIGHT_DATA_BROWSER_AGENT_URL ) 次に、pass the あなたのエージェントに対して: browser agent = Agent( llm=llm, task=task, browser=browser, # <--- ) AIエージェントは、リモートエージェントブラウザのインスタンスでタスクを実行し、 なんとクローゼット!! no longer being blocked or interrupted 「PUT IT ALL Together」 あなたの最終 含めるべき: agent.py from browser_use import ChatGoogle, Agent, Browser from dotenv import load_dotenv import json import os # Read the environment variables from the .env file load_dotenv() # The LLM powering the AI agent llm = ChatGoogle(model="gemini-2.5-flash") # The task the AI agent will do on your behalf task = """ Search on Google for software engineer jobs in New York. 1. Choose a job posting page. 2. On the chosen site, filter for jobs published within the last 24 hours. 3. For each job listing, extract the key details, including the job posting URL and the apply URL (if available). 4. Return all results as a JSON list. """ # Read the Bright Data Browser Agent CDP URL from the env BRIGHT_DATA_BROWSER_AGENT_URL = os.getenv("BRIGHT_DATA_BROWSER_AGENT_URL") # Configure a remote browser browser = Browser( cdp_url=BRIGHT_DATA_BROWSER_AGENT_URL ) # Define an AI agent to perform the task in the configured browser agent = Agent( llm=llm, task=task, browser=browser, ) # Execute the AI agent history = agent.run_sync() # Export the found jobs to a JSON output file output_data = history.structured_output with open("jobs.json", "w", encoding="utf-8") as f: json.dump(output_data, f, ensure_ascii=False, indent=4) 実行して実行してみる: python agent.py ブラウザの使用から生成できるGIFの実行から見られるように(デバッグに最適)AIエージェントは、Googleにアクセスし、それからIndeedにアクセスし、必要な基準を使用して仕事をフィルタリングすることができます(過去24時間に投稿): 結果はA あなたのプロジェクトフォルダのファイル: jobs.json このファイルには、Indeed から抽出されたすべての仕事データが含まれており、以下に応募する準備ができています。 [ { "job_title": "Software Engineer", "company": "Twitch Interactive, Inc.", "location": "New York, NY", "salary": "$99,500 - $200,000 a year", "employment_type": "Full-time", "benefits": [ "Parental leave", "401(k)", "Health insurance", "Paid time off", "Employee discount", "Vision insurance" ], "apply_url": "https://www.indeed.com/rc/clk?jk=d57f1f5ae2ce39b2&bb=KSTlUgVEMf-eBJjV36L3azapF2zEi4bBvUN2hIAcYXrYbXRZ5eWSuITPoUpo_Z8dlLX2UOM82XGDxHt0-Ahisofl6e8m0YvqC6Hh37bUv4Ph18Wp4oM2lqjW0jgm6q24kmXmCEOn4ZCXxMbVvGx1Lw%3D%3D&xkcb=SoAR67M3sAK4p3SDqh0LbzkdCdPP&fccid=fe2d21eef233e94a&vjs=3" }, // other job postings omitted for brevity... { "job_title": "Fullstack .NET Developer, Analyst", "company": "MUFG Bank, Ltd.", "location": "Hybrid work in Jersey City, NJ 07302", "salary": "$87,000 - $123,000 a year", "employment_type": "Full-time", "benefits": [ "Tuition reimbursement", "Paid parental leave", "Parental leave", "Health insurance", "Retirement plan", "Paid holidays" ], "apply_url": "https://www.indeed.com/rc/clk?jk=88f53bba78bb73d9&bb=KSTlUgVEMf-eBJjV36L3a5W1vAjJi2KOYfFuFmAdZolzMxeST7LmPwBH3Nh_N5WyZz05vH6_vGPa9dHkj6jgfo9yTQnbXCmfxYezDirnxuSYqjnNthL3s5UtUFYUkLK_DbCh8F545E0wDidVKUnxVQ%3D%3D&xkcb=SoBM67M3sAK4p3SDqh0FbzkdCdPP&fccid=3b98171e4a0fd997&vjs=3" } ] Wow! 約40行のコードで、あなたはちょうど (いくつかのアイデアを欲しがりますか? もう数分間しっかりと吊って、次の章をチェックしてください。 AI agent that can automate virtually any browser task for you! レベルアップしたい場合は、ロジックと統合してCVを読み、自動的にポジションを申請することもできます。 . 公式ブラウザ 使用例 GitHub ありがとう♪ あなたは今、あなたの時間とエネルギーを浪費するすべての退屈なタスクを処理する止められないAIエージェントを作成することができます。 Bright Data's Agent Browser integration in Browser Use このエージェントで自動化できる退屈なタスクの例 このAIエージェントが処理できるタスクや仕事のためのアイデアが必要ですか? これらをチェックしてください: フライトの検索とスケジュール ✈️: AI にフライトの検索、オプションの比較、そしてあなたの好みに基づいてチケットを予約することもできます。 複数の都市の天気データを抽出 ️:あなたが旅行しているすべての都市のリアルタイムの天気情報を得るので、常に準備ができています。 あなたのためにスケジュール呼び出し : Calendly または類似のツールに頼り、AI はあなたの可用性に応じて会議を整理します。 Amazon製品の価格を追跡し、低価格で購入する:製品価格を監視し、ターゲット価格に到達したときに自動的にアイテムを購入します。 ニュースタイトルを収集する :複数のソースから最新のニュースを収集し、まとめ、重要なものを逃さないようにします。 あなたのために食料品を購入する:買い物リストを提供し、AIは自動的にあなたの食料品をオンラインで購入し、あなたに時間を節約します。 もっとアイデアが欲しい? 他のアイデアを発見 . AIエージェントの使用ケースとシナリオ 最終思考 今では、あなたのために退屈で繰り返し、退屈で時間がかかるブラウザのタスクに対処するAIエージェントを構築する方法を知っています。 That wouldn’t be possible without , one of the coolest AI agent libraries out there—but the real game-changer is Bright Data’s あなたのAIに止まらない、エージェント準備のクラウドブラウザインスタンスを提供します。 Browser Use Agent Browser Bright Data では、私たちの使命はシンプルです: AI を誰にでも、どこでも、自動化されたユーザーにもアクセスできるようにします。