❗ : これは の最初の記事です。シリーズ全体を通して、スクレイピング ヒーローになるために知っておく必要のあるすべてのことをカバーします。以下は一般的な紹介ですが、今後の記事では 説明します。 免責事項 、高度な Web スクレイピングに関する 6 部構成のシリーズ 、他では簡単に見つけられない複雑なトピックとソリューションについて Web スクレイピングは、出版物、ジャーナル、技術ブログなど、あらゆるところで流行語になっています。しかし、それは一体何であり、なぜそれほど重要なのでしょうか。ここに来ているということは、おそらくすでにご存知でしょう。また、最高レベルのデータ抽出が簡単な作業ではないこともご存知でしょう。特に、サイトはスクレイピング スクリプトを停止するように絶えず進化しているためです。 6 部構成のシリーズの最初の記事では、高度な Web スクレイピングの高度な課題に取り組みます。ポップコーンを用意して、始めましょう! 🍿 ウェブスクレイピングの概要 、オンライン ページからデータを抽出する技術です。しかし、自動化できるのに、手動で情報をコピーして貼り付けたいと思う人がいるでしょうか? ⚡ Web スクレイピングは Web スクレイピングは通常、重い作業を行うカスタム スクリプトを通じて実行され、手動で行う作業 (ページ間での情報の読み取り、コピー、貼り付け) を、超高速かつ大規模に自動化します。 言い換えれば、Web スクレイピングは、インターネットの広大な土地に効率的なデータ マイニング ボットを配置して、情報の宝を掘り出して持ち帰るようなものです。スクレイピング スクリプトが とも呼ばれるのも不思議ではありません。🤖 スクレイピング ボット オンライン データ スクレイピングを実行するボットの一般的な動作は次のとおりです。 : ボット ( とも呼ばれます) は、ターゲット サイトから特定の Web ページを要求します。 リクエストを送信する スクレーパー : サーバーはページに関連付けられた HTML ドキュメントを返します。このドキュメントはスクレイピング スクリプトによって解析されます。 HTML を解析する : スクリプトは から要素を選択し、関心のあるノードから特定のデータを取得します。 情報の抽出 ページの DOM : ボットは、前処理されたデータを CSV や JSON ファイルなどの構造化された形式で保存するか、データベースまたはクラウド ストレージに送信します。 保存 かっこいいですね…でも、誰でもできるのでしょうか? : はい、いいえ、多分、それは状況によります! TL;DR ことを理解するのに、データサイエンスや金融の博士号は必要ありません。これはロケット科学ではありません。Google、Amazon、Netflix、Teslaなどの大企業がそれを証明しています。これらの企業の収益はユーザーデータに大きく依存しています。 データが地球上で最も価値のある資産である ⚠️ : 現代社会では、何かが無料なのは、 がその商品だからです! (そうです、これは にも当てはまります 🕵️♂️) 警告 あなた 安価な住宅用プロキシ すごいですね…でも、それがウェブスクレイピングとどう関係するのでしょうか?🤔 そうですね、ほとんどの企業はウェブサイトを持っており、そこには大量のデータが含まれており、表示されています。企業がユーザーから保存、管理、収集するデータのほとんどは裏で保管されていますが、これらのサイトで公開されているデータもまだあります。 具体的な例として、Facebook、LinkedIn、Reddit などのソーシャル メディア プラットフォームを考えてみましょう。これらのサイトには、公開データの宝庫である何百万ものページがホストされています。重要なのは、データがサイト上で からといって、その背後にある企業が そのデータを取得することに大喜びしているわけではないということです。👨💻 表示されている 、数行の Python で データはお金に等しい。そして企業はそれをただ無料で提供しているわけではない…💸 多くのサイトが 、チャレンジ、保護システムを備えている理由はここにあります。企業はデータが貴重であることを知っており、スクレイピング スクリプトがデータにアクセスすることを困難にしています。 スクレイピング対策 それで、なぜそんなに難しいのでしょうか? オンライン データの取得が難しい理由と、よくある問題への対処方法を学ぶことが、この高度な Web スクレイピング コースの目的です。🎓 まずは、ソフトウェア エンジニア仲間の によるこの素晴らしいビデオをご覧ください。 Forrest Knight https://www.youtube.com/watch?v=vxk6YPRVg_o&embedable=true Web スクレイピングは複雑な世界です。その複雑さを垣間見るために、プロセス全体を通して、最初から最後のステップまで、尋ねる必要がある重要な質問を強調しましょう。🔍 ここでは表面的な部分しか触れていませんが、心配しないでください。このシリーズの今後の記事では、これらの各側面( 🤫)をさらに深く掘り下げていきます。お楽しみに!👀 ほとんどの人が話さない隠れたヒントやコツを含む ターゲットサイトは静的ですか、動的ですか? どう伝えたらいいか分からない? サイトが静的な場合、サーバーから返される HTML にデータがすでに埋め込まれていることを意味します。したがって、スクレイピングに必要なのは、HTTP クライアントと HTML パーサーのシンプルな組み合わせだけです。🧑💻 しかし、データが動的で、AJAX 経由でオンザフライで取得される場合 ( など)、スクレイピングはまったく別の話になります。🏀 この場合、ページをレンダリングし、ページと対話して、必要なデータを抽出するために、ブラウザの自動化が必要になります。 SPA つまり、サイトが静的か動的かを判断して、それに応じて適切なスクレイピング技術を選択するだけでいいということですね。まあ、そんなに早くはありません...🤔 普及する中、問題は、それをスクレイピングできるかどうかです。🤷♂️ AI 駆動の Web サイトはどうでしょうか。これらは答えが必要な質問です。信じてください、それが Web の未来なのですから! 🌐 PWA が サイトではどのようなデータ保護技術を使用していますか? 前述のように、サイトには CAPTCHA、 、ブラウザ フィンガープリンティング、 、デバイス フィンガープリンティング、レート制限など、いくつかの強力なボット対策が施されている可能性があります。 JavaScript チャレンジ TLS フィンガープリンティング 詳細については、以下のウェビナーをご覧ください。 https://www.youtube.com/watch?v=4y-i5XKxa7I&embedable=true これらは、いくつかのコード回避策だけで回避できるものではありません。 AI によってこれらの保護が次のレベルに引き上げられた現在では特に、専門的なソリューションと戦略が必要です。 言い換えれば、 のように、最後のボスに直接進むことはできません (もちろん、スピードランのプロでない限り 🕹️)。 「ブレス オブ ザ ワイルド」 スクレイピングロジックを最適化する必要がありますか? また、その方法は? さて、適切な技術スタックがあり、すべてのボット対策を回避する方法を理解していると仮定します。しかし、ここで問題なのは、スパゲッティ コードでデータ抽出ロジックを記述するだけでは、実際のスクレイピングには不十分だということです。 すぐに問題に遭遇し、信じてください、物事が壊れてしまいます。😬 並列化、高度な再試行ロジック、ログ記録、その他多くの高度な側面を使用してスクリプトをレベルアップする必要があります。つまり、スクレイピング ロジックを最適化することは間違いなく重要です。 プロキシをどのように処理すればよいですか? すでに説明したように、プロキシは、 、地理的に制限されたコンテンツにアクセスしたり、 、IP ローテーションを実装したりするために重要です。 IP 禁止を回避したり API レート制限を回避したり しかし、ちょっと待ってください。プロキシを適切に管理するにはどうすればよいでしょうか。プロキシを効率的にローテーションするにはどうすればよいでしょうか。プロキシがオフラインになり、新しいプロキシが必要になった場合はどうなりますか。 以前は、これらの問題に対処するために複雑なアルゴリズムを手動で記述していました。しかし、現代の答えは AI です。✨ そうです。AI 駆動型プロキシは今大流行していますが、それには十分な理由があります。スマート プロキシ プロバイダーは、ローテーションから置き換えまですべてを自動的に処理できるため、面倒な手間をかけずにスクレイピングに集中できます。 ゲームの先頭に立ちたいなら、 使い方を知っておく必要があります。 AI 駆動型プロキシの スクレイピングされたデータをどのように処理しますか? すばらしいですね。これで、すべての機能が備わり、最適化され、技術的な観点から見ても堅牢なスクリプトが完成しました。しかし、次は、スクレイピングしたデータの処理という次の大きな課題に取り組みます。 疑問点は次のとおりです。 保存するのに最適な形式は何ですか? 📂 どこに保存しますか? ファイルですか? データベースですか? クラウド ストレージですか? 🏙️ どのくらいの頻度で更新する必要がありますか? また、その理由は? ⏳ 保存して処理するにはどれくらいのスペースが必要ですか? 📦 これらはすべて重要な質問であり、その答えはプロジェクトのニーズによって異なります。1 回限りの抽出に取り組んでいる場合でも、継続的なデータ パイプラインに取り組んでいる場合でも、データを保存、取得、管理する方法を知ることは、最初にデータをスクレイピングすることと同じくらい重要です。 でも待ってください... そもそもあなたがしたことは合法かつ倫理的だったのでしょうか? スクレイピングしたデータはデータベースに安全に保管されています。ちょっと考えてみてください…それは合法なのでしょうか? 😬 公開されているページのデータのみをターゲットにするなど、いくつかの基本的なルールに従えば、おそらく問題はないでしょう。倫理?それは別の問題です。 、サーバーに過負荷をかける可能性のあるアクションを避けたりすることが、ここでは重要です。 スクレイピングに関してサイトの robots.txt を尊重したり 対処すべき重要な問題もあります…🐘 新たな標準になりつつある中、新たな法的および倫理的問題が浮上しています。🧠 また、新しい規制や AI 固有の問題によって不意を突かれたり、窮地に陥ったりすることは避けたいものです。 AI を活用したスクレイピングが 高度なウェブスクレイピング?いいえ、必要なのは適切な仲間だけです Web スクレイピングをマスターするには、コーディング スキル、Web テクノロジーに関する高度な知識、適切なアーキテクチャ上の決定を下す経験が必要です。残念ながら、それは氷山の一角にすぎません。 先ほど述べたように、スクレイピングは、AI 駆動型のボット対策によって試行がブロックされるため、さらに複雑になっています。🛑 しかし、心配しないでください。この 6 つの記事を通じてわかるように、適切な味方がそばにいれば、すべてがずっと簡単になります。 どれでしょうか? Bright Data です。 市場で最高の Web スクレイピング ツール プロバイダーは Bright Data は、スクレイピング API、サーバーレス関数、Web ロック解除ツール、CAPTCHA ソルバー、クラウド ブラウザー、高速で信頼性の高いプロキシの大規模なネットワークを提供します。 スクレイピングのレベルを上げる準備はできましたか? 以下のビデオで Bright Data の について紹介します。 データ収集サービス https://www.youtube.com/watch?v=AGaiVApKfmc&embedable=true 最後に これで、Web スクレイピングの実行がなぜ難しいのか、そしてオンライン データ抽出の達人になるためにどのような質問に答える必要があるのかがわかりました 🥷。 これは、高度な Web スクレイピングに関する 6 部構成のシリーズの最初の記事にすぎないことを忘れないでください。画期的なテクノロジー、ソリューション、ヒント、コツ、ツールについて詳しく見ていきましょう。 次は?SPA、PWA、AI 駆動型動的サイトなどの最新の Web アプリをスクレイピングする方法をご紹介します。お楽しみに🔔