❗ : これは、高度な Web スクレイピングに関する 6 部構成のシリーズのパート 5 です。まだ参加したばかりですか? 。 免責事項 追いつくにはパート 1 から始めてください HTML 解析を使用して Web ページからデータを取得することは、データ管理パイプラインの最初のステップにすぎません。その後、チームや会社が実際に価値を引き出せるように、生データをエクスポート用に準備する必要があります。💡 この記事では、自動データ処理とスクレイピングされたデータのエクスポートに関する イノベーションとともに、 テクニックを紹介します。データゲームをレベルアップする準備をしましょう!🎓 最新の優れた 古典的な サイトからデータを抽出した後の次のステップ に関するこの 6 部構成のシリーズをフォローしてきた方は、おめでとうございます。スクレイピング スキルが忍者レベルにまでレベルアップしました。🥷 高度な Web スクレイピング これまでに見てきた内容を簡単にまとめると次のようになります。 強力で最新のウェブスクレイパーを構築するための前提条件 SPA、PWA、さらにはAI搭載サイトからデータを取得する方法 スクレイピングワークフローを最適化するためのヒントとコツ AI駆動型プロキシでレート制限を回避する方法 つまり、スクレイピング スクリプトは、最も困難な最新のサイトにも対応し、すべてのデータを効果的かつ効率的に抽出することができます。⚡ データの宝庫が手に入ったので、次のステップは以下のとおりです。 : エクスポート用にデータをクリーンアップ、強化、構造化します。⚙️ データ処理 : スクレイピングしたデータを適切な形式で保存し、将来使用できるようにします。📥 データエクスポート これら 2 つの最終ステップを詳しく説明し、スクレイピングされた生データから実用的な洞察を得る方法を説明します。 スクレイピングされたデータの処理方法 手動と自動の両方のデータ処理で最も一般的な方法を調べます。 手動データ処理 コンセプトは簡単です。 と、 、 などの信頼できる文字列操作メソッド、またはその他の標準ライブラリ関数を使用してデータをクリーンアップします。その後、必要に応じて適切なデータ型に変換します。🧹 カスタム正規表現 trim() replace() 正直に言うと、おそらくあなたはこれを以前にやったことがあるでしょう。だから、これは何も新しいことではないはずです…🧐 製品価格から次の文字列をスクレイピングしたと想像してください。 " USD 199.98 " 価格番号と通貨を抽出したいとします。JavaScript でこれを実行する方法は次のとおりです。 let priceString = " USD 199.98 "; // scraped string let trimmedPriceString = priceString.trim(); // removes extra spaces let [price, currency] = trimmedPriceString.match(/[A-Za-z]+|\d+\.\d+/g).map(item => item.trim()); console.log(price); // 199.98 console.log(currency); // USD 簡単そうに見えますね。しかし、ここに問題があります。この種の手動データクリーニングは、スクレイピングされたページの で機能しますが、完璧ではありません。😭 ほとんど そのため、手動データ処理では、多くの場合、エッジ ケースを処理するロジックが必要になります。なぜでしょうか。それは、Web ページが進化し、特定のページ カテゴリの一部であっても、固有のデータが含まれる可能性があるためです。 💡 手動での最適化で目的を達成できるかもしれませんが、少し古い方法です。最新のアプローチは、 用の AI ベースのツールでパイプラインを強化することです。 プロのヒント: 自動データ処理 AIによる自動データ処理 AI、特に LLM ( ) は、データ処理に革命を起こしています。これらのモデルは、最も汚く、混沌としていて、ノイズの多いデータからでも、クリーンで構造化された情報を抽出することに優れています。Web スクレイピングにその力を活用してみませんか? 大規模言語モデル ここでのアイデアは、Web スクレイピングを介してすべての生データを収集し、それを AI に渡してデータクリーニングを行うことです。たとえば、以下の例を考えてみましょう 👇 入力文字列は次のとおりです。 " USD 199.98 " ChatGPT または他の LLM に価格と通貨を抽出してもらいます。 結果は?まさに素晴らしい! ここで、AI API (OpenAI、Anthropic、その他の LLM プロバイダーなど) を呼び出して、上記のロジックをスクレーパーに直接統合することを想像してみてください。これにより、面倒なカスタム クリーニング ロジックやエッジ ケースのデバッグをすべて回避できます。🙅♀️ 🎁 AI はデータをクリーニングするだけではありません。データを充実させるための強力なツールでもあります。LLM には、貴重なデータ ポイントを追加したり、他のオンライン ソースから関連情報を取得したりできる知識が組み込まれています。 ボーナス情報: このアプローチの唯一の欠点は何でしょうか? 特に、オープンソースではない AI モデルを選択した場合はどうでしょうか? : AI モデルの呼び出しは法外な値段ではありませんが、特に大規模になると無料ではありません。💸 コスト : スクレイピングしたデータをサードパーティの AI プロバイダーに送信すると、コンプライアンスの問題が発生する可能性があります。🔓 データプライバシー スクレイピングしたデータの最適なエクスポート方法 データ処理が理解できたので、次は最も効果的な方法でデータをエクスポートしてみましょう。🤿 : いくつかのエクスポート方法はよく知られているように聞こえるかもしれませんが、落胆しないでください。他の方法はより複雑で、少し変わったものである可能性があります。 ⚠️ 警告 人間が読めるファイルへのエクスポート CSV、JSON、XML などの でデータをエクスポートすることは、スクレイピングしたデータを保存する典型的な方法です。それを実現するにはどうすればよいでしょうか? スクレイピング スクリプトの最後にカスタム データ エクスポート コードを追加します。 人間が読める形式 👍 : 長所 読みやすく理解しやすいデータ形式 Microsoft Excelを含むほとんどのツールとの互換性 技術者以外のユーザーと簡単に共有でき、手動検査にも使用できます。 👎 : 短所 大規模データセットのスケーラビリティが限られている データエクスポートに対する旧式のアプローチ オンラインデータベースへのエクスポート スクレイピングされたデータを MySQL、PostgreSQL、MongoDB データベースなどのオンライン SQL または NoSQL データベースに直接リダイレクトします。 👍 長所: スクレイピングされたデータへの集中アクセス 複雑なクエリをサポート アプリケーションとの統合が簡単 👎 短所: データベースのセットアップと管理が必要 大量のデータによる潜在的な書き込みパフォーマンスの問題 特殊なビッグデータ形式へのエクスポート スクレイピングしたデータを、ビッグデータに最適な 、Parquet、AVRO、ORC などの最適化された形式で保存します。 Protobuf JSON と Protobuf の違いについて詳しくは、以下のビデオをご覧ください。 https://www.youtube.com/watch?v=uGYZn6xk-hA&embedable=true 👍 長所: 保管と取り出しの効率が非常に高い 複雑な構造を持つ大規模なデータセットに最適 スキーマの進化をサポート 👎 短所: 人間が読めるものではないため、読むには特別なツールが必要です。 小規模なデータセットには適していません ストリーム互換データファイルへのエクスポート などのストリーミング可能な形式を使用すると、リアルタイム アプリケーションや処理に効率的な方法でデータをエクスポートできます。 NDJSON や JSON Lines 👍 長所: ストリーミングやリアルタイム処理に最適 大量のデータを効率的にサポート 人間が読める形式でありながら、読み取りと書き込みの両方において柔軟かつスケーラブルである 👎 短所: すべてのJSONライブラリがサポートしているわけではない あまり人気がない クラウドストレージプロバイダーへのエクスポート スクレイピングしたデータを AWS S3 や Google Cloud Storage などのクラウド ストレージに保存すると、簡単でスケーラブルかつアクセスしやすいストレージが提供されます。 👍 長所: 特に における無制限のスケーラビリティ クラウドベースのウェブスクレイピング どこからでも簡単にアクセス 物理的なストレージに比べてメンテナンスが容易 👎 短所: 継続的な保管コスト アクセスするにはインターネット接続が必要です Webhook経由でエクスポート データをリアルタイムで外部サービスに直接送信し、即時のアクションや処理を可能にします。 Webhook は Webhook が何なのか分からないですか? このビデオをご覧ください: https://www.youtube.com/watch?v=Mfzucn4f9Xk&embedable=true 👍 長所: 即時データ配信 外部システムへのデータ転送を自動化 Zapierや類似のプラットフォームなど、サードパーティのサービスとの統合に最適 👎 短所: 外部サービスの設定が必要 サービスが停止した場合、データが失われる可能性がある 大手企業がスクレイピングした情報をどのように処理し、取り扱うか IT の世界で何かを行う方法を学ぶ最良の方法は何でしょうか? 信頼できる開発者、情報源、またはオンライン プロバイダーがすでに行っていることを調べてください! 💡 Bright Data がトップです! 🏆 一流のデータプロバイダーといえば、 Bright Data の 製品がデータ処理とエクスポートに提供する機能をご覧ください。 Web Scraper API サーバーの負荷を軽減し、大量のスクレイピングタスクを最適化するための一括リクエスト処理 WebhookまたはAPI配信経由でデータをエクスポートする JSON、NDJSON、JSON Lines、CSVなどの形式でデータを出力します。 スクレイピングされたデータに対するGDPRおよびCCPAへの準拠 信頼性を確保し、手動チェックの時間を節約するためのカスタムデータ検証ルール これらの機能は、このガイドで紹介したすべてのヒントやコツと一致しています。これは、 のほんの一部にすぎません。🌐 Bright Data の Web Scraper API 最後に これで、スクレイピングしたデータの処理からエクスポートまで、プロのように管理するための を習得できました。🛠️ 最先端のテクニック もちろん、ここで本格的な技をいくつか習得しましたが、旅はまだ終わりではありません。ですから、準備を整えて、この冒険の次の段階のために最後のエネルギーを蓄えておきましょう。 最終目的地は? — AI がルールを書き換えた世界でもそうです!📄 Web スクレイピングにおける倫理とプライバシーの遵守