私は最近、サイバーセキュリティのためのデータサイエンスの利用に関するクラスを実施しました。このクラスでは、パケットキャプチャデータの分析に焦点を当てました。これは、やや技術的で、従来は退屈なトピックでした。私が共有したアプローチは、金融機関におけるサイバーセキュリティの経験から得たもので、探索的データ分析、ログデータの前処理と変換、クラスタリングとグラフネットワーク分析の組み合わせによる異常の特定などのコアステップをカバーしています。
意外だったのは、このセッションの準備に費やした時間が、普段のほんの一部だったことです。AI は、プロセスの効率化に重要な役割を果たしました。Claude の助けを借りて、コーディング、アウトラインの作成、さらにはスライドの作成まで行いました。合計で、コース全体が 48 時間以内に準備できました。
セッションは興味深いものとなりました。参加者は主に普段はコードを書かない CISO たちでしたが、AI の支援を受けて作成された演習は直感的で実践的であると感じました。私の目標は、参加者がデータとコードを直接操作することに没頭できるようにすることでした。参加者は特に、現代のサイバー脅威監視および SIEM プラットフォームが通常自動化しているものを手動で探索し、「裏側」で起こっているプロセスについての洞察を得る機会を高く評価しました。
この授業で私が学んだ主な教訓は、意外にも直感に反するものでした。私たちが知っているデータサイエンスは、最終的には AI に置き換えられるということです。この見方は時期尚早、あるいは時代を先取りしているように思えるかもしれませんが、議論に値する視点です。
警告: この中には、人々を刺激する内容が含まれている可能性があります。
10 年以上にわたり、データ サイエンスは「21 世紀で最も魅力的な仕事」として称賛されてきました。しかし、AI が急速に進歩するにつれて、この分野の根底にある課題を見過ごすことは難しくなっていることが明らかになっています。強力な生成 AI の登場は、振り返ってみると、当初認識されていたよりも定義が曖昧で、過大評価されていた可能性があるこの分野にとって、まさに転換点となる可能性があります。
データ サイエンスは本質的に、コンピューター サイエンス、統計、ビジネス感覚を組み合わせたもので、膨大なデータから実用的な洞察を組織に提供します。このスキルセットは、今日のデータ主導の世界では間違いなく貴重です。しかし、洗練されたイメージの裏で、この分野は重大な問題に直面しています。データ サイエンスと呼ばれることが多いものは、必ずしもきちんと整合していない、関連性の薄いタスクの寄せ集めであることが多く、この分野の専門家の多くは、この分野が要求する幅広い範囲と複雑さに苦労しています。
データ分析、モデリング、洞察の生成を処理できる AI 駆動型ツールの台頭により、データ サイエンスの役割と将来に対する私たちの見方が変化する可能性があります。AI がデータ サイエンス内の多くの基礎タスクを簡素化および自動化し続けるにつれて、インテリジェント オートメーションの時代にデータ サイエンティストであることの真の意味について、この分野は認識を迫られる可能性があります。
多くのデータ サイエンティストは、高度なコーディング スキルとデジタル ツールを駆使しているにもかかわらず、驚くほど手作業が多く、エラーが発生しやすい作業に従事しています。データの準備、クレンジング、分析には、退屈で時間のかかる反復的で機械的な作業が含まれます。実際、データ サイエンスの労力のかなりの部分がデータセットの準備に費やされています。この作業は、刺激的で発見主導の科学として宣伝されているものよりも、むしろ単調な作業のように感じられることがよくあります。この問題は、この分野に参入する人の多くが、せいぜいアマチュアであるという事実によってさらに悪化しています。これらの「データ サイエンティスト」は、Python や R のオンライン コースをいくつか受講しただけで、 この役割の厳しさに備えていないことがよくあります。データ サイエンスはコーディングだけではありません。詳細な分析、コンテキストの理解、技術者以外の対象者に洞察を提示する能力が必要です。実際には、これは研究の仕事であり、創造性と分析的思考の融合が必要ですが、この分野の多くの人はそれを持ち合わせていません。
さらに、多くのデータ サイエンティストは、肩書きがあるだけで高額の給与や魅力的なパッケージを期待する権利意識を育んでいます。この姿勢は、特にコスト効率が最優先される業界では、企業を遠ざけています。かつてはデータ サイエンティストの採用に急いでいたものの、現在は考え直している企業に会ったことがあります。AI なら、データのクリーニングをより速く、より良く、わずかなコストで実行できるのに、なぜほとんどの時間をデータのクリーニングに費やす人に高い賃金を支払うのでしょうか。
私が個人的に授業を執筆した経験から言うと、ジェネレーティブ AI は、データ サイエンスが最も弱い領域で強力な力を発揮するようになりました。データの準備、クレンジング、さらには基本的な定性分析などのタスク (データ サイエンティストの時間の多くを費やすアクティビティ) は、今ではAI システムによって簡単に自動化できます。さらに悪いことに (立場によっては良いことかもしれませんが)、AI はより高速で、より正確で、人的エラーや疲労が起こりにくいのです。
多くのデータ サイエンティストにとって、これは恐ろしいことです。結局のところ、これらのタスクは日々の業務の大部分を占めています。たとえば、データ クレンジングは時間がかかり、間違いが起きやすいことで有名ですが、AI は数回のクリックでほぼ完璧な精度でこれを実行できます。データ サイエンティストはこれらの単調なタスクについて不満を言うことがよくありますが、それらは彼らの役割にとって不可欠なものです。AI システムが改良されるにつれて、人間がこれらの作業を行う必要性は減少します。AI に対する声高な批判の多くがデータ サイエンティスト自身から来ているのも不思議ではありません。彼らは、前兆を見て、自分の仕事が危うくなることを恐れています。
データ サイエンティストにとってさらに悪いことに、この分野は近年大きな進歩を遂げていません。急速に人気が高まっているにもかかわらず、データ サイエンスは依然として非効率性、エラー、そしてそれが具体的に何を伴うべきかについての明確さの欠如に悩まされています。かつては、より洗練されたツールとより優れたトレーニングによってこの分野が進化すると信じられていましたが、これは期待されたほどには実現していません。対照的に、AI は着実に進歩しています。機械学習アルゴリズム、自然言語処理、生成モデルは急速に進化しており、従来のデータ サイエンスを置き去りにしています。
また、データ サイエンティストに期待される高い給与が、問題をさらに複雑にしています。かつては非効率性を許容していた企業も、今では AI が人間の労働に課せられる高額なコストをかけずに、多くの単調な作業を代替できることに気づき始めています。AI が分析、予測、さらにはプレゼンテーションなどの重要なタスクの実行に熟達するにつれて、データ サイエンスの手動の性質はますます不要になっています。多くの企業は、かつてはデータ サイエンティストのチームを必要としていたものが、今では AI 搭載ツールによってより効率的に処理できることに気づくでしょう。
現実には、従来の定義によるデータサイエンスは、陳腐化の瀬戸際にあります。生成型 AI が驚異的な速度で進歩する中、現在の形態の人間のデータサイエンティストの需要は減少すると思われます。これは、人間がデータに基づく意思決定に何の役割も果たさないことを意味するものではありませんが、従来の「データサイエンティスト」の役割は、すぐに過去のものになるかもしれません。今必要なのは、AI と連携し、その機能を活用しながら、戦略的思考と複雑な問題解決に高いレベルで集中できる専門家です。
AI は分析、洞察、意思決定の終焉ではなく、それらの進化を表しています。現在のデータ サイエンスの分野は、それに伴って進化しなければ時代遅れになる恐れがあります。AI はすでに業界に革命を起こしており、データ サイエンスもそれに適応しなければ、この波に追い抜かれてしまう恐れがあります。最終的に、問題は AI がデータ サイエンスを排除するかどうかではなく、データ サイエンスがその約束を完全に果たしたかどうかである可能性があります。
あるいは、私たちが最終的に「データ サイエンス」の誇大宣伝を乗り越えて、AI を次の論理的な進歩として受け入れれば、その区別は重要ではなくなるかもしれません。
私について: データ、AI、リスク管理、戦略、教育を組み合わせた 25 年以上の IT ベテラン。ハッカソンで 4 回優勝し、データ アドボケートとして社会に影響を与えています。現在、フィリピンで AI 人材の育成に取り組んでいます。私について詳しくは、https: //docligot.com をご覧ください。