paint-brush
増大するデータ インフラストラクチャの複雑さ: コストへの影響と今後の展望@pingaliscribble
598 測定値
598 測定値

増大するデータ インフラストラクチャの複雑さ: コストへの影響と今後の展望

Venkata Pingali5m2022/08/04
Read on Terminal Reader
Read this story w/o Javascript

長すぎる; 読むには

現在のデータ インフラストラクチャのランドスケープを理解することは、従来のデータベースから現在存在する最新のデータ スタック (MDS) への道のりと、その過程での課題、複雑さ、および急速な変化を深く掘り下げることなしには不可能です。 この記事では、MDS がどのように誕生したか、また、認知過負荷、急激な学習曲線、およびデータ チーム間で引き起こされる高い燃え尽き症候群により、MDS がどのように拡張するのが難しいかを見ていきます。また、これがツールとプラットフォームの統合、よりシンプルなプラットフォーム開発、信頼の構築、成果への結びつき、およびツールの集中砲火によって生じるノイズの単純なかき消しに重点を置いた新しい方法論にどのようにつながっているかについても調べます。毎日紹介されています。

Companies Mentioned

Mention Thumbnail
Mention Thumbnail

Coin Mentioned

Mention Thumbnail
featured image - 増大するデータ インフラストラクチャの複雑さ: コストへの影響と今後の展望
Venkata Pingali HackerNoon profile picture


データの世界は、過去 10 年間で劇的に変化しました。構造化された形式で情報を保存するように設計された従来のデータベースは、さまざまな場所にある複数のサーバーに配置される非構造化データの大規模なウェアハウスに進化しました。少し前まで、私たちは Oracle や IBM のような巨大企業に支配されたモノリシック システムを目にしていました。この種のデータにアクセスする必要があるアナリストやビジネス ユーザーは、管理が非常に困難な動きの遅いシステムを意味していました。

新しいソフトウェア スタックの誕生

システムの複雑さが増すにつれて、組織が複雑なアプリケーションを実行しながら費用対効果を維持するのに役立つ最新のソフトウェア スタックの必要性が最終的に高まりました。オープン ソースの動きは、全文検索用の Elastic Search やモデリング用の PyTorch などの複雑なアプリケーションをまとめるコストを劇的に削減することで、これを支援しました。ソフトウェアの堅牢なパッケージングと操作により、システムの使いやすさ、安定性、および経済性が向上しました。


過去 10 年間に多くの注目を集めてきた最新のデータ スタック(MDS) は、オープン ソースの動きに基づいて構築されており、エンタープライズ データ スタックを構築することを目的としたアイデア、ツール、方法論のコレクションです。

MDS のスケーリングにおける課題

2010 年代には、MDS 内でオープン ソース ツールが急速に採用されるようになりました。ただし、最初の成功の後、これらに関する多くの組織のイニシアチブは、それらをスケーリングする際に課題に直面しました。


  1. 組織やチームが対応しなければならないツール、構成、方法論、相互作用の数による認知的過負荷は圧倒的であり、人材の燃え尽きや高い離職率につながります
  2. これらのテクノロジに関連する学習曲線は、信じられないほど急勾配でした。これらのオープンソース ツールのほとんどは、Netflix、Google、Uber などの洗練された組織で構築されたものであり、小規模な展開 (規模の一部) を持つ組織のニーズに必ずしも適しているとは限らないことを理解する必要があります。
  3. この分野でのイノベーションのペースは、新しいテクノロジーの寿命を短くすることも意味していました。より新しく、より優れた、より高速で効率的なツールが現場に登場するペースで、エンジニアは急速に学び、学びを捨てなければなりませんでした。
  4. データ サイエンス コミュニティは、いくつかの相反する視点を持つコミュニティであり、その結果、どのアプローチを採用する必要があるか (ビジネスにとって何が最善か) が明確ではありません。多くの場合、この課題を克服する唯一の方法は構築することですが、これには費用がかかるだけでなく、時間がかかります。
  5. Gartner などのハイプ サイクルを追跡している場合、テクノロジへの投資には終了日があることを知っても驚くことではありません (おそらく 10 年前よりもはるかに早く終了します)。少し前まで「ホット」と見なされていた Hadoop、NoSQL、ディープ ラーニングなどのテクノロジーは、Gartner のハイプ サイクルのピークをすでに過ぎています。


ポイント 1 と 2 は、業界のストレス レベルを高め、テクノロジーの採用と使用に利用できる人材を制限する上で大きな役割を果たしてきました。 DevOps 分野でも同様の傾向が見られ、開発者の人材の供給が新しいデジタル サービスの需要を満たしていません。 Dell Capital の Tyler Jewell は、この問題について非常に声高に主張してきました。これは燃え尽き症候群の原因となっており、プロの開発者の平均的なキャリア期間は 20 年未満です。彼は最近、開発者主導のランドスケープの複雑さを深く掘り下げたスレッドを投稿しましたが、彼の主張と MLOps スペースとの間にいくつかの類似点があることに気付かずにはいられません。


(出典: https://www.linkedin.com/feed/update/urn:li:share:6951971587176734720/)


ポイント 3 と 4 は、今日のデータ関係者の窮状を浮き彫りにしています。問題を解決するだけでは不十分な場合、彼らは「どのように」進めて問題を解決できるかを理解しようとすることに多くの時間を費やすことになり、何をすべきかについて深く考えることができなくなります。実行する必要がある、または期待される結果。

変化が訪れる…

組織が使用するデータ ツールに変化が見られます。これは、組織の多くがインフラストラクチャのニーズをサードパーティ ベンダーに依存するしかないという認識が高まっているためです。これは、予算の制約だけでなく、データのセキュリティや来歴など、他の制約によるものでもあります。

さらに、企業が運用を中断したりダウンタイムを発生させたりすることなく、あるプロバイダーから別のプロバイダーにワークロードを簡単に移行できるようにする自動化されたプロセスに対する需要が高まっています。これらの影響は、データ管理が成功の鍵となることが多い金融サービスなどの業界 (信用格付け機関など) で見られます。

これらすべてと上記の課題の結果として、コミュニティにはいくつかの進展がありました。

  1. 組織は、データの信頼を構築する必要性をますます強調しており、データ品質とデータ ガバナンスに重点を置いたツールが登場しています。
  2. 結果に結びつく機械学習とデータ サイエンスのイニシアチブ、および特定のビジネス ユース ケースに明示的に対応するビジネス モデルがますます重視されています。
  3. 増え続けるコストと複雑さは、機能の拡張、買収、および統合による統合をもたらしています。たとえば、Snowflake は、完全な分析アプリケーション スタックになるためにパートナーのリストを急速に増やしています。
  4. モデルのデプロイ後の複雑さを考慮すると、 NannyMLなどのツールの出現が見られます。これらのツールは、モデルのパフォーマンスを推定し、ドリフトを検出し、反復的なデプロイを通じて本番環境でモデルを改善するのに役立ちます。これは、企業がビジネス、データ、モデルの間のループを閉じる方法だと考えています。
  5. 人工知能アプリケーションに不可欠な構成要素をまとめるために、新しい組織であるAI Infrastructure Allianceが誕生しました。彼らは、機械学習用の正規スタックの構築に取り組んできました。これは、「最新かつ最高」であると主張する多数のツールの導入によって作成されたノイズをかき消し、非テクノロジー企業が迅速にレベルアップできるようにすることを目的としています。 .
  6. MDS の定義は、データ製品、アプリ、およびその他の要素を含むように拡張されています。これにより、MDS がフルスタックになります。ターゲット ユーザー (データ サイエンティストとアナリストなど)、スキルの可用性、結果実現までの時間に基づいて領域を分割する新しい製品とサービスが登場しています。
  7. MDS ユーザー ベースは、分析チームとビジネス ユーザーを含むように拡大しています。これにより、ユーザー エクスペリエンスが向上し、ローコード インターフェイスと自動化が実現します。
  8. そして最後に、基本的に MDS と MLOps スタックの脱構築である「ポスト モダン スタック」などのアプローチの出現が見られます。これらのアプローチは、ビジネスとの関連性だけでなく、ビジネス価値を生み出すために生成されたフィーチャのダウンストリーム消費を強調します。

これが意味すること

ツールとプラットフォームの統合、よりシンプルなプラットフォーム開発、およびマネージド サービスの使用は、業界全体で起こっています。これは、企業が複雑さに対処する必要があることに起因しています。この空間の一部であることはエキサイティングな時期であり、1 年の間に景観がどのように進化するかを見るのが待ちきれません.


Scribble Data (私が共同設立した会社) では、この進化が起こっていることを痛感しています。私たちは、高度な分析とデータ サイエンスのユース ケースのための機能エンジニアリングという特定の問題に焦点を当てています。この問題空間は、重要性の点で着実に成長し、上記の点と一致する方法で進化してきました。適切なテクノロジー ミックスとソリューション フォーカスにより、ユース ケースごとに 5 倍のタイム トゥ バリュー (TTV) を達成しながら、製品の価値をユース ケースに合わせることができます。


こちらにも掲載