データの世界は、過去 10 年間で劇的に変化しました。構造化された形式で情報を保存するように設計された従来のデータベースは、さまざまな場所にある複数のサーバーに配置される非構造化データの大規模なウェアハウスに進化しました。少し前まで、私たちは Oracle や IBM のような巨大企業に支配されたモノリシック システムを目にしていました。この種のデータにアクセスする必要があるアナリストやビジネス ユーザーは、管理が非常に困難な動きの遅いシステムを意味していました。
システムの複雑さが増すにつれて、組織が複雑なアプリケーションを実行しながら費用対効果を維持するのに役立つ最新のソフトウェア スタックの必要性が最終的に高まりました。オープン ソースの動きは、全文検索用の Elastic Search やモデリング用の PyTorch などの複雑なアプリケーションをまとめるコストを劇的に削減することで、これを支援しました。ソフトウェアの堅牢なパッケージングと操作により、システムの使いやすさ、安定性、および経済性が向上しました。
過去 10 年間に多くの注目を集めてきた最新のデータ スタック(MDS) は、オープン ソースの動きに基づいて構築されており、エンタープライズ データ スタックを構築することを目的としたアイデア、ツール、方法論のコレクションです。
2010 年代には、MDS 内でオープン ソース ツールが急速に採用されるようになりました。ただし、最初の成功の後、これらに関する多くの組織のイニシアチブは、それらをスケーリングする際に課題に直面しました。
ポイント 1 と 2 は、業界のストレス レベルを高め、テクノロジーの採用と使用に利用できる人材を制限する上で大きな役割を果たしてきました。 DevOps 分野でも同様の傾向が見られ、開発者の人材の供給が新しいデジタル サービスの需要を満たしていません。 Dell Capital の Tyler Jewell は、この問題について非常に声高に主張してきました。これは燃え尽き症候群の原因となっており、プロの開発者の平均的なキャリア期間は 20 年未満です。彼は最近、開発者主導のランドスケープの複雑さを深く掘り下げたスレッドを投稿しましたが、彼の主張と MLOps スペースとの間にいくつかの類似点があることに気付かずにはいられません。
ポイント 3 と 4 は、今日のデータ関係者の窮状を浮き彫りにしています。問題を解決するだけでは不十分な場合、彼らは「どのように」進めて問題を解決できるかを理解しようとすることに多くの時間を費やすことになり、何をすべきかについて深く考えることができなくなります。実行する必要がある、または期待される結果。
組織が使用するデータ ツールに変化が見られます。これは、組織の多くがインフラストラクチャのニーズをサードパーティ ベンダーに依存するしかないという認識が高まっているためです。これは、予算の制約だけでなく、データのセキュリティや来歴など、他の制約によるものでもあります。
さらに、企業が運用を中断したりダウンタイムを発生させたりすることなく、あるプロバイダーから別のプロバイダーにワークロードを簡単に移行できるようにする自動化されたプロセスに対する需要が高まっています。これらの影響は、データ管理が成功の鍵となることが多い金融サービスなどの業界 (信用格付け機関など) で見られます。
これらすべてと上記の課題の結果として、コミュニティにはいくつかの進展がありました。
な
な
ツールとプラットフォームの統合、よりシンプルなプラットフォーム開発、およびマネージド サービスの使用は、業界全体で起こっています。これは、企業が複雑さに対処する必要があることに起因しています。この空間の一部であることはエキサイティングな時期であり、1 年の間に景観がどのように進化するかを見るのが待ちきれません.
Scribble Data (私が共同設立した会社) では、この進化が起こっていることを痛感しています。私たちは、高度な分析とデータ サイエンスのユース ケースのための機能エンジニアリングという特定の問題に焦点を当てています。この問題空間は、重要性の点で着実に成長し、上記の点と一致する方法で進化してきました。適切なテクノロジー ミックスとソリューション フォーカスにより、ユース ケースごとに 5 倍のタイム トゥ バリュー (TTV) を達成しながら、製品の価値をユース ケースに合わせることができます。
こちらにも掲載