paint-brush
シリコンバレーのパイドパイパーが新しい圧縮技術のおかげで現実に@thetechpanda
208 測定値

シリコンバレーのパイドパイパーが新しい圧縮技術のおかげで現実に

The Tech Panda4m2024/10/09
Read on Terminal Reader

長すぎる; 読むには

HBO の Silicon Valley では、画期的な圧縮技術を持つ架空のスタートアップ企業 Pied Piper が紹介されました。2024 年には、SQream Blue などの現実世界の企業が同様のデータ ソリューションを提供しており、速度とコストの面で Databricks などの大手競合他社を上回っています。データ量が急増するにつれて、効率的な圧縮の需要がこれまで以上に急務となり、生活が芸術の模倣に近づいています。
featured image - シリコンバレーのパイドパイパーが新しい圧縮技術のおかげで現実に
The Tech Panda HackerNoon profile picture
0-item


HBOのコメディシリーズ「シリコンバレー」は批評家から絶賛され、ロッテントマトでほぼ満点のスコアを獲得した。


ほとんどの素晴らしいコメディと同様に、この番組の成功は、2014年から2019年までのベイエリアのテクノロジー業界の最も突飛な要素のいくつかに関する現実的なシナリオを風刺的に表現する能力によるものと思われます。


この場合、 Pied Piperの創設者と彼のチームは、彼の斬新な圧縮技術を世界に広め、大衆に普及させることを使命としています。


このシリーズが制作されていた当時、この圧縮技術は、この気の弱い新興企業が画期的なソリューションでどのようなニッチ市場を見つけたかを示すための巧妙なストーリーテリング装置に過ぎませんでした。


しかし、2024年に早送りすると、GenAIテクノロジーのブームと前例のないデータ需要により、シリコンバレーの創始者たちが提唱したようなソリューションがこれまで以上に緊急に必要になります。


しかし、ある企業が、現在使用されている膨大なデータ量を突破すると思われる、驚くほど類似した圧縮モデルの作成に成功したようです。

シリコンバレーを理解するには、シリコンバレーを見てください

このシリーズでは、Pied Piper はデータへの即時アクセスを提供する圧縮スタートアップです。


そして、これは現実が芸術を模倣した唯一の例ではありません。実際、データ圧縮ツールの概念は、Pied Piper で現実に取り入れられた唯一の要素ではありません。


実際、この番組の研究では教授らが意見を求め、ワイスマンスコアは番組自体のために開発された新しい圧縮指標でした。しかし、 現実世界の研究者が実際にそれを使用することを妨げたわけではありません。


一方、番組のコンサルタントを務めたIBMワトソン・グループの研究者、ヴィニス・ミスラ氏は、圧縮アルゴリズムの架空の改良を提案する技術論文まで執筆した。


しかし、番組で提案された圧縮アルゴリズムはフィクションであったものの、強力な新しいタイプの GPU と高度な処理チップにより、次世代のデータ処理能力が実現可能になりました。

ピーター・パイパーの夢を現実に

いくつかの企業がデータ圧縮の「本物の笛吹き男」の称号を獲得しつつある中、ニューヨークのある新興企業がこの専門分野での躍進により最近大きな注目を集めている。


データ アクセラレーション プラットフォームのデータ レイクハウス ソリューションである SQream Blue は、最近、市場にある同様のソリューションをはるかに上回るパフォーマンスを発揮しました。


速度とコストに関して言えば、SQream Blue とその特許取得済みテクノロジの圧縮ソリューションは、テストの比較要素において Databricks の 3 倍の速度と半分のコストでパフォーマンスを発揮しました。


詳しく見てみると、SQream Blue の合計実行時間は 2462.6 秒で、エンドツーエンドでのデータ処理にかかる総コストは 26.94 ドルでした。Databricks の合計実行時間は 8332.4 秒で、コストは 76.94 ドルでした。これは、ビッグ データ分析において SQream Blue がコスト パフォーマンスの面で大きな優位性を持っていることを示しています。


これらの結果を得るために、SQream はスケール係数 30,000 で Amazon Web Services (AWS) でベンチマークを実行し、約 30 TB のデータセットを作成して、大規模な SQream の相対的な機能をテストしました。生成されたすべてのデータは、Amazon Simple Storage Service (Amazon S3) に Apache Parquet ファイルとして保存され、クエリはデータベースに事前ロードせずに処理されました。


発表によれば、SQream Blue の比類ないスピードは、米国議会図書館の目録に載っているすべての書籍を 1 時間以内で読み、それをすべて 25 ドル未満で購入するのと同等であり、 TechCrunch Disruptでの悪名高いシリコンバレーのエピソードにおけるワイスマン テストで Pied Piper が示した傑出した結果を彷彿とさせる。


2024年には、このような利益が早く得られることは間違いありません。

データ依存への取り組み

シリコンバレーの億万長者上級幹部で主な敵対者であるギャビン・ベルソンは、この件について次のように痛烈に批判した。「データ生成は爆発的に増加しています。クラウド上で人々が削除を拒む自撮り写真や無駄なファイルなど、世界のデータの 92 パーセントは過去 2 年間だけで生成されたものです。現在のペースでいくと、世界のデータ保存容量は来春までに追い抜かれてしまいます。それはまさに大惨事です。」


「データ不足、データ配給、データ闇市場。誰かの圧縮が世界をデータ地獄から救うだろう。そしてそれは間違いなく Nucleus であって、クソったれの Pied Piper ではないはずだ!」


しかし、これは自撮り写真やコンテンツに限った話ではありません。現在、パブリック クラウドは企業のワークロードの半分以上をホストしており、企業によってはそのスペースに年間 1,200 万ドル以上を費やしています。


これは、現在の方法では管理が不可能なほど膨大な量のビジネスクリティカルなデータを意味します。現実の世界では、まさに Pied Piper が必要なのです。