paint-brush
スプレッドシートで簡単にできる 4 つのデータ変換@gigasheet
632 測定値
632 測定値

スプレッドシートで簡単にできる 4 つのデータ変換

Gigasheet5m2023/02/20
Read on Terminal Reader

長すぎる; 読むには

データ チームがより洗練されるにつれて、ビッグ データ ソリューションはますます複雑になっています。コーディングやデータベースの経験がない場合、これらの高度に技術的なツールに圧倒される人が多くいます。 Gigasheet はコード不要のビッグデータ スプレッドシートであり、通常は大規模な IT インフラストラクチャとデータ チームを必要とするデータセットの分析に使用できます。
featured image - スプレッドシートで簡単にできる 4 つのデータ変換
Gigasheet HackerNoon profile picture
0-item
1-item


近年、開発者は、ビッグ データの分析作業を容易にする高度なツールを作成しています。 Python 用の人気のあるオープンソース ツールには、Pandas、NumPy などがあります。もちろん、Matlab や R などの数学指向のアプリケーションや、データベースやクラウドベースのデータ レイク用の SQL もあります。データ チームがより洗練されるにつれて、ビッグ データ ソリューションはますます複雑になっていますが、これにより、何百万人ものパートタイム アナリストが圧倒されています。


前述の強力なツール (およびその他の無数のツール) を使用すると、ユーザーはさまざまなデータ分析操作を実行できますが、これらのアプリケーションでは、最も基本的なタスクを実行するためにさえも、高度な技術スキルとトレーニングが必要です。多くの場合、利害関係者は、ビジネス コンテキストでは、データ自体を分析するために必要なスキルを持っていません。これらのユーザーは通常、中間データ チームに依存しており、最も平凡なタスクで彼らを行き詰まらせています。しかし、データ チームがいない場合はどうすればよいでしょうか。


ビッグデータの世界に足を踏み入れたばかりの人たちが奮闘するのも不思議ではありません。コーディングやデータベースの経験がない場合、これらの高度に技術的なツールは圧倒されると感じる人は多いでしょう。スプレッドシートはビジネス ユーザーによって広く使用されていますが、Excel の最大行制限と、完全なデータセットをマシンのメモリに読み込むことに依存しているため、大規模なデータ分析を含むプロジェクトでの作業が妨げられています。


では、大量のデータを扱う場合、ビジネス アナリストは何をすべきでしょうか? 「Excel で処理できないデータを扱う場合は、データベースを使用する必要がある」という中傷者のつぶやきを耳にします。私は、世界中で SQL の使い方を知っている人は比較的少なく (おそらく 300 万人)、 Excelユーザーは 7 億 5000 万人いることを彼らに思い出させることで応えます。


ギガシートに入る

通常、大規模な IT インフラストラクチャとデータ チームを必要とするデータセットの分析に使用できる、ノーコードのビッグデータ スプレッドシートです。 (無料の) コミュニティ レベルでも、Gigasheet を使用すると、ビッグ データの探索と分析、および傾向と異常の特定が容易になります。


この記事では、4 つの一般的なビッグ データ変換について説明し、基本的なスプレッドシートのスキルを持っている人なら誰でも、Gigasheet を使用して数回クリックするだけでそれらを実行できる方法を示します。


  1. スプレッドシートでのビッグデータ調査


場合によっては、データ セットが数ギガバイト、さらには数テラバイトに及ぶこともあります。これらのデータ ボリュームを調査するには、強力なシステム、データの保存と取得の効率的な方法、およびデータを分析するための高度な技術が必要です。一般的に使用されるアプローチには、ファイルの複製と分割、データ シャーディング、分散コンピューティングなどがあります。


しかし、このような技術的な火力をすべて使わずにビッグデータを探索したい場合はどうなるでしょうか?ファイルに含まれるデータがわからない場合はどうすればよいでしょうか?数ギガバイトのデータ ファイルをオンラインで視覚化する簡単な方法があれば、複雑さを見えなくすることができ、クラウドのパワーとスケールを活用できます。


Gigasheet の多くの使用例の 1 つは、 無料のオンライン CSV ファイル ビューアー. CSV形式のデータではありませんか?心配する必要はありません。システムはほとんどの構造化データ ファイルをオンザフライで変換します。ファイルをアップロードするだけで、すぐに始められます。



  1. 複数の大きなデータ ファイルの結合


大規模なデータ ファイルは、保存、転送、および処理を容易にするために、複数の部分に分割されることがよくあります。大きなファイルを小さな部分に分割すると、データ破損のリスクも軽減され、失われたデータの回復が容易になります。ただし、データを分析するときは、包括的なビューを持つことが重要であるため、これらの部分をマージ、追加、またはその他の方法で組み合わせる必要があります。


複数のソースからのデータを 1 つのデータセットに結合するプロセスは、プロセスの自動化、データ統合ツール、または機械学習アルゴリズムによって実行できます。これらの方法は非常に強力で有能ですが、平均的なビジネス ユーザーには手の届かないものです。


ギガシートで簡単にCSV から複数のファイルを結合するまたは Excel ワークブックを JSON に変換します。これを行うには、ファイルを Zip としてアップロードするだけです。解凍したら、ライブラリで 2 つ以上のファイルを選択するだけです。次に、ライブラリの [結合] ボタンを使用して、同じ構造のファイルを結合します。


たとえば、同じサーバーから 28 の日次ログがある場合、結合機能を使用してそれらを 1 つのシートに簡単に結合できます。


  1. 重複データの削除

重複の大きなデータ ファイルのクリーニング (重複排除とも呼ばれます) は、特に複数のフィールドにまたがる重複をチェックする場合に、注意が必要な場合があります。多くのユーザーは、 2 つの列に基づいて Excel で重複行を削除する、しかし、SQLまたはPythonでタスクに取り組むことができる人はほとんどいませんでした.


Gigasheet では、複数の値に基づいて重複を簡単に削除でき、一般的なスプレッドシートと同様に機能します。一般的なスプレッドシートとは異なり、Gigasheet は数十億のレコードに拡張できます。


データが Gigasheet に読み込まれると、重複の削除機能を含むさまざまなデータ クリーンアップ ツールが表示されます。重複の削除を実行するときに複数の列を選択するだけで、あとはクラウド アプリケーションが処理します。


  1. JSON からの構造化データの抽出


JSON (JavaScript Object Notation) は、システム、アプリケーション、およびサービス間でデータを交換するための一般的なデータ形式です。構造化された効率的な方法でデータを保存およびクエリできます。これが、ほとんどのプログラミング言語が JSON データの読み取りと書き込みをサポートし、多くの API が JSON データを使用する理由です。


ただし、スプレッドシートが頼りになる分析ツールである場合、JSON レコードを含む大規模なデータセットを分析するのは難しい場合があります。もちろん、次のようなツールで適度なサイズの JSON ファイルを開くことができます。メモ帳++ 、しかし、サイズが数ギガバイトの高度にネストされた JSON 構造を使用している場合は、データベースを使用する必要があります...今まで.


Gigasheet は巨大な JSON ファイルをオンザフライで変換 (「フラット化」) し、簡単に切り詰めて CSV にエクスポートし、一般的な表計算ソフトウェアで開くことができます。 Gigasheet は、JSON オブジェクトとしてのファイル全体、または 1 行に 1 つのオブジェクトがある JSON の 2 つの考えられる JSON ファイル構造を受け入れます。後者の場合、各 JSON オブジェクトが行になります。


Gigasheet は、さまざまなネストされたオブジェクトおよびサブネストされたオブジェクトの各値の列を作成することにより、各 JSON ファイルの固有の構造を処理します。これにより、繰り返されるキー データが表形式で表現されます。共通フィールドは同じ列の行全体で表される値を持ち、固有のフィールドは独自の列に値を表示します。おそらく、JSON を CSV に変換する最も簡単な方法です。


まとめ

ビッグデータ分析が現代のビジネスに不可欠な要素であることは誰もが知っています。この記事で、巨大なサイズのデータセットを探索、結合、分析するための最も一般的に使用されるソリューションと手法のいくつかを、無料のコードなしの代替手段で紹介できたことを願っています。