フィーチャー イメージは、「ニシキヘビが優勢、デジタル ファンタジー アート」というプロンプトで Midjourney Diffusion を使用して生成されました。
データ サイエンスは、統計、プログラミング、コミュニケーションが交差する場所です。データサイエンティストは質問をし、データを使用して、さまざまな複雑なメカニズムを通じてその質問に答えます。彼らは、各データ型に適用するテストと方法を知るための知識とツールキットを持っています。そして、彼らはデータから答えを抽出し、それらの答えを一般的な日常のコミュニケーション形式で中継する能力を持っています.
データは、単純なものから非常に複雑なものまでさまざまです。それは「きれい」である場合もあれば、「乱雑」である場合もあります。時々質問がありますが、データがありません。データ サイエンティストやアナリストは、特殊なツールを使用して、乱雑なデータをクリーンなデータに変換する必要があります。彼らはまた開発することができます '
HackerNoon の毎週の投票(2023 年 10 月 4 日から 2023 年 4 月 16 日) は、読者がこのトピックのどこに当てはまるかを評価するために使用されました。 HackerNoon コミュニティは、最も人気のあるいくつかのオプションを考慮して、主力のデータ サイエンス ツールとは何かを尋ねられ、374 人が回答しました。結果は次の画像で確認できます。
選択できるツールが非常に多いのはなぜですか?
アンケートから各ツールのハイライトを見てみましょう。もちろん、ここで説明していないツールは他にもあります 😆
❌ オープンソース。
✅ マイクロソフト流の使いやすさ!
❌ 複雑なデータ サイエンス プロジェクトには十分に進んでいない。
✅ 簡単にエクスポートできるスタイリッシュなチャートとグラフを生成します。
私たちは皆、Excel に精通しています。確かに、データ操作、クリーニング、視覚化などの日常的なタスクには最適ですが、より高度なプロジェクトには向いていません.ダッシュボードやレポートを巧みに作成したり、Excel 内に専用の API をセットアップしたりすることもできます。
✅ オープンソース。
❌ かなりの学習曲線があります。
✅ 整然としたカスタマイズ可能なグラフ、表、および出力を生成できます。
❌ 一部の高度な機械学習ツールでは制限される可能性があります。
✅ 統計ベースの問題に特化。
データ分析とデータ サイエンスに優れた汎用性の高いオープン ソース プログラムは、
** 「私たちの使命は、データ サイエンス、科学研究、テクニカル コミュニケーションのためのオープンソース ソフトウェアを作成することです。経済的手段に関係なく、すべての人による知識の生産と消費を強化するためにこれを行います。」 -- Posit \ Python と同様に、R プログラミング言語の汎用性は非常に高く、データ サイエンティストは複数のアプローチを使用して複雑なタスクを実行できます。ライブラリとパッケージは、プログラマーが利用できる特殊なタスクを引き受けるために常に開発されています。探しているパッケージがない場合は、 自分で開発してください。
R と Python を相互に連携して使用できます。 R および Python プログラマーとの共同プロジェクトに取り組んでいる場合は、これを調べてください。
❌ オープンソース。
✅ 美しいレポートを作成します。
❌ 一見使いやすいように見えますが、複雑さが隠されています。
✅ データのラングリングと操作に最適です。
❌ 複雑なデータ サイエンス プロジェクトの能力が限られている。
✅ さまざまなソースからデータをスクレイピングできます。
Power BI は、
✅ オープンソース。
❌ かなりの学習曲線があります。
✅ きちんとしたグラフ、表、および出力を作成できます。
✅ TensorFlow、Scikit-learn、NumPy、Pandas、PyTorch などの多数のデータ サイエンス ライブラリがあります。
✅ 学習努力をさらに伸ばす多目的プログラミング言語です。
Python を使用するには、仮想環境をセットアップする方法を学び、 Jupyter Notebookなどのコンピューティング プラットフォームを選択して作業を実行する必要があります。
❌ オープンソース。
✅ 美しいダッシュボードを作成します。
❌ クリーニングやラングリングなどの限られたデータ前処理能力。
✅ データ分析に最適。
❌ 複雑なデータ サイエンス プロジェクトの能力が限られている。
✅ レポートとダッシュボードは他のユーザーと簡単に共有できます。
私たちの世論調査では、Python がデータ サイエンス ツールの選択肢のトップに躍り出たことが示されました。データ サイエンス分野の内外を問わず、その汎用性を考えれば、これは当然のことです。 Python は、習得しやすいプログラミング言語としてもてはやされています。正直なところ、コンピュータ コーディングの完全な初心者の場合、最初は「簡単」ではありませんが、練習すれば、最終的には自然に理解できるようになります。
コメントであなたの考えを共有し、参加する他のHackerNoon 投票に注目してください。