フィーチャー イメージは、「ニシキヘビが優勢、デジタル ファンタジー アート」というプロンプトで Midjourney Diffusion を使用して生成されました。 データサイエンスについて データ サイエンスは、統計、プログラミング、コミュニケーションが交差する場所です。データサイエンティストは質問をし、データを使用して、さまざまな複雑なメカニズムを通じてその質問に答えます。彼らは、各データ型に適用するテストと方法を知るための知識とツールキットを持っています。そして、彼らはデータから答えを抽出し、それらの答えを一般的な日常のコミュニケーション形式で中継する能力を持っています. データは、単純なものから非常に複雑なものまでさまざまです。それは「きれい」である場合もあれば、「乱雑」である場合もあります。時々質問がありますが、データがありません。データ サイエンティストやアナリストは、特殊なツールを使用して、乱雑なデータをクリーンなデータに変換する必要があります。彼らはまた開発することができます ' ' 質問に答えるために必要なものがない場合にデータを取得するように設計されたプログラム。データが取得されて使用可能な形式になったら、Python、RStudio などのプログラムやツールを介して統計テストやモデルにプッシュされます。しかし、どのツールが最適なのでしょうか? こする HackerNoon の読者 HackerNoon の (2023 年 10 月 4 日から 2023 年 4 月 16 日) は、読者がこのトピックのどこに当てはまるかを評価するために使用されました。 HackerNoon コミュニティは、最も人気のあるいくつかのオプションを考慮して、主力のデータ サイエンス ツールとは何かを尋ねられ、374 人が回答しました。結果は次の画像で確認できます。 毎週の投票 HackerNoon の読者の 50% 以上 (主にテクノロジー コミュニティ出身) が、頼りになるデータ サイエンス ツールとして Python を選びました。驚くべきことはこれだけではありません。 すべての人がアクセスできるオープンソースです🙂🙃🙂🙃🙂🙃🙂🙃🙂🙃🙂🙃 [ ] パイソン 18% 選択済み データ サイエンス ツールとして最も選ばれています。 [ ] エクセル 調査回答者の 9% のみが選択しました**.** [ ] Power BI は、 また、オープンソース ツールであり、 わずか9%の得票にとどまりました。 [ ] Rスタジオ 最終的に選択したのは 5% のみ データ サイエンスの頼りになるツールとして [ ] タブロー ツール 選択できるツールが非常に多いのはなぜですか? 時間の経過とともに複雑さが増しているため、当然、ツールの選択も同様です。データ サイエンスには非常に多くの流れがあり、各個人が自分に適したツールを決定する必要があります。現実的には、複数のツールを連携して使用します。 このフィールド アンケートから各ツールのハイライトを見てみましょう。もちろん、ここで説明していないツールは他にもあります 😆 エクセル ❌ オープンソース。 ✅ マイクロソフト流の使いやすさ! ❌ 複雑なデータ サイエンス プロジェクトには十分に進んでいない。 ✅ 簡単にエクスポートできるスタイリッシュなチャートとグラフを生成します。 私たちは皆、Excel に精通しています。確かに、データ操作、クリーニング、視覚化などの日常的なタスクには最適ですが、より高度なプロジェクトには向いていません.ダッシュボードやレポートを巧みに作成したり、Excel 内に専用の API をセットアップしたりすることもできます。 Rスタジオ ✅ オープンソース。 ❌ かなりの学習曲線があります。 ✅ 整然としたカスタマイズ可能なグラフ、表、および出力を生成できます。 ❌ 一部の高度な機械学習ツールでは制限される可能性があります。 ✅ 統計ベースの問題に特化。 データ分析とデータ サイエンスに優れた汎用性の高いオープン ソース プログラムは、 、現在は光沢のある新しい名前になっています . Rスタジオ 位置 ** \ Python と同様に、R プログラミング言語の汎用性は非常に高く、データ サイエンティストは複数のアプローチを使用して複雑なタスクを実行できます。ライブラリとパッケージは、プログラマーが利用できる特殊なタスクを引き受けるために常に開発されています。探しているパッケージがない場合は、 。 「私たちの使命は、データ サイエンス、科学研究、テクニカル コミュニケーションのためのオープンソース ソフトウェアを作成することです。経済的手段に関係なく、すべての人による知識の生産と消費を強化するためにこれを行います。」 -- Posit 自分で開発してください できます。 R および Python プログラマーとの共同プロジェクトに取り組んでいる場合は、これを調べてください。 R と Python を相互に連携して使用 パワーBI ❌ オープンソース。 ✅ 美しいレポートを作成します。 ❌ 一見使いやすいように見えますが、複雑さが隠されています。 ✅ データのラングリングと操作に最適です。 ❌ 複雑なデータ サイエンス プロジェクトの能力が限られている。 ✅ さまざまなソースからデータをスクレイピングできます。 Power BI は、 データサイエンスの主力ツールではありません。 Power BI は、正規表現などの調整されたコード化された操作を通じて、特殊なデータ操作を実行する機能を備えています。プレゼンテーションツールの。 データの視覚化およびレポート ツール パイソン ✅ オープンソース。 ❌ かなりの学習曲線があります。 ✅ きちんとしたグラフ、表、および出力を作成できます。 ✅ TensorFlow、Scikit-learn、NumPy、Pandas、PyTorch などの多数のデータ サイエンス ライブラリがあります。 ✅ 学習努力をさらに伸ばす多目的プログラミング言語です。 オブジェクト指向の多目的プログラミング言語です。習得が容易で用途の広いプログラミング言語として知られています。その汎用性のために、プログラマーの大規模なコミュニティがあり、教育リソースが尽きることはありません。たくさんあります すぐに使用できます。 パイソン データ サイエンス ライブラリ Python を使用するには、 をセットアップする方法を学び、 などのコンピューティング プラットフォームを選択して作業を実行する必要があります。 仮想環境 Jupyter Notebook タブロー ❌ オープンソース。 ✅ 美しいダッシュボードを作成します。 ❌ クリーニングやラングリングなどの限られたデータ前処理能力。 ✅ データ分析に最適。 ❌ 複雑なデータ サイエンス プロジェクトの能力が限られている。 ✅ レポートとダッシュボードは他のユーザーと簡単に共有できます。 優れたデータ分析および視覚化ソフトウェアであり、そのコストのために大規模なチームでよく使用されます。データのさまざまな側面を強調できる、美しく直感的なプレゼンテーション スタイルのダッシュボードを作成できます。ただし、データ プロジェクトの初期段階や中期段階ではなく、レポート作成段階に特化しているため、主力ツールではないことは確かです。 タブロー 最終的な考え 私たちの世論調査では、Python がデータ サイエンス ツールの選択肢のトップに躍り出たことが示されました。データ サイエンス分野の内外を問わず、その汎用性を考えれば、これは当然のことです。 Python は、習得しやすいプログラミング言語としてもてはやされています。正直なところ、コンピュータ コーディングの完全な初心者の場合、最初は「 」ではありませんが、練習すれば、最終的には自然に理解できるようになります。 簡単 コメントであなたの考えを共有し、参加する他の に注目してください。 HackerNoon 投票