paint-brush
Python の優位性: 57% が頼りになるデータ サイエンス ツールとして Python を選択@jessblaq
1,127 測定値
1,127 測定値

Python の優位性: 57% が頼りになるデータ サイエンス ツールとして Python を選択

Jessica Blaquiere5m2023/04/19
Read on Terminal Reader

長すぎる; 読むには

HackerNoon コミュニティは、最も人気のあるいくつかのオプションを考慮して、主力のデータ サイエンス ツールとは何かを尋ねられ、374 人が回答しました。 Python は、読者の 50% 以上がデータ サイエンスの頼りになるツールとして選択しました。 RStudio を選択したのは回答者の 9% のみでした。
featured image - Python の優位性: 57% が頼りになるデータ サイエンス ツールとして Python を選択
Jessica Blaquiere HackerNoon profile picture
0-item
1-item


フィーチャー イメージは、「ニシキヘビが優勢、デジタル ファンタジー アート」というプロンプトで Midjourney Diffusion を使用して生成されました。


データサイエンスについて

データ サイエンスは、統計、プログラミング、コミュニケーションが交差する場所です。データサイエンティストは質問をし、データを使用して、さまざまな複雑なメカニズムを通じてその質問に答えます。彼らは、各データ型に適用するテストと方法を知るための知識とツールキットを持っています。そして、彼らはデータから答えを抽出し、それらの答えを一般的な日常のコミュニケーション形式で中継する能力を持っています.


データは、単純なものから非常に複雑なものまでさまざまです。それは「きれい」である場合もあれば、「乱雑」である場合もあります。時々質問がありますが、データがありません。データ サイエンティストやアナリストは、特殊なツールを使用して、乱雑なデータをクリーンなデータに変換する必要があります。彼らはまた開発することができます 'こする' 質問に答えるために必要なものがない場合にデータを取得するように設計されたプログラム。データが取得されて使用可能な形式になったら、Python、RStudio などのプログラムやツールを介して統計テストやモデルにプッシュされます。しかし、どのツールが最適なのでしょうか?


HackerNoon の読者


出典:ギフィー


HackerNoon の毎週の投票(2023 年 10 月 4 日から 2023 年 4 月 16 日) は、読者がこのトピックのどこに当てはまるかを評価するために使用されました。 HackerNoon コミュニティは、最も人気のあるいくつかのオプションを考慮して、主力のデータ サイエンス ツールとは何かを尋ねられ、374 人が回答しました。結果は次の画像で確認できます。



  • [ ] HackerNoon の読者の 50% 以上 (主にテクノロジー コミュニティ出身) が、頼りになるデータ サイエンス ツールとして Python を選びました。驚くべきことはこれだけではありません。 パイソンすべての人がアクセスできるオープンソースです🙂🙃🙂🙃🙂🙃🙂🙃🙂🙃🙂🙃


出典:ギフィー


  • [ ] 18% 選択済みエクセルデータ サイエンス ツールとして最も選ばれています。
  • [ ] Power BI は、調査回答者の 9% のみが選択しました**.**
  • [ ]また、オープンソース ツールであり、 Rスタジオわずか9%の得票にとどまりました。
  • [ ]最終的に選択したのは 5% のみタブローデータ サイエンスの頼りになるツールとして



ツール

選択できるツールが非常に多いのはなぜですか?このフィールド時間の経過とともに複雑さが増しているため、当然、ツールの選択も同様です。データ サイエンスには非常に多くの流れがあり、各個人が自分に適したツールを決定する必要があります。現実的には、複数のツールを連携して使用します。


アンケートから各ツールのハイライトを見てみましょう。もちろん、ここで説明していないツールは他にもあります 😆


エクセル

❌ オープンソース。

✅ マイクロソフト流の使いやすさ!

❌ 複雑なデータ サイエンス プロジェクトには十分に進んでいない。

✅ 簡単にエクスポートできるスタイリッシュなチャートとグラフを生成します。


どうやらこの投票を除いて!出典:ギフィー


私たちは皆、Excel に精通しています。確かに、データ操作、クリーニング、視覚化などの日常的なタスクには最適ですが、より高度なプロジェクトには向いていません.ダッシュボードやレポートを巧みに作成したり、Excel 内に専用の API をセットアップしたりすることもできます。


Rスタジオ

✅ オープンソース。

❌ かなりの学習曲線があります。

✅ 整然としたカスタマイズ可能なグラフ、表、および出力を生成できます。

❌ 一部の高度な機械学習ツールでは制限される可能性があります。

✅ 統計ベースの問題に特化。


データ分析とデータ サイエンスに優れた汎用性の高いオープン ソース プログラムは、 Rスタジオ、現在は光沢のある新しい名前になっています位置.


** 「私たちの使命は、データ サイエンス、科学研究、テクニカル コミュニケーションのためのオープンソース ソフトウェアを作成することです。経済的手段に関係なく、すべての人による知識の生産と消費を強化するためにこれを行います。」 -- Posit \ Python と同様に、R プログラミング言語の汎用性は非常に高く、データ サイエンティストは複数のアプローチを使用して複雑なタスクを実行できます。ライブラリとパッケージは、プログラマーが利用できる特殊なタスクを引き受けるために常に開発されています。探しているパッケージがない場合は、 自分で開発してください


R と Python を相互に連携して使用できます。 R および Python プログラマーとの共同プロジェクトに取り組んでいる場合は、これを調べてください。


パワーBI

❌ オープンソース。

✅ 美しいレポートを作成します。

❌ 一見使いやすいように見えますが、複雑さが隠されています。

✅ データのラングリングと操作に最適です。

❌ 複雑なデータ サイエンス プロジェクトの能力が限られている。

✅ さまざまなソースからデータをスクレイピングできます。


Power BI は、データの視覚化およびレポート ツールデータサイエンスの主力ツールではありません。 Power BI は、正規表現などの調整されたコード化された操作を通じて、特殊なデータ操作を実行する機能を備えています。プレゼンテーションツールの。


パイソン

✅ オープンソース。

❌ かなりの学習曲線があります。

✅ きちんとしたグラフ、表、および出力を作成できます。

✅ TensorFlow、Scikit-learn、NumPy、Pandas、PyTorch などの多数のデータ サイエンス ライブラリがあります。

✅ 学習努力をさらに伸ばす多目的プログラミング言語です。


パイソンオブジェクト指向の多目的プログラミング言語です。習得が容易で用途の広いプログラミング言語として知られています。その汎用性のために、プログラマーの大規模なコミュニティがあり、教育リソースが尽きることはありません。たくさんありますデータ サイエンス ライブラリすぐに使用できます。


Python を使用するには、仮想環境をセットアップする方法を学び、 Jupyter Notebookなどのコンピューティング プラットフォームを選択して作業を実行する必要があります。


タブロー

❌ オープンソース。

✅ 美しいダッシュボードを作成します。

❌ クリーニングやラングリングなどの限られたデータ前処理能力。

✅ データ分析に最適。

❌ 複雑なデータ サイエンス プロジェクトの能力が限られている。

✅ レポートとダッシュボードは他のユーザーと簡単に共有できます。


タブロー優れたデータ分析および視覚化ソフトウェアであり、そのコストのために大規模なチームでよく使用されます。データのさまざまな側面を強調できる、美しく直感的なプレゼンテーション スタイルのダッシュボードを作成できます。ただし、データ プロジェクトの初期段階や中期段階ではなく、レポート作成段階に特化しているため、主力ツールではないことは確かです。



最終的な考え

私たちの世論調査では、Python がデータ サイエンス ツールの選択肢のトップに躍り出たことが示されました。データ サイエンス分野の内外を問わず、その汎用性を考えれば、これは当然のことです。 Python は、習得しやすいプログラミング言語としてもてはやされています。正直なところ、コンピュータ コーディングの完全な初心者の場合、最初は「簡単」ではありませんが、練習すれば、最終的には自然に理解できるようになります。



コメントであなたの考えを共有し、参加する他のHackerNoon 投票に注目してください。