paint-brush
Python chiếm ưu thế: 57% chọn Python làm công cụ khoa học dữ liệu tiếp theo của họtừ tác giả@jessblaq
1,127 lượt đọc
1,127 lượt đọc

Python chiếm ưu thế: 57% chọn Python làm công cụ khoa học dữ liệu tiếp theo của họ

từ tác giả Jessica Blaquiere5m2023/04/19
Read on Terminal Reader

dài quá đọc không nổi

Cộng đồng HackerNoon đã được hỏi công cụ khoa học dữ liệu hiệu quả của họ là gì, đưa ra một số tùy chọn phổ biến nhất và 374 người đã trả lời. Hơn 50% độc giả đã chọn Python làm công cụ bắt buộc cho khoa học dữ liệu. RStudio chỉ được lựa chọn bởi 9% số người được hỏi.
featured image - Python chiếm ưu thế: 57% chọn Python làm công cụ khoa học dữ liệu tiếp theo của họ
Jessica Blaquiere HackerNoon profile picture
0-item
1-item


Hình ảnh nổi bật được tạo bằng Khuếch tán giữa hành trình với lời nhắc “Một con trăn chiếm ưu thế, nghệ thuật giả tưởng kỹ thuật số”.


Giới thiệu về Khoa học dữ liệu

Khoa học dữ liệu là nơi thống kê, lập trình và truyền thông giao nhau. Nhà khoa học dữ liệu đặt câu hỏi và sử dụng dữ liệu để trả lời câu hỏi đó thông qua các cơ chế phức tạp khác nhau. Họ có kiến thức và bộ công cụ để biết nên áp dụng các thử nghiệm và phương pháp nào cho từng loại dữ liệu. Và họ có khả năng trích xuất câu trả lời từ dữ liệu và chuyển tiếp những câu trả lời đó trong một hình thức giao tiếp hàng ngày chung.


Dữ liệu có thể từ đơn giản đến cực kỳ phức tạp. Nó có thể “sạch sẽ” và nó có thể “lộn xộn”. Đôi khi chúng tôi có một câu hỏi, nhưng chúng tôi không có dữ liệu. Nhà khoa học dữ liệu và/hoặc nhà phân tích phải điều chỉnh dữ liệu lộn xộn thành dữ liệu sạch bằng cách sử dụng các công cụ chuyên dụng. Họ cũng có thể phát triển' cạo ' các chương trình được thiết kế để truy cập và tìm nạp dữ liệu nếu chúng không có thông tin cần thiết để trả lời câu hỏi của mình. Khi dữ liệu được lấy và ở dạng có thể sử dụng được, nó sẽ được đưa vào các mô hình và kiểm tra thống kê thông qua các chương trình và công cụ như Python, RStudio, v.v. Nhưng công cụ nào là tốt nhất?


Độc giả của HackerNoon


Nguồn: Giphy


Các cuộc thăm dò hàng tuần của HackerNoon (4/10/2023 đến 16/4/2023) được sử dụng để đánh giá xem độc giả của chúng tôi cảm thấy thế nào về chủ đề này. Cộng đồng HackerNoon đã được hỏi công cụ khoa học dữ liệu hiệu quả của họ là gì, đưa ra một số tùy chọn phổ biến nhất và 374 người đã trả lời. Kết quả có thể được nhìn thấy trong hình dưới đây:



  • [ ] Hơn 50% độc giả của HackerNoon, phần lớn đến từ cộng đồng công nghệ, đã chọn Python làm công cụ khoa học dữ liệu của họ. Đây không phải là tất cả những gì đáng ngạc nhiên. con trăn là mã nguồn mở giúp mọi người có thể truy cập được 🙂🙃🙂🙃🙂🙃🙂🙃🙂🙃🙂🙃


Nguồn: Giphy


  • [ ] 18% được chọn Excel là công cụ khoa học dữ liệu được lựa chọn hàng đầu của họ.
  • [ ] Power BI chỉ được chọn bởi 9% người trả lời cuộc thăm dò**.**
  • [ ] Cũng là một công cụ mã nguồn mở, RStudio chỉ chiếm 9% số phiếu bầu.
  • [ ] Cuối cùng, chỉ 5% chọn Hoạt cảnh là công cụ tiếp theo của họ cho khoa học dữ liệu



Công cụ

Tại sao có rất nhiều công cụ để lựa chọn? Lĩnh vực này đã trở nên phức tạp hơn theo thời gian, do đó, việc lựa chọn các công cụ cũng trở nên tự nhiên. Có rất nhiều luồng khoa học dữ liệu mà mỗi cá nhân phải tự quyết định công cụ nào phù hợp với mình. Và trên thực tế, bạn sẽ sử dụng nhiều công cụ song song.


Hãy xem một số điểm nổi bật của từng công cụ từ cuộc thăm dò. Tất nhiên, có nhiều công cụ hơn không được thảo luận ở đây 😆


Excel

❌ Mã nguồn mở.

✅ Thân thiện với người dùng theo cách của Microsoft!

❌ Không đủ nâng cao cho các dự án khoa học dữ liệu phức tạp.

✅ Tạo các biểu đồ và đồ thị phong cách có thể dễ dàng xuất ra.


Ngoại trừ cuộc thăm dò này, rõ ràng! Nguồn: Giphy


Chúng ta đều quen thuộc với Excel. Chắc chắn, nó tuyệt vời cho các tác vụ hàng ngày như thao tác, dọn dẹp và trực quan hóa dữ liệu, nhưng nó không phù hợp với các dự án nâng cao hơn. Bạn có thể trở nên xảo quyệt với việc tạo bảng điều khiển và báo cáo, thậm chí bạn có thể thiết lập các API chuyên dụng trong Excel.


Rstudio

✅ Mã nguồn mở.

❌ Có lộ trình học tập đáng kể.

✅ Có thể tạo các biểu đồ, bảng và đầu ra gọn gàng và có thể tùy chỉnh.

❌ Có thể bị giới hạn trong một số công cụ máy học tiên tiến hơn.

✅ Chuyên dùng cho các bài toán thống kê.


Một chương trình nguồn mở đa năng tuyệt vời cho phân tích dữ liệu và khoa học dữ liệu là RStudio , hiện đang có tên mới sáng bóng định vị .


** “Sứ mệnh của chúng tôi là tạo ra phần mềm nguồn mở cho khoa học dữ liệu, nghiên cứu khoa học và truyền thông kỹ thuật. Chúng tôi làm điều này để tăng cường sản xuất và tiêu thụ tri thức của mọi người, bất kể phương tiện kinh tế nào.” -- Posit \ Tương tự như Python, tính linh hoạt của ngôn ngữ lập trình R là rất lớn, cho phép các nhà khoa học dữ liệu thực hiện các tác vụ phức tạp bằng nhiều cách tiếp cận. Các thư viện và gói liên tục được phát triển để đảm nhận các nhiệm vụ chuyên biệt mà các lập trình viên có thể tận dụng. Và nếu họ không có gói mà bạn đang tìm kiếm, hãy tự mình phát triển một gói !


Bạn có thểsử dụng R và Python song song với nhau. Hãy xem xét điều này nếu bạn đang thực hiện một dự án hợp tác với các lập trình viên R và Python.


điện BI

❌ Mã nguồn mở.

✅ Tạo báo cáo đẹp mắt.

❌ Có vẻ dễ sử dụng, nhưng tiềm ẩn sự phức tạp.

✅ Tuyệt vời cho việc sắp xếp và thao tác dữ liệu.

❌ Khả năng hạn chế đối với các dự án khoa học dữ liệu phức tạp.

✅ Có thể cạo dữ liệu từ nhiều nguồn khác nhau.


Power BI thực sự tỏa sáng như một công cụ báo cáo và trực quan hóa dữ liệu chứ không phải là một công cụ phù hợp cho khoa học dữ liệu. Nó có khả năng thực hiện các thao tác dữ liệu chuyên biệt thông qua các hoạt động được mã hóa phù hợp như biểu thức chính quy, v.v. Nhưng rất có thể, nếu bạn đang làm việc trong một dự án khoa học dữ liệu phức tạp, bạn sẽ sử dụng Power BI trong giai đoạn cuối của dự án càng nhiều càng tốt. của một công cụ trình chiếu.


con trăn

✅ Mã nguồn mở.

❌ Có lộ trình học tập đáng kể.

✅ Có thể tạo biểu đồ, bảng và đầu ra gọn gàng.

✅ Có nhiều thư viện khoa học dữ liệu như TensorFlow, Scikit-learning, NumPy, Pandas, PyTorch, v.v.

✅ Là ngôn ngữ lập trình đa năng giúp nỗ lực học tập của bạn vươn xa hơn.


con trăn là một ngôn ngữ lập trình hướng đối tượng, đa mục đích. Nó được biết đến là một ngôn ngữ lập trình dễ học và linh hoạt. Do tính linh hoạt của nó, có một cộng đồng lập trình viên đông đảo, do đó tài nguyên giáo dục không bao giờ kết thúc. Có rất nhiều thư viện khoa học dữ liệu đã sẵn sàng để sử dụng.


Để làm việc với Python, bạn sẽ muốn tìm hiểu cách thiết lập môi trường ảo và có thể bạn sẽ muốn chọn một nền tảng điện toán như Jupyter Notebook để thực hiện công việc của mình.


Hoạt cảnh

❌ mã nguồn mở.

✅ Tạo bảng điều khiển đẹp.

❌ Khả năng xử lý trước dữ liệu hạn chế như làm sạch và sắp xếp lại.

✅ Tuyệt vời cho phân tích dữ liệu.

❌ Khả năng hạn chế đối với các dự án khoa học dữ liệu phức tạp.

✅ Báo cáo và bảng điều khiển có thể dễ dàng chia sẻ với người khác.


Hoạt cảnh là một phần mềm phân tích và trực quan hóa dữ liệu tuyệt vời thường được sử dụng trong các nhóm lớn hơn do chi phí của nó. Nó có thể tạo các bảng điều khiển kiểu trình bày trực quan và đẹp mắt có thể làm nổi bật các khía cạnh khác nhau của dữ liệu của bạn. Tuy nhiên, nó chắc chắn không phải là một công cụ phù hợp vì nó chuyên biệt hơn trong các giai đoạn báo cáo chứ không phải giai đoạn đầu và giữa của một dự án dữ liệu.



Suy nghĩ cuối cùng

Cuộc thăm dò của chúng tôi cho thấy Python đã vươn lên dẫn đầu trong số các lựa chọn nhất định cho các công cụ khoa học dữ liệu. Với tính linh hoạt của nó, cả trong và ngoài lĩnh vực khoa học dữ liệu, điều này không có gì ngạc nhiên. Python được quảng cáo là một ngôn ngữ lập trình dễ học. Thành thật mà nói, nếu bạn là người hoàn toàn mới bắt đầu viết mã máy tính, thì ban đầu sẽ không “ dễ dàng ”, nhưng với sự luyện tập, dần dần nó sẽ trở thành bản chất thứ hai đối với bạn.



Vui lòng chia sẻ suy nghĩ của bạn trong các nhận xét và theo dõi các Cuộc thăm dò HackerNoon khác để tham gia.