Saya baru-baru ini menjalankan kelas tentang menggunakan sains data untuk keselamatan siber, memfokuskan pada analisis data tangkapan paket—topik yang agak teknikal dan kering secara tradisional. Pendekatan yang saya kongsikan diperoleh daripada pengalaman saya dalam keselamatan siber dalam institusi kewangan, meliputi langkah teras seperti analisis data penerokaan, prapemprosesan dan mengubah data log, dan mengenal pasti anomali melalui gabungan analisis rangkaian pengelompokan dan graf.
Satu aspek yang mengejutkan ialah masa yang saya luangkan untuk menyediakan sesi ini—sebahagian kecil daripada apa yang biasanya saya laburkan. AI memainkan peranan penting dalam memperkemas proses. Saya menggunakan Claude untuk membantu pengekodan, membangunkan garis besar, dan juga mencipta slaid. Secara keseluruhan, keseluruhan kursus telah siap dalam masa 48 jam.
Sesi itu ternyata menarik. Para peserta, terutamanya CISO yang biasanya tidak membuat kod, mendapati latihan yang dibuat dengan bantuan AI, adalah intuitif dan praktikal. Matlamat saya adalah untuk melibatkan mereka dalam bekerja secara langsung dengan data dan kod. Mereka amat menghargai peluang untuk meneroka secara manual perkara yang biasanya diautomatikkan oleh pengawasan ancaman siber moden dan platform SIEM, mendapatkan cerapan tentang proses yang berlaku "di bawah hud".
Pengambilan utama saya dari kelas adalah sangat berlawanan dengan intuisi: sains data, seperti yang kita ketahui, akhirnya akan digantikan oleh AI . Pandangan ini mungkin kelihatan pramatang—atau mungkin lebih awal daripada masanya—tetapi ia adalah perspektif yang memerlukan perbincangan.
Amaran: sesetengah perkara ini mungkin mencetuskan orang ramai.
Selama lebih sedekad, sains data telah diraikan sebagai "pekerjaan paling seksi pada abad ke-21." Namun apabila AI berkembang pesat, semakin jelas bahawa cabaran asas bidang itu lebih sukar untuk diabaikan. Kemunculan AI generatif yang berkuasa boleh menjadi titik permulaan untuk disiplin yang, jika difikirkan semula, mungkin telah ditakrifkan dengan lebih longgar dan overhyped daripada yang diakui pada mulanya.
Pada dasarnya, sains data menggabungkan sains komputer, statistik dan kepintaran perniagaan, menawarkan organisasi janji cerapan yang boleh diambil tindakan daripada sejumlah besar data. Set kemahiran ini tidak dapat dinafikan bernilai dalam dunia dipacu data hari ini. Walau bagaimanapun, di bawah imejnya yang digilap, bidang itu menghadapi isu yang ketara. Perkara yang sering dilabelkan sebagai sains data selalunya menjadi tampalan tugas yang berkaitan longgar yang tidak sentiasa sejajar dengan kemas, dan ramai profesional dalam bidang itu bergelut dengan keluasan dan kerumitan penuh yang dituntut oleh disiplin.
Peningkatan alat dipacu AI yang mampu mengendalikan analisis data, pemodelan dan penjanaan cerapan boleh memaksa perubahan dalam cara kita melihat peranan dan masa depan sains data itu sendiri. Memandangkan AI terus memudahkan dan mengautomasikan banyak tugas asas dalam sains data, bidang ini mungkin menghadapi perhitungan tentang maksud sebenar menjadi saintis data pada zaman automasi pintar.
Ramai saintis data, walaupun menggunakan kemahiran pengekodan dan alatan digital yang canggih, terlibat dalam kerja yang sangat manual dan terdedah kepada ralat . Penyediaan, pembersihan dan analisis data melibatkan tugas yang membosankan, memakan masa yang berulang dan mekanikal. Malah, sejumlah besar tenaga buruh sains data pergi ke penyediaan set data—tugas yang selalunya terasa lebih membosankan daripada sains yang didorong oleh penemuan yang menarik. Masalah ini ditambah dengan fakta bahawa ramai yang memasuki bidang ini, paling baik, amatur. Setelah mengikuti beberapa kursus dalam talian dalam Python atau R, "saintis data" ini selalunya tidak bersedia untuk menghadapi kesukaran peranan . Sains data bukan sekadar pengekodan. Ia melibatkan analisis mendalam, pemahaman kontekstual dan keupayaan untuk menyampaikan cerapan kepada khalayak bukan teknikal. Sebenarnya, ia lebih kepada kerja penyelidikan, memerlukan gabungan kreativiti dan pemikiran analitikal yang tidak dimiliki oleh ramai orang dalam bidang ini.
Tambahan pula, ramai saintis data telah membangunkan rasa kelayakan, mengharapkan gaji tinggi dan pakej lumayan hanya berdasarkan gelaran mereka. Sikap ini mematikan syarikat, terutamanya dalam sektor di mana kecekapan kos adalah penting. Saya telah bertemu dengan firma yang pernah bergegas untuk mengupah saintis data tetapi kini sedang mempertimbangkan semula. Mengapa membayar gaji tinggi kepada seseorang yang menghabiskan sebahagian besar masa mereka untuk bergelut dengan pembersihan data, sedangkan AI boleh melakukannya dengan lebih pantas, lebih baik dan pada sebahagian kecil daripada kos?
Seperti yang saya alami secara peribadi menulis kelas, AI Generatif telah berkembang menjadi kuasa yang berkuasa di kawasan yang paling lemah sains data. Tugas seperti penyediaan data, pembersihan dan juga analisis kualitatif asas—aktiviti yang memakan banyak masa saintis data—kini mudah diautomasikan oleh sistem AI . Apa yang lebih teruk (atau lebih baik, bergantung pada tempat anda berdiri) ialah AI lebih pantas, lebih tepat dan kurang terdedah kepada kesilapan atau keletihan manusia.
Bagi kebanyakan saintis data, ini boleh menakutkan. Lagipun, tugasan ini mewakili sebahagian besar kerja harian mereka. Pembersihan data, contohnya, sangat memakan masa dan terdedah kepada kesilapan, tetapi AI kini boleh mencapainya dengan beberapa klik dan ketepatan yang hampir sempurna. Saintis data sering mengadu tentang tugas-tugas rungutan ini, namun ia adalah asas kepada peranan mereka. Apabila sistem AI bertambah baik, keperluan untuk manusia melakukan kerja ini semakin berkurangan. Tidak menghairankan bahawa kebanyakan kritikan vokal terhadap AI datang daripada saintis data sendiri . Mereka melihat tulisan di dinding dan takut akan pekerjaan mereka.
Untuk memburukkan lagi keadaan bagi saintis data, bidang ini tidak mencapai kemajuan yang ketara dalam beberapa tahun kebelakangan ini. Walaupun peningkatan popularitinya yang mendadak, sains data masih dibelenggu oleh ketidakcekapan, ralat dan kekurangan kejelasan tentang perkara yang sepatutnya diperlukan . Ia pernah dipercayai bahawa alat yang lebih canggih dan latihan yang lebih baik akan mengembangkan bidang itu, tetapi ini tidak menjadi kenyataan setakat yang dijangkakan. Sebaliknya, AI telah bertambah baik secara berterusan. Algoritma pembelajaran mesin, pemprosesan bahasa semula jadi, dan model generatif berkembang pesat, meninggalkan sains data tradisional dalam debu.
Sekali lagi, jangkaan gaji yang tinggi bagi saintis data menambah masalah ini . Syarikat-syarikat yang mungkin pernah bertolak ansur dengan ketidakcekapan kini menyedari bahawa AI boleh menggantikan banyak kerja rungutan tanpa tanda harga yang tinggi yang melekat pada tenaga manusia. Dengan AI menjadi lebih mahir dalam melaksanakan tugas utama seperti analisis, ramalan dan juga pembentangan, sifat manual sains data menjadi semakin berlebihan. Banyak syarikat akan menyedari bahawa apa yang dahulunya memerlukan pasukan saintis data kini boleh dikendalikan dengan lebih cekap oleh alat berkuasa AI.
Realitinya ialah sains data, seperti yang ditakrifkan secara tradisional, berada di ambang keusangan. Dengan AI generatif yang meningkat pada kadar yang menakjubkan, permintaan untuk saintis data manusia dalam bentuk semasa mereka mungkin akan menurun . Ini tidak membayangkan bahawa manusia tidak mempunyai peranan dalam membuat keputusan berdasarkan data, tetapi peranan klasik "saintis data" mungkin akan menjadi konsep masa lalu. Apa yang diperlukan sekarang ialah profesional yang mahir dalam bekerjasama dengan AI, memanfaatkan keupayaannya sambil menumpukan pada pemikiran strategik dan penyelesaian masalah yang kompleks di peringkat yang lebih tinggi.
AI bukanlah penamat bagi analitis, cerapan atau membuat keputusan—ia mewakili evolusi mereka . Bidang sains data semasa berisiko menjadi usang jika ia tidak berkembang mengikut langkah. AI sudah merevolusikan industri, dan sains data mesti menyesuaikan diri atau berisiko diatasi oleh gelombang ini. Akhirnya, persoalannya mungkin bukan sama ada AI akan menghapuskan sains data tetapi sama ada sains data pernah memenuhi janjinya sepenuhnya.
Atau mungkin perbezaan itu tidak penting jika kita akhirnya bergerak melangkaui gembar-gembur "sains data" dan menerima AI sebagai perkembangan logik seterusnya.
Mengenai Saya: veteran IT 25+ tahun menggabungkan data, AI, pengurusan risiko, strategi dan pendidikan. Pemenang hackathon 4x dan impak sosial daripada penyokong data. Sedang berusaha untuk memulakan tenaga kerja AI di Filipina. Ketahui lebih lanjut tentang saya di sini: https://docligot.com