Seperti biasanya dengan teknologi yang berkembang pesat, AI telah menginspirasi , yang dan Sebagian dari mereka layak, Dari start-up perangkat keras rahasia hingga raksasa fintech hingga lembaga-lembaga publik, tim bekerja dengan demam pada strategi AI mereka. FOMO yang FUD Feodal Beberapa dari mereka tidak “Bagaimana kita menggunakan AI dan machine learning untuk menjadi lebih baik dalam apa yang kita lakukan?” “Bagaimana kita menggunakan AI dan machine learning untuk menjadi lebih baik dalam apa yang kita lakukan?” Sebagian besar perusahaan yang tidak siap untuk AI. mungkin mereka menyewa mereka untuk hasil yang kurang dari bintang, atau mungkin Tetapi skenario yang paling umum adalah bahwa mereka belum membangun infrastruktur untuk menerapkan (dan memanfaatkan manfaat) yang paling dasar. algoritma dan operasi, dan kurang . not Ilmuwan Data Pertama Data Literasi ilmu data Pembelajaran mesin Sebagai penasihat ilmu data / AI, saya harus menyampaikan pesan ini berkali-kali, terutama selama dua tahun terakhir. Sulit untuk menjadi selimut basah di antara semua kegembiraan di sekitar bidang Anda sendiri, terutama jika Anda berbagi kegembiraan itu. dan bagaimana Anda mengatakan kepada perusahaan bahwa mereka tidak siap untuk AI tanpa terdengar (atau menjadi) elit - seorang penjaga gerbang yang ditunjuk sendiri? Setuju Berikut ini penjelasan yang paling mengejutkan: Think of AI as the top of a Piramida Kebutuhan . Yes, self-actualization (AI) is great, but you first need food, water and shelter (data literacy, collection and infrastructure). Piramida Kebutuhan Kebutuhan dasar: Dapatkah Anda menghitung? Di bagian bawah piramida yang kita Data apa yang Anda butuhkan, dan apa yang tersedia?Jika itu adalah produk yang berorientasi pengguna, apakah Anda mencatat semua interaksi pengguna yang relevan?Jika itu adalah sensor, data apa yang datang melalui dan bagaimana?Berapa mudah untuk mencatat interaksi yang belum terinstruksikan? adalah apa yang membuat kemajuan baru-baru ini dalam pembelajaran mesin mungkin. data collection Dataset Selanjutnya, bagaimana cara melalui sistem? Apakah Anda memiliki aliran yang dapat diandalkan / ETL ? Di mana Anda menyimpannya, dan seberapa mudah untuk mengakses dan menganalisisnya? telah mengatakan (sekitar satu dekade) bahwa aliran data yang dapat diandalkan adalah kunci untuk melakukan apa pun dengan data. data flow oleh Jay Kreps [Selain itu: Saya sedang mencari kutipan yang tepat dan menemukannya di dalamnya’ Saya suka logs Saya kemudian memperhatikan bahwa, satu paragraf di atas, dia membuat perbandingan hierarki kebutuhan Maslow yang tepat ini, dengan 'harus dicatat yang jelas' dilemparkan di sana untuk ukuran yang baik (terima kasih Jay!). Postingan tentang apa yang dilakukan seorang ilmuwan data. beberapa hari yang lalu, Sean Taylor Mengungkapkan piramida ilmu data sendiri kebutuhan (yang secara ironis disebut Unconjoined Triangle of Data Science) yang, tentu saja, benar-benar berbeda. Saya suka logs Postingan Mengungkapkan Saat data sudah tersedia, Anda bisa Ini termasuk 'pembersihan data' yang terkenal, sisi yang kurang dinilai dari ilmu data yang akan menjadi subjek posting lain.Ini adalah ketika Anda menemukan bahwa Anda kehilangan banyak data, sensor Anda tidak dapat diandalkan, perubahan versi berarti peristiwa Anda diturunkan, Anda salah menafsirkan bendera - dan Anda kembali untuk memastikan dasar piramida solid. explore and transform Ketika Anda dapat secara dapat diandalkan mengeksplorasi dan membersihkan data, Anda dapat mulai membangun apa yang secara tradisional dianggap sebagai BI atau BI. : menentukan metrik untuk dilacak, musim dan sensitivitas mereka terhadap berbagai faktor. Mungkin melakukan segmen pengguna yang kasar dan melihat apakah ada yang melompat keluar. Pada tahap ini, Anda juga tahu apa yang ingin Anda prediksi atau belajar, dan Anda dapat mulai mempersiapkan dengan menghasilkan label, baik secara otomatis (apakah pelanggan yang menggunakannya?) atau dengan manusia dalam lingkaran. analytics features training data Ini juga ketika Anda menemukan Anda yang paling menarik dan meyakinkan Tapi itu juga topik dari postingan lain. data stories Aku bisa menghitung, sekarang apa? Kami memiliki data pelatihan – tentu saja, sekarang kita bisa melakukan pembelajaran mesin? Mungkin, jika Anda mencoba memprediksi secara internal churn; tidak, jika hasilnya akan berorientasi pada pelanggan. kerangka kerja di tempat, sehingga kita dapat mengimplementasikan secara bertahap untuk menghindari bencana dan mendapatkan perkiraan kasar efek dari perubahan sebelum mereka mempengaruhi semua orang. di tempat (untuk sistem rekomendasi, ini akan misalnya ‘terpopuler’, kemudian ‘terpopuler untuk segmen pengguna Anda’ – yang sangat menjengkelkan tetapi efektif ‘stereotype sebelum personalisasi’). experimentation simple baseline Heuristik sederhana sangat sulit untuk dikalahkan, dan mereka akan memungkinkan Anda untuk memindai sistem dari ujung ke ujung tanpa kotak hitam ML misterius dengan hyperparameter hipertuned di tengah. Pada titik ini, Anda dapat mengimplementasikan algoritma ML yang sangat sederhana (seperti regresi logistik atau, ya, divisi), kemudian berpikir tentang sinyal dan fitur baru yang mungkin mempengaruhi hasil Anda. Data cuaca dan pendaftaran adalah go-tos saya. Dan tidak — seberapa kuatnya, pembelajaran mendalam tidak secara otomatis melakukan ini untuk Anda.Mengimpor sinyal baru (penciptaan fitur, bukan teknik fitur) adalah apa yang dapat meningkatkan kinerja Anda dengan lompatan dan batas. Hal ini layak untuk menghabiskan waktu di sini, bahkan jika sebagai ilmuwan data kami bersemangat untuk bergerak ke tingkat berikutnya di piramida. Ambil di atas AI! Anda melakukannya. Anda terinstruksikan. ETL Anda meledak. Data Anda diatur dan dibersihkan. Anda memiliki dashboard, label, dan fitur-fitur yang bagus. Anda mengukur hal-hal yang tepat. Anda dapat bereksperimen setiap hari. Anda memiliki algoritma dasar yang dipecahkan dari ujung ke ujung dan berjalan dalam produksi – dan Anda telah mengubahnya selusin kali. Anda siap. Pergi ke depan dan coba semua yang terbaru dan terbaik di luar sana – dari menggelar Anda sendiri hingga menggunakan perusahaan yang mengkhususkan diri dalam pembelajaran mesin. Anda mungkin mendapatkan beberapa perbaikan besar dalam produksi, atau Anda mungkin tidak. Dalam kasus terburuk, Anda mempelajari metode baru, mengembangkan pendapat dan pengalaman langsung dengan mereka, dan mendapatkan untuk memberitahu investor dan upaya AI Anda tanpa merasa seperti seorang penipu. Dalam kasus terbaik, Anda membuat perbedaan besar bagi pelanggan Anda, dan perusahaan Anda Bagaimana dengan MVP, agile, lean dan semua itu? Sama seperti ketika membangun MVP tradisional (produk minimal layak), Anda memulai dengan bagian kecil, vertikal dari produk Anda dan Anda membuatnya bekerja dengan baik dari ujung ke ujung. Anda dapat membangun piramida, kemudian menumbuhkannya secara horizontal. Misalnya, di Jawbone, kami memulai dengan data tidur dan membangun piramida: instrumen, ETL, pembersihan & organisasi, pencatatan label dan definisi, metrik (apa rata-rata # jam orang tidur setiap malam? dan produk data yang didorong oleh pembelajaran mesin (deteksi tidur otomatis). Ini untuk langkah-langkah, kemudian makanan, cuaca, latihan, jejaring sosial & komunikasi - satu per satu. The data science hierarchy of needs is not an excuse to build disconnected, over-engineered infrastructure for a year. Sejarah Data Perpanjangan Mengajukan pertanyaan yang tepat dan membangun produk yang tepat Ini hanya tentang bagaimana Anda Bukan apakah kamu (dengan alasan etis dan pragmatis) could should Perkembangan alat pembelajaran mesin ‘ ’ Bagaimana dengan Amazon API atau TensorFlow atau pustaka sumber terbuka lainnya? bagaimana dengan perusahaan yang menjual alat ML, atau yang secara otomatis mengekstrak wawasan dan fitur? Semua itu menakjubkan dan sangat berguna. (Beberapa perusahaan berakhir dengan hati-hati menyesuaikan seluruh piramida Anda sehingga mereka dapat menunjukkan pekerjaan mereka. mereka adalah pahlawan.) Namun, di bawah pengaruh kuat dari hype AI saat ini, orang mencoba untuk menyambungkan data yang kotor dan penuh dengan celah, yang merentasi bertahun-tahun sambil mengubah format dan makna, yang belum dipahami, yang terstruktur dengan cara yang tidak masuk akal, dan mengharapkan alat-alat itu untuk secara ajaib menangani hal itu. dan mungkin suatu hari nanti itu akan terjadi; Saya melihat dan memuji upaya di arah itu.