Seperti biasa dengan teknologi yang berkembang pesat, AI telah mengilhami daripada dan Sebahagian daripada mereka berhak, Daripada start-up perkakasan tersembunyi kepada raksasa fintech kepada institusi awam, pasukan sedang bekerja dengan demam pada strategi AI mereka. FOMO FUD Fesyen Sebahagian daripada mereka tidak “Bagaimana kita menggunakan AI dan pembelajaran mesin untuk menjadi lebih baik dalam apa yang kita lakukan?” “Bagaimana kita menggunakan AI dan pembelajaran mesin untuk menjadi lebih baik dalam apa yang kita lakukan?” Lebih sering daripada tidak, syarikat-syarikat Sedia untuk AI. mungkin mereka telah menyewa mereka kepada hasil-hasil yang kurang daripada bintang, atau mungkin Tetapi skenario yang paling biasa ialah mereka belum membina infrastruktur untuk melaksanakan (dan memanen faedah) yang paling asas. algoritma dan operasi, lebih kurang . not Penyelidik Data Pertama Data Literasi Sains Data Pembelajaran Mesin Sebagai penasihat sains data / AI, saya terpaksa menyampaikan mesej ini berkali-kali, terutamanya dalam tempoh dua tahun yang lalu. Ia sukar untuk menjadi selimut basah di tengah-tengah semua kegembiraan di sekitar bidang anda sendiri, terutamanya jika anda berkongsi kegembiraan itu.Dan bagaimana anda memberitahu syarikat-syarikat bahawa mereka tidak bersedia untuk AI tanpa terdengar (atau menjadi) elit - seorang penjaga gerbang yang ditunjuk sendiri? bersetuju Berikut merupakan penjelasan yang paling mengesankan: Think of AI as the top of a Piramid Kebutuhan . Yes, self-actualization (AI) is great, but you first need food, water and shelter (data literacy, collection and infrastructure). Piramid Kebutuhan Keperluan asas: Bolehkah anda mengira? Di bahagian bawah piramida yang kita Data apa yang anda perlukan, dan apa yang boleh didapati?Jika ia adalah produk berorientasi pengguna, adakah anda mencatat semua interaksi pengguna yang berkaitan?Jika ia adalah sensor, data apa yang datang melalui dan bagaimana?Berapa mudah untuk mencatat interaksi yang belum diinstrumen? merupakan apa yang menjadikan kemajuan baru-baru ini dalam pembelajaran mesin mungkin. data collection Dataset Seterusnya, bagaimana ia melalui sistem? Adakah anda mempunyai aliran yang boleh dipercayai / ETL ? Di mana anda menyimpannya, dan bagaimana mudahnya untuk mengakses dan menganalisis? telah berkata (sekitar satu dekad) bahawa aliran data yang boleh dipercayai adalah kunci untuk melakukan apa-apa dengan data. data flow Tag: jay kreps [Selain: Saya sedang mencari kutipan yang tepat dan menemukannya dalam beliau ' saya suka logs Saya kemudian memperhatikan bahawa, satu perenggan di atas, dia membuat perbandingan hierarki keperluan Maslow yang tepat ini, dengan 'harus dicatat yang jelas' dilemparkan di sana untuk ukuran yang baik (terima kasih kepada Jay!). Bercakap tentang kerja yang berkaitan, saya juga kemudian berlari (h / t Daniel Tunkelang) ke dalam Hilary Mason dan Chris Wiggins yang sangat baik Post yang tentang apa yang seorang saintis data lakukan. hari-hari yang lalu, Sean Taylor Disemak piramida sains data beliau sendiri keperluan (yang secara ironis dipanggil The Unconjoined Triangle of Data Science) yang, tentu saja, benar-benar berbeza. saya suka logs Post yang Disemak Hanya apabila data boleh diakses, anda boleh Ini termasuk 'pembersihan data' yang terkenal, satu sisi sains data yang kurang dinilai yang akan menjadi subjek post lain.Ini ialah apabila anda mendapati bahawa anda kehilangan sekumpulan data, sensor anda tidak boleh dipercayai, perubahan versi bermakna peristiwa anda terjatuh, anda salah menafsirkan bendera - dan anda kembali untuk memastikan asas piramida adalah kukuh. explore and transform Apabila anda boleh mengeksplorasi dan membersihkan data dengan boleh dipercayai, anda boleh mula membina apa yang secara tradisional dianggap sebagai BI atau BI. : menentukan metrik untuk diikuti, musim dan kepekaan mereka kepada pelbagai faktor. Mungkin melakukan beberapa segmen pengguna kasar dan lihat jika apa-apa melompat keluar. Walau bagaimanapun, kerana matlamat anda adalah AI, anda kini membina apa yang anda akan fikirkan sebagai Pada peringkat ini, anda juga tahu apa yang anda mahu meramalkan atau belajar, dan anda boleh mula menyediakan dengan mencipta label, sama ada secara automatik (yang pelanggan melayu?) atau dengan manusia dalam lingkaran. analytics features training data Ini juga apabila anda mendapati anda yang paling menarik dan menarik - tetapi itu juga subjek post lain Medium. data stories Ok, saya boleh hitung, apa lagi? Kami mempunyai data latihan – pasti, sekarang kita boleh melakukan pembelajaran mesin? Mungkin, jika anda cuba untuk meramalkan secara dalaman churn; tidak, jika hasilnya akan menjadi pelanggan-berhadapan. rangka kerja di tempat, supaya kita boleh melancarkan secara beransur-ansur untuk mengelakkan bencana dan mendapatkan perkiraan kasar kesan perubahan sebelum mereka menjejaskan semua orang. di tempat (untuk sistem rekomender, ini akan menjadi contohnya ‘terpopuler’, kemudian ‘terpopuler untuk segmen pengguna anda’ – yang sangat menjengkelkan tetapi berkesan ‘stereotip sebelum personalisasi’). experimentation simple baseline Heuristik mudah mengejutkan sukar untuk dikalahkan, dan mereka akan membolehkan anda untuk memulihkan sistem end-to-end tanpa kotak hitam ML misterius dengan hiperparameter hipertuned di tengah-tengah. Pada titik ini, anda boleh menggunakan algoritma ML yang sangat mudah (seperti regresi logistik atau, ya, pemisahan), kemudian berfikir tentang isyarat dan ciri-ciri baru yang boleh menjejaskan hasil anda. Data cuaca dan pendaftaran penduduk adalah go-tos saya. Dan tidak — sebegitu kuatnya, pembelajaran mendalam tidak secara automatik melakukan ini untuk anda.Menyediakan isyarat baru (penciptaan ciri, bukan kejuruteraan ciri-ciri) adalah apa yang boleh meningkatkan prestasi anda dengan melompat dan melampau.Ia bernilai menghabiskan masa di sini, walaupun sebagai saintis data kami bersemangat untuk bergerak ke peringkat seterusnya dalam piramida. Berikan kepada mereka AI! Anda telah melakukannya. Anda telah dilancarkan. ETL anda sedang membongkar. Data anda dianjurkan dan dibersihkan. Anda mempunyai papan panduan, label dan ciri-ciri yang baik. Anda mengukur perkara yang betul. Anda boleh bereksperimen setiap hari. Anda mempunyai algoritma asas yang dibongkar dari hujung ke hujung dan dijalankan dalam pengeluaran - dan anda telah mengubahnya sepuluh kali. Anda bersedia. Pergi ke hadapan dan cuba semua yang terkini dan terbaik di luar sana - dari meluncur anda sendiri untuk menggunakan syarikat-syarikat yang mengkhususkan diri dalam pembelajaran mesin. Anda mungkin mendapat beberapa peningkatan besar dalam pengeluaran, atau anda mungkin tidak. Dalam kes terburuk, anda mempelajari kaedah baru, membangunkan pendapat dan pengalaman tangan dengan mereka, dan mendapatkan untuk memberitahu pelabur dan usaha AI anda tanpa merasa seperti penipu. Dalam kes Tunggu, bagaimana dengan MVP, agile, lean dan semua itu? Sama seperti ketika membina MVP tradisional (produk minimum yang layak), anda mula dengan bahagian kecil, vertikal produk anda dan anda membuatnya berfungsi dengan baik end-to-end. anda boleh membina piramidnya, kemudian membina secara horisontal. Sebagai contoh, di Jawbone, kami mula dengan data tidur dan membina piramidnya: instrumen, ETL, pembersihan & organisasi, penangkapan label dan definisi, metrik (apa # purata jam orang tidur setiap malam? dan produk data yang dipandu oleh pembelajaran mesin (pengesanan tidur automatik). Ini untuk langkah-langkah, kemudian makanan, cuaca, latihan, rangkaian sosial & komunikasi - satu pada satu masa. The data science hierarchy of needs is not an excuse to build disconnected, over-engineered infrastructure for a year. Sejarah Data Perpanjangan Menanyakan soalan yang betul dan membina produk yang betul Ini hanya tentang bagaimana anda Bukan jika anda (dari sebab-sebab pragmatik atau etika) could should Kegagalan alat pembelajaran mesin ‘ ’ Tunggu, bagaimana dengan Amazon API atau TensorFlow atau pustaka sumber terbuka yang lain? Semua itu menakjubkan dan sangat berguna. (Beberapa syarikat akhirnya membina piramid anda secara khusus supaya mereka boleh menunjukkan kerja mereka.Mereka adalah pahlawan.) Walau bagaimanapun, di bawah pengaruh yang kuat daripada hype AI semasa, orang cuba menyambungkan data yang kotor dan penuh dengan jurang, yang merangkumi tahun-tahun sambil mengubah format dan makna, yang belum dipahami, yang berstruktur dengan cara yang tidak masuk akal, dan mengharapkan alat-alat itu untuk menangani dengan ajaib.