เช่นเดียวกับเทคโนโลยีที่ก้าวหน้าอย่างรวดเร็ว AI ได้สร้างแรงบันดาลใจอย่างมาก , และ ส่วนหนึ่งของมันคุ้มค่า — แต่อุตสาหกรรมกําลังให้ความสนใจ จาก startup hardware stealth ไปยัง fintech giants ไปยังสถาบันสาธารณะทีมงานกําลังทํางานอย่างรุนแรงเกี่ยวกับกลยุทธ์ AI ของพวกเขา ทั้งหมดมาถึงคําถามที่สําคัญและมีส่วนร่วมสูง: โฟโม ฟิวส์ โจมตี บางส่วนของมันไม่ ‘How do we use AI and machine learning to get better at what we do?’ “วิธีที่เราใช้ AI และ machine learning เพื่อให้ได้ดีขึ้นในสิ่งที่เรากําลังทํา” มักกว่าไม่ บริษัท จะ พร้อมสําหรับ AI. บางทีพวกเขาได้จ้างพวกเขา สําหรับผลลัพธ์น้อยกว่าดาวหรืออาจจะ แต่สถานการณ์ที่พบบ่อยที่สุดคือพวกเขายังไม่ได้สร้างโครงสร้างพื้นฐานเพื่อใช้ (และเพลิดเพลินกับประโยชน์) ของพื้นฐานมากที่สุด อัลกอริทึมและการดําเนินงานน้อยกว่า . not นักวิทยาศาสตร์ข้อมูลครั้งแรก ข้อมูลอักษร ข้อมูลวิทยาศาสตร์ การเรียนรู้เครื่อง ในฐานะที่เป็นผู้ให้คําปรึกษาด้านวิทยาศาสตร์ข้อมูล / AI ฉันต้องส่งข้อความนี้ไม่กี่ครั้งโดยเฉพาะอย่างยิ่งในช่วงสองปีที่ผ่านมา มันเป็นเรื่องยากที่จะเป็นฝาครอบเปียกในระหว่างความตื่นเต้นทั้งหมดนี้รอบ ๆ พื้นที่ของคุณเองโดยเฉพาะอย่างยิ่งถ้าคุณแบ่งปันความตื่นเต้น และวิธีที่คุณบอก บริษัท ที่พวกเขาไม่พร้อมสําหรับ AI โดยไม่ต้องเสียง (หรือเป็น) ยอดนิยม - ผู้ดูแลประตูที่กําหนดเอง? ยอมรับ นี่คือคําอธิบายที่สอดคล้องมากที่สุด: Think of AI as the top of a ปิรามิดความต้องการ . Yes, self-actualization (AI) is great, but you first need food, water and shelter (data literacy, collection and infrastructure). ปิรามิดความต้องการ ความต้องการพื้นฐาน: คุณสามารถนับได้หรือไม่ ด้านล่างของปิรามิดที่เรามี . ข้อมูลใดที่คุณต้องการและข้อมูลที่มีอยู่อย่างไร หากเป็นผลิตภัณฑ์ที่มองไปที่ผู้ใช้คุณจะบันทึกการโต้ตอบของผู้ใช้ที่เกี่ยวข้องทั้งหมดหรือไม่ หากเป็นเซ็นเซอร์ข้อมูลใดจะผ่านและวิธีการอย่างไร ง่ายแค่ไหนที่จะบันทึกการโต้ตอบที่ยังไม่ได้รับเครื่องมือหรือไม่ หลังจากที่ทั้งหมดที่ถูกต้อง นี่คือสิ่งที่ทําให้ความก้าวหน้าล่าสุดในการเรียนรู้เครื่องเป็นไปได้ data collection ฐานข้อมูล ต่อไปวิธีการที่ ผ่านระบบ? คุณมีสตรีมที่เชื่อถือได้ / ETL ? คุณจัดเก็บและง่ายต่อการเข้าถึงและวิเคราะห์ได้อย่างไร กล่าวว่า (ประมาณสิบปีที่ผ่านมา) การไหลของข้อมูลที่เชื่อถือได้เป็นกุญแจสําคัญในการทําอะไรกับข้อมูล data flow เจย์ Kreps [ด้านนอก: ฉันกําลังมองหาคําพูดที่แน่นอนและพบในของเขา ' ฉันรักโลโก้ ’ สถาปัตยกรรม จากนั้นฉันสังเกตเห็นว่าในบรรทัดหนึ่งข้างต้นเขากําลังทําการเปรียบเทียบความต้องการของ Maslow อย่างแม่นยํานี้ด้วย ‘มันคุ้มค่าที่จะสังเกตเห็นสิ่งที่ชัดเจน’ ที่ถูกโยนเข้าไปในที่นั่นเพื่อให้มีขนาดที่ดี (ขอบคุณ Jay!). การพูดคุยเกี่ยวกับงานที่เกี่ยวข้องฉันยังทํางานในภายหลัง (h / t Daniel Tunkelang) ใน Hilary Mason และ Chris Wiggins ที่ยอดเยี่ยม โพสต์ เกี่ยวกับสิ่งที่นักวิทยาศาสตร์ข้อมูลทํา. สัปดาห์ที่ผ่านมา, Sean Taylor การเปิดเผย ความต้องการของปิรามิดวิทยาศาสตร์ข้อมูลของเขาเอง (เรียกว่า Unconjoined Triangle of Data Science) ซึ่งแน่นอนก็แตกต่างกันอย่างสมบูรณ์ บางทีเราควรเริ่มต้น tumblr.] ฉันรักโลโก้ โพสต์ การเปิดเผย เมื่อข้อมูลสามารถเข้าถึงได้เท่านั้น นี่คือเมื่อคุณค้นพบว่าคุณพลาดข้อมูลจํานวนมากเซ็นเซอร์ของคุณไม่น่าเชื่อถือการเปลี่ยนแปลงรุ่นหมายความว่าเหตุการณ์ของคุณถูกลดลงคุณตีความข้อผิดพลาดของธง - และคุณกลับไปเพื่อให้แน่ใจว่าฐานของปิรามิดมีความแข็งแกร่ง explore and transform เมื่อคุณสามารถสํารวจและทําความสะอาดข้อมูลได้อย่างน่าเชื่อถือคุณสามารถเริ่มสร้างสิ่งที่คิดว่า BI หรือ : กําหนดเมตริกเพื่อติดตามฤดูกาลและความไวของพวกเขาต่อปัจจัยต่างๆ บางทีทําการแบ่งส่วนผู้ใช้อย่างสม่ําเสมอและดูว่ามีอะไรออกมา อย่างไรก็ตามเนื่องจากเป้าหมายของคุณคือ AI คุณกําลังสร้างสิ่งที่คุณจะคิดในภายหลังว่าเป็น ในขั้นตอนนี้คุณยังรู้สิ่งที่คุณต้องการคาดการณ์หรือเรียนรู้และคุณสามารถเริ่มต้นการเตรียมการของคุณ โดยการสร้างฉลากทั้งโดยอัตโนมัติ (ลูกค้าที่โกงหรือไม่?) หรือด้วยมนุษย์ในวงจร analytics features training data นี่คือเมื่อคุณพบว่าคุณน่าตื่นเต้นและน่าทึ่งที่สุด - แต่ก็เป็นหัวข้อของโพสต์ Medium อื่น ๆ data stories OK ฉันสามารถนับได้ ตอนนี้อะไร? เรามีข้อมูลการฝึกอบรม - แน่นอนตอนนี้เราสามารถทําการเรียนรู้เครื่องได้หรือไม่ บางทีถ้าคุณพยายามคาดการณ์ churn ในร่ม ไม่ถ้าผลลัพธ์จะตรงกับลูกค้า เราต้องมีการทดสอบ A / B (แม้ว่าจะเป็นต้นฉบับ) หรือ กรอบที่มีอยู่เพื่อให้เราสามารถใช้ขั้นตอนเพื่อหลีกเลี่ยงภัยพิบัติและได้รับการประเมินผลกระทบของการเปลี่ยนแปลงก่อนที่จะส่งผลกระทบต่อทุกคน นี่เป็นเวลาที่เหมาะสมที่จะวางคํานวณอย่างมาก ในสถานที่ (สําหรับระบบการแนะนํานี้จะเป็นเช่น ‘ที่นิยมมากที่สุด’ จากนั้น ‘ที่นิยมมากที่สุดสําหรับกลุ่มผู้ใช้ของคุณ’ – “สเตอริโอไทด์ก่อนการปรับแต่งส่วนบุคคล” ที่น่าเบื่อ แต่มีประสิทธิภาพมาก) experimentation simple baseline Heuristics ง่ายน่าแปลกใจยากที่จะเอาชนะและพวกเขาจะช่วยให้คุณสามารถ debug ระบบ End-to-End โดยไม่ต้องกล่องดํา ML ที่น่ากลัวด้วย hyperparameters ที่ hyperpertuned ในกลาง นี่คือเหตุผลที่อัลกอริทึมวิทยาศาสตร์ข้อมูลที่ชื่นชอบของฉันคือการแบ่ง ในขณะนี้คุณสามารถใช้อัลกอริทึม ML ที่เรียบง่ายมาก (เช่นการก้อนกลับทางโลจิสติกส์หรือใช่การแบ่ง) จากนั้นคิดถึงสัญญาณและคุณสมบัติใหม่ ๆ ที่อาจส่งผลต่อผลลัพธ์ของคุณ ข้อมูลสภาพอากาศและรายงานศุลกากรเป็น go-tos ของฉัน และไม่ - อย่างมีประสิทธิภาพเช่นนั้นการเรียนรู้ลึกไม่ได้ทําสิ่งนี้โดยอัตโนมัติ สําหรับคุณ การนําสัญญาณใหม่ ๆ (สร้างคุณลักษณะไม่ใช่วิศวกรรมคุณลักษณะ) เป็นสิ่งที่สามารถปรับปรุงประสิทธิภาพของคุณได้โดยการกระโดดและขีด จํากัด มันคุ้มค่าที่จะใช้เวลาที่นี่แม้ว่านักวิทยาศาสตร์ข้อมูลเรากําลังกระตือรือร้นที่จะย้ายไปสู่ระดับต่อไปในปิรามิด นําที่ AI! คุณทําได้ คุณมีเครื่องมือ คุณ ETL ของคุณกําลังกระโดด ข้อมูลของคุณได้รับการจัดเรียงและทําความสะอาด คุณมีตารางการติดฉลากและคุณสมบัติที่ดี คุณกําลังวัดสิ่งที่เหมาะสม คุณสามารถทดลองทุกวัน คุณมีอัลกอริทึมขั้นพื้นฐานที่ได้รับการแก้ไขจากปลายไปปลายและกําลังทํางานในการผลิต - และคุณได้เปลี่ยนมันสิบครั้ง คุณพร้อมไปข้างหน้าและลองทุกอย่างล่าสุดและดีที่สุดที่นั่น - จากการกลิ้งของคุณเองไปใช้ บริษัท ที่เชี่ยวชาญในการเรียนรู้เครื่อง คุณอาจได้รับการปรับปรุงขนาดใหญ่ในการผลิตหรือคุณอาจไม่ได้ ในกรณีที่เลวร้ายที่สุดคุณเรียนรู้วิธีการใหม่พัฒนาความคิดเห็นและประสบการณ์ในมือกับพวกเขาและได้รับบอกลูกค้าและความพยายามของ AI ของคุณโดยไม่ต้องรู้สึกเหมือนคนหลอกลวง ในกรณีที่ดีที่สุดคุณทําให้ความแตกต่างอย่างมากต่อลูกค้าของคุณและ บริษัท ของคุณ - เรื่องราวความสําเร็จของการเรียนรู้เครื่องจริง รอ, อะไรเกี่ยวกับ MVPs, agile, lean และอื่น ๆ? เช่นเดียวกับเมื่อสร้าง MVP แบบดั้งเดิม (ผลิตภัณฑ์ที่มีประสิทธิภาพต่ําสุด) คุณเริ่มต้นด้วยส่วนแนวตั้งขนาดเล็กของผลิตภัณฑ์ของคุณและทําให้มันทํางานได้ดีจากปลายไปปลาย คุณสามารถสร้างปิรามิดแล้วเติบโตขึ้นในแนวนอน ตัวอย่างเช่นที่ Jawbone เราเริ่มต้นด้วยข้อมูลการนอนหลับและสร้างปิรามิด: เครื่องมือ, ETL, การทําความสะอาดและองค์กร, การจับยึดฉลากและคําจํากัดความหมาย, เมตริก (มีค่าเฉลี่ย # ของเวลาที่ผู้คนนอนหลับทุกคืนหรือไม่? อะไรคือการนอนหลับ? อะไรคือการนอนหลับ? ) การวิเคราะห์ส่วนข้าม และผลิตภัณฑ์ข้อมูลที่ขับเคลื่อนโดยการเรียนรู้ด้วยเครื่อง (การตรวจจับการนอนหลับอัตโนมัติ) นี่เป็นขั้นตอนแล้วอาหารสภาพอากาศการออกกําลังกายเครือข่ายสังคมและการสื่อสาร - หนึ่งในครั้งเดียว เราไม่ได้สร้างโครงสร้างพื้นฐานที่ครอบคลุมโดยไม่เคยทําให้ทํางานจากปลายไปปลาย The data science hierarchy of needs is not an excuse to build disconnected, over-engineered infrastructure for a year. เรื่องราวข้อมูล การขยายตัว การถามคําถามที่เหมาะสมและสร้างผลิตภัณฑ์ที่เหมาะสม นี่เป็นเพียงเกี่ยวกับวิธีที่คุณ ไม่ว่าคุณ (ด้วยเหตุผลทางจริยธรรมหรือจริยธรรม) could should ความสัญญาของเครื่องมือการเรียนรู้เครื่องจักร ‘ ’ รอ, อะไรเกี่ยวกับ Amazon API หรือ TensorFlow หรือห้องสมุดแหล่งที่เปิดอื่น ๆ? อะไรเกี่ยวกับ บริษัท ที่ขายเครื่องมือ ML หรือที่สกัดข้อมูลและคุณสมบัติโดยอัตโนมัติ? ทั้งหมดนี้เป็นที่น่าตื่นตาตื่นใจและมีประโยชน์มาก (บาง บริษัท ฯ ฯ ฯ ฯ ฯ ฯ ฯ ฯ ฯ ฯ ฯ ฯ ฯ ฯ ฯ ฯ ฯ ฯ ฯ ฯ ฯ ฯ ฯ ฯ ฯ ฯ ฯ ฯ ฯ ฯ ฯ ฯ ฯ ฯ ฯ ฯ ฯ ฯ ฯ ฯ ฯ ฯ ฯ ฯ ฯ ฯ ฯ ฯ ฯ ฯ ฯ ฯ ฯ ฯ ฯ ฯ ฯ ฯ ฯ ฯ ฯ ฯ ฯ ฯ ฯ