เช่นเดียวกับเทคโนโลยีที่ก้าวหน้าอย่างรวดเร็ว AI ได้สร้างแรงบันดาลใจอย่างมาก , และ ส่วนหนึ่งของมันคุ้มค่า — แต่อุตสาหกรรมกําลังให้ความสนใจ จาก startup hardware stealth ไปยัง fintech giants ไปยังสถาบันสาธารณะทีมงานกําลังทํางานอย่างรุนแรงเกี่ยวกับกลยุทธ์ AI ของพวกเขา ทั้งหมดมาถึงคําถามที่สําคัญและมีส่วนร่วมสูง: โฟโม ฟิวส์ โจมตี บางส่วนของมันไม่ “วิธีที่เราใช้ AI และ machine learning เพื่อให้ได้ดีขึ้นในสิ่งที่เรากําลังทํา” “วิธีที่เราใช้ AI และ machine learning เพื่อให้ได้ดีขึ้นในสิ่งที่เรากําลังทํา” มักกว่าไม่ บริษัท จะ พร้อมสําหรับ AI. บางทีพวกเขาได้จ้างพวกเขา สําหรับผลลัพธ์น้อยกว่าดาวหรืออาจจะ แต่สถานการณ์ที่พบบ่อยที่สุดคือพวกเขายังไม่ได้สร้างโครงสร้างพื้นฐานเพื่อใช้ (และเพลิดเพลินกับประโยชน์) ของพื้นฐานมากที่สุด อัลกอริทึมและการดําเนินงานน้อยกว่า . not นักวิทยาศาสตร์ข้อมูลครั้งแรก ข้อมูลอักษร ข้อมูลวิทยาศาสตร์ การเรียนรู้เครื่อง ในฐานะที่เป็นผู้ให้คําปรึกษาด้านวิทยาศาสตร์ข้อมูล / AI ฉันต้องส่งข้อความนี้ไม่กี่ครั้งโดยเฉพาะอย่างยิ่งในช่วงสองปีที่ผ่านมา มันเป็นเรื่องยากที่จะเป็นฝาครอบเปียกในระหว่างความตื่นเต้นทั้งหมดนี้รอบ ๆ พื้นที่ของคุณเองโดยเฉพาะอย่างยิ่งถ้าคุณแบ่งปันความตื่นเต้น และวิธีที่คุณบอก บริษัท ที่พวกเขาไม่พร้อมสําหรับ AI โดยไม่ต้องเสียง (หรือเป็น) ยอดนิยม - ผู้ดูแลประตูที่กําหนดเอง? ยอมรับ นี่คือคําอธิบายที่สอดคล้องมากที่สุด: Think of AI as the top of a ปิรามิดความต้องการ . Yes, self-actualization (AI) is great, but you first need food, water and shelter (data literacy, collection and infrastructure). ปิรามิดความต้องการ ความต้องการพื้นฐาน: คุณสามารถนับได้หรือไม่ ด้านล่างของปิรามิดที่เรามี . ข้อมูลใดที่คุณต้องการและข้อมูลที่มีอยู่อย่างไร หากเป็นผลิตภัณฑ์ที่มองไปที่ผู้ใช้คุณจะบันทึกการโต้ตอบของผู้ใช้ที่เกี่ยวข้องทั้งหมดหรือไม่ หากเป็นเซ็นเซอร์ข้อมูลใดจะผ่านและวิธีการอย่างไร ง่ายแค่ไหนที่จะบันทึกการโต้ตอบที่ยังไม่ได้รับเครื่องมือหรือไม่ หลังจากที่ทั้งหมดที่ถูกต้อง นี่คือสิ่งที่ทําให้ความก้าวหน้าล่าสุดในการเรียนรู้เครื่องเป็นไปได้ data collection ฐานข้อมูล ต่อไปวิธีการที่ ผ่านระบบ? คุณมีสตรีมที่เชื่อถือได้ / ETL ? คุณจัดเก็บและง่ายต่อการเข้าถึงและวิเคราะห์ได้อย่างไร กล่าวว่า (ประมาณสิบปีที่ผ่านมา) การไหลของข้อมูลที่เชื่อถือได้เป็นกุญแจสําคัญในการทําอะไรกับข้อมูล data flow เจย์ Kreps [ด้านนอก: ฉันกําลังมองหาคําพูดที่แน่นอนและพบในของเขา ' ฉันรักโลโก้ ’ สถาปัตยกรรม จากนั้นฉันสังเกตเห็นว่าในบรรทัดหนึ่งข้างต้นเขากําลังทําการเปรียบเทียบความต้องการของ Maslow อย่างแม่นยํานี้ด้วย ‘มันคุ้มค่าที่จะสังเกตเห็นสิ่งที่ชัดเจน’ ที่ถูกโยนเข้าไปในที่นั่นเพื่อให้มีขนาดที่ดี (ขอบคุณ Jay!). การพูดคุยเกี่ยวกับงานที่เกี่ยวข้องฉันยังทํางานในภายหลัง (h / t Daniel Tunkelang) ใน Hilary Mason และ Chris Wiggins ที่ยอดเยี่ยม โพสต์ เกี่ยวกับสิ่งที่นักวิทยาศาสตร์ข้อมูลทํา. สัปดาห์ที่ผ่านมา, Sean Taylor การเปิดเผย ความต้องการของปิรามิดวิทยาศาสตร์ข้อมูลของเขาเอง (เรียกว่า Unconjoined Triangle of Data Science) ซึ่งแน่นอนก็แตกต่างกันอย่างสมบูรณ์ บางทีเราควรเริ่มต้น tumblr.] ฉันรักโลโก้ โพสต์ การเปิดเผย เมื่อข้อมูลสามารถเข้าถึงได้เท่านั้น นี่คือเมื่อคุณค้นพบว่าคุณพลาดข้อมูลจํานวนมากเซ็นเซอร์ของคุณไม่น่าเชื่อถือการเปลี่ยนแปลงรุ่นหมายความว่าเหตุการณ์ของคุณถูกลดลงคุณตีความข้อผิดพลาดของธง - และคุณกลับไปเพื่อให้แน่ใจว่าฐานของปิรามิดมีความแข็งแกร่ง explore and transform เมื่อคุณสามารถสํารวจและทําความสะอาดข้อมูลได้อย่างน่าเชื่อถือคุณสามารถเริ่มสร้างสิ่งที่คิดว่า BI หรือ : กําหนดเมตริกเพื่อติดตามฤดูกาลและความไวของพวกเขาต่อปัจจัยต่างๆ บางทีทําการแบ่งส่วนผู้ใช้อย่างสม่ําเสมอและดูว่ามีอะไรออกมา อย่างไรก็ตามเนื่องจากเป้าหมายของคุณคือ AI คุณกําลังสร้างสิ่งที่คุณจะคิดในภายหลังว่าเป็น ในขั้นตอนนี้คุณยังรู้สิ่งที่คุณต้องการคาดการณ์หรือเรียนรู้และคุณสามารถเริ่มต้นการเตรียมการของคุณ โดยการสร้างฉลากทั้งโดยอัตโนมัติ (ลูกค้าที่โกงหรือไม่?) หรือด้วยมนุษย์ในวงจร analytics features training data นี่คือเมื่อคุณพบว่าคุณน่าตื่นเต้นและน่าทึ่งที่สุด - แต่ก็เป็นหัวข้อของโพสต์ Medium อื่น ๆ data stories OK ฉันสามารถนับได้ ตอนนี้อะไร? เรามีข้อมูลการฝึกอบรม - แน่นอนตอนนี้เราสามารถทําการเรียนรู้เครื่องได้หรือไม่ บางทีถ้าคุณพยายามคาดการณ์ churn ในร่ม ไม่ถ้าผลลัพธ์จะตรงกับลูกค้า เราต้องมีการทดสอบ A / B (แม้ว่าจะเป็นต้นฉบับ) หรือ กรอบที่มีอยู่เพื่อให้เราสามารถใช้ขั้นตอนเพื่อหลีกเลี่ยงภัยพิบัติและได้รับการประเมินผลกระทบของการเปลี่ยนแปลงก่อนที่จะส่งผลกระทบต่อทุกคน นี่เป็นเวลาที่เหมาะสมที่จะวางคํานวณอย่างมาก ในสถานที่ (สําหรับระบบการแนะนํานี้จะเป็นเช่น ‘ที่นิยมมากที่สุด’ จากนั้น ‘ที่นิยมมากที่สุดสําหรับกลุ่มผู้ใช้ของคุณ’ – “สเตอริโอไทด์ก่อนการปรับแต่งส่วนบุคคล” ที่น่าเบื่อ แต่มีประสิทธิภาพมาก) experimentation simple baseline Heuristics ง่ายน่าแปลกใจยากที่จะเอาชนะและพวกเขาจะช่วยให้คุณสามารถ debug ระบบ End-to-End โดยไม่ต้องกล่องดํา ML ที่น่ากลัวด้วย hyperparameters ที่ hyperpertuned ในกลาง นี่คือเหตุผลที่อัลกอริทึมวิทยาศาสตร์ข้อมูลที่ชื่นชอบของฉันคือการแบ่ง ในขณะนี้คุณสามารถใช้อัลกอริทึม ML ที่เรียบง่ายมาก (เช่นการก้อนกลับทางโลจิสติกส์หรือใช่การแบ่ง) จากนั้นคิดถึงสัญญาณและคุณสมบัติใหม่ ๆ ที่อาจส่งผลต่อผลลัพธ์ของคุณ ข้อมูลสภาพอากาศและรายงานศุลกากรเป็น go-tos ของฉัน และไม่ - อย่างมีประสิทธิภาพเช่นนั้นการเรียนรู้ลึกไม่ได้ทําสิ่งนี้โดยอัตโนมัติ สําหรับคุณ การนําสัญญาณใหม่ ๆ (สร้างคุณลักษณะไม่ใช่วิศวกรรมคุณลักษณะ) เป็นสิ่งที่สามารถปรับปรุงประสิทธิภาพของคุณได้โดยการกระโดดและขีด จํากัด มันคุ้มค่าที่จะใช้เวลาที่นี่แม้ว่านักวิทยาศาสตร์ข้อมูลเรากําลังกระตือรือร้นที่จะย้ายไปสู่ระดับต่อไปในปิรามิด นําที่ AI! คุณทําได้ คุณมีเครื่องมือ คุณ ETL ของคุณกําลังกระโดด ข้อมูลของคุณได้รับการจัดเรียงและทําความสะอาด คุณมีตารางการติดฉลากและคุณสมบัติที่ดี คุณกําลังวัดสิ่งที่เหมาะสม คุณสามารถทดลองทุกวัน คุณมีอัลกอริทึมขั้นพื้นฐานที่ได้รับการแก้ไขจากปลายไปปลายและกําลังทํางานในการผลิต - และคุณได้เปลี่ยนมันสิบครั้ง คุณพร้อมไปข้างหน้าและลองทุกอย่างล่าสุดและดีที่สุดที่นั่น - จากการกลิ้งของคุณเองไปใช้ บริษัท ที่เชี่ยวชาญในการเรียนรู้เครื่อง คุณอาจได้รับการปรับปรุงขนาดใหญ่ในการผลิตหรือคุณอาจไม่ได้ ในกรณีที่เลวร้ายที่สุดคุณเรียนรู้วิธีการใหม่พัฒนาความคิดเห็นและประสบการณ์ในมือกับพวกเขาและได้รับบอกลูกค้าและความพยายามของ AI ของคุณโดยไม่ต้องรู้สึกเหมือนคนหลอกลวง ในกรณีที่ดีที่สุดคุณทําให้ความแตกต่างอย่างมากต่อลูกค้าของคุณและ บริษัท ของคุณ - เรื่องราวความสําเร็จของการเรียนรู้เครื่องจริง รอ, อะไรเกี่ยวกับ MVPs, agile, lean และอื่น ๆ? เช่นเดียวกับเมื่อสร้าง MVP แบบดั้งเดิม (ผลิตภัณฑ์ที่มีประสิทธิภาพต่ําสุด) คุณเริ่มต้นด้วยส่วนแนวตั้งขนาดเล็กของผลิตภัณฑ์ของคุณและทําให้มันทํางานได้ดีจากปลายไปปลาย คุณสามารถสร้างปิรามิดแล้วเติบโตขึ้นในแนวนอน ตัวอย่างเช่นที่ Jawbone เราเริ่มต้นด้วยข้อมูลการนอนหลับและสร้างปิรามิด: เครื่องมือ, ETL, การทําความสะอาดและองค์กร, การจับยึดฉลากและคําจํากัดความหมาย, เมตริก (มีค่าเฉลี่ย # ของเวลาที่ผู้คนนอนหลับทุกคืนหรือไม่? อะไรคือการนอนหลับ? อะไรคือการนอนหลับ? ) การวิเคราะห์ส่วนข้าม และผลิตภัณฑ์ข้อมูลที่ขับเคลื่อนโดยการเรียนรู้ด้วยเครื่อง (การตรวจจับการนอนหลับอัตโนมัติ) นี่เป็นขั้นตอนแล้วอาหารสภาพอากาศการออกกําลังกายเครือข่ายสังคมและการสื่อสาร - หนึ่งในครั้งเดียว เราไม่ได้สร้างโครงสร้างพื้นฐานที่ครอบคลุมโดยไม่เคยทําให้ทํางานจากปลายไปปลาย The data science hierarchy of needs is not an excuse to build disconnected, over-engineered infrastructure for a year. เรื่องราวข้อมูล การขยายตัว การถามคําถามที่เหมาะสมและสร้างผลิตภัณฑ์ที่เหมาะสม นี่เป็นเพียงเกี่ยวกับวิธีที่คุณ ไม่ว่าคุณ (ด้วยเหตุผลทางจริยธรรมหรือจริยธรรม) could should ความสัญญาของเครื่องมือการเรียนรู้เครื่องจักร ‘ ’ รอ, อะไรเกี่ยวกับ Amazon API หรือ TensorFlow หรือห้องสมุดแหล่งที่เปิดอื่น ๆ? อะไรเกี่ยวกับ บริษัท ที่ขายเครื่องมือ ML หรือที่สกัดข้อมูลและคุณสมบัติโดยอัตโนมัติ? ทั้งหมดนี้เป็นที่น่าตื่นตาตื่นใจและมีประโยชน์มาก (บาง บริษัท ฯ ฯ ฯ ฯ ฯ ฯ ฯ ฯ ฯ ฯ ฯ ฯ ฯ ฯ ฯ ฯ ฯ ฯ ฯ ฯ ฯ ฯ ฯ ฯ ฯ ฯ ฯ ฯ ฯ ฯ ฯ ฯ ฯ ฯ ฯ ฯ ฯ ฯ ฯ ฯ ฯ ฯ ฯ ฯ ฯ ฯ ฯ ฯ ฯ ฯ ฯ ฯ ฯ ฯ ฯ ฯ ฯ ฯ ฯ ฯ ฯ ฯ ฯ ฯ ฯ