جیسا کہ عام طور پر تیزی سے ترقی یافتہ ٹیکنالوجیوں کے ساتھ ہوتا ہے، AI نے بڑے پیمانے پر حوصلہ افزائی کی ہے. ، اور کچھ اس کے قابل ہیں، — لیکن صنعت پر توجہ مرکوز کر رہی ہے. stealth ہارڈ ویئر اسٹورپ سے fintech جواؤں سے عوامی اداروں تک، ٹیمیں ان کے AI کی حکمت عملی پر گرمی سے کام کر رہی ہیں. یہ سب ایک اہم، ہائی سٹاک کے سوال پر آتا ہے: فومو فور فحش اس میں سے کچھ نہیں ‘How do we use AI and machine learning to get better at what we do?’ ’ہم کس طرح AI اور مشین سیکھنے کا استعمال کرتے ہیں جو ہم کرتے ہیں میں بہتر بننے کے لئے؟‘ زیادہ سے زیادہ اکثر، کمپنیوں آپ کے لئے تیار ہیں؟ شاید وہ ان کی ملازمت کرتے ہیں کم از کم ستاروں کے نتائج، یا شاید لیکن سب سے زیادہ عام منظر یہ ہے کہ وہ ابھی تک سب سے زیادہ بنیادی فنڈز کو لاگو کرنے (اور فوائد کا لطف اٹھانے کے لئے) ان کی انٹیلی جنس تعمیر نہیں کر رہے ہیں. آپریٹنگ اور آپریٹنگ، بہت کم . not پہلا ڈیٹا سائنسدان ڈیٹا لائبریری ڈیٹا سائنس مشین سیکھنے ایک ڈیٹا سائنس / AI مشیر کے طور پر، مجھے اس پیغام کو کئی بار پیش کرنا پڑا، خاص طور پر گزشتہ دو سالوں میں. یہ آپ کے اپنے میدان کے ارد گرد اس تمام حوصلہ افزائی کے درمیان ایک ہلکا کپڑا ہونا مشکل ہے، خاص طور پر اگر آپ اس حوصلہ افزائی کا اشتراک کرتے ہیں. اور آپ کمپنیوں کو کیسے بتاتے ہیں کہ وہ AI کے لئے تیار نہیں ہیں جب تک کہ وہ (یا) ایتالیسٹ نہیں ہوسکتا - ایک خود کار طریقے سے ڈائریکٹر؟ متفق یہاں ایک وضاحت ہے جو سب سے زیادہ ردعمل: Think of AI as the top of a ضروریات کی پیرامیڈ . Yes, self-actualization (AI) is great, but you first need food, water and shelter (data literacy, collection and infrastructure). ضروریات کی پیرامیڈ بنیادی ضروریات: کیا آپ شمار کر سکتے ہیں؟ پیرامیڈ کے نیچے ہم ہیں آپ کو کیا ڈیٹا کی ضرورت ہے، اور کیا دستیاب ہے؟ اگر یہ ایک صارف کی طرف متوجہ مصنوعات ہے تو، آپ تمام متعلقہ صارف کے تعاملات کو لاگ ان کر رہے ہیں؟ اگر یہ ایک سینسر ہے تو، کیا ڈیٹا کے ذریعے آتا ہے اور کس طرح؟ ایک تعامل کو لاگ ان کرنے کے لئے کتنا آسان ہے جو ابھی تک آلہ نہیں ہے؟ آخر میں، صحیح یہ ہے جو مشین سیکھنے میں حالیہ ترقیوں کو ممکن بناتا ہے. data collection ڈیٹا اس کے بعد، یہ کس طرح نظام کے ذریعے؟ کیا آپ کے پاس قابل اعتماد سٹریمز / ETL ہیں؟ آپ اسے کہاں ذخیرہ کرتے ہیں، اور یہ تک رسائی اور تجزیہ کرنے کے لئے کتنا آسان ہے؟ تقریبا ایک دہائی کے لئے کہا گیا ہے کہ قابل اعتماد ڈیٹا فلائٹ ڈیٹا کے ساتھ کچھ بھی کرنے کے لئے اہم ہے. data flow جائی Kreps [Aside: میں نے ایک درست شرح کی تلاش کی اور اسے اس میں پایا ' مجھے لوڈز پسند ہیں میں نے پھر محسوس کیا کہ، ایک پیراگراف کے اوپر، وہ اس بالکل ماسلو کی ضروریات کی توازن کا موازنہ کر رہا ہے، ایک "یہ واضح طور پر ذکر کرنے کے قابل ہے" اچھی پیمائش کے لئے وہاں ڈال دیا گیا ہے (جائی کا شکریہ!). متعلقہ کام کے بارے میں بات کرتے ہوئے، میں نے بھی بعد میں ہیلری میسن اور کرس ویگنگز کے بہترین میں چلایا ہے. پوسٹ کچھ دن پہلے، ایک ڈیٹا سائنسدان کیا کرتا ہے، شون ٹائلر بے وقوف اس کی اپنی ضروریات کی ڈیٹا سائنس پیرامیڈ (انٹرویوک طور پر ڈیٹا سائنس کے Unconjoined Triangle کا نام دیا جاتا ہے) جو، بالکل، مکمل طور پر مختلف ہے. مجھے لوڈز پسند ہیں پوسٹ بے وقوف صرف جب ڈیٹا دستیاب ہے، آپ کر سکتے ہیں یہ نامعلوم "data cleaning" شامل ہے، اعداد و شمار کی سائنس کی ایک کم درجہ بندی کی طرف سے جس میں ایک اور پوسٹ کا موضوع ہو جائے گا. یہ ہے جب آپ کو پتہ چلتا ہے کہ آپ کو ڈیٹا کی ایک کاسٹ کی کمی ہے، آپ کے سینسر غیر قابل اعتماد ہیں، ایک ورژن میں تبدیلی کا مطلب ہے کہ آپ کے واقعات کو چھوڑا جاتا ہے، آپ ایک پرچم کو غلط فہمی کر رہے ہیں - اور آپ کو پیرامیڈ کی بنیاد کو یقینی بنانے کے لئے واپس جا رہے ہیں. explore and transform جب آپ ڈیٹا کو قابل اعتماد طریقے سے تلاش اور صاف کرسکتے ہیں، تو آپ اس بات کی تعمیر شروع کرسکتے ہیں جو روایتی طور پر BI یا BI کے طور پر سمجھا جاتا ہے. : ٹریک کرنے کے لئے میٹرک کا تعین کریں، ان کی موسمیت اور مختلف عوامل کے لئے حساسیت. شاید کچھ کثرت سے صارفین کے حصوں کو انجام دیں اور دیکھیں کہ اگر کچھ باہر نکلتا ہے. تاہم، کیونکہ آپ کا مقصد AI ہے، آپ اب اس کی تعمیر کر رہے ہیں جو آپ بعد میں سوچیں گے. اس مرحلے میں، آپ یہ بھی جانتے ہیں کہ آپ کیا توقع کرنا چاہتے ہیں یا سیکھنا چاہتے ہیں، اور آپ اپنے آپ کو تیار کرنا شروع کر سکتے ہیں. ٹیبلز پیدا کرتے ہوئے، یا خود کار طریقے سے (کیا گاہکوں نے چمک دیا؟) یا انسانوں کے ساتھ چمک میں. analytics features training data یہ بھی ہے جب آپ اپنے سب سے زیادہ دلچسپ اور حیرت انگیز محسوس کرتے ہیں - لیکن یہ بھی ایک اور Medium پوسٹ کا موضوع ہے. data stories میں شمار کر سکتا ہوں، اب کیا؟ ہمارے پاس تربیت کے اعداد و شمار ہیں - یقینی طور پر، اب ہم مشین سیکھنے کر سکتے ہیں؟ شاید، اگر آپ اندرونی طور پر churn پیش کرنے کی کوشش کر رہے ہیں؛ نہیں، اگر نتیجہ گاہک کے سامنے ہو جائے گا. فریم ورک موجود ہے، لہذا ہم تباہی سے بچنے کے لئے بڑھتی ہوئی طور پر انسٹال کرسکتے ہیں اور تبدیلیوں کے اثرات کو متاثر کرنے سے پہلے براہ راست اندازہ حاصل کرسکتے ہیں. موجودہ طور پر (تصویریں کے نظام کے لئے، یہ مثال کے طور پر "اپنے صارفین کے حصے کے لئے سب سے زیادہ مقبول" ہو جائے گا - سب سے زیادہ پریشان لیکن مؤثر "تصویریں شخصیت سے پہلے"). experimentation simple baseline سادہ heuristics کو شکست دینے کے لئے حیرت انگیز طور پر مشکل ہیں، اور وہ آپ کو اسسٹم کے اختتام سے اختتام تک ڈیبگ کرنے کی اجازت دیں گے، وسط میں hypertuned ہیرپرامیٹرز کے ساتھ خفیہ ML سیاہ باکس کے بغیر. اس وقت، آپ ایک بہت سادہ ML الگورتھم (جیسا کہ لوجیسٹک رجسٹریشن یا، جی ہاں، تقسیم) کا استعمال کرسکتے ہیں، پھر نئے سگنل اور خصوصیات کے بارے میں سوچ سکتے ہیں جو آپ کے نتائج پر اثر انداز کرسکتے ہیں. موسم و شمار کے اعداد و شمار میرے گوتوس ہیں. اور نہیں - جیسا کہ یہ طاقتور ہے، گہری سیکھنا آپ کے لئے خود کار طریقے سے ایسا نہیں کرتا. نئے سگنل (فائٹ تخلیق، فائدہ انجینئرنگ نہیں) میں داخل کرنا آپ کی کارکردگی کو ہک اور حد تک بہتر بنا سکتا ہے. یہاں کچھ وقت خرچ کرنے کے قابل ہے، یہاں تک کہ اگر ڈیٹا سائنسدانوں کے طور پر ہم پیرامیڈ میں اگلے سطح پر منتقل کرنے کے بارے میں دلچسپی رکھتے ہیں. اُس کے پاس آؤ! آپ نے یہ کیا ہے. آپ کے آلات ہیں. آپ کے ETL ہومنگ ہے. آپ کے اعداد و شمار منظم اور صاف ہیں. آپ کے پاس ڈسپلے، لیبلز اور اچھے خصوصیات ہیں. آپ صحیح چیزوں کی پیمائش کر رہے ہیں. آپ روزانہ تجربات کر سکتے ہیں. آپ کے پاس ایک بنیادی الگورتھم ہے جو ختم کرنے کے لئے ختم کیا گیا ہے اور پیداوار میں چل رہا ہے - اور آپ نے اسے دس بار تبدیل کر دیا ہے. آپ تیار ہیں. آگے بڑھیں اور وہاں سب سے تازہ ترین اور سب سے بہترین کوشش کریں - اپنے آپ کو رول کرنے سے کمپنیاں استعمال کرنے کے لئے جو مشین سیکھنے میں مہارت رکھتے ہیں. آپ پیداوار میں کچھ بڑی بہتریاں حاصل کرسکتے ہیں، یا آپ نہیں کرسکتے ہیں. بدترین صورت میں، آپ نئے طریقوں کو سیکھتے ہیں، ان کے ساتھ خیالات اور عملی تجرب انتظار کریں، MVPs، چیلنج، لیین اور اس کے تمام کے بارے میں کیا ہے؟ مثال کے طور پر، Jawbone میں، ہم خواب کے اعداد و شمار سے شروع کرتے ہیں اور اس کی پائیدار بناتے ہیں: آلات، ETL، صفائی اور تنظیم، لیبل کی گرفتاری اور تعریفیں، میٹرک (کیا ہر رات لوگوں کی گھنٹے کی اوسط ہے؟ نیند کے بارے میں کیا ہے؟ کیا ایک نیند ہے؟)، cross-segment تجزیہ تمام راستے تک اور مشین سیکھنے کی طرف سے ڈرائیونگ ڈیٹا کی مصنوعات (آٹو سونے کی تشخیص). ہم بعد میں اس مرحلے میں، پھر کھانا، موسم، ورزش، سماجی نیٹ ورک اور مواصلات - ایک ایک وقت میں. The data science hierarchy of needs is not an excuse to build disconnected, over-engineered infrastructure for a year. ڈیٹا کی کہانی توسیع صحیح سوالات پوچھیں اور صحیح مصنوعات بنائیں یہ صرف آپ کے بارے میں ہے کہ کس طرح نہیں ہے اگر آپ (جس کی وجہ سے اخلاقی یا اخلاقی طور پر) could should مشین سیکھنے کے آلات کا وعدہ ‘ ’ انتظار کریں، اس ایمیزون API یا TensorFlow یا اس دوسرے کھلے ذریعہ لائبریری کے بارے میں کیا؟ کمپنیوں کے بارے میں کیا ہے جو ML ٹولز فروخت کر رہے ہیں، یا جو خود کار طریقے سے نقطہ نظر اور خصوصیات نکالتے ہیں؟ یہ سب حیرت انگیز اور بہت مفید ہے. (کچھ کمپنیوں کو آپ کی پوری پیرامیڈ کو اپنی مرضی کے مطابق تعمیر کرنے کے لئے ختم ہو جاتے ہیں تاکہ وہ اپنے کام کو ظاہر کرسکتے ہیں. وہ ہیرو ہیں.) تاہم، موجودہ AI ہائپ کے مضبوط اثر کے تحت، لوگ اعداد و شمار کو پلگ ان کرنے کی کوشش کرتے ہیں جو غریب اور خالییاں ہیں، جو سالوں تک پھیلتے ہیں جبکہ فارمیٹ اور معنی میں تبدیلی کرتے ہیں، یہ ابھی تک نہیں سمجھا جاتا ہے، یہ اس طرح کے طریقوں میں تشکیل دیا گیا ہے کہ کوئی معنی نہیں ہے، اور ان آلات کو جادو سے اس سے نمٹنے کے لئے توقع کرتے ہیں. اور شاید ایک دن جلد ہی ایسا ہو جائے گا؛ میں دیکھتا ہوں اور اس سمت میں کوششوں کو حوصلہ افزائی کرتا ہوں.