როგორც ჩვეულებრივ, სწრაფად მოწინავე ტექნოლოგია, AI ეფუძნება დიდი და და რა თქმა უნდა, ზოგიერთი ის ღირს, — მაგრამ ინდუსტრია ეძებს. საწინააღმდეგო მოწყობილობების საწყობიდან ფინტოტექნოლოგიური ჯიბები, საზოგადოებრივი ინსტიტუტები, გუნდი ფერმაზოდ მუშაობს მათი AI სტრატეგიის შესახებ. ეს ყველაფერი მოიცავს ერთი მნიშვნელოვანი, მაღალი სტატისტიკის კითხვა: FOMO ფურცელი Feeds ზოგიერთი არ არის როგორ გამოიყენოთ AI და მანქანური სასწავლო, რათა გააუმჯობესოს ის, რაც ჩვენ გავაკეთებთ? როგორ გამოიყენოთ AI და მანქანური სასწავლო, რათა გააუმჯობესოს ის, რაც ჩვენ გავაკეთებთ? უფრო ხშირად, ვიდრე არ არის, კომპანიები მზადდება AI. შეიძლება ისინი გაქირავებული მათი მინიმუმ სტრატეული შედეგები, ან შეიძლება მაგრამ ყველაზე პოპულარული სტრატეგია არის, რომ ისინი არ აშენებენ ინფრასტრუქტურის, რათა განახლდეს (და მიიღოს უპირატესობები) ყველაზე ძირითადი algorithms და ოპერაციები, უფრო ნაკლებად . not პირველი მონაცემთა მეცნიერება მონაცემთა ლიტერატურა მონაცემთა მეცნიერება მანქანა Learning როგორც მონაცემთა მეცნიერება / AI მრჩეველი, მე უნდა გაგზავნოთ ეს შეტყობინება უამრავი დროს, განსაკუთრებით ბოლო ორი წლის განმავლობაში. სხვა ეს არის რთული იყოს მშრალი კაბა ყველა ამ სიამოვნება გარშემო თქვენი საკუთარი ფართობი, განსაკუთრებით თუ თქვენ გაქვთ, რომ სიამოვნება. და როგორ გვიჩვენებთ კომპანიებს, რომ ისინი არ არის მზად AI გარეშე ხმა (ან იყოს) elitist - თვითმართველობის მისაღები? კონტაქტი აქ არის შეტყობინება, რომელიც ყველაზე იღებს: Think of AI as the top of a მოთხოვნების pyramid . Yes, self-actualization (AI) is great, but you first need food, water and shelter (data literacy, collection and infrastructure). მოთხოვნების pyramid ძირითადი მოთხოვნები: შეგიძლიათ შეიტანოთ? ქვემოთ პრიამდი, რომელიც ჩვენ გვაქვს რა მონაცემები გჭირდებათ, და რა ხელმისაწვდომია? თუ ეს არის მომხმარებლის მხარდაჭერა პროდუქტი, თქვენ დარეგისტრირებთ ყველა დაკავშირებული მომხმარებლის ინტერფეისი? თუ ეს არის სენსორი, რა მონაცემები მოდის და როგორ? თუ ეს არის მარტივი დარეგისტრირება ინტერფეისი, რომელიც არ არის ამჟამად ინსტრუმენტები? ეს არის ის, რაც უახლესი მოწინააღმდეგები მანქანული სასწავლო შესაძლებელია. data collection მონაცემები შემდეგი, თუ როგორ უნდა თუ თქვენ გაქვთ საიმედო სინათები / ETL ? სადაც თქვენ შენახვა, და თუ როგორ ადვილია ხელმისაწვდომობა და ანალიზი? იმიტომ, რომ (დაახლოებით 10 წლის განმავლობაში) საიმედო მონაცემთა გადაზიდვა არის ძირითადი რამ, რაც თქვენ გააკეთებთ მონაცემებით. data flow Jay კრეპს [შვეობით: მე ეძებდი ზუსტი ციტირებას და ის იპოვდა მისი’ მე მიყვარს ლიგები მე შემდეგ შეამოწმოთ, რომ, ერთი პარამეტრი მეტი, ის გააკეთებს ეს ზუსტად Maslow- ის მოთხოვნების იერანგიის შედარებით, ერთად "მე ღირს აღინიშნოს, რომ ჩვეულებრივ" გაქირავებული კარგი ზომისთვის (შედლევა Jay!). საუბარი დაკავშირებული მუშაობის შესახებ, მე ასევე later run (h / t Daniel Tunkelang) in Hilary Mason და Chris Wiggins's excellent პოსტი რა არის მონაცემთა მეცნიერება და რა არის მონაცემთა მეცნიერება - Sean Taylor გამოქვეყნდა მისი საკუთარი მონაცემთა მეცნიერების მოთხოვნების ფარმაცევტული (იროანტიკურად გამოქვეყნდა Unconjoined Triangle of Data Science) რომელიც, რა თქმა უნდა, მთლიანად განსხვავდება. ალბათ ჩვენ უნდა დაიწყოს tumblr.] მე მიყვარს ლიგები პოსტი გამოქვეყნდა მხოლოდ როდესაც მონაცემები ხელმისაწვდომია, შეგიძლიათ ეს მოიცავს ცნობილი "data cleaning", ქვემოთხურული მხარეს მონაცემთა მეცნიერება, რომელიც იქნება თემა სხვა პოსტი. ეს არის, როდესაც თქვენ აღმოაჩინოთ, რომ თქვენ გაქვთ ფხვნილი მონაცემები, თქვენი სენსორები არ არის საიმედო, ვერსია ცვლილება იმას ნიშნავს, რომ თქვენი მოვლენები დატოვება, თქვენ არ განიხილება ფანჯარა - და თქვენ წავიდეთ, რათა უზრუნველყოს, რომ საფუძველზე pyramid არის ძლიერი. explore and transform როდესაც თქვენ შეგვიძლია საიმედო განიხილოთ და გაწმენდა მონაცემები, შეგიძლიათ დაიწყოს შექმნა, რაც ტრადიციურად ვფიქრობ, როგორც BI ან : განკუთვნილია მეტრიკები, რომ შეამოწმოთ, მათი სეზონური და სქესობრივი სხვადასხვა ფაქტორებს. შეიძლება გააკეთოთ ზოგიერთი მძიმე მომხმარებლის სექციონირება და ნახოთ, თუ არაფერი გამოჩნდა. თუმცა, რადგან თქვენი მიზანია AI, თქვენ ახლა აშენებთ, რაც თქვენ შემდეგ ვფიქრობთ, როგორც ამ ეტაპზე, თქვენ ასევე იცით, რა გსურთ დაინახოთ, და შეგიძლიათ დაიწყოს თქვენი მომზადება მიერ გენერირების label, ან ავტომატურად (არ კლიენტებს ჩრდილოეთ?) ან ადამიანები loop. analytics features training data ეს არის ასევე, როდესაც თქვენ იპოვებთ თქვენი ყველაზე საინტერესო და კონცენტრირებული - მაგრამ ეს არის ასევე სხვა Medium პოსტის თემა. data stories OK, მე შეგვიძლია შეიტანოთ. ახლა რა? ჩვენ გვაქვს სასწავლო მონაცემები – რა თქმა უნდა, ახლა ჩვენ შეგვიძლია გააკეთოთ მანქანული სასწავლო? ალბათ, თუ თქვენ ეძებთ ჩრდილოეთ ჩრდილოეთ; არა, თუ შედეგად იქნება მომხმარებლის მხარდაჭერა. ჩვენ უნდა გააკეთოთ (მაგონ primitive) A / B ტესტირება ან ჩვენ შეგვიძლია გააყენოთ ფართოდ, რათა თავიდან ავიცილოთ რისკები და მიიღოთ ზუსტი შეფასება ეფექტების ცვლილებები, სანამ ისინი ეფექტი ყველას. ეს არის ასევე სწორი დრო, რათა დააყენოთ ძალიან მდებარეობა (და რეკომენდიტორების სისტემები, ეს იქნება, მაგალითად, “მეტი პოპულარული”, შემდეგ “მეტი პოპულარული თქვენი მომხმარებლის სეგმში” - ძალიან უარყოფითი მაგრამ ეფექტური “stereotype before personalization”). experimentation simple baseline მარტივი heuristics არის შეუზღუდავი ძალიან რთული, და ისინი საშუალებას გაძლევთ debug სისტემის end-to-end გარეშე გონივრული ML black boxes ერთად hypertuned hyperparameters ცენტრში. ეს არის ასევე მიზეზი, რომ ჩემი სასიამოვნო მონაცემთა მეცნიერება ალგორტუსის არის დეპარტამენტის. ამ ეტაპზე, თქვენ შეგიძლიათ განაყენოთ ძალიან მარტივი ML ალგორტიმას (გალითად, ლოგიტიკური რეგორზიის ან, რა თქმა უნდა, გაზიანება), შემდეგ ვფიქრობ, ახალი სინათლის და ფუნქციონები, რომლებიც შეიძლება გავლენოთ თქვენი შედეგები. ამინდის და ნომერი მონაცემები არის ჩემი go-tos. და არა - როგორც ძლიერი, Deep Learning არ ავტომატურად გააკეთებს ეს თქვენთვის. ახალი სინათლის მიღება (ფუნქციონების შექმნა, არა ფუნქციონალური ინჟინერიზაცია) არის ის, რაც შეიძლება გააუმჯობესოს თქვენი შესრულება ღილაკებით და შეზღუდვები. ეს ღირს გაქვთ ზოგიერთი დრო აქ, მიუხედავად იმისა, რომ მონაცემები მეცნიერები ჩვენ ვცდილობთ, რომ დასაწყისში ა.შ. You made it. You’re instrumented. Your ETL is humming. Your data is organized & cleaned. You have dashboards, labels and good features. You’re measuring the right things. You can experiment daily. You have a baseline algorithm that’s debugged end-to-end and is running in production — and you’ve changed it a dozen times. You’re ready. Go ahead and try all the latest and greatest out there — from rolling your own to using companies that specialize in machine learning. You might get some big improvements in production, or you might not. Worst case, you learn new methods, develop opinions and hands-on experience with them, and get to tell your clients and your AI efforts without feeling like an impostor. საუკეთესო შემთხვევაში, თქვენ გააკეთებთ დიდი განსხვავება თქვენი მომხმარებელს, და თქვენი კომპანიას — Wait, რა არის MVPs, agile, lean და ყველა ეს? მაგალითად, Jawbone- ში, ჩვენ დაიწყოთ საწინააღმდეგო მონაცემებით და აშენდა მას: ინსტრუმენტები, ETL, სარეცხი და ორგანიზაცია, label capturing და დეტალები, მატრიკები (სამრავი საწინააღმდეგო საწინააღმდეგო საწინააღმდეგო საწინააღმდეგო საწინააღმდეგო საწინააღმდეგო საწინააღმდეგო საწინააღმდეგო საწინააღმდეგო საწინააღმდეგო საწინააღმდეგო საწინააღმდეგო საწინააღმდეგო საწინააღმდეგო საწინააღმდეგო საწინააღმდეგო საწინააღმდეგო საწინააღმდეგო საწინააღმდეგო საწინააღმდეგო საწინააღმდეგო საწინააღმდეგო საწინააღმდეგო საწინააღმდეგო საწინააღმდეგო საწინააღმდეგო საწინააღმდეგო და ავტომატური ცოდნა (automatic sleep detection) მონაცემთა პროდუქტები. ჩვენ შემდეგ ეს ეტაპზე, შემდეგ საკვები, ამინდი, workouts, სოციალური ქსელის და კომუნიკაციის – ერთი ერთხელ. ჩვენ არ აშენდა ყველაფერს ინფრასტრუქტურის გარეშე, რომ ეს მუშაობს end-to-end. The data science hierarchy of needs is not an excuse to build disconnected, over-engineered infrastructure for a year. მონაცემთა ისტორია გაფართოებული სწორი კითხვები და სწორი პროდუქტების შექმნა ეს არის მხოლოდ თუ როგორ თქვენ არ არის თუ თქვენ (სამოვნო და პრაქტიკული მიზეზები) could should Machine Learning ინსტრუმენტები ‘ ’ რა არის Amazon API, TensorFlow ან სხვა Open Source ბიბლიოთეკა? რა არის კომპანიები, რომლებიც ML ინსტრუმენტებს გაყიდვებენ, ან ავტომატურად მივიღებენ მიმოხილვა და თვისებები? ყველა ეს არის საოცარი და ძალიან სასარგებლო. (სოგიერთი კომპანიები დასრულდება მუდმივად მორგებულია თქვენი მთელი პრიამდს, ასე რომ ისინი შეუძლიათ შესთავაზოს მათი მუშაობა. ისინი არის Heroes.) თუმცა, ამჟამად AI hype- ის ძლიერი ეფექტურობის ქვეშ, ხალხი ცდილობენ მონაცემებს, რომლებიც მშრალია და შეშფოთებულია, რომელიც წლების განმავლობაში გაგრძელებს ფორმატში და მნიშვნელობაში, ეს ჯერ კიდევ არ ცოდნა, ეს არ არის სტრუქტურული გზა, და მოთხოვნებს, რომ ეს ინსტრუმენტები მექანიზმიურად გაქირავება. და ალბათ ერთ-ერთი დღის განმავლობაში ეს იქნება შემთხვევაში; მე ვხედავ და აპლუირებ ამ გზა. მას შემდეგ, ეს ღირს შექმნათ ძლიერი