Өндөр хурдны технологийн тохиолдолд, AI нь ихэвчлэн Нөхцөл Нөхцөл Энэ нь зарим нь үнэ цэнэтэй, — гэхдээ салбарт анхааралтай байна. Stealth харьцуулалтын эх үүсвэрүүдээс fintech гигантүүдээс албан ёсны байгууллагад, екип нь ихэнх AI стратегтай ажиллаж байна. Энэ бүх зүйл нь нэг чухал, өндөр түвшинд асуултуудтай байдаг: Эдүүлбэр Үнэгүй Үнэгүй Зарим нь энэ нь "Бие бид хийх талаар илүү сайн байхын тулд AI болон машин суралцах хэрхэн ашиглах вэ?" "Бие бид хийх талаар илүү сайн байхын тулд AI болон машин суралцах хэрхэн ашиглах вэ?" Ихэнх тохиолдолд, компаниуд AI-ийн зориулалттай. Хэрэв та тэднийг ажиллуулж байгаа бол Зөвлөгөөний хамгийн бага үр дүнд, эсвэл Энэ нь тэдний соёлын төвтэй биш юм. Гэсэн хэдий ч ихэвчлэн үзэсгэлэн нь тэд найдвартай суралцах (ийг олж авахын тулд) найдвартай инфраструктурыг бий болгосон биш юм. алгоритм болон үйл ажиллагаа, маш бага . not Эхний Data Scientist Үйлчилгээний мэдээлэл Data шинжлэх ухааны машин суралцах Бүх мэдээллийн шинжлэх ухаан / АИ-ийн зөвлөгөөч, би энэ өгөгдлийг олон удаа дамжуулах ёстой, ялангуяа өнгөрсөн хоёр жилийн турш. . Та өөрийн салбарт ойролцоогоор энэ насанд хүрэгчдэд хөнгөн хавтан байх нь хэцүү байдаг, ялангуяа Хэрэв та энэ насанд хүрэгчдэд хуваалцаж байгаа бол. Холбоо барих Энд найдвартай хэлбэлгээ нь найдвартай: Think of AI as the top of a Нууцлалын пирамид . Yes, self-actualization (AI) is great, but you first need food, water and shelter (data literacy, collection and infrastructure). Нууцлалын пирамид Эхний хэрэгцээ: Та тооцож чадна уу? Бидний пирамидын дор . Та ямар нэгэн өгөгдөл хэрэгтэй бөгөөд юу боломжтой вэ? Хэрэв энэ нь хэрэглэгчдэд зориулсан бүтээгдэхүүний юм бол та бүх чухал хэрэглэгчдийн харилцаа холбоог бүртгүүлэх вэ? Хэрэв энэ нь сенсор юм бол ямар нэгэн өгөгдөл дамжуулан идэвхждэг вэ? Хэрэв энэ нь хэзээ ч оруулнагүй харилцаа холбоог бүртгүүлэх хялбар вэ? Энэ нь машин суралцах хамгийн сүүлийн үеийн дэвшилтэт боломжийг олгодог. data collection Бүтээгдэхүүн Дараа нь, энэ нь хэрхэн систем дамжуулан? Та найдвартай дамжуулан / ETL байна уу? Хэрэв та үүнийг хадгалах вэ, та үүнийг хандах, анализ хийх хялбар вэ? Өнгөрсөн долоо хоногийн турш (зөвхөн) тогтвортой өгөгдлийн дамжуулалт нь өгөгдлийн талаар ямар ч зүйл хийх нь чухал юм гэж хэлсэн байна. data flow Дэйв Kreps [Бие: Би зөв цитат хайж байсан бөгөөд энэ нь түүний дээр олж авсан байна. ' Ямар ч байтугай Дараа нь би мэдэгдсэн, нэг параграф дээр, Тэрээр Маслоу-ийн хэрэгцээний харьцуулалттай харьцуулахад энэ нь тавтай морилно уу гэж үзэж байна, "Энэ нь явж байна гэж нэрлэдэг" сайн хэмжээгээр (Дэй шүршүүлдэг!). Хамгийн сүүлийн үеийн үйл явдлын талаар хэлсэн, Би бас (h / t Daniel Tunkelang) Хиллари Мейсон болон Крис Wiggins-ийн маш сайн Эдүүлбэр мэдээлэл шинжлэх ухааны талаархи талаархи. Days ago, Шон Тейлор Үнэлгээ өөрийн мэдээлэл шинжлэх ухааны нунтагтай пирамид (ироник нь Unconjoined Triangle of Data Science гэж нэрлэдэг) Энэ нь, байнга, бүрэн өөр байдаг. Та нар tumblr эхлэх ёстой.] Ямар ч байтугай Эдүүлбэр Үнэлгээ Бүх өгөгдлийг хангахын тулд зөвхөн Энэ нь алдартай "Data Cleaning", өгөгдлийн шинжлэх ухааны хязгаарлагдмал хуудсууд юм. Энэ нь та өгөгдлийн багц олох үед, таны сенсор нь найдвартай биш юм, хувилбар өөрчлөлтийг хэлсэн таны үйл явдлыг бууруулж байна, та флагыг хязгаарласан байна - болон та пирамидын бааз тогтвортой байх ёстой. explore and transform Хэрэв та өгөгдлийг найдвартай хайж, цэвэрлэх боломжтой бол BI эсвэл BI гэж нэрлэдэг зүйлийг үүсгэх болно. : харахын тулд метрикуудыг тодорхойлох, тэдний цаг хугацаа, янз бүрийн факторуудтай мэдрэгчдэд мэдрэгчдэд. Морилно уу зарим хэрэглэгчийн сегментацийг хийх, ямар ч зүйлийг явах уу. Гэсэн хэдий ч, таны зорилго нь AI юм. Машины суралцах загвард ашиглахын тулд. Энэ этапед, та мөн мэднэ үү, та мэдэж хүсэж байгаа зүйлийг, эсвэл суралцах, та өөрийн суралцах эхлэх болно бүтэц үүсгэхийн тулд, автоматаар (ямар ч хэрэглэгчдэд зориулсан?) эсвэл гурав дахь хүнтэй. analytics features training data Энэ нь бас та өөрийн хамгийн гайхамшигтай, найдвартай олох үед юм — гэхдээ энэ нь бусад Medium Post-ийн зүйл юм. data stories OK, би мэдэж байна. Одоо юу вэ? Бид сургалтын өгөгдөл байна — аюулгүй, одоо бид машин суралцаж чадна уу? Хэрэв та интернетийн чанарыг урьдчилан сэргийлэхыг хүсэж байгаа бол; ямар ч, үр дүнг хэрэглэгчдэд зориулсан байх болно бол. Бид (хэдийгээр алдартай) A / B тест хийх хэрэгтэй Үйлчлүүлэгчид тавтай морилно уу, тавтай морилно уу хэрэглэгчийн сегментанд хамгийн алдартай (ормоны системийн хувьд, энэ нь жишээ нь "төрөгчийн хамгийн алдартай", дараа нь "төрөгчийн сегментанд хамгийн алдартай" - маш алдартай боловч үр дүнтэй "информацийн өмнө стереотип" юм). experimentation simple baseline Энгийн heuristics нь гайхамшигтай харьцуулахад хэцүү байдаг, тэд танд системийн эцэст-аас эцэст буцаж боломжийг олгоно, хооронд hypertuned hyperparameters нь загастай ML чорны хайрцаггүй. Энэ нь миний дуртай өгөгдлийн шинжлэх ухааны алгоритм нь хуваалцсан юм. Эдгээр үед та маш хялбар ML алгоритмуудыг (хэдийгээр логистик регресси, эсвэл да, хуваалц), дараа нь таны үр дүнд нөлөөлж буй шинэ сигналууд, шинж чанарыг мэдрэхийг хүсч болно. цаг агаарын & чингэлтийн өгөгдөл нь миний готос юм. Үнэндээ биш - энэ нь маш хүчтэй боловч гүнзгий суралцах нь автоматаар танд энэ нь хийж чадахгүй. Шинэ сигналууд (функцийг үүсгэх, шинж чанарын инженерийн биш) бий болгох нь шинж чанарыг сайжруулдаг. Энэ нь дансны шинжлэх ухааны хувьд бид пирамид дахь дараагийн түвшинд дамжуулах талаар гайхамшигтай юм. Энэ нь AI! Та хийж байна. Та инструментийн байна. Таны ETL хумбар байна. Таны өгөгдөл зохион байгуулагдсан & очиж байна. Та dashboards, label болон сайн шинж чанарыг байна. Та зөв зүйлсийг хэмжих байна. Та өдөр тутмын туршиж болно. Та эцэст нь эцэст-аас эцэст хуваалцсан ба үйлдвэрлэлд ажиллаж байгаа эхний алгоритмыг байна. Та хоёр удаа өөрчилж байна. Та тохиромжтой байна. Дараа нь бүх хамгийн сүүлийн үеийн, хамгийн шилдэг зүйлсийг туршиж, машин суралцах чиглэлээр мэргэшсэн компаниудыг ашиглах нь. Та үйлдвэрлэлд маш их сайжруулах болно, эсвэл та биш байж болох юм. Хамгийн алдартай тохиолдолд, та шинэ арга замыг суралцаж, тэдгээр нь дуудлага, практик туршлага бий болгох, таны хэрэглэгчдийн Чөлөөт, MVPs, Agile, Lean болон бусад талаар юу вэ? Түүний пирамид бий болгохын тулд, дараа нь хоризонталд өгдөг. Жишээлбэл, Jawbone-д бид усны өгөгдлийг эхлэх, түүний пирамид бий болгохын тулд: Instrumentation, ETL, Clean & Organization, label capturing & definitions, метрик (ямар ч цаг хүмүүст өдөр тутмын сонны талаар юу вэ? Шөнийн талаар юу вэ? Шөнийн талаар юу вэ?) машин суралцах дамжуулалттай өгөгдлийн бүтээгдэхүүн (автомат засны мэдрэгч). Бид Энэ нь шатанд, дараа нь хоол хүнс, цаг хугацаа, туршилт, нийгмийн сүлжээ & харилцаа холбоо - нэг удаа. Бид ямар ч хэзээ ч энэ нь эцэст нь үйл ажиллагаа явуулахгүйгээр бүх тусламжтай инфраструктуру үүсгүүлдэггүй. The data science hierarchy of needs is not an excuse to build disconnected, over-engineered infrastructure for a year. Бүтээгдэхүүн Өнгөрсөн зөв асуултууд хийх, зөв бүтээгдэхүүн бий болгох Энэ нь зүгээр л та Хэрэв та (прагматик эсвэл нэрийн шалтгааны хувьд). could should машин суралцах хэрэгсэл ‘ ’ Цааш, Amazon API, TensorFlow эсвэл бусад нээлттэй эх сурвалж талаар юу вэ? ML хэрэгсэл борлуулах компаниуд, эсвэл автоматаар мэдлэг, шинж чанарыг олж авах вэ? Бүх энэ нь гайхамшигтай, маш ашигтай юм. (Хөгжлийн зарим компаниуд таны бүх пирамидуудыг өөрчлөн бий болгохын тулд тэд тэдний ажлын үзүүлэх боломжтой. Тэд нь эрэгтэй юм.) Гэсэн хэдий ч, одоогийн AI-ийн шивээсний хүчтэй нөлөө дор хүмүүсийн өгөгдлийг холбохыг туршиж байна, энэ нь формат, хэлбэрийн өөрчилж, энэ нь хэзээ ч мэдэгддэг бөгөөд энэ нь хэлбэрийн хэлбэрийн хэлбэрийн хэлбэрийн хэлбэрийн хэлбэрийн хэлбэрийн хэлбэрийн хэлбэрийн хэлбэрийн хэлбэрийн хэлбэрийн хэлбэрийн хэлбэрийн хэлбэрийн хэлбэрийн хэлбэрийн хэлбэрийн хэлбэрийн хэлбэрийн хэлбэрийн хэлбэ