と を強力にしているのは、まったく同じもの、つまりデータです。 GPT-3 Dalle 私たちの分野ではデータが非常に重要であり、私たちのモデルは非常に大量のデータを必要とします。これらの大規模なモデル (GPT の言語モデルまたは Dalle の画像モデル) はすべて同じことを必要とします。データが多すぎます。 データが多ければ多いほど、より良いものになります。そのため、特に実際のアプリケーションでは、これらのモデルをスケールアップする必要があります。 より大きなモデルは、データが高品質である場合にのみ、より大きなデータセットを使用して改善できます。 現実世界を表していないフィード画像は役に立たず、モデルの一般化能力をさらに悪化させます。ここで、データ中心の AI の 出番です... ビデオで詳細をご覧ください: 参考文献 ►記事全文を読む: ►データ中心の AI: ►弱い監督: ►プログラマティック ラベリング: ►データ中心の AI に関するリソースの精選されたリスト: ►シュノーケルの詳細: ://snorkel.ai/company/ ►モデル中心からデータ中心の AI へ - Andrew Ng: ►ソフトウェア 2.0: ►論文 1: Ratner, AJ, De Sa, CM, Wu, S., Selsam, D. and Ré, C., 2016. データ プログラミング: 大規模なトレーニング セットの迅速な作成。進歩 神経情報処理システム、29。 ►論文 2: Ratner, A., Bach, SH, Ehrenberg, H., Fries, J., Wu, S. レ、C.、2017年11月。 Snorkel: 弱いトレーニング データの迅速な作成 監督。 VLDB基金の議事録。国際的 Conference on Very Large Databases (Vol. 11、No. 3、p. 269)。 NIH パブリック アクセス。 ►論文 3: Ré, C. (2018).ソフトウェア 2.0 とシュノーケル: 手書きラベルを超えて データ。第 24 回 ACM SIGKDD 国際会議の議事録 知識の発見とデータ マイニング。 ►マイ ニュースレター (新しい AI アプリケーションについて毎週メールで説明します!): https://www.louisbouchard.ai/data-centric-ai/ https://snorkel.ai/data-centric-ai https://snorkel.ai/weak-supervision/ https://snorkel.ai/programmatic-labeling/ https://github.com/hazyresearch/data-centric-ai https https://youtu.be/06-AZXmwHjo https://hazyresearch.stanford.edu/blog/2020-02-28-software2 https://www.louisbouchard.ai/newsletter/ ビデオトランスクリプト 0:00 gpt3 とデリーを強力にしているのは 0:03 まったく同じもの data data は 0:06 私たちの分野では非常に重要であり、私たちのモデルは 0:08 非常に大量のデータを必要とするこれらの大規模モデル 0:11 gpt またはイメージの言語モデルのいずれか 0:13 デリーのモデルはすべて同じものを必要とします 0:15 もの 0:16 残念ながらデータが多すぎる 0:19 あなたが持っているデータはより良いものです。 0:21 特にこれらのモデルをスケールアップする必要があります 0:24 実世界のアプリケーション用に 0:26 モデルはより大きなデータセットを使用して 0:28 データが高い場合にのみ改善 0:30 ない高品質の給餌画像 0:32 現実の世界を表す 0:34 モデルの能力を使用し、さらに悪化させる 0:37 これを一般化すると、データ中心の場所です 0:39 AIの登場 データ中心のAIも 0:43 ソフトウェア 2.0 と呼ばれる 0:46 最適化するという派手な言い方 0:48 モデルの 0:50 モデル中心ではなくパフォーマンス 0:52 モデルの 0:54 もちろん、固定データセットのパラメーター 0:57 最高の結果を得るには、両方を行う必要があります 0:59 結果は可能ですが、データははるかに 1:02 このビデオの大きなプレーヤー 1:04 私がカバーするシュノーケルとのパートナーシップ 1:06 データ中心の AI とは何か、いくつか復習する 1:09 あなたがする分野での大きな進歩 1:11 なぜデータがそうであるかをすぐに理解する 1:13 機械学習で重要なのは 1:15 から引用するシュノーケルの使命 1:17 チームの下にリンクされているブログ投稿は、 1:19 多くの場合、新しいモデルの作成に時間を費やします 1:21 彼らの問題を理解する代わりに 1:23 とそのデータ表現をより深く 1:26 新しいモデルを書くのは美しい 1:28 混乱から身を隠すための避難所 1:30 本当の問題とこれを理解する 1:33 このビデオが目指しているのは、 1:36 データ中心の AI の目標は 1:38 データからの知識をエンコードする 1:40 データの最大化によるモデル 1:42 品質とモデルのパフォーマンスがすべて 1:45 2016 年にスタンフォード大学で論文を書き始めました 1:48 データプログラミングと呼ばれる大規模な作成 1:51 トレーニング セットをすばやく導入する 1:54 トレーニング データ セットのラベル付けのパラダイム 1:56 手動ではなくプログラムで 1:58 これは、AI に関してははるか昔のことでした。 2:01 あなたが最もよく知っているように年齢を研究してください 2:04 現在までのアプローチ 2:05 モデルがトレーニングするプロセスを学習する 2:08 データとラベルについて学び、 2:10 データが与えられたときにラベルを再現する 2:13 たとえば、モデルに多くのフィードを与えます 2:15 アヒルと猫の画像 2:17 それぞれのラベルを付けて、モデルに 2:20 写真に写っているものを見つけて使用する 2:23 モデルをトレーニングする逆伝播 2:25 あなたがいる場合、それがどれだけうまくいくかに基づいて 2:27 バックプロパゲーションに慣れていない私 2:29 ビデオを一時停止して見るように誘う 2:31 私の1分間の説明とリターン 2:33 データセットとして中断した場所 2:35 どんどん大きくなって 2:37 それらをキュレートすることはますます困難になっています 2:39 有害なデータを削除して、 2:41 関連するデータのみに焦点を当てるモデル 2:44 検出するようにモデルをトレーニングしたくない 2:46 猫はスカンクで終わる可能性があります 2:48 データを参照するときの注意事項 2:51 あらゆる種類のデータ表形式にすることができます 2:53 画像・テキスト・動画などができるようになりました 2:57 あらゆるタスクのモーダルを簡単にダウンロード 2:59 データ改善へのシフトと 3:01 最適化は避けられないモーター 3:03 可用性 最近のデータの規模 3:05 セットとデータ依存 cd モデル 3:08 なぜそのようなパラダイムがあるのか 3:10 トレーニング データ セットのラベル付け 3:12 プログラム的に不可欠になる 3:14 今、主な問題は 3:17 簡単に取得できるデータのラベル 3:19 何千もの猫と犬の画像ですが、 3:22 どの画像か分かりにくい 3:24 掘り出し物があり、どの画像に猫がいますか 3:26 正確な値を取得するのはさらに困難です 3:28 セグメンテーションのための画像内の位置 3:31 たとえばタスク 3:32 最初の論文はデータを紹介します 3:34 ユーザーが 3:36 ML エンジニアまたはデータ サイエンティストのいずれか 3:38 弱い監督戦略を次のように表現します 3:41 ジェネレーティブを使用した関数のラベル付け 3:43 データのサブセットにラベルを付けるモデル 3:46 データプログラミングは 3:48 専門家でなくても簡単に作成できる方法 3:51 トレーニング時の機械学習モデル 3:53 データが制限されているか、要するに利用できない 3:56 なしでデータを改善する方法を示しています。 3:58 を維持しながら多くの追加作業 4:00 同じモデルを使用すると、結果が改善されます。 4:03 今では明らかだが本質的な足踏み 4:05 石は本当に面白いです 4:07 この分野の基礎論文と価値 4:09 読んだ 4:10 ここで取り上げる 2 番目の論文は 4:12 シュノーケルの迅速なトレーニング データの作成 4:15 監督が弱いこの論文 4:17 からも1年後に出版された 4:19 スタンフォード大学は柔軟な 4:22 ラベリングを書くインターフェース層 4:24 経験に基づく機能継続 4:27 トレーニングデータは 4:28 ますます大きくなりにくくなる 4:30 モデルのボトルネックを引き起こすラベル 4:33 シュノーケルを紹介するパフォーマンス 4:36 前を実装するシステム 4:37 エンド ツー エンド システムでのペーパー システム 4:40 許可された知識の専門家 4:42 データを最もよく理解し、簡単に 4:44 ラベリング関数を定義して 4:46 の代わりにデータに自動的にラベルを付ける 4:48 ハンド アノテーションの構築モデルの作成 4:51 2.8倍高速化 4:54 予測性能を 4:56 平均 45.5% なので、代わりにもう一度 5:00 ユーザーまたは知識にラベルを書く 5:03 専門家は、これらのラベル付け関数を作成します 5:05 関数は単に洞察を与えるだけです 5:07 探すパターンのモデルまたは 5:10 専門家が分類するために使用するものすべて 5:12 モデルが従うのを助けるデータ 5:14 同じプロセスが適用されます。 5:17 新しく書かれたラベリング機能 5:19 ラベル付けされていないデータを学習し、 5:21 出力を結合する生成モデル 5:24 確率的ラベルへのラベル 5:26 その後、最終的なディープをトレーニングするために使用されます 5:29 ニューラル ネットワーク シュノーケルは、これらすべてを次の方法で行います。 5:32 それ自体がこのプロセス全体を促進します 5:35 初めて 5:36 私たちの最後の論文もスタンフォードから 5:39 さらに1年後にソフトウェアを導入 5:42 2.0 この 1 ページの紙は再び 5:45 同じ深さで前進する 5:47 を使用したデータ中心のアプローチの学習 5:49 トレーニングを生成するための関数のラベル付け 5:51 大規模なラベルなしデータセットのラベルと 5:54 最終的なモデルをトレーニングします。 5:56 巨大なインターネットに特に便利 5:59 で使用されているようなスクレイピングされたデータセット 6:01 Google 広告などの Google アプリケーション 6:03 gmail youtube etc 不足に取り組む 6:06 手でラベル付けされたデータはもちろん、これは単なる 6:09 進捗状況の概要と 6:10 データ中心のAIとiの方向性 6:13 を強くお勧めします 6:14 以下の説明の情報 6:16 データ中心の AI の全体像を把握する 6:19 それはどこから来て、どこにあるのか 6:21 見出し私もシュノーケルに感謝したい 6:24 このビデオのスポンサーになり、あなたを招待します 6:26 詳細については、彼らのウェブサイトをチェックしてください 6:28 聞いたことがない場合の情報 6:30 まだ使用する前にシュノーケル 6:32 次のような多くの製品での彼らのアプローチ 6:35 YouTube Google 広告 Gmail などの大きな 6:37 アプリケーション 6:39 まで動画を見てくれてありがとう 6:41 終わり [音楽]