ディープ ラーニング モデルのトレーニングと構築に最も広く使用されているオープンソースの機械学習フレームワークは、TensorFlow と PyTorch の 2 つです。
これらのフレームワークには、モデルの構築とトレーニングに対するアプローチに独自の違いがあります。 TensorFlow は静的グラフと宣言型プログラミングを使用するため、最適化の機会が増え、分散トレーニングが可能になりますが、PyTorch は動的計算グラフと命令型プログラミングを使用するため、より柔軟で簡単なデバッグ プロセスが可能になります。フレームワークの選択は、ユーザー固有のニーズと好みによって異なります。
この記事では、現在利用可能な深層学習モデルの構築に最適な PyTorch データセットについて説明します。
Penn Treebank は、自然言語処理 (NLP) 研究コミュニティで広く研究されている、注釈付きの英語テキストのコレクションです。雑誌、ニュース記事、フィクションなど、さまざまなジャンルの 450 万語以上のテキストで構成されています。このデータセットは、言語モデル、パーサー、機械翻訳システムなど、幅広い NLP モデルのトレーニングと評価に使用される、名前の資格、品詞タグ、構文構造に関する手動で注釈が付けられた情報でも構成されています。
このデータセットをダウンロードするには、
SQuAD (Stanford Question Answering Dataset) は、ウィキペディアの一連の記事から抽出された 100,000 を超える質問と回答のペアで構成される、自然言語処理 (NLP) の一般的なベンチマーク データセットです。 PyTorch またはその他の深層学習フレームワークを使用して構築されたさまざまな NLP モデルのパフォーマンスを評価するために使用されます。回答範囲の平均の長さは 3.6 語で、対応するパッセージには平均 11.0 語あります。
SQuAD に関するその他の詳細を次に示します。
データセットの目標は、機械学習モデルが特定のテキスト パッセージに関する質問に答えるという困難なタスクを提供することです。ここをクリックしてダウンロード
この PyTorch データセットは、複数の放射線科医によって肺結節の注釈が付けられた、胸部のコンピューター断層撮影画像の公開データセットです。これは、さまざまな機関から収集された 1,018 の CT スキャンで構成され、23,000 を超える注釈付き結節が含まれています。
データセットの各スキャンには、形状、サイズ、結節の位置、テクスチャに関する情報を提供する 4 人の経験豊富な放射線科医による注釈が付いています。このデータセットは、肺がんのスクリーニングと診断のためのコンピューター支援診断 (CAD) システムの開発に関する研究をサポートするために作成されました。
注: データセットは公開されていますが、使用には一定の制限と要件があります。
クリック
PyTorch Fashion MNIST データセットは、元の MNIST データセットの代替として Zalando Research によって作成され、PyTorch 互換の形式で利用できます。 PyTorch Fashion MNIST データセットは、60,000 のトレーニング画像と 10,000 のテスト画像を含む、衣料品の 70,000 のグレースケール画像で構成されています。
画像のサイズは 28x28 ピクセルで、T シャツ/トップス、ズボン、プルオーバー、ドレス、コート、サンダル、シャツ、スニーカー、バッグ、アンクル ブーツなど、10 種類の衣料品を表しています。これは元の MNIST データセットに似ていますが、衣類のアイテムがより複雑で多様であるため、分類タスクがより困難になっています。
データセットをダウンロードできます
Yelp レビュー データセットは、米国の 11 の大都市圏の地元企業に関する 500 万件を超えるレビューの広範なコレクションです。データセット内の各レビューには、星評価、ビジネス カテゴリ、レビュー テキスト、日付、場所などの情報が含まれています。 PyTorch を使用した深層学習モデルの構築に関心のある貴重なリソースです。
サインアップして、ここをクリックしてデータセットをダウンロードしてください。
この PyTorch データセットは、120 の異なる品種の犬の 20,580 の高品質画像のコレクションで構成され、それぞれに画像内の犬の品種に関する情報がラベル付けされています。画像分類や物体認識に使用できます。 JPEG 形式で提供されるデータセットとテキスト ファイルの注釈を使用すると、画像のサイズは 224x224 ピクセルになります。データセット内の品種は、ゴールデン レトリーバーやラブラドールなどの一般的な品種から、オッターハウンドやサセックス スパニエルなどのあまり知られていない品種までさまざまです。
ダウンロードできます
カテゴリごとの限られた数の画像は課題になる可能性がありますが、詳細な注釈により、PyTorch Caltech 101 データセットはディープ ラーニング モデルを評価するための貴重なリソースになります。このデータセットは、101 のカテゴリにわたるオブジェクトの 9,144 枚の高品質画像を含む、ラベル付けされたコンピューター ビジョン データセットです。また、幅広いオブジェクト カテゴリをカバーしており、画像はさまざまなソースから取得されています。各画像は、オブジェクトと画像のカテゴリでラベル付けされているため、さまざまな深層学習フレームワークで簡単に使用できます。
ここをクリックして
STS-B (Semantic Textual Similarity Benchmark) データセットは、2012 年から 2017 年の間に SemEval のコンテキストで編成された STS タスクで使用された英語のデータセットです。1 から 5 のスケールで人間が割り当てた類似度スコアを持つ 8628 のセンテンス ペアで構成されています。ニュース記事、フォーラムの投稿、キャプション付きの画像、幅広いトピックをカバーするなど、さまざまなソースから引き出された、2 つの文間の意味的類似性を判断するモデルのパフォーマンスを評価するために PyTorch で使用される一般的なデータセットです。 STS-B データセットは、PyTorch がこのデータセットでモデルをトレーニングおよび評価するための深層学習フレームワークであるため、PyTorch 互換の形式を含む複数の形式で利用できます。
\このデータセットをダウンロードするには、
この PyTorch データセットは、2015 年にスタンフォードによって作成された、英語とドイツ語の間の機械翻訳のベンチマーク データセットです。これは、ディープ ラーニング モデルの構築と評価に使用される、英語とドイツ語の両方の文に揃えられたテキストの対訳コーパスで構成されています。テスト セットにはそれぞれ 3,000 の文のペアが含まれていますが、トレーニング セットは約 450 万の文のペアで構成され、平均文の長さは英語で 26 語、ドイツ語で 30 語であり、語彙サイズは英語で約 160,000 語、英語で 220,000 語です。ドイツ人。
下にスクロールしてダウンロードできます
このデータセットは、200,000 を超える有名人の画像で構成される人気のある大規模な顔属性データセットです。 2015 年に香港中文大学の研究者によって初めて公開されました。CelebA の画像は、年齢、髪の色、表情、性別などの 40 の顔属性で構成されています。また、これらの画像はインターネットから取得されたもので、さまざまな人種、年齢、性別など、さまざまな顔の外観をカバーしています。各画像の顔の位置の境界ボックスの注釈と、目、鼻、口の 5 つのランドマーク ポイント。
注: CelebA データセットは、Creative Commons Attribution-Noncommercial-Share のライセンスの下にあり、適切なクレジットが与えられている限り、非営利の研究目的で使用することが許可されています。
PyTorch で CelebA データセットを使用するには、 torchvision
モジュールの一部であるtorchvision.datasets.CelebA
クラスを使用できます。からデータセットをダウンロードできます。
UFC101 データセットは、コンピューター ビジョンの分野でのビデオ分類に広く使用されています。これは、101 のアクション カテゴリからの 13,230 の人間のアクションのビデオで構成され、それぞれに約 100 から 300 のビデオが含まれます。 PyTorch UCF101 データセットは、PyTorch ですぐに使用できる元の UCF101 の前処理済みバージョンです。前処理されたデータセットは、各ビデオの対応するラベルを含む、正規化およびサイズ変更されたビデオ フレームで構成されます。また、トレーニング、検証、テストの 3 つのセットに分かれており、それぞれ約 9,500、3,500、3,000 のビデオがあります。
データセットをダウンロードするには、
HMDB51 データセットは、映画、テレビ番組、オンライン ビデオなど、さまざまなソースから収集されたビデオのコレクションであり、51 個のアクション クラスで構成され、それぞれに少なくとも 101 個のビデオ クリップがあります。これは、2011 年にセントラル フロリダ大学の研究者によって、人間の行動認識の研究のために作成されました。ビデオは AVI 形式で、解像度は 320x240 ピクセルで、アクション クラス ラベル、ビデオ内のアクションの開始フレームと終了フレームなど、各ビデオにグラウンド トゥルース アノテーションが付いています。データセット内の各ビデオは、静止カメラの前でアクションを実行している人物を表します。その行動は、ジャンプする、手を振る、水を飲む、歯を磨くなどの毎日の活動から、ギターを弾く、乗馬するなどの複雑な行動まで多岐にわたります。
注:併用して使用します。
データセットをダウンロードできます
ActivityNet は、料理、スポーツ、ダンスなどのさまざまなカテゴリの 20,000 以上のビデオで構成される大規模なビデオ理解データセットです。ビデオの長さは平均 3 分で、平均 1.41 のアクティビティ セグメントで注釈が付けられています。深層学習フレームワークで使いやすい PyTorch で利用できます。 PyTorch バージョンは、各ビデオの RGB フレームとオプティカル フロー フィールドから抽出された前処理済みの特徴と、時間セグメントのグラウンド トゥルース アノテーションとアクティビティのラベルを提供します。
データセットをダウンロードできます
VOC データセット (Visual Object Classes) は、視覚認識の最先端を目指す PASCAL VOC チャレンジの一環として 2005 年に初めて導入されました。動物、乗り物、一般的な家庭用品など、20 種類のオブジェクト カテゴリの画像で構成されています。これらの各画像には、画像内のオブジェクトの位置と分類に関する注釈が付けられています。注釈には、境界ボックスとピクセル レベルのセグメンテーション マスクの両方が含まれます。データセットは、トレーニング セットと検証セットの 2 つの主要なセットに分割されます。トレーニング セットには注釈付きの約 5,000 枚の画像が含まれていますが、検証セットには注釈のない約 5,000 枚の画像が含まれています。さらに、データセットには約 10,000 枚の画像を含むテスト セットも含まれていますが、このセットの注釈は公開されていません。
最近のデータセットをダウンロードするには、
このデータセットは、オブジェクト認識および姿勢推定タスク用に設計された 3D オブジェクト モデルとビデオ シーケンスのコレクションです。 21 の日常的な家庭用品が含まれており、各オブジェクトはさまざまな照明条件とカメラの視点でキャプチャされています。このデータセットは、ピクセル レベルのグラウンド トゥルース アノテーションを提供し、コンピューター ビジョン アルゴリズムやロボット システムの評価に一般的に使用されます。
ここをクリックしてダウンロード
KITTI データセットは、自動運転研究用のコンピューター ビジョン データのコレクションです。これには、4000 を超える高解像度画像、LIDAR ポイント クラウド、およびさまざまなセンサーを搭載した自動車からのセンサー データが含まれています。このデータセットは、オブジェクトの検出、追跡、およびセグメンテーションの注釈と、深度マップおよびキャリブレーション パラメーターを提供します。 KITTI データセットは、自動運転とロボット工学のディープ ラーニング モデルのトレーニングと評価に広く使用されています。
最近のデータセットをダウンロードするには、
BRATS PyTorch データセットは、脳腫瘍セグメンテーションのための磁気共鳴画像 (MRI) スキャンのコレクションです。これは、200 を超える高解像度の 3D 脳画像で構成され、それぞれに 4 つのモダリティ (T1、T1c、T2、および FLAIR) と対応するバイナリ セグメンテーション マスクがあります。このデータセットは、自動化された脳腫瘍の検出とセグメンテーションのためのディープ ラーニング モデルのトレーニングと評価によく使用されます。
クリックすると、このデータセットを Kaggle でダウンロードできます。
Multi-Human Parsing PyTorch データセットは、人間の部分を解析するためのピクセル レベルの注釈を備えた大規模な人間の画像データセットです。これには、26,000 を超える人間の画像が含まれており、それぞれが 18 の人間の部位のラベルに分割されています。このデータセットは、人間の姿勢推定、セグメンテーション、行動認識のためのディープ ラーニング モデルのトレーニングと評価に使用されます。
データセットをダウンロードするには、
このデータセットは、アクションの認識と位置特定のための大規模なビデオ データセットです。料理、掃除、社交などの日常活動の 9,800 以上の動画で構成されており、動画あたりの平均の長さは 30 秒です。このデータセットは、アクションの時間的境界やアトミックなビジュアル コンセプトなど、各ビデオの詳細な注釈を提供するため、アクションの認識、検出、セグメンテーションのためのディープ ラーニング モデルのトレーニングと評価に適しています。
Charades PyTorch Dataset は、コンピューター ビジョン研究コミュニティで広く使用されており、無料で利用できます。
このデータセットは、オブジェクト検出とポーズ推定のための高解像度画像と 3D オブジェクト ポーズの豊富なコレクションです。 60 のオブジェクト カテゴリの 11,000 を超える画像と、2D および 3D ポーズの注釈が含まれています。 TU ベルリンの PyTorch データセットは、そのサイズが大きく多様なオブジェクト カテゴリを備えているため、堅牢で正確なオブジェクト検出および姿勢推定モデルを開発するための優れたテストベッドを提供します。
をクリックして、Web サイトから直接データセットを取得できます。
PyTorch は、深層学習モデルの開発と新しいアプローチの探索に重点が置かれることが多い研究と実験に役立ちます。さらに、PyTorch は研究に重点を置いたフレームワークとしての評判を得ており、エコシステムに貢献する開発者や研究者のコミュニティが拡大しています。
これらのデータセットは、さまざまな分野での用途があり、誰でも自由にダウンロードして使用できます。
この記事のリード画像は、HackerNoon の AI Stable Diffusion モデルを介して、プロンプト「PyTorch スーパーインポーズ画像」を使用して生成されました。