人工知能 (AI) は、IT の世界にいる人でも聞いたことがあるはずの用語です。 AI とは、機械とコンピューター システムが人間の知性プロセスをシミュレートすることです。現在、AI は文字通り世界を席巻しています。テクノロジー大手の少なくとも 90% が AI に投資しています。 Data and AI Leadership Executive Surveyによると、調査に参加する AI フレンドリーな企業の数は 1 年で 2 倍になりました。別の調査によると、インタビューを受けた企業の半数が AI を使用しています。
AI のより具体的なアプリケーションには、エキスパート システム、自然言語処理、音声認識、マシン (コンピューター) ビジョンなどがあります。後者のタイプの AI (コンピューター ビジョン) は、すでに道路交通、銀行の支払い、ソーシャル ネットワークに統合されています。過去数十年間、AI ビジョンは、人間の精度に達する精度で多くのタスクを解決することを学びました。
「他の多くの人が気づいて指摘しているように、新皮質はすべての入力モダリティにわたって非常に均一な構造を持っています。おそらく、自然は非常によく似た強力なアーキテクチャに出くわし、細部の一部だけを変更して、同様の方法でそれを複製したのでしょう。このアーキテクチャの統合は、ソフトウェア、ハードウェア、およびインフラストラクチャに焦点を合わせて集中させ、AI 全体の進歩をさらに加速させます。 […]とにかく、エキサイティングな時代です。 – テスラのコンピューター ビジョンを開発するためにイーロン マスクに追われた Andrej Karpathy は、AI ビジョンについてツイートしました。
多くの企業が、人工知能タスクでコンピューター ビジョンを使用し始めています。 Karpathy は AI 駆動の自動車に取り組んでいます。 NASA は AI ビジョンを使用して宇宙飛行士を追跡し、警察は AI ビジョンを使用して犯罪者を追跡しています。 AI ビジョンは、私たちの日常生活の一部となっています。コンピューター ビジョンが毎日どこで機能するか気づいていますか?毎日使っているに違いありません。少なくとも、Amazon、Apple、または Google のクライアントであればそうします。
コンピューター ビジョンがすでに私たちの生活の一部になっていることを考えると、AI ビジョンがどのように機能するかを学び、それに依存するかどうかを判断するときが来ました。 5 年前、私たちは AI を「子供」と考えていました。頼れるほど成長したか?次のことを確認してから、ご自身で判断することをお勧めします。
かつて、人々はコンピューターに頭脳としての働きを教えようと決心しました。このアイデアは、主に心理学者のフランク・ローゼンブラットに属していました。多くの人が彼を AI の父と呼んでいます。 1950 年代後半、Rosenblatt は生物学と数学の助けを借りて、コンピュータにニューラル ネットワークをシミュレートさせました。何かを学ぶために、人間の脳のニューロンは接続を構築します。この原理は、人工知能の基礎を築きました。
MIT の共同創設者である Marvel Minsky は、次のステップを踏み出しました。彼は、学生が夏の間に「見た」すべてを説明するようにコンピューターに教えることを期待していました。それは夏のプロジェクトであり、失敗したと言っても過言ではありません。コンピューターはまだ画像を正確に認識できませんでしたが、画像内のオブジェクトのエッジを認識しました。
AI ビジョンは、最初にあらゆるフォントの印刷テキスト (光学式文字認識) または手書きテキスト (インテリジェント文字認識) に適用されました。 1970年代にはすでに可能でした。このブレークスルーの後、ビジネス、エンターテイメント、輸送、ヘルスケア、および日常生活で多くのことが行われています。
1970 年代は、その技術的基礎の多くがその 10 年間に登場したため、コンピューター ビジョンにとって重要でした。 1980 年代には、コンピューターはすでに複雑なタスクを実行できていました。 David Marr などのおかげで、AI は曲線やエッジを認識し、同様の視覚パターンに気付くことができました。その後、コンピューターは線だけでなく、陰影、焦点、テクスチャーも認識できるようになりました。これは、画像処理を強化した畳み込みニューラル ネットワークのおかげです。
2001 年には、AI はすでに顔を認識することができました。 2012 年の AlexNet プロジェクト以来、AI ビジョンのミスは少なくなり、現在でははるかに正確になっています。もちろん、下向きのポーズをとっている猫を AI が認識するのはまだ難しい作業です。とにかく、それはそれを行う方法を学ぶことができます。 ImageNet チームによって多大な努力が払われ、世界中で 50,000 人以上の人々が手動で画像にタグを付けるようになりました。これにより、AI はいくつかのパターンを学習し、独自に学習を続けることができるようになりました。
コンピューターの視覚は生物の視覚と似ていますか?
CNN (畳み込みニューラル ネットワーク) の考え方は、ニューロンの原理に基づいています。 CNN は、線から顔全体まで、単純なものから複雑なものへと段階的に画像パターンを認識するレイヤーで構成されています。人工層は、脳のニューロンの層に似ています。人工ニューロンはパーセプトロンと呼ばれ、CNNはこのパーセプトロンを利用したネットワークです。
人間の視覚について言えば、特に垂直線にさらされたときに活性化されるニューロンもあれば、水平線または斜め線にさらされたときに活性化されるニューロンもあります。それが 1962 年に Hubel と Wiesel が説明したことです。特定のタスクを分割して人工ニューロンを分離することは、CNN も行っていることです。
パーセプトロンは情報を異なる方法で評価します。つまり、数学的に言えば、人工ニューロンは入力の重み付けを異なる方法で決定し、どちらが重要かを判断します。私たちの脳も同様の方法で情報をフィルタリングします。私たちは、日中に見たすべての顔を思い出すことはできません。貴重な情報のみを保存します。神経細胞層はどうですか?
大脳皮質はニューロンを6つの水平層に保ちます。これらの層は、ニューロンの種類とその接続によって異なります。ただし、神経信号は実際にはすべての皮質層を階層的に通過するわけではありません。信号は必ずしも最初のレイヤーから最後のレイヤーに移動するとは限りません。
情報がニューロン全体に伝達される方法は、レイヤーのトポロジーに依存しません。 CNNレイヤーでは、そうです。 CNN では、ニューロン層の原理を別の方法で使用しています。情報は層から層へと徐々に渡されます。
これらはすべて、1980 年に福島邦彦によって提案された「神経認知」に由来します。彼は、畳み込み層とダウンサンプリング層という 2 つの基本的なタイプの CNN 層を導入しました。これらの層には、さまざまな複雑さの視覚情報を処理できるさまざまなニューロンに似たユニットが含まれています。これらの細胞に触発されたフクシマは、ニューロンが層から層へと階層的に情報を渡すカスケード モデルを提案しました。
人間の視覚の研究は、人工知能の視覚の出現につながりました。現在、コンピューター システムは動いている複雑な世界を認識します。さらに、彼らはそれをより効果的に行う方法を自分で学びます。
いくつかの成果により、コンピュータビジョンが可能になりました。数学、生物学、プログラミング、工学を組み合わせて AI 製品を開発することがよくあります。コンピュータビジョンは、AI 技術に基づいているため、AI ビジョンと呼ぶことができます。また、マシン ビジョンは部分的にコンピュータ ビジョンに関連しています。彼らの技術はしばしば組み合わされます。とにかく、コンピュータ ビジョンは、ライン上の製品の監視や QR コードの読み取りなど、多くのタスクでより一般的です。それで、それはどのように機能しますか?
ピクセル: AI は色と線を認識する
正確には、AIはパターンを認識します。何百万もの画像を処理して、それらについて結論を出すことができます。ここで深層学習が行われ、システムが学習します。
画像はピクセルで構成されています。ピクセルにはコードがあり、すべての画像はこれらのコードからなるデータとして保存されます。すべての色は、赤、青、および緑の色に基づいています (たとえば、RGB モデルのように)。これは、すべての特定の色に 3 つの値があることを意味します。私たちが犬を見ている間、コンピューターは数字を見ています。たとえば、AI はオレンジ色のピクセルを (255, 165, 0) の数字のセットとして認識します。その結果、コンピューターは画像ではなく、そのような数字のグリッドを認識します。
コンピュータが 1920*1080 ピクセルの画像を処理する場合、2,073,600 ピクセルを読み取る必要があります。この写真に写っている犬を認識するために、コンピューターは画像のすべてのピクセルで何らかのパターンを検出する必要があります。私たちも似たようなことをします。まず、単純でなじみのあるオブジェクトの機能に気付きます。これが、シルエットだけで犬と車を区別できる理由です。
コンピューターは、おなじみのパターンも識別しようとします。コンピューターのデータベースから何かに関連付けられている線や形を見てください。データベースに含まれる一致が多いほど、コンピューターが画像を正しく分類する可能性が高くなります。
テクノロジー: 脳にヒントを得た CNN
畳み込みは、畳み込みニューラル ネットワークにニューラル ネットワークの原理を組み合わせた数学関数です。 CNN には大脳皮質と同様に層があります。画像の特徴を単純なものから難しいものまで徐々にフィルタリングするレイヤーがあります。
CNN のコアは畳み込み層です。画像を数字のグリッドとして考え直してください。このレイヤーでは、畳み込み行列 (CM) にグリッドを乗算することで、コンピューターは画像から特徴を抽出できます。各グリッドのセルで CM が乗算された後、変換されたグリッドが得られます。コンピューターはその値をエッジやラインなどの特徴として理解し、そのパターンは AI データベースになじみのあるものにすることができます。
畳み込みは、パターンに関する予測を行い、その精度を確認するために何度も実行されます。ニューラル ネットワークは、精度が可能な限り高くなるまで反復を続けます。これはすべてのレイヤーに関係します。
畳み込み層からの出力として 10 個の特徴行列を取得すると、これらの 10 個の行列が入力として次の層に渡されます。プーリングと高密度レイヤーは、多くの反復でも画像で機能します。しかし、それらの機能は異なります。
プーリング層は特徴行列の次元を削減し、主要な情報を要約します。入力イメージには、単純なオブジェクトのパターン (陰影、回転、トリミング) からの多くの逸脱が含まれる場合があります。それらはオブジェクトの認識を複雑にします。プーリング層では、画像処理を妨げる不変の特徴がダウンサンプリングまたは削減されます。
最後に、密層は、前の層の出力を使用して画像を分類する必要があります。前のレイヤーから抽出されたすべての画像機能を処理し、その画像からオブジェクトに名前を付ける必要があります。深層は、高度に相互接続された人工ニューロンのために完全に接続された層です。他のレイヤーにはこの力がありません。
畳み込み層には、前のレベルにのみ接続されたニューロンが含まれます。オブジェクトの予測には十分ではありません。深層は、相互接続された多くのニューロンを同時に使用することで、このタスクに対処します。前のレイヤーから抽出された特徴に基づく予測に基づいて、深いレイヤーは、人工知能のビジョンがその高い精度に到達する場所です。
プログラミング レベルでは、画像処理はレイヤー階層内の単純な画像フィルタリングのようには見えません。さまざまなケースで、AI はさまざまな量のレイヤーとさまざまな画像処理の反復を処理し、さまざまな時間で処理します。
AI が複雑な現代世界を理解するために何十億もの画像を処理しなければならないことを考えると、AI が学生のふりをして座ってデータベースに入力しようとしている人を想像できます。今、AIは自分で勉強しようとしています。 AI は、材料だけで始められる賢い「子供」です。
AI は自ら学習する: ディープ ラーニング
画像内のオブジェクトを高速に認識できるようにするために、AI は多くの素材を必要とします。写真の手動処理により、最初の顔認識が可能になりました。人々が顔写真の特徴をマークすると、AI は新しい顔を既存のデータベースと比較するだけで済みました。 AI が自動的に機能せず、エラーが大きすぎました。このようなコンピュータ ビジョンの難しいタスクを達成するために、機械学習が使用されます。
現在、AI はディープ ラーニング テクノロジを使用して自ら学習します。 AIは、何らかのデータベースを与えられた後は、ほとんど人を必要としません。人々は AI にすべてのルールを説明するわけではありません。ロジスティック回帰、デシジョン ツリー、線形回帰、サポート ベクター マシンなどの統計学習アルゴリズムを適用して、AI が独自に新しいパターンを記憶し始めるようにします。ディープ ラーニングは特徴を自動的にキャプチャし、ユーザーが手動で行う必要はありません。
AI をトレーニングするには、最初の段階で人々が導入した資料が必要です。犬を認識するために、開発者は準備のためにコンピューターに多くの犬を見せる必要があります。その後、AI は新しい画像を処理しながら学習を続けます。これはまた、AI がデータベースから対応する画像を探すだけでなく、似たようなものが既にアップロードされているか見られている場合、まったく新しい画像を分類する方法も知っていることを意味します。
多くの AI 技術の巨人は、Meta や Google などのソーシャル ネットワークの巨人と作品を共有するか、オープンソースのままにしています。ビッグデータを収集して共有し、AI に研究の可能性を与えることができます。
ビッグ データを手動で処理する初期のコンピューター ビジョン テクノロジのおかげで、多くの最新の AI ビジョン テクノロジは特定のタスクを達成しています。今日、AI ビジョンは世界中の何千ものチームによって開発されています。
たとえば、YOLO アルゴリズムは、リアルタイムのオブジェクト検出と追跡を可能にします。そのタスクは、ショット内のオブジェクトを検出するだけでなく、以前のショットからのすべての情報を関連付けることです。 You Only Look Once の原則は、ニューラル ネットワークが画像を 1 回だけ処理して、すべてのオブジェクトを検出することを意味します。次に、それらを監視します。それは、深い層と深い学習によって可能になります。
現在、コンピューター ビジョンはほぼ自給自足のテクノロジであり、一部の予測は人間よりも優れています。 Google が資金提供した研究では、ディープ ラーニング アルゴリズムが、放射線科医よりも高い精度で乳房のがん細胞を検出しました。 AI システムは、偽陽性で 5.7% と 1.2% (米国と英国)、偽陰性で 9.4% と 2.7% の減少を示しています。 AI を信頼するための良い議論ですね。
店舗からトラクターまで: コンピューター ビジョン アプリケーション
コンピューター ビジョンは、画像について何を教えてくれますか?オブジェクトを検出し、リアルタイムで追跡することさえできることがわかっています。ほかに何か? Google ストリート ビューを使用して、アメリカの道路で車を撮影したビジョン AI は、さまざまな都市の地域の収入や投票パターンさえも予測しました。たとえば、その都市でピックアップよりもセダンの方が多い場合、市民は民主党に投票する可能性が高くなります。
AI が人々のためにできるもう 1 つのことは、国立公園で動物を数えることです。 Wildbook と呼ばれる AI ソフトウェアは、その外観から種を自動的に識別します。この AI ビジョンは、固有のコート パターンや、耳の輪郭や吸虫などの他の特徴を認識できます。 Wildbook には 20 種のデータベースがあります。現在、マイクロソフトの AI for Earth プログラムと協力して、さまざまな環境問題を解決しています。私たちはキリンやジャガーを扱うことはめったになく、そのような話は、私たちが毎日目にする AI ほど私たちの心に刺さりません。
スナップチャットとアマゾン
Snapchat カメラを使ってあらゆる製品に集中できることをご存知ですか? AI が Amazon でこの製品を表示します。物理的な Amazon ストアにアクセスすると、コンピューター ビジョンがユーザーを監視し、開発者にユーザーの行動を伝えます。 AI は、駐車場の推奨から感情データの収集、顧客にとって興味深い製品に関する予測まで、ショッピング ジャーニー全体から分析を抽出できます。
裏方では製造段階でもAIが活躍しています。マシン ビジョンを使用して、製品ラインの不良品や梱包を監視します。ところで、バーコードの読み取りは、機械視覚の一種である光学式文字認識 (OCR) が何かを購入するときに行うことです。
小売業の大部分がまもなく AI ビジョンを実装する可能性があります。さまざまなチームが、製品を検出して追跡するための新しいテクノロジーにすでに取り組んでおり、これらのテクノロジーがより安価になる可能性があります。したがって、より多くの店舗がそれらに申し込むことができます。
Amazon は AI に多くの作業を委任したため、さまざまなビジネス向けにコンピューター ビジョン サービスを販売する別のプロジェクトである AWS Panorama を設立しました。たとえば、空港での待ち行列への対処を支援しました。 AWS は、ガス探査会社が労働者の社会的距離を監視し、石油漏れを検出するのにも役立ちます。フェンダーギター? AWS は、ギターの製造にどれだけの時間が費やされたかを知っています。これは、フェンダーがギターの生産にかかる時間と、最適化できる製造スポットを監視するのに役立ちます。
Amazon の AI ビジョンだけを示す例は他にもたくさんあります。さて、すべての大手テクノロジー企業が AI を利用していることを考慮に入れると、毎日 AI ビジョンによって解決されるタスクの数を想像してみてください。
ジョンディアのトラクター
John Deere 社のコンバインは、ほぼ 200 年にわたって畑を管理してきました。同社は、テクノロジー大手のスピードで AI テクノロジーを徐々に実装しています。 2020 年、John Deere の開発者は、作物間の最適なルートを見つけ、収穫の質を分析し、除草剤を正確に散布し、雑草を自力で除去できる半自律型トラクターのコンセプトを発表しました。これらの機能はすべてコンピューター ビジョンで作成されました。
作物を分析して除草剤を散布するのに、トラクターは必ずしも必要ではありません。ドローンもそれを行うことができます。ドローンを活用することで、精密農業への期待が高まり、食品ロスの問題を解決できます。毎年、収穫の際に失われる食物の約 15% がドローンによって減少する可能性があります。
コンピューター ビジョンは、人類が飢餓に対処するのに役立ちます。農業では、ビジョン AI は、収穫の損失を最小限に抑える方法に関するソリューションを提供します。したがって、予測される 100 億の人口は、より少ない供給リスクに直面する可能性があります。また、AI が人間よりも正確に避妊手術を行えば、必要な除草剤の量が減ります。追加の除草剤で環境問題を解決するかもしれません。
アップルの顔認証
これは私たちが毎日ではなく毎時使用するものです。 iOS 10 以降、新しい iPhone モデルは、顔検出アルゴリズムに基づく FaceID によってブロックが解除されます。 iPhone のカメラはリアルタイムで顔を追跡し、その顔が電話の所有者のものである場合は認証を許可します。 iOS では、顔認識は画面のブロックを解除するためだけでなく、写真に写っている人物を認識するためにも使用されます。この場合、写真はクラウド サーバーに送信され、ディープ ラーニング技術で顔を検出します。
これはフェイスブックもやったことです。 2021 年まで。Facebook は、法規制の弱さと社会的懸念により、顔認識を停止しました。このオプションは、顔認識だけに限定されたものではありません。自動代替テキスト システムによって、目の不自由な人向けの画像の説明も生成されました。このシステムは、顔認識を使用して、人物または友人が画像に写っているかどうかを識別します。 AIが社会に利益をもたらす場所であるため、人々はこの問題について議論し続けています。楽しいことは?
どのアプリで自分の顔と友達の顔を入れ替えてみましたか?それとも、老後の自分がどのように見えるかをすでに見たことがありますか?次に、リアルな顔の操作を試しました。この AI ビジョン技術は、ユーザーを楽しませるだけでなく、ディープフェイクの作成にも使用されます。これは、ディープフェイクが社会を操作するために使用される可能性があるため、コンピュータービジョンが危険になる場所です.
ウクライナ大統領が戦争に対処しておらず、ウクライナを降伏させる準備ができていると述べたディープフェイクビデオをロシア人が見ていることで、それはすでに行われていますが、それは嘘でした.
顔認識がすでに実現した本当に良いことは何ですか?公共のカメラで検出された犯罪者に加えて、視覚 AI は行方不明の子供を見つけることができます。新しいデリー警察は、TrackChild データベースに適用された顔認識のおかげで、わずか 4 日間で 45,000 人の行方不明の子供のうち約 3,000 人を追跡しました。コンピューター ビジョンが私たちの社会にどのように役立つかを示すもう 1 つの例。
今日、コンピューター ビジョンの作業は多すぎます。 AI の例は、何百ものポイントのリストを作成できます。さらにいくつかあります:
ヘルスケアについて言えば、CNN とディープ ラーニングは、医師が Covid を検出するのに役立ちます。 Covid-Net チームのアプリケーションである DarwinAI は、胸部 X 線画像を使用して、92% 以上の精度で病気を予測します。オープンソースのデータベースがあるため、このソフトウェアには学ぶべき多くの資料があります。
人類が小売、農業、ソーシャル ネットワーキング、ヘルスケアの問題を解決するのを助ける「10 代」としては悪くありません。 AIは大人の知性の可能性に到達したのかもしれません。 AI ビジョンは、文字通りあらゆる生活圏に入り込みました。ただし、AIには「若すぎる」、または対処する準備ができていないことがあります。
主な制限は、AI が何かを知らないということではありません。AI は優れた深層学習の「学生」です。問題は、ハードウェアが AI ビジョンの可能性を制限することが多いことです。
機械学習には高効率のプロセッサが必要です。CPU と GPU は、高品質の画像やビデオをレンダリングする必要があります。 GPU は AI ビジョンの計算を高速化するのに役立ちますが、多くの場合、CPU の能力は計算集約型のタスクには十分ではありません。したがって、GPU はコンピューター ビジョン以外のタスクのために CPU を解放します。
効率的なコンピューターに加えて、コンピューター ビジョンにはエッジ デバイスが必要です。カメラに接続してリアルタイムでデータを収集するため、クラウドでデータを処理する時間を節約できます。エッジ デバイスはデータをローカルで処理するため、リアルタイム データに遅延の問題はありません。データをローカルで処理することにより、企業はデータ処理をローカルで行うことで費用を節約できます。
エッジ デバイスを入手することは問題ではありませんが、コンピューター ビジョンの「消費者バスケット」に追加され、価格が高くなります。 AI ビジョンに最適なコンピューターの価格を見積もることは困難です。空は限界です。一般的なラップトップでは、単純な AI ビジョン タスクしか実行できません。
AI12 ラボの研究者は、たとえば複雑な Google の NoisyStudent ディープ ラーニング タスクをクラウドのような Amazon の AWS で実行した場合のコストを計算しました。 NoisyStudent が CNN で動作し、4 億 8000 万のパラメーターが含まれていることを考慮すると、価格は 1 万ドルから 20 万ドル (3 億 4000 万のパラメーターのみ) に達するでしょう。
マシン AI とコンピューター AI を組み合わせる場合、高解像度のカメラが必要です。目的が物体の追跡である場合、マシンには高解像度のストリームを記録できるカメラが必要です。これも値段にプラス。
ハードウェア以外のもう 1 つの制限は、高品質のデータが不足していることです。 AI にオブジェクトを認識させるには、高解像度の画像を含むラベル付きデータでトレーニングする必要があります。低品質の X 線を大量に処理するため、AI ビジョンが病気を予測することは困難です。また、十分なデータがないこともよくあります。 Covid-Net が成功したのは、パンデミックの間、常に新しいスキャンでいっぱいになったからです。他のプロジェクトは、データの蓄積を制限するプライバシーの問題のために失敗する可能性があります。
ここで、AI ビジョンは、倫理と法規制という別の問題を扱います。米国のいくつかの州では、警察のボディ カメラの顔認識システムをすでに禁止しています。 AIが犯罪者や行方不明の子供を見つけることができることを考えると、現在でもかなり不明確なままである弱い法律規制の問題のようです.
人種や性別の偏見も AI のビジョンに到達しました。ほとんどの場合、AI は、女性や肌の色が濃い人の画像をほとんど含まないデータセットでトレーニングされます。問題は、実際に不正確な識別につながることです。これは倫理的な問題だけではありません。
その過程で、AI ビジョンは多くの道徳的問題に直面し、社会の信頼によって挑戦されるでしょう。倫理、ハードウェア、低品質のデータが AI に挑戦しています。ただし、主な問題は、AI には依然として人間が必要だということです。手動でラベル付けされたデータが必要です。
しかし、AI がより自律的に問題を解決するのは時間の問題です。コンピューター ビジョンは、もはや技術的な「子供」ではありません。それは大人のようで、私たちはすでにそれを誇りに思っています。これは、その主な成果を思い出す時です。
コンピュータ ビジョンについて説明する際に考慮すべき主な点と最も重要な点は次のとおりです。
AIに頼るか、自分の人生 (自動運転車の運転中など) を信頼するかは、個人の選択です。ただし、すべてのハイテク製品についてどう考えても、ブラウザを開いたときや電話のブロックを解除したときから、AI はすでにあなたを監視しているということを受け入れる必要があります。さらに、それは日常生活のあらゆる段階であなたを取り囲み続けます。そのため、コンピュータ ビジョンがどのように開発されているか、個人的またはビジネス的にどのように利用できるかについて認識し、知識を持っておくことが最善の方法です。
元はここで公開されました。