paint-brush
Các cơ hội và ứng dụng thị giác máy tính hàng đầutừ tác giả@sashaandrieiev
1,407 lượt đọc
1,407 lượt đọc

Các cơ hội và ứng dụng thị giác máy tính hàng đầu

từ tác giả Sasha Andrieiev2022/08/19
Read on Terminal Reader
Read this story w/o Javascript

dài quá đọc không nổi

AI là khi máy móc và hệ thống máy tính mô phỏng quá trình thông minh của con người. Ít nhất 90% các gã khổng lồ công nghệ đầu tư vào AI và một nửa số công ty được phỏng vấn sử dụng nó. Thị giác máy tính đã được tích hợp vào giao thông đường bộ, thanh toán qua ngân hàng và mạng xã hội. Ý tưởng về thị giác máy tính lần đầu tiên được áp dụng cho các văn bản in với bất kỳ phông chữ nào (nhận dạng ký tự quang học) hoặc thậm chí là các văn bản viết tay. Sau bước đột phá này, rất nhiều việc đang được thực hiện trong lĩnh vực kinh doanh, giải trí, giao thông, chăm sóc sức khỏe và cuộc sống hàng ngày. Đã đến lúc tìm hiểu cách thức hoạt động của tầm nhìn AI và quyết định xem có nên dựa vào nó hay không.

People Mentioned

Mention Thumbnail

Companies Mentioned

Mention Thumbnail
Mention Thumbnail
featured image - Các cơ hội và ứng dụng thị giác máy tính hàng đầu
Sasha Andrieiev HackerNoon profile picture

Trí tuệ nhân tạo (AI) là một thuật ngữ chắc hẳn bạn đã từng nghe, ngay cả khi bạn đến từ thế giới CNTT. AI là khi máy móc và hệ thống máy tính mô phỏng các quá trình thông minh của con người. Hiện tại, AI thực sự đang chiếm lĩnh thế giới - ít nhất 90% các gã khổng lồ công nghệ đầu tư vào nó. Theo Khảo sát Điều hành Lãnh đạo Dữ liệu và AI , số lượng các công ty thân thiện với AI tham gia cuộc khảo sát đã tăng gấp đôi trong một năm. Một cuộc khảo sát khác nói rằng một nửa số công ty được phỏng vấn sử dụng AI.

Một số ứng dụng cụ thể hơn của AI bao gồm hệ thống chuyên gia, xử lý ngôn ngữ tự nhiên, nhận dạng giọng nói và thị giác máy (máy tính). Loại AI thứ hai - thị giác máy tính - đã được tích hợp vào giao thông đường bộ, thanh toán qua ngân hàng và mạng xã hội. Trong những thập kỷ qua, tầm nhìn của AI đã học cách giải quyết nhiều nhiệm vụ với độ chính xác đạt đến con người.

“Như nhiều người khác đã nhận thấy và chỉ ra, neocortex cũng có một kiến trúc đồng nhất cao trên tất cả các phương thức đầu vào của nó. Có lẽ thiên nhiên đã vấp phải một kiến trúc mạnh mẽ rất giống nhau và sao chép nó theo kiểu tương tự, chỉ khác một số chi tiết. Sự hợp nhất trong kiến trúc này sẽ lần lượt tập trung và tập trung phần mềm, phần cứng và cơ sở hạ tầng, đẩy nhanh hơn nữa tiến độ của AI. […] Dù sao đi nữa, những khoảng thời gian thú vị. ” - Andrej Karpathy, được Elon Musk săn lùng để phát triển tầm nhìn máy tính cho Tesla, đã tweet về tầm nhìn AI.

Nhiều công ty đã bắt đầu sử dụng thị giác máy tính trong các nhiệm vụ trí tuệ nhân tạo. Karpathy đang nghiên cứu những chiếc ô tô do AI điều khiển. NASA sử dụng tầm nhìn AI để theo dõi các phi hành gia, và cảnh sát sử dụng nó để theo dõi tội phạm. Tầm nhìn AI đã trở thành một phần vững chắc trong thói quen hàng ngày của chúng ta. Bạn có nhận thấy nơi mà thị giác máy tính hoạt động đối với bạn hàng ngày không? Chúng tôi cá là bạn sử dụng nó hàng ngày. Ít nhất, bạn làm như vậy nếu bạn là khách hàng của Amazon, Apple hoặc Google.

Xét rằng tầm nhìn máy tính đã trở thành một phần trong cuộc sống của chúng ta, đã đến lúc tìm hiểu cách thức hoạt động của tầm nhìn AI và quyết định xem có nên dựa vào nó hay không. Năm năm trước, chúng ta nghĩ về AI như một “đứa trẻ”. Nó đã đủ lớn để được dựa vào chưa? Chúng tôi khuyên bạn nên tự quyết định sau khi bạn tìm hiểu:

  • Điều gì đã truyền cảm hứng cho mọi người phát triển tầm nhìn AI
  • Liệu tầm nhìn của AI có điểm tương đồng với tầm nhìn của con người hay không
  • Cách thức hoạt động của AI Vision
  • Nơi chúng ta gặp gỡ tầm nhìn AI
  • Tầm nhìn máy tính không có khả năng

Ý tưởng về Thị giác Máy tính

Có lần, người ta quyết định dạy máy tính hoạt động như một bộ não. Ý tưởng chủ yếu thuộc về nhà tâm lý học Frank Rosenblatt. Nhiều người gọi ông là cha đẻ của AI. Vào cuối những năm 1950, Rosenblatt đã tạo ra một máy tính mô phỏng một mạng nơ-ron với sự trợ giúp của sinh học và toán học. Để học một điều gì đó, các tế bào thần kinh trong não người sẽ xây dựng các kết nối. Nguyên tắc này đã đặt nền tảng của trí tuệ nhân tạo.

Người đồng sáng lập MIT, Marvel Minsky, đã thực hiện bước tiếp theo. Ông mong đợi học sinh của mình dạy máy tính mô tả tất cả những gì nó “nhìn thấy” trong suốt mùa hè. Điều đáng nói rằng đó là một dự án mùa hè và nó đã thất bại. Mặc dù máy tính vẫn không thể nhận dạng hình ảnh một cách chính xác, nhưng nó đã nhận dạng được các cạnh của các đối tượng trong hình ảnh.

Tầm nhìn AI lần đầu tiên được áp dụng cho các văn bản in với bất kỳ phông chữ nào (nhận dạng ký tự quang học) hoặc thậm chí văn bản viết tay (nhận dạng ký tự thông minh). Điều đó đã có thể xảy ra vào những năm 1970. Sau bước đột phá này, rất nhiều việc đang được thực hiện trong kinh doanh, giải trí, giao thông, chăm sóc sức khỏe và cuộc sống hàng ngày.

Những năm 1970 rất quan trọng đối với thị giác máy tính vì nhiều kiến thức cơ bản về công nghệ của nó đã xuất hiện trong thập kỷ đó. Trong những năm 1980, máy tính đã có thể thực hiện các nhiệm vụ phức tạp. Nhờ David Marr và những người khác, AI có thể nhìn thấy các đường cong và cạnh, đồng thời nhận thấy các mẫu hình ảnh tương tự. Sau đó, máy tính không chỉ có thể nhận dạng các đường nét mà còn cả bóng râm, tiêu điểm và kết cấu. Điều này xảy ra nhờ Mạng nơ-ron hợp pháp đã thúc đẩy quá trình xử lý hình ảnh.

Vào năm 2001, AI đã có thể nhận dạng khuôn mặt. Kể từ dự án AlexNet vào năm 2012, tầm nhìn của AI đã ít mắc lỗi hơn và giờ nó chính xác hơn nhiều. Tất nhiên, vẫn là một nhiệm vụ khó khăn đối với AI khi nhận ra một con mèo đang ở tư thế cúi xuống. Dù sao, nó có thể học cách làm điều đó. Nhóm ImageNet đã có những nỗ lực to lớn, đã thu hút hơn 50.000 người trên toàn thế giới gắn thẻ hình ảnh theo cách thủ công. Nó đã giúp AI học một số mẫu và có thể tiếp tục tự học.

Tầm nhìn của máy tính có giống với các sinh vật sống không?

Ý tưởng của CNN (mạng nơ-ron tích chập) dựa trên nguyên tắc nơ-ron. CNN bao gồm các lớp nhận dạng các mẫu hình ảnh dần dần từ đơn giản đến phức tạp, từ đường nét đến toàn bộ khuôn mặt. Các lớp nhân tạo tương tự như các lớp tế bào thần kinh trong não. Các nơron nhân tạo được gọi là các perceptron và CNN là một mạng lưới sử dụng các perceptron này.

Nói về thị giác của con người, một số tế bào thần kinh được kích hoạt khi đặc biệt tiếp xúc với các đường thẳng đứng, một số khác - với các đường ngang hoặc đường chéo. Đó là những gì Hubel và Wiesel đã mô tả vào năm 1962. Việc phân chia các nhiệm vụ cụ thể để tách các tế bào thần kinh nhân tạo cũng là điều CNN làm.

Perceptron đánh giá thông tin theo cách khác hoặc nói theo toán học, các đầu vào trọng lượng tế bào thần kinh nhân tạo quyết định khác nhau xem chúng quan trọng. Bộ não của chúng ta lọc thông tin theo cách tương tự. Chúng ta không thể nhớ tất cả những khuôn mặt mà chúng ta nhìn thấy trong ngày. Chúng tôi chỉ lưu thông tin có giá trị. Còn các lớp tế bào thần kinh thì sao?

Vỏ não giữ các tế bào thần kinh trong sáu lớp ngang. Các lớp này khác nhau tùy theo loại nơ-ron và các kết nối của chúng. Tuy nhiên, tín hiệu thần kinh không thực sự đi qua tất cả các lớp vỏ não theo cách phân cấp. Tín hiệu không nhất thiết phải di chuyển từ lớp đầu tiên đến lớp cuối cùng.

Cách thông tin được truyền qua các tế bào thần kinh không phụ thuộc vào cấu trúc liên kết của các lớp. Trong các lớp CNN, nó có. CNN sử dụng nguyên tắc các lớp tế bào thần kinh theo một cách khác: Thông tin được truyền dần từ lớp này sang lớp khác.

Tất cả những điều này đến từ “nhận thức thần kinh” do Kunihiko Fukushima đề xuất vào năm 1980. Ông đã đưa ra hai loại lớp CNN cơ bản: lớp chập và lớp lấy mẫu xuống. Các lớp này chứa các đơn vị tương tự như các tế bào thần kinh khác nhau, có thể xử lý thông tin hình ảnh có độ phức tạp khác nhau. Fukushima, lấy cảm hứng từ những tế bào này, đã đề xuất một mô hình xếp tầng trong đó các tế bào thần kinh truyền thông tin theo cách có thứ bậc: Từ lớp này sang lớp khác.

Việc điều tra thị giác của con người đã dẫn đến sự xuất hiện của thị giác trí tuệ nhân tạo. Giờ đây, các hệ thống máy tính nhận ra các thế giới phức tạp ngay cả khi đang chuyển động. Hơn nữa, họ tự học cách làm hiệu quả hơn.

AI và Thị giác máy tính: Chúng có mối quan hệ như thế nào?

Tầm nhìn máy tính trở nên khả thi do một số thành tựu. Toán học, sinh học, lập trình và kỹ thuật thường được kết hợp để phát triển một sản phẩm AI. Thị giác máy tính có thể được gọi là tầm nhìn AI vì nó dựa trên công nghệ AI. Ngoài ra, thị giác máy liên quan một phần đến thị giác máy tính. Các công nghệ của chúng thường được kết hợp với nhau. Dù sao, thị giác máy tính cũng phổ biến hơn cho nhiều tác vụ như giám sát sản phẩm trên đường truyền hoặc đọc mã QR. Vì vậy, làm thế nào nó hoạt động?

Điểm ảnh: AI nhìn thấy màu sắc và đường nét

Nói một cách chính xác, AI nhận dạng các mẫu. Nó xử lý hàng triệu hình ảnh để có thể đưa ra kết luận về chúng. Đây là nơi diễn ra quá trình học sâu, làm cho một hệ thống học hỏi.

Hình ảnh được làm bằng pixel. Các điểm ảnh có mã của chúng và mọi hình ảnh được lưu trữ dưới dạng dữ liệu bao gồm các mã này. Tất cả các màu dựa trên màu đỏ, xanh lam và xanh lục (ví dụ như trong mô hình RGB). Nó có nghĩa là mỗi màu cụ thể có ba giá trị. Trong khi chúng ta nhìn thấy những con chó, máy tính sẽ nhìn thấy những con số. Ví dụ: AI hiểu các pixel màu cam là một tập hợp các số (255, 165, 0). Kết quả là, các máy tính nhìn thấy một lưới các số như vậy thay vì hình ảnh.

Nếu một máy tính xử lý hình ảnh 1920 * 1080 pixel, thì nó phải đọc 2.073.600 pixel. Để nhận ra một con chó trong hình ảnh này, máy tính phải xem một số mẫu xuyên suốt tất cả các pixel trong hình ảnh. Chúng tôi làm một điều tương tự: trước tiên, chúng tôi nhận thấy các đặc điểm của đối tượng rất đơn giản và quen thuộc với chúng tôi. Đây là lý do tại sao chúng ta có thể phân biệt một con chó với một chiếc xe hơi bằng cách chỉ có bóng của chúng.

Máy tính cũng cố gắng phân biệt các mẫu quen thuộc - xem các đường hoặc hình dạng được liên kết với một cái gì đó từ cơ sở dữ liệu của máy tính. Cơ sở dữ liệu chứa càng nhiều khớp, thì máy tính càng có nhiều cơ hội phân loại hình ảnh một cách chính xác.

Công nghệ: CNN lấy cảm hứng từ não bộ

Convolution là một hàm toán học kết hợp với các nguyên tắc của mạng nơ-ron thành Mạng nơ-ron Convolution. CNN có các lớp như vỏ não. Nó có các lớp lọc dần các tính năng hình ảnh từ đơn giản đến khó:

  • Lớp đầu vào
  • Lớp chuyển đổi
  • Lớp gộp
  • Lớp dày đặc.

Cốt lõi của CNN là lớp tích chập. Hãy nghĩ lại hình ảnh dưới dạng một lưới các con số. Trên lớp này, nhờ nhân lưới trên ma trận tích chập (CM), máy tính có thể trích xuất các tính năng từ một hình ảnh. Sau khi CM đã được nhân lên trên mỗi ô của lưới, chúng ta sẽ có được một lưới được biến đổi. Máy tính hiểu các giá trị của nó dưới dạng các đặc điểm như cạnh hoặc đường và các mẫu của chúng có thể quen thuộc với cơ sở dữ liệu AI.

Convolution được chạy nhiều lần để đưa ra dự đoán về các mẫu và kiểm tra độ chính xác của chúng. Mạng nơ-ron sẽ tiếp tục lặp lại cho đến khi độ chính xác cao nhất có thể. Điều này liên quan đến tất cả các lớp.

Nếu chúng ta nhận được 10 ma trận đặc trưng làm đầu ra từ lớp tích chập, thì 10 ma trận này được chuyển đến lớp tiếp theo làm đầu vào. Các lớp gộp và dày đặc cũng hoạt động với một hình ảnh cho nhiều lần lặp lại. Nhưng chức năng của chúng khác nhau.

Lớp gộp làm giảm kích thước của ma trận đối tượng, do đó tóm tắt thông tin chính. Hình ảnh đầu vào có thể chứa nhiều sai lệch so với các mẫu của đối tượng đơn giản: sắc thái, cách xoay hoặc cây trồng. Chúng làm phức tạp thêm việc nhận dạng đối tượng. Tại lớp tổng hợp, các tính năng bất biến gây cản trở việc xử lý hình ảnh chỉ được lấy mẫu hoặc giảm bớt.

Cuối cùng, lớp dày đặc phải phân loại hình ảnh bằng cách sử dụng kết quả của các lớp trước đó. Nó phải xử lý tất cả các tính năng hình ảnh được trích xuất từ các lớp trước đó và đặt tên cho các đối tượng từ hình ảnh đó. Lớp sâu là một lớp liên kết đầy đủ, được gọi như vậy vì các tế bào thần kinh nhân tạo liên kết với nhau rất cao. Các lớp khác thiếu sức mạnh này.

Các lớp chuyển đổi chứa các tế bào thần kinh chỉ được kết nối với mức trước đó. Nó không đủ cho dự đoán của một đối tượng. Lớp sâu đối phó với nhiệm vụ này bằng cách sử dụng nhiều tế bào thần kinh liên kết với nhau cùng một lúc. Dựa trên dự đoán của nó về các tính năng được trích xuất từ các lớp trước đó, lớp sâu là nơi mà tầm nhìn của trí tuệ nhân tạo đạt đến độ chính xác cao.

Ở cấp độ lập trình, xử lý ảnh không giống như lọc ảnh đơn giản trong hệ thống phân cấp của các lớp. Trong các trường hợp khác nhau, AI xử lý số lượng lớp khác nhau và các lần lặp lại khác nhau của quá trình xử lý hình ảnh và thực hiện trong một khoảng thời gian khác nhau.

Xét rằng AI phải xử lý hàng tỷ hình ảnh để hiểu được thế giới hiện đại phức tạp, chúng ta tưởng tượng mọi người đang ngồi và cố gắng điền vào cơ sở dữ liệu của nó, giả vờ AI là học sinh của họ. Hiện nay, AI đang cố gắng tự nghiên cứu. AI là một “đứa trẻ” thông minh chỉ cần vật chất để bắt đầu.

AI tự dạy mình: Học sâu

Để có thể nhận dạng các đối tượng trong hình ảnh nhanh chóng, AI cần rất nhiều nguyên liệu. Có thể nhận dạng khuôn mặt đầu tiên do quá trình xử lý ảnh thủ công. Mọi người đánh dấu các tính năng trên ảnh khuôn mặt và AI chỉ phải so sánh các khuôn mặt mới với cơ sở dữ liệu sẵn có của nó. AI không hoạt động tự động và lỗi quá lớn. Để thực hiện những nhiệm vụ khó khăn như vậy về thị giác máy tính, máy học được sử dụng.

Giờ đây, AI sử dụng các công nghệ học sâu để tự học. AI hầu như không cần con người sau khi nó đã được cung cấp một số cơ sở dữ liệu. Mọi người không giải thích mọi quy tắc đơn lẻ cho AI. Họ áp dụng các thuật toán học thống kê - hồi quy logistic, cây quyết định, hồi quy tuyến tính và máy vectơ hỗ trợ - để AI bắt đầu tự ghi nhớ các mẫu mới. Học sâu nắm bắt các tính năng tự động và mọi người không phải thực hiện thủ công.

Để đào tạo, AI vẫn cần tài liệu do con người giới thiệu trong các giai đoạn đầu tiên. Để nhận ra một con chó, các nhà phát triển phải cho nhiều con chó xem máy tính để chuẩn bị cho nó. Sau đó, AI sẽ tiếp tục tự dạy trong khi xử lý các hình ảnh mới. Điều đó cũng có nghĩa là AI sẽ không chỉ tìm kiếm các hình ảnh tương ứng từ cơ sở dữ liệu của nó, giờ đây, nó còn biết cách phân loại các hình ảnh hoàn toàn mới nếu thứ gì đó tương tự đã được tải lên hoặc nhìn thấy.

Nhiều gã khổng lồ công nghệ AI chia sẻ công việc của họ với những gã khổng lồ mạng xã hội như Meta và Google hoặc để nó ở dạng mã nguồn mở. Nó cho phép thu thập dữ liệu lớn, chia sẻ và cung cấp cho AI nhiều khả năng hơn để nghiên cứu.

Nhờ các công nghệ thị giác máy tính ban đầu hoạt động với dữ liệu lớn theo cách thủ công, nhiều công nghệ thị giác AI hiện đại hoàn thành các nhiệm vụ cụ thể. Ngày nay, tầm nhìn AI đang được phát triển bởi hàng nghìn nhóm trên toàn thế giới.

Ví dụ: thuật toán YOLO cho phép phát hiện và theo dõi đối tượng theo thời gian thực. Nhiệm vụ của nó không chỉ là phát hiện một đối tượng trong cảnh quay mà là liên kết tất cả thông tin từ các lần chụp trước. Nguyên tắc Bạn Chỉ Nhìn Một lần có nghĩa là mạng nơ-ron thần kinh chỉ xử lý một hình ảnh một lần để phát hiện tất cả các đối tượng. Sau đó, nó quan sát chúng. Nó có thể do các lớp sâu và học sâu.

Giờ đây, thị giác máy tính gần như là một công nghệ tự cung tự cấp giúp đưa ra một số dự đoán tốt hơn con người. Trong nghiên cứu do Google tài trợ, các thuật toán học sâu đã phát hiện ra các tế bào ung thư trong vú với độ chính xác cao hơn so với các bác sĩ X quang. Hệ thống AI cho thấy giảm 5,7% và 1,2% (Hoa Kỳ và Anh) trong các trường hợp dương tính giả và 9,4% và 2,7% trong các trường hợp âm tính giả. Một lý lẽ tốt để tin tưởng vào AI, phải không?

Từ cửa hàng đến máy kéo: Ứng dụng thị giác máy tính

Thị giác máy tính có thể cho chúng ta biết điều gì về một hình ảnh? Chúng tôi biết rằng nó có thể phát hiện các đối tượng và thậm chí theo dõi chúng trong thời gian thực. Còn gì nữa? Sử dụng Chế độ xem phố của Google, AI tầm nhìn đã chụp được những chiếc ô tô trên các con đường của Mỹ đã dự đoán thu nhập và thậm chí cả các kiểu bỏ phiếu ở các khu vực thành phố khác nhau. Ví dụ, người dân có khả năng bỏ phiếu cho đảng Dân chủ nếu có nhiều xe sedan hơn xe bán tải ở thành phố đó.

Một điều khác mà AI có thể làm cho con người là đếm động vật trong các công viên quốc gia. Phần mềm AI có tên Wildbook sẽ tự động xác định các loài bằng ngoại hình của chúng. Tầm nhìn AI này có thể nhận ra các mẫu lông độc đáo hoặc các đặc điểm khác như viền tai hoặc lông tơ. Wildbook có một cơ sở dữ liệu gồm 20 loài. Bây giờ nó hợp tác với Microsoft AI cho Chương trình Trái đất để giải quyết các vấn đề môi trường khác nhau. Chúng ta đối phó với hươu cao cổ hoặc báo đốm không thường xuyên, và những câu chuyện như vậy không khiến chúng ta đau lòng như AI mà chúng ta gặp hàng ngày.

Snapchat và Amazon

Bạn có biết rằng bạn có thể tập trung vào bất kỳ sản phẩm nào có camera Snapchat và AI sẽ hiển thị cho bạn sản phẩm này trên Amazon? Nếu bạn ghé thăm một cửa hàng Amazon thực, thị giác máy tính sẽ quan sát bạn và cho các nhà phát triển của nó biết cách bạn cư xử. AI có thể trích xuất phân tích từ toàn bộ hành trình mua sắm: từ đề xuất bãi đậu xe đến thu thập dữ liệu cảm xúc để đưa ra dự đoán về các sản phẩm mà khách hàng quan tâm.

Ở hậu trường, AI cũng hỗ trợ ở giai đoạn sản xuất. Sử dụng thị giác máy, các dòng sản phẩm được giám sát để phát hiện hàng hóa hoặc bao bì bị lỗi. Nhân tiện, đọc mã vạch là những gì Nhận dạng ký tự quang học (OCR), một loại thị giác máy, thực hiện khi bạn mua một thứ gì đó.

Có khả năng một phần lớn ngành bán lẻ sẽ sớm triển khai tầm nhìn AI. Các nhóm khác nhau đang làm việc trên các công nghệ mới để phát hiện và theo dõi các sản phẩm để những công nghệ này có thể trở nên rẻ hơn. Do đó, nhiều cửa hàng sẽ có thể áp dụng cho họ.

Amazon đã ủy quyền cho AI nhiều công việc đến mức công ty đã thành lập AWS Panorama, một dự án riêng biệt bán các dịch vụ thị giác máy tính cho các doanh nghiệp khác nhau. Ví dụ, họ đã giúp một sân bay đối phó với hàng đợi. AWS cũng giúp một công ty thăm dò khí đốt theo dõi sự xa cách xã hội của người lao động và phát hiện rò rỉ dầu. Chơi guitar Fender? AWS biết đã dành bao nhiêu thời gian cho việc sản xuất một cây đàn guitar. Nó giúp Fender theo dõi thời gian sản xuất một cây đàn guitar và những điểm sản xuất nào có thể được tối ưu hóa.

Có rất nhiều ví dụ khác chỉ về tầm nhìn AI của Amazon. Bây giờ, hãy tưởng tượng có bao nhiêu nhiệm vụ được giải quyết bởi AI vision mỗi ngày khi tính đến việc mọi gã khổng lồ công nghệ đều làm việc với AI.

Máy kéo John Deere

John Deere kết hợp đã chăm sóc các cánh đồng trong gần 200 năm. Công ty đang từng bước triển khai các công nghệ AI với tốc độ của một gã khổng lồ công nghệ. Vào năm 2020, các nhà phát triển của John Deere đã phát hành một khái niệm về máy kéo bán tự động, có thể tìm ra các tuyến đường tối ưu giữa các loại cây trồng, phân tích chất lượng thu hoạch, phun thuốc diệt cỏ một cách chính xác và tự loại bỏ cỏ dại. Tất cả các tính năng này đã được thực hiện với thị giác máy tính.

Để phân tích cây trồng và phun thuốc diệt cỏ, chúng ta không nhất thiết phải cần đến máy kéo. Drone cũng có thể làm điều đó. Sử dụng máy bay không người lái dự đoán chúng ta đến Nông nghiệp Chính xác và giải quyết vấn đề thất thoát lương thực. Gần 15% lương thực bị mất hàng năm trong quá trình thu hoạch và máy bay không người lái có thể làm giảm con số này.

Thị giác máy tính có thể giúp nhân loại đối phó với nạn đói. Trong nông nghiệp, Vision AI đưa ra các giải pháp về cách giảm thiểu thất thoát khi thu hoạch. Do đó, dân số 10 tỷ được dự đoán có thể gặp ít rủi ro hơn về nguồn cung. Ngoài ra, chúng ta sẽ cần ít thuốc diệt cỏ hơn nếu AI phát hiện chính xác hơn con người. Nó có thể giải quyết vấn đề sinh thái với thuốc diệt cỏ bổ sung.

Nhận dạng khuôn mặt của Apple

Đây là thứ chúng ta sử dụng không phải hàng ngày mà hàng giờ. Bắt đầu từ iOS 10, các mẫu iPhone mới được FaceID mở khóa dựa trên thuật toán nhận diện khuôn mặt. Máy ảnh iPhone theo dõi khuôn mặt trong thời gian thực và cho phép ủy quyền nếu khuôn mặt đó thuộc về chủ sở hữu điện thoại. Trong iOS, nhận dạng khuôn mặt không chỉ được sử dụng để mở khóa màn hình mà còn để nhận dạng người trong ảnh. Trong trường hợp này, ảnh được gửi đến máy chủ đám mây để phát hiện khuôn mặt bằng công nghệ học sâu.

Đây là những gì Facebook cũng đã làm. Cho đến năm 2021. Facebook ngừng nhận dạng khuôn mặt do quy định pháp luật yếu kém và các mối quan ngại của xã hội. Tùy chọn này không bị giới hạn chỉ bởi nhận dạng khuôn mặt: một hệ thống văn bản thay thế tự động cũng tạo mô tả hình ảnh cho người mù. Hệ thống này đã sử dụng Nhận dạng khuôn mặt để cho biết một người hoặc bạn bè có trong ảnh hay không. Mọi người tiếp tục thảo luận về vấn đề này vì nó là nơi AI mang lại lợi ích cho xã hội. Vui vẻ thì sao?

Bạn đã thử trao đổi khuôn mặt của mình với khuôn mặt của bạn mình trong bất kỳ ứng dụng nào chưa? Hay bạn đã thấy mình trông như thế nào ở tuổi già chưa? Sau đó, bạn đã thử thao tác trên khuôn mặt thực tế. Công nghệ tầm nhìn AI này không chỉ được sử dụng để giải trí cho người dùng mà còn để tạo ra những bức ảnh sâu sắc. Đây là lúc mà thị giác máy tính trở nên nguy hiểm vì deepfakes có thể được sử dụng để thao túng xã hội.

Chuyện đã xảy ra với việc người Nga xem đoạn video giả mạo sâu sắc của tổng thống Ukraine, nơi ông nói rằng ông không đương đầu với chiến tranh và sẵn sàng đầu hàng Ukraine, đó là một lời nói dối.

Những điều thực sự tốt mà tính năng nhận dạng khuôn mặt đã được thực hiện? Bên cạnh tội phạm được phát hiện trên camera công cộng, AI thị giác có thể tìm thấy trẻ em mất tích. Cảnh sát Dehli mới lần ra gần 3.000 trong số 45.000 trẻ em mất tích chỉ trong 4 ngày nhờ nhận dạng khuôn mặt được áp dụng cho cơ sở dữ liệu TrackChild. Thêm một ví dụ về cách mà thị giác máy tính mang lại lợi ích cho xã hội của chúng ta.

Ngày nay, có quá nhiều công việc cho thị giác máy tính. Ví dụ về AI có thể tạo nên một danh sách hàng trăm điểm. Một số khác là:

  • Phát thanh thể thao : theo dõi bóng, puck; dự đoán hiệu suất của người chơi.
  • Chăm sóc sức khỏe : phát hiện khối u, theo dõi bệnh nhân từ xa, hình ảnh y tế.
  • Xe tự lái : Tesla và Waymo của Google không phải là những công ty duy nhất. Đã có nhiều xe bán tự hành khác trên các con đường rồi.
  • Dịch : mở ứng dụng Google Dịch của bạn và cố gắng sử dụng tính năng dịch trực quan theo thời gian thực.
  • Lưu trữ ảnh : New York Times hợp tác với Google và sử dụng công nghệ Vision API của mình để số hóa hàng triệu bức ảnh từ các kho lưu trữ.
  • Nuôi trồng và động vật hoang dã : phát hiện và theo dõi động vật trong các vườn quốc gia hoặc trang trại; phát hiện các triệu chứng nhiễm trùng.

Nói về chăm sóc sức khỏe, CNN và học sâu giúp các bác sĩ phát hiện ra Covid. Sử dụng hình ảnh X-quang ngực, ứng dụng của nhóm Covid-Net - DarwinAI - dự đoán bệnh với độ chính xác hơn 92%. Do cơ sở dữ liệu mã nguồn mở của nó, phần mềm có rất nhiều tài liệu để học hỏi.

Không tồi đối với một "thanh thiếu niên", người giúp nhân loại giải quyết các vấn đề trong bán lẻ, nông nghiệp, mạng xã hội và chăm sóc sức khỏe. Có thể AI đã đạt đến khả năng của trí thông minh của người lớn. Tầm nhìn của AI thực sự đã đi vào mọi lĩnh vực cuộc sống. Mặc dù vậy, có điều gì đó mà AI còn “quá non trẻ” hoặc chưa sẵn sàng đối phó.

Tầm nhìn máy tính nào không có khả năng

Hạn chế chính không phải là AI không biết điều gì đó: Đó là một “sinh viên” học sâu tốt. Vấn đề là phần cứng thường hạn chế tiềm năng tầm nhìn của AI.

Máy học đòi hỏi bộ xử lý hiệu quả cao: CPU và GPU phải hiển thị hình ảnh hoặc video chất lượng cao. Khả năng của CPU thường không đủ cho các tác vụ tính toán chuyên sâu trong khi GPU giúp tăng tốc tính toán thị giác AI . Do đó, GPU giải phóng CPU cho các tác vụ khác ngoài thị giác máy tính.

Bên cạnh máy tính hiệu quả, thị giác máy tính cần các thiết bị sắc cạnh. Chúng được kết nối với máy ảnh để thu thập dữ liệu theo thời gian thực, do đó tiết kiệm thời gian xử lý dữ liệu trên các đám mây. Các thiết bị Edge xử lý dữ liệu cục bộ và kết quả là dữ liệu thời gian thực không có vấn đề về độ trễ. Bằng cách xử lý dữ liệu cục bộ, các doanh nghiệp có thể tiết kiệm tiền bằng cách thực hiện việc xử lý dữ liệu cục bộ.

Nhận được một thiết bị cạnh không phải là một vấn đề, nhưng nó được thêm vào “giỏ hàng tiêu dùng” cho thị giác máy tính và giá sẽ cao hơn. Thật khó để ước tính một chiếc máy tính hoàn hảo cho tầm nhìn AI sẽ có giá bao nhiêu. Bầu trời là giới hạn. Trên một máy tính xách tay thông thường, chỉ có thể chạy các tác vụ tầm nhìn AI đơn giản.

Các nhà nghiên cứu trong phòng thí nghiệm AI12 đã tính toán chi phí sẽ tốn bao nhiêu nếu các nhiệm vụ học sâu NoisyStudent phức tạp của Google sẽ chạy trong AWS của Amazon giống như đám mây, chẳng hạn. Xem xét rằng NoisyStudent hoạt động trên CNN và bao gồm 480 triệu thông số, giá sẽ lên tới $ 10K - $ 200K (chỉ cho 340 triệu thông số).

Nếu kết hợp AI máy và máy tính thì phải có camera có độ phân giải cao. Nếu mục tiêu là theo dõi một đối tượng, thì máy cần có camera có khả năng ghi lại các luồng độ nét cao. Thêm điều này vào giá quá.

Bên cạnh phần cứng, một hạn chế khác là thiếu dữ liệu chất lượng cao. Để dạy AI nhận dạng các đối tượng, nó phải được đào tạo về dữ liệu được gắn nhãn với hình ảnh có độ phân giải cao. Đối phó với một loạt các tia X chất lượng thấp, rất khó để thị giác AI có thể dự đoán bệnh tật. Ngoài ra, thường không có đủ dữ liệu. Covid-Net đã thành công vì liên tục lấp đầy các bản quét mới trong đại dịch. Các dự án khác có thể thất bại vì các vấn đề về quyền riêng tư hạn chế tích lũy dữ liệu.

Ở đây, tầm nhìn AI giải quyết một vấn đề khác - đạo đức và quy định pháp luật. Một số bang của Hoa Kỳ đã cấm hệ thống nhận dạng khuôn mặt trong camera cơ thể của cảnh sát. Xét đến việc AI có thể tìm thấy tội phạm hoặc một đứa trẻ mất tích, có vẻ như đây là một vấn đề do quy định pháp luật yếu kém mà hiện nay vẫn chưa rõ ràng.

Thành kiến về chủng tộc và giới tính cũng đạt đến tầm nhìn của AI . Trong hầu hết các trường hợp, AI được đào tạo trên một tập dữ liệu có chứa ít hình ảnh về phụ nữ và những người có làn da sẫm màu. Vấn đề là nó thực sự dẫn đến nhận dạng không chính xác - nó không chỉ là vấn đề đạo đức.

Trên đường đi của mình, tầm nhìn của AI sẽ phải đối mặt với nhiều vấn đề đạo đức và sẽ bị thách thức bởi sự tin tưởng của xã hội. Đạo đức, phần cứng và dữ liệu kém chất lượng thách thức AI. Tuy nhiên, vấn đề chính là AI vẫn cần một con người. Nó vẫn cần dữ liệu được dán nhãn thủ công.

Tuy nhiên, vấn đề là thời gian trước khi AI sẽ giải quyết các vấn đề một cách tự chủ hơn. Thị giác máy tính không còn là một “đứa trẻ” công nghệ nữa. Nó dường như đã trưởng thành và chúng ta có thể tự hào về điều đó. Đây là lúc để ghi nhớ những thành tựu chính của nó.

Kết luận: Tầm nhìn máy tính mà chúng tôi mong muốn

Những điểm chính và quan trọng nhất cần xem xét khi nói về thị giác máy tính là:

  • Các nguyên tắc của mạng lưới tế bào thần kinh của con người đã truyền cảm hứng cho các nhà khoa học phát triển công nghệ thị giác máy tính tương tự như kiến trúc các lớp tế bào thần kinh.
  • Vào những năm 1980, thị giác máy tính bắt đầu giải quyết các nhiệm vụ phức tạp để phát hiện và theo dõi các đối tượng trong hình ảnh.
  • CNN, dựa trên các nguyên tắc của sinh vật và học sâu là công nghệ thị giác máy tính hiện đại chính.
  • Ngày nay, thị giác máy tính được sử dụng trong chăm sóc sức khỏe, bán lẻ, giao thông, thể thao, nông nghiệp, khoa học xã hội và điện thoại thông minh. Có rất nhiều lĩnh vực hấp dẫn khác, nơi AI sẽ được áp dụng trong một vài năm tới.
  • Chúng ta phải đồng ý rằng tầm nhìn máy tính bao gồm các ứng dụng phi đạo đức và rủi ro như bất kỳ công nghệ kỹ thuật số nào khác. Tầm nhìn AI đã đơn giản hóa cuộc sống của con người không chỉ trong công việc mà còn trong thói quen hàng ngày.
  • Để nói về tầm nhìn máy tính như một người chuyên nghiệp, hãy đọc phần này hoặc xem phần này .

Việc dựa vào AI hay tin tưởng nó vào cuộc sống của bạn (ví dụ như khi đang lái một chiếc ô tô tự lái) là lựa chọn cá nhân của bạn. Tuy nhiên, điều bạn nên chấp nhận, bất kể bạn nghĩ gì về tất cả những thứ công nghệ cao, là AI đã theo dõi bạn kể từ khi bạn mở trình duyệt hoặc mở khóa điện thoại của mình. Hơn nữa, nó luôn bao quanh bạn mỗi bước trong thói quen hàng ngày của bạn. Vì vậy, điều tốt nhất cần làm là nhận thức và hiểu biết về cách thị giác máy tính đang được phát triển và bạn có thể tận dụng nó theo cách cá nhân hoặc kinh doanh theo cách nào.

Ban đầu được xuất bản ở đây .