I explain Artificial Intelligence terms and news to non-experts.
The writer is smart, but don't just like, take their word for it. #DoYourOwnResearch before making any investment decisions or decisions regarding you health or security. (Do not regard any of this content as professional investment advice, or health advice)
Walkthroughs, tutorials, guides, and tips. This story will teach you how to do something new or how to do something better.
The is an opinion piece based on the author’s POV and does not necessarily reflect the views of HackerNoon.
This writer has a vested interested be it monetary, business, or otherwise, with 1 or more of the products or companies mentioned within.
Trong thế giới ngày nay, chúng ta có quyền truy cập vào một lượng dữ liệu khổng lồ nhờ các mô hình AI mạnh mẽ như ChatGPT , cũng như các mô hình tầm nhìn và các công nghệ tương tự khác. Tuy nhiên, không chỉ về số lượng dữ liệu mà các mô hình này dựa vào mà còn về chất lượng. Tạo một tập dữ liệu tốt một cách nhanh chóng và ở quy mô lớn có thể là một nhiệm vụ đầy thách thức và tốn kém.
Nói một cách đơn giản, học tích cực nhằm mục đích tối ưu hóa chú thích của tập dữ liệu của bạn và đào tạo mô hình tốt nhất có thể bằng cách sử dụng ít dữ liệu đào tạo nhất.
Đó là phương pháp học tập có giám sát bao gồm quá trình lặp đi lặp lại giữa các dự đoán của mô hình và dữ liệu của bạn. Thay vì chờ đợi một bộ dữ liệu hoàn chỉnh, bạn có thể bắt đầu với một lô nhỏ dữ liệu có chú thích được sắp xếp và huấn luyện mô hình của mình với nó.
Sau đó, bằng cách sử dụng phương pháp học chủ động, bạn có thể tận dụng mô hình của mình để gắn nhãn dữ liệu chưa xem, đánh giá độ chính xác của các dự đoán và chọn tập hợp dữ liệu tiếp theo để chú thích dựa trên các chức năng thu thập.
Một lợi thế của học tích cực là bạn có thể phân tích mức độ tin cậy của các dự đoán trong mô hình của mình.
Nếu một dự đoán có độ tin cậy thấp, mô hình sẽ yêu cầu dán nhãn các hình ảnh bổ sung thuộc loại đó. Mặt khác, các dự đoán có độ tin cậy cao sẽ không yêu cầu thêm dữ liệu. Bằng cách chú thích tổng thể ít hình ảnh hơn, bạn tiết kiệm thời gian và tiền bạc trong khi đạt được mô hình tối ưu. Học tích cực là một cách tiếp cận đầy hứa hẹn để làm việc với các bộ dữ liệu quy mô lớn.
Đại diện của học tập tích cực. Hình ảnh từ Kumar et al.
Đầu tiên, nó liên quan đến chú thích của con người, cho phép bạn kiểm soát chất lượng dự đoán của mô hình. Nó không phải là một hộp đen được đào tạo trên hàng triệu hình ảnh. Bạn tích cực tham gia vào sự phát triển của nó và hỗ trợ cải thiện hiệu suất của nó. Khía cạnh này làm cho việc học tích cực trở nên quan trọng và thú vị, mặc dù nó có thể làm tăng chi phí so với các phương pháp không giám sát. Tuy nhiên, thời gian tiết kiệm được trong đào tạo và triển khai mô hình thường lớn hơn các chi phí này.
Ngoài ra, bạn có thể sử dụng các công cụ chú thích tự động và sửa chúng theo cách thủ công, giúp giảm thêm chi phí.
Trong phương pháp học tích cực, bạn có một tập hợp dữ liệu được gắn nhãn mà mô hình của bạn được đào tạo trên đó, trong khi tập hợp không được gắn nhãn chứa dữ liệu tiềm năng chưa được chú thích. Một khái niệm quan trọng là các chiến lược truy vấn, xác định dữ liệu nào sẽ được gắn nhãn. Có nhiều cách tiếp cận khác nhau để tìm các tập hợp con có nhiều thông tin nhất trong nhóm lớn dữ liệu chưa được gắn nhãn. Ví dụ: lấy mẫu độ không đảm bảo liên quan đến việc kiểm tra mô hình của bạn trên dữ liệu chưa được gắn nhãn và chọn các ví dụ được phân loại kém tin cậy nhất để chú thích.
Đại diện cho học tập tích cực với phương pháp Truy vấn theo Ủy ban. Hình ảnh từ Kumar et al.
Một kỹ thuật khác trong học tập tích cực là Truy vấn theo Ủy ban (QBC) , trong đó nhiều mô hình, mỗi mô hình được đào tạo trên một tập hợp con dữ liệu được dán nhãn khác nhau, tạo thành một ủy ban. Những mô hình này có những quan điểm riêng biệt về vấn đề phân loại, giống như những người có kinh nghiệm khác nhau có cách hiểu khác nhau về các khái niệm nhất định. Dữ liệu được chú thích được chọn dựa trên sự bất đồng giữa các mô hình ủy ban, cho thấy sự phức tạp. Quá trình lặp lại này tiếp tục khi dữ liệu đã chọn được chú thích liên tục.
Nếu bạn quan tâm, tôi có thể cung cấp thêm thông tin hoặc video về các chiến lược máy học khác. Một ví dụ thực tế về học tập tích cực là khi bạn trả lời hình ảnh xác thực trên Google. Bằng cách đó, bạn giúp họ xác định các hình ảnh phức tạp và xây dựng tập dữ liệu với đầu vào tập thể của nhiều người dùng, đảm bảo cả chất lượng tập dữ liệu và xác minh của con người. Vì vậy, lần tới khi bạn gặp một hình ảnh xác thực, hãy nhớ rằng bạn đang đóng góp vào sự phát triển của các mô hình AI!
foreign
[Music]
amounts of data thanks to the
superpowers of large models including
the famous chatgpt but also Vision
models and all other types you may be
working with indeed the secrets behind
those models is not only the large
amount of data they are being trained on
but also the quality of that data but
what does this mean it means we need
lots of very good balance and varied
data and as data scientists we all know
how complicated and painful it can be to
build such a good data set fast and at
large scale and maybe with a limited
budget what if we could have helped
build that or even have automated help
well that is where Active Learning comes
in in one sentence the goal of active
learning is to use the least amount of
training data to optimize The annotation
of your whole data set and train the
best possible model it's a supervised
learning approach that will go back and
forth between your model's predictions
and your data what I mean here is that
you may start with a small batch of
curated annotated data and train your
model with it you don't have to wait for
your whole millions of images that are
set to be ready just push it out there
then using Active Learning you can use
your model on your unseen data and get
human annotators to label it but that is
not only it we can also evaluate how
accurate the predictions are and using a
variety of acquisition functions which
are functions used to select the next
unseen data to annotate we can quantify
the impact of labeling a larger data set
volume or improving the accuracy of the
labels generated to improve the model's
performance thanks to how you train the
models you can analyze the confidence
they have in their predictions
predictions with low confidence will
automatically request additional images
of this type to be labeled and
predictions with high confidence won't
need additional data so you will
basically save a lot of time and money
by having to annotate fewer images in
the end and have the most optimized
model possible how cool is that Active
Learning is one of the most promising
approach to working with large-scale
data sets and there are a few important
key Notions to remember with active
learning the most important is that it
uses humans which you can clearly see
here in the middle of this great
presentation of active learning it will
still require humans to annotate data
which has the plus side to give you full
control over the quality of your model's
prediction it's not a complete Black Box
that trained with millions of images
anymore you iteratively follow its
development and help it get better when
it fails of course it does have the
downside of increasing costs versus
unsupervised approaches where you don't
need anyone but it allows you to limit
those costs by only training where the
models need it instead of feeding it as
much data as possible and hoping for the
best moreover the reduction in time
taken to train the model and put it into
production often outweighs these costs
and you can use some automatic
annotation tools and manually correct it
after again reducing the costs then
obviously you will have your labeled
data set the labeled set of data is what
your current model is being trained on
and the unlabeled set is the data you
could put in usually used but hasn't
been annotated yet another key notion is
actually the answer to the most
important question you may already have
in mind how do you find the bad data to
annotate and add to the training set
the solution here is called query
strategies and they are essential to any
Active Learning algorithm deciding which
data to label and which not to there are
multiple possible approaches to finding
the most informative subsets in our
large pool of unlabeled data that will
most help our model by being annotated
like uncertainty sampling where you test
your current model on your unlabeled
data and draw the least confident
classified examples to annotate another
technique shown here is the query by
committee or QBC approach here we have
multiple models our committee models
they will all be trained on a different
subset of our label data and thus have a
different understanding of our problem
these models will each have a hypothesis
on the classification of our unlabeled
data that should be somewhat similar but
still different because they basically
see the world differently just like us
that have different live experience and
have seen different animals in our lives
but still have the same concepts of a
cat and a dog then it's easy the data to
be annotated is simply the ones our
models most disagree on which means it
is complicated to understand and we
start over by feeding the selected data
to our experts for annotation this is of
course a basic explanation of active
learning with only one example of a
query strategy let me know if you'd like
more videos on other machine learning
strategies like this here A clear
example of the active learning process
is when you answer captchas on Google it
helps you identify complex images and
build data sets using you and many other
people as a committee jury for
annotation
building cheap and great data sets while
entering you are a human serving two
purposes so next time you are annoyed by
a captcha just think that you are
helping AI models progress but we have
enough theory for now I thought it would
be great to partner with some friends
from encord a great company I have known
for a while now to Showcase a real
example of active learning since we are
in this team it's for sure the best
platform I have seen yet for active
learning and the team is amazing before
diving into a short practical example I
just wanted to mention that I will be at
cvpr in person this year and so will
Encore if you are attending in person 2
let me know and go check out their Booth
it's Booth 1310. here's a quick demo we
put together for exploring one of
encore's products that perfectly fits
this episode and chord active it is
basically an active learning platform
where you can perform everything we
talked about in this video without any
coding with a great visual interface
here's what you would see in a classic
visual task like segmentation once you
open up your project you directly have
relevant information and statistics
about your data you'll see all the
outlier characteristics of your data
which will help you figure out what
causes the issues in your test for
example here we see that blur is one of
those outliers that has been
automatically identified if we check out
the worst images for that category we
can easily find some problematic images
and tag them for review like here where
the image is super saturated you can
also visualize groups of data thanks to
their embeddings just like clip
embeddings that you might have heard a
lot these days and those embeddings can
easily be compared together and grouped
when similar helping you find
problematic groups all at once instead
of going through your data one by one
then once you are satisfied with your
identified images to review you can
simply export it to their encode
platform where you can do your
annotation directly when you have your
annotations and you get back on the
encode active platform you can now
visualize what it looks like with labels
you can see how the embedding plots have
changed now with the different classes
attached here again you can look at
different subgroups of data to find
problematic ones for example you can
look at images containing school buses
this can be done using natural language
to look for any information in images
metadata or classes something quite
necessary these days if you want to say
that you are working in AI when you
cannot find any more problems easily
with your data you train your model and
come back to the platform to analyze its
performance once again you have access
to a ton of valuable information about
how well your model is performing for
example if we take a look at the object
area where we see that small images seem
problematic we can easily filter them
out and create a new sub data set using
only our problematic small object images
the project is created in your Encore
active dashboard with all the same
statistics you had but for only this set
of data if you want to have a closer
look or run experiments with this more
complicated part of the data like using
it for training one of your committee
models and you repeat this Loop over and
over on the annotating problematic data
and improving your model as efficiently
as possible it will both reduce the need
for paying experts annotators especially
if you work with medical applications as
I do or other applications where experts
are quite expensive and maximize the
results of your model I hope you can now
see how valuable Active Learning can be
and maybe even try it out with your own
application and it can all be done with
a single product if you want to let me
know if you do so
but before ending this video I just
wanted to thank ankord for sponsoring
this week's episode with a great example
of active learning and an amazing
product I also wanted to point out that
they had a webinar on June 14th on how
to build a semantic search for visual
data using chatgpt and clip that is
housed on encode active with a recording
available if you want to check it out
it's definitely worthwhile and super
interesting I hope you enjoyed this
episode format as much as I enjoyed
making it thank you for watching