Bài viết mở đầu làm sáng tỏ các nguyên tắc cơ bản và sự khác biệt giữa học tập “Dựa trên mô hình” và “dựa trên thực thể” trong các nhánh của Trí tuệ nhân tạo & Máy học.
“Dựa trên thực thể” và “Dựa trên mô hình” là 2 loại phương pháp tiếp cận học tập khác nhau được các thuật toán học máy khác nhau sử dụng để thực hiện nhiệm vụ của chúng.
Chúng tôi biết rằng mục tiêu cuối cùng của bất kỳ mô hình dự đoán nào là tìm hiểu các mẫu ẩn bên trong dữ liệu và dự đoán các giá trị với độ chính xác hợp lý dựa trên kiến thức đã học. Có 2 cách tiếp cận khác nhau được các thuật toán sử dụng để tìm hiểu về dữ liệu-
Hãy xem qua một câu chuyện đơn giản trước khi chuyển sang các khái niệm toán học. John và Joseph là bạn thân luôn đạt điểm cao trong các kỳ thi. Có một học sinh khác trong trường của họ tên là Kevin. Vì Kevin hơi học kém nên cậu ấy đã nhờ cả hai người giúp đỡ cậu ấy trong việc học tập để cậu ấy cũng đạt được điểm cao trong kỳ thi. Cả John và Joseph đều đồng ý rằng họ sẽ dạy anh ấy các môn học.
Vào ngày đầu tiên, Kevin đến nhà John để học toán. John đã giải thích tất cả các khái niệm chuyên sâu cho Kevin và dạy anh ấy về các tình huống và cách tiếp cận khác nhau để giải quyết các loại vấn đề khác nhau. Thầy cũng luyện Kevin giải nhiều bài mẫu và giúp cậu hiểu các chủ đề, câu hỏi có nội dung và trọng số tương tự trong đề thi. Kevin cảm thấy rất tự tin và hạnh phúc. Ngoài ra, anh ấy cảm ơn John và rời khỏi nhà.
Photo by Trà Nguyễn
Vào ngày thứ hai, Kevin đến nhà Joseph để học khoa học. Joseph hỏi anh ấy liệu anh ấy có muốn hiểu tất cả các khái niệm và lý thuyết chuyên sâu về chủ đề này hay không hay anh ấy chỉ muốn danh sách các câu hỏi sẽ xuất hiện trên tờ đề thi bởi vì bằng cách ghi nhớ tất cả các câu hỏi quan trọng, anh ấy có thể đạt điểm cao thậm chí không hiểu khái niệm đằng sau mỗi câu trả lời. Kevin bản chất là một cậu bé lười biếng. Vì vậy, anh ấy nói rằng anh ấy không muốn nỗ lực học các khái niệm và anh ấy chỉ cần danh sách các câu hỏi quan trọng để anh ấy có thể ghi nhớ những câu trả lời đó. Joseph đưa ra danh sách 50 câu hỏi và câu trả lời quan trọng và yêu cầu học thuộc lòng toàn bộ nội dung.
Ảnh của Dmitry Ratushny
Cuối cùng thì ngày thi cũng đến. Môn thi đầu tiên là môn toán. Đề thi có rất nhiều câu hỏi hóc búa nhưng Kevin đã có một sự hiểu biết tốt về khái niệm mà cậu ấy đã học được từ John. Anh ấy đã giải được gần như tất cả các bài toán và tự tin đạt 90% điểm.
Kỳ thi thứ hai là khoa học. Khi Kevin nhận được tờ đề thi, anh ấy đã rất ngạc nhiên vì phần lớn các câu hỏi đều nằm trong danh sách các câu hỏi và câu trả lời mà anh ấy đã thuộc lòng. Anh ấy nhớ lại tất cả các câu trả lời và viết chúng ngay ngắn. Do đó, trong môn khoa học, anh ấy rất tự tin về việc đạt 90% điểm. Mặc dù anh ấy không làm bất cứ điều gì về mặt khái niệm, nhưng anh ấy đã viết tất cả những điều mà anh ấy ghi nhớ và đạt được mục tiêu của mình.
Ảnh của Green Chameleon trên Bapt
Mô hình học tập theo sau đối với toán học được gọi là "Tổng quát hóa" và mô hình học tập theo sau đối với khoa học được gọi là "Ghi nhớ" . Hy vọng bạn thích những câu chuyện. Bây giờ chúng ta có thể chuyển sang phần giải thích về máy học.
Trong Khái quát hóa, các mô hình luôn cố gắng tìm hiểu về mô hình nội tại, hành vi và khái niệm tổng thể của vấn đề.
Ví dụ,
Chúng ta đều biết công thức cho "Hồi quy tuyến tính" . Nó được biểu diễn dưới dạng-
Y = m1x1 + m2x2 +... mnxn + c
Ở đâu,
Giả sử rằng chúng ta đã phát triển một mô hình hồi quy tuyến tính có thể dự đoán cân nặng của một người dựa trên tuổi, chiều cao của người đó và chiều cao của cha mẹ. Biểu diễn toán học của mô hình sẽ như sau-
Cân nặng = 0,3*(Chiều cao) + 0,2*(Tuổi) + 0,4*(Chiều cao của bố) + 0,1*(Chiều cao của mẹ) + 2
Ở đây, 0,3, 0,2, 0,4 và 0,1 là các giá trị cho độ dốc mà chúng tôi thu được sau quá trình điều chỉnh siêu tham số mở rộng. Tương tự, 2 là giá trị của phần chặn cho mặt phẳng hồi quy.
Hình ảnh đại diện sẽ phần nào giống như thế này-
Hình ảnh do tác giả minh họa
Ở đây, mỗi tính năng sẽ là một chiều và các điểm dữ liệu sẽ được chiếu trong không gian đa chiều này. Sau quá trình này, chúng tôi sẽ tạo ra một mặt phẳng hồi quy có thể đi qua các kích thước này. Giá trị dự đoán (Trọng lượng) cho một “Chiều cao”, “Tuổi”, "Chiều cao của Cha" và "Chiều cao của Mẹ" cụ thể không gì khác ngoài giá trị của mặt phẳng hồi quy này tương ứng với tọa độ trục của các kích thước đối tượng địa lý.
Ở một khía cạnh khác, mô hình này đã cố gắng hiểu mối quan hệ tuyến tính giữa các biến như tuổi, chiều cao, v.v. và tạo ra một siêu phẳng tưởng tượng có thể biểu thị gần đúng giá trị dự đoán dựa trên nhiều dạng thiết kế tự nhiên trong không gian này như Độ tuyến tính, Phương sai đồng nhất, Tự tương quan , vân vân.
Mô hình sẽ cố gắng tạo siêu phẳng theo cách tổng quát sao cho sai số tổng thể trong dự đoán sẽ thấp, tức là khoảng cách giữa các điểm dữ liệu và mặt phẳng hồi quy sẽ thấp nhất có thể. Nó có thể lấy được siêu phẳng tổng quát này do nó đã học về dữ liệu để tìm các mẫu khác nhau trong không gian như một phần của hoạt động đào tạo ML.
Hãy cùng xem qua một ví dụ nữa với thuật toán khác có tên “Máy vectơ hỗ trợ” .
Máy vectơ hỗ trợ là một thuật toán học máy có giám sát được sử dụng phổ biến để dự đoán danh mục điểm dữ liệu được gắn nhãn.
Ví dụ-
SVM sử dụng một mặt phẳng tưởng tượng có thể di chuyển qua nhiều chiều cho mục đích dự đoán của nó. Những mặt phẳng tưởng tượng có thể di chuyển qua nhiều chiều này được gọi là siêu phẳng. Rất khó để tưởng tượng các chiều cao hơn bằng cách sử dụng bộ não của con người vì bộ não của chúng ta chỉ có khả năng hình dung tối đa 3 chiều.
Hãy lấy một ví dụ đơn giản để hiểu kịch bản này.
Chúng ta có một bài toán phân loại để dự đoán liệu một học sinh sẽ đậu hay trượt kỳ thi. Chúng tôi có các tính năng sau dưới dạng các biến độc lập-
Vì vậy, 3 biến độc lập này trở thành 3 chiều của một không gian như thế này-
Hình ảnh do tác giả minh họa
Hãy xem xét rằng các điểm dữ liệu của chúng tôi trông như thế này trong đó-
Hình ảnh minh họa của tác giả
Bây giờ, SVM sẽ tạo một siêu phẳng di chuyển qua 3 chiều này để phân biệt sinh viên trượt và đậu-
Hình ảnh do tác giả minh họa
Vì vậy, về mặt kỹ thuật, mô hình hiểu rằng mọi điểm dữ liệu nằm trên một mặt của siêu phẳng đều thuộc về những học sinh đã vượt qua kỳ thi và ngược lại. Như chúng ta đã thấy trong hồi quy tuyến tính, siêu phẳng SVM cũng được tạo ra như là kết quả cuối cùng của việc điều chỉnh siêu tham số phức tạp và việc học do mô hình ML thực hiện như một phần của hoạt động đào tạo của nó.
Bạn có tìm thấy điểm tương đồng nào trong cách học của 2 thuật toán nêu trên không?
Cả hai đều cố gắng tìm hiểu về bản chất của toàn bộ không gian, các mẫu ẩn giữa các điểm dữ liệu và các kỹ thuật tối ưu hóa khác nhau để giảm thiểu sai số từ đó rút ra một hàm toán học tổng quát để giải quyết vấn đề. Cách tiếp cận này được gọi là "Học tập dựa trên mô hình" .
Cách tiếp cận học tập của các mô hình tuân theo quy trình tổng quát hóa cho mục đích dự đoán được gọi là học tập dựa trên mô hình.
Bây giờ chúng ta hãy đến với một ví dụ khác mà chúng ta cần thực hiện thuật toán "K hàng xóm gần nhất" .
Chúng ta có thể xem xét kịch bản tương tự mà chúng ta đã giả định cho ví dụ SVM. Ở đây cũng vậy, chúng ta cần dự đoán liệu một học sinh sẽ đậu hay trượt kỳ thi. Dữ liệu của chúng tôi trông như thế này-
Hình ảnh minh họa của tác giả
Bây giờ, theo thuật toán KNN, chúng ta nên quyết định giá trị cho “K” (số lượng hàng xóm) và lưu ý lớp của 'K' hàng xóm gần nhất cho từng điểm dữ liệu chưa được gắn nhãn. Giá trị dự đoán cho điểm dữ liệu chưa được gắn nhãn sẽ là lớp có sự tham gia đa số trong số “K'” láng giềng gần nhất.
Giả sử rằng chúng ta đã gán giá trị của K = 3. Ngoài ra, các điểm dữ liệu “a”, “b” và “c” là các điểm dữ liệu chưa được gắn nhãn mà chúng ta cần dự đoán lớp bằng mô hình này.
Hình ảnh do tác giả minh họa
Bạn có nhận thấy bất kỳ sự khác biệt đáng kể nào giữa quy trình làm việc của KNN và 2 thuật toán khác đã đề cập trước đó không?
Thực ra KNN không hề trải qua một quá trình đào tạo nào. Nó không tìm hiểu về các mẫu giữa các điểm dữ liệu hoặc các giả định toán học về không gian hoặc thậm chí nó không cố gắng rút ra bất kỳ hàm toán học nào để ánh xạ các biến độc lập và biến phụ thuộc. Biến số duy nhất mà nhà nghiên cứu cần tối ưu hóa cẩn thận là giá trị của “K”. Nó chỉ ghi nhớ quy trình chọn lớp đa số trong số các lớp lân cận và tuyên bố nó là giá trị dự đoán. Nó không sử dụng bất kỳ kỹ thuật tổng quát nào như một phần của bất kỳ hàm toán học nào. Thay vào đó, chỉ cần ghi nhớ nguyên tắc bỏ phiếu và lặp lại nhiệm vụ đó cho mọi điểm dữ liệu chưa được gắn nhãn. Quá trình này được gọi là "Ghi nhớ" .
Cách tiếp cận học tập của các mô hình tuân theo quy trình ghi nhớ cho mục đích dự đoán được gọi là học tập dựa trên trường hợp.