Đây là một bài viết giới thiệu giải thích trực giác cơ bản, ý tưởng toán học & phạm vi của các hàm cơ sở xuyên tâm trong việc phát triển các mô hình học máy dự đoán.
Trong học máy, việc giải quyết vấn đề dựa trên các thuật toán dựa trên siêu phẳng phụ thuộc rất nhiều vào việc phân phối các điểm dữ liệu trong không gian. Tuy nhiên, có một thực tế là dữ liệu trong thế giới thực hiếm khi tuân theo các giả định lý thuyết.
Có rất nhiều hàm chuyển đổi có thể chuyển đổi hình dạng tự nhiên của các điểm dữ liệu thành các phân phối được khuyến nghị về mặt lý thuyết để duy trì các mẫu dữ liệu ẩn. Radial Basis là một trong những chức năng nổi tiếng như vậy được thảo luận trong rất nhiều sách giáo khoa về máy học. Trong bài viết này, chúng ta sẽ cùng nhau tìm hiểu về hàm trực giác cơ bản, các dạng và cách sử dụng hàm cơ sở Radial.
Hàm cơ sở xuyên tâm là một hàm toán học lấy đầu vào có giá trị thực và xuất ra đầu ra có giá trị thực dựa trên khoảng cách giữa giá trị đầu vào được chiếu trong không gian từ một điểm cố định tưởng tượng được đặt ở nơi khác.
Hàm này được sử dụng phổ biến trong nhiều thuật toán machine learning và deep learning như Support Vector Machines, Artificial Neural Networks, v.v.
Hãy để chúng tôi hiểu khái niệm và cách sử dụng chức năng toán học này.
Trong thời gian thực, bất cứ khi nào chúng ta giải quyết các vấn đề máy học phức tạp bằng các thuật toán như SVM, chúng ta cần chiếu tất cả các điểm dữ liệu của mình trong một không gian đa chiều tưởng tượng, trong đó mỗi tính năng sẽ là một thứ nguyên.
Giả sử chúng ta có một bài toán phân loại để dự đoán liệu một học sinh sẽ đậu hay trượt kỳ thi.
Chúng tôi có các tính năng sau đây dưới dạng các biến độc lập:
Vì vậy, 3 biến độc lập này trở thành 3 chiều của một không gian như thế này-
Hãy xem xét rằng các điểm dữ liệu của chúng tôi trông như thế này trong đó-
Màu xanh tượng trưng cho những học sinh đã vượt qua kỳ thi
Màu đỏ tượng trưng cho những học sinh trượt kỳ thi
Bây giờ, SVM sẽ tạo một siêu phẳng di chuyển qua 3 chiều này để phân biệt sinh viên trượt và đậu-
Vì vậy, về mặt kỹ thuật, mô hình hiểu rằng mọi điểm dữ liệu nằm trên một mặt của siêu phẳng đều thuộc về những học sinh đã vượt qua kỳ thi và ngược lại.
Trong ví dụ của chúng tôi, thật dễ dàng để tạo siêu phẳng vì một siêu phẳng tuyến tính và thẳng là đủ để phân biệt 2 loại. Nhưng trong các dự án phức tạp thời gian thực, các mối quan hệ này có thể bị vi phạm trong nhiều tình huống. Đặc biệt là khi bạn có hàng trăm biến độc lập, không có khả năng có được mối quan hệ tuyến tính giữa các điểm dữ liệu, do đó sẽ khó tạo ra một siêu phẳng tối ưu.
Trong các tình huống như vậy, các nhà nghiên cứu thường áp dụng hàm Cơ sở xuyên tâm cho từng điểm dữ liệu để họ có thể vượt qua một siêu phẳng tuyến tính qua các điểm dữ liệu để dễ dàng giải quyết vấn đề.
Hãy xem xét rằng các điểm dữ liệu của chúng tôi trông như thế này trong không gian-
Rõ ràng là chúng ta không thể sử dụng một siêu phẳng tuyến tính sao cho nó có thể nhóm các điểm dữ liệu theo các lớp của chúng.
RBF sẽ giúp chúng tôi trong các loại tình huống này.
Một số nhà nghiên cứu thường sẽ chiếu các điểm dữ liệu này theo các chiều cao hơn nhiều sao cho khoảng cách giữa các điểm dữ liệu sẽ tăng lên để họ có thể áp dụng một số chức năng (RBF hoặc bất kỳ chức năng nào khác) để xây dựng một siêu phẳng. Nhưng không cần thiết phải xây dựng các thứ nguyên cao vì đó luôn là quyết định của nhà thống kê/nhà nghiên cứu, người hiểu các mẫu trong dữ liệu.
Tiếp theo, chúng ta phải đánh dấu một điểm tưởng tượng trong không gian như thế này bất cứ nơi nào chúng ta cần.
Sau đó, chúng ta cần vẽ một số vòng tròn đồng tâm dựa trên điểm tưởng tượng này.
Khoảng cách giữa tâm và bất kỳ điểm dữ liệu nào được định vị trong ranh giới của vòng tròn được gọi là bán kính.
Sau khi tính toán bán kính, chúng ta cần chuyển giá trị này vào bên trong một hàm toán học (RBF) sẽ trả về một giá trị thực. Giá trị được trả về sẽ là độ lớn được chuyển đổi của một điểm dữ liệu cụ thể được sử dụng cho các thủ tục tiếp theo.
Có nhiều loại hàm cơ sở xuyên tâm. Mỗi người trong số họ sẽ biến đổi giá trị đầu vào theo một cách khác. Một số trong số họ là-
Ở đâu,
Chức năng sẽ trông như thế này đối với thời gian,
Ở đâu,
Ở đâu,
Tôi sẽ giải thích một cách trực quan những chức năng này sẽ thực hiện một cách trực quan trong không gian. Có 2 quy trình khác nhau được thực hiện bởi các chức năng này-
Quá trình mở rộng sẽ trông giống như thế này-
Quá trình nén sẽ trông giống như thế này-
Sau khi mở rộng và nén, các điểm dữ liệu sẽ được chuyển đổi như thế này-
Bây giờ, chúng ta có thể dễ dàng xây dựng một siêu phẳng tuyến tính có thể phân loại các điểm dữ liệu như thế này-
Đôi khi, RBF cũng được sử dụng cùng với mạng thần kinh nhân tạo có một lớp ẩn. Trong các loại mạng như vậy, RBF sẽ được sử dụng làm chức năng kích hoạt trong các lớp ẩn. Ngoài lớp ẩn, sẽ có một lớp đầu vào chứa một số nơ-ron trong đó mỗi nơ-ron đại diện cho một biến tính năng và lớp đầu ra sẽ có tổng đầu ra có trọng số từ lớp ẩn để tạo thành đầu ra mạng.
Các mạng như vậy được gọi là mạng RBF.
Trong bài viết này, chúng ta đã thảo luận về một trong những hàm chuyển đổi hữu ích nhất trong học máy. Tôi đã cố gắng giải thích khái niệm phức tạp này mà không cần nhiều phép tính toán học chuyên sâu một cách rõ ràng nhắm mục tiêu đến những người mới bắt đầu trong không gian học tập AIML.
Chức năng này có sẵn dưới dạng thư viện sẵn có trong hầu hết các ngôn ngữ lập trình định hướng khoa học dữ liệu như Python hoặc R. Do đó, thật dễ dàng để triển khai chức năng này khi bạn hiểu được trực giác lý thuyết. Tôi đã thêm các liên kết đến một số tài liệu nâng cao trong phần tài liệu tham khảo, nơi bạn có thể đi sâu vào các tính toán phức tạp nếu bạn quan tâm.