paint-brush
Các chức năng cơ sở xuyên tâm: Loại, Ưu điểm và Trường hợp sử dụngtừ tác giả@sanjaykn170396
17,268 lượt đọc
17,268 lượt đọc

Các chức năng cơ sở xuyên tâm: Loại, Ưu điểm và Trường hợp sử dụng

từ tác giả Sanjay Kumar6m2023/01/24
Read on Terminal Reader

dài quá đọc không nổi

Bài viết này giải thích trực giác cơ bản, ý tưởng toán học & phạm vi của hàm cơ sở xuyên tâm trong việc phát triển các mô hình học máy dự đoán. Hàm Radial Basis là một hàm toán học lấy đầu vào có giá trị thực và xuất đầu ra có giá trị thực dựa trên khoảng cách giữa giá trị đầu vào được chiếu trong không gian từ một điểm cố định tưởng tượng được đặt ở nơi khác. Chức năng này được sử dụng phổ biến trong nhiều thuật toán học máy và học sâu.
featured image - Các chức năng cơ sở xuyên tâm: Loại, Ưu điểm và Trường hợp sử dụng
Sanjay Kumar HackerNoon profile picture


Đây là một bài viết giới thiệu giải thích trực giác cơ bản, ý tưởng toán học & phạm vi của các hàm cơ sở xuyên tâm trong việc phát triển các mô hình học máy dự đoán.


Mục lục

  1. Giới thiệu
  2. Trực giác cơ bản của Hàm cơ sở xuyên tâm
  3. Các loại chức năng cơ sở xuyên tâm
  4. Khái niệm về Mạng RBF
  5. Phạm vi & Ưu điểm của RBF
  6. Phần kết luận
  7. Người giới thiệu

Giới thiệu

Trong học máy, việc giải quyết vấn đề dựa trên các thuật toán dựa trên siêu phẳng phụ thuộc rất nhiều vào việc phân phối các điểm dữ liệu trong không gian. Tuy nhiên, có một thực tế là dữ liệu trong thế giới thực hiếm khi tuân theo các giả định lý thuyết.


Có rất nhiều hàm chuyển đổi có thể chuyển đổi hình dạng tự nhiên của các điểm dữ liệu thành các phân phối được khuyến nghị về mặt lý thuyết để duy trì các mẫu dữ liệu ẩn. Radial Basis là một trong những chức năng nổi tiếng như vậy được thảo luận trong rất nhiều sách giáo khoa về máy học. Trong bài viết này, chúng ta sẽ cùng nhau tìm hiểu về hàm trực giác cơ bản, các dạng và cách sử dụng hàm cơ sở Radial.

Trực giác cơ bản của hàm cơ sở xuyên tâm

Hàm cơ sở xuyên tâm là một hàm toán học lấy đầu vào có giá trị thực và xuất ra đầu ra có giá trị thực dựa trên khoảng cách giữa giá trị đầu vào được chiếu trong không gian từ một điểm cố định tưởng tượng được đặt ở nơi khác.


Hàm này được sử dụng phổ biến trong nhiều thuật toán machine learning và deep learning như Support Vector Machines, Artificial Neural Networks, v.v.


Hãy để chúng tôi hiểu khái niệm và cách sử dụng chức năng toán học này.

Trong thời gian thực, bất cứ khi nào chúng ta giải quyết các vấn đề máy học phức tạp bằng các thuật toán như SVM, chúng ta cần chiếu tất cả các điểm dữ liệu của mình trong một không gian đa chiều tưởng tượng, trong đó mỗi tính năng sẽ là một thứ nguyên.


Giả sử chúng ta có một bài toán phân loại để dự đoán liệu một học sinh sẽ đậu hay trượt kỳ thi.


Chúng tôi có các tính năng sau đây dưới dạng các biến độc lập:


  • Điểm trong kỳ thi nội bộ
  • Dấu ấn trong các dự án
  • tỷ lệ chuyên cần


Vì vậy, 3 biến độc lập này trở thành 3 chiều của một không gian như thế này-

Nguồn ảnh: Minh họa của tác giả


Hãy xem xét rằng các điểm dữ liệu của chúng tôi trông như thế này trong đó-

  • Màu xanh tượng trưng cho những học sinh đã vượt qua kỳ thi

  • Màu đỏ tượng trưng cho những học sinh trượt kỳ thi

    Nguồn ảnh: Minh họa của tác giả


    Bây giờ, SVM sẽ tạo một siêu phẳng di chuyển qua 3 chiều này để phân biệt sinh viên trượt và đậu-

    Nguồn ảnh: Minh họa của tác giả


Vì vậy, về mặt kỹ thuật, mô hình hiểu rằng mọi điểm dữ liệu nằm trên một mặt của siêu phẳng đều thuộc về những học sinh đã vượt qua kỳ thi và ngược lại.


Trong ví dụ của chúng tôi, thật dễ dàng để tạo siêu phẳng vì một siêu phẳng tuyến tính và thẳng là đủ để phân biệt 2 loại. Nhưng trong các dự án phức tạp thời gian thực, các mối quan hệ này có thể bị vi phạm trong nhiều tình huống. Đặc biệt là khi bạn có hàng trăm biến độc lập, không có khả năng có được mối quan hệ tuyến tính giữa các điểm dữ liệu, do đó sẽ khó tạo ra một siêu phẳng tối ưu.


Trong các tình huống như vậy, các nhà nghiên cứu thường áp dụng hàm Cơ sở xuyên tâm cho từng điểm dữ liệu để họ có thể vượt qua một siêu phẳng tuyến tính qua các điểm dữ liệu để dễ dàng giải quyết vấn đề.


Hãy xem xét rằng các điểm dữ liệu của chúng tôi trông như thế này trong không gian-

Nguồn ảnh: Minh họa của tác giả


Rõ ràng là chúng ta không thể sử dụng một siêu phẳng tuyến tính sao cho nó có thể nhóm các điểm dữ liệu theo các lớp của chúng.


RBF sẽ giúp chúng tôi trong các loại tình huống này.


Một số nhà nghiên cứu thường sẽ chiếu các điểm dữ liệu này theo các chiều cao hơn nhiều sao cho khoảng cách giữa các điểm dữ liệu sẽ tăng lên để họ có thể áp dụng một số chức năng (RBF hoặc bất kỳ chức năng nào khác) để xây dựng một siêu phẳng. Nhưng không cần thiết phải xây dựng các thứ nguyên cao vì đó luôn là quyết định của nhà thống kê/nhà nghiên cứu, người hiểu các mẫu trong dữ liệu.


Tiếp theo, chúng ta phải đánh dấu một điểm tưởng tượng trong không gian như thế này bất cứ nơi nào chúng ta cần.

Nguồn ảnh: Minh họa của tác giả


Sau đó, chúng ta cần vẽ một số vòng tròn đồng tâm dựa trên điểm tưởng tượng này.


Nguồn ảnh: Minh họa của tác giả
Khoảng cách giữa tâm và bất kỳ điểm dữ liệu nào được định vị trong ranh giới của vòng tròn được gọi là bán kính.
Nguồn ảnh: Minh họa của tác giả

Sau khi tính toán bán kính, chúng ta cần chuyển giá trị này vào bên trong một hàm toán học (RBF) sẽ trả về một giá trị thực. Giá trị được trả về sẽ là độ lớn được chuyển đổi của một điểm dữ liệu cụ thể được sử dụng cho các thủ tục tiếp theo.


Các loại chức năng cơ sở xuyên tâm

Có nhiều loại hàm cơ sở xuyên tâm. Mỗi người trong số họ sẽ biến đổi giá trị đầu vào theo một cách khác. Một số trong số họ là-


Multiquadratic Radial cơ sở chức năng


Nguồn ảnh: Minh họa của tác giả

Ở đâu,

  • r là bán kính
  • ε là một hằng số


Chức năng sẽ trông như thế này đối với thời gian,

Nguồn hình ảnh: tham khảo 1


Nghịch đảo Multiquadric Radial Cơ sở Hàm


Nguồn ảnh: Minh họa của tác giả

Ở đâu,

  • r là bán kính
  • ε là một hằng số


Nguồn hình ảnh: tham khảo 1

Hàm cơ sở xuyên tâm Gaussian

Nguồn ảnh: Minh họa của tác giả Ở đâu,

  • r là bán kính
  • ε là một hằng số


Nguồn hình ảnh: tham khảo 1


Tôi sẽ giải thích một cách trực quan những chức năng này sẽ thực hiện một cách trực quan trong không gian. Có 2 quy trình khác nhau được thực hiện bởi các chức năng này-


  • Mở rộng các điểm dữ liệu theo hướng ngang
  • Nén các điểm dữ liệu theo hướng dọc


Quá trình mở rộng sẽ trông giống như thế này-

Nguồn ảnh: Minh họa của tác giả


Quá trình nén sẽ trông giống như thế này-

Nguồn ảnh: Minh họa của tác giả


Sau khi mở rộng và nén, các điểm dữ liệu sẽ được chuyển đổi như thế này-

Nguồn ảnh: Minh họa của tác giả


Bây giờ, chúng ta có thể dễ dàng xây dựng một siêu phẳng tuyến tính có thể phân loại các điểm dữ liệu như thế này-
Nguồn ảnh: Minh họa của tác giả

Khái niệm về Mạng RBF

Đôi khi, RBF cũng được sử dụng cùng với mạng thần kinh nhân tạo có một lớp ẩn. Trong các loại mạng như vậy, RBF sẽ được sử dụng làm chức năng kích hoạt trong các lớp ẩn. Ngoài lớp ẩn, sẽ có một lớp đầu vào chứa một số nơ-ron trong đó mỗi nơ-ron đại diện cho một biến tính năng và lớp đầu ra sẽ có tổng đầu ra có trọng số từ lớp ẩn để tạo thành đầu ra mạng.


Nguồn ảnh: Minh họa của tác giả


Các mạng như vậy được gọi là mạng RBF.

Phạm vi & Ưu điểm của RBF

  • Với sự trợ giúp của hàm RBF, có thể giải quyết các vấn đề trong bộ dữ liệu có phân phối phi tuyến tính phức tạp.
  • Chức năng RBF có khả năng chịu tiếng ồn đầu vào cao
  • Trong mạng nơ-ron RBF sẽ chỉ có một lớp ẩn, rất dễ xử lý.
  • Các mẫu ẩn trong phân phối có thể được tổng quát hóa tốt hơn sau khi áp dụng chức năng RBF.
  • Trong mạng nơ-ron RBF, chúng ta có thể dễ dàng diễn giải ý nghĩa/chức năng của từng nút trong lớp ẩn của RBNN. Đây là khó khăn trong nhận thức Đa lớp.
  • Một số siêu tham số có trong tri giác nhiều lớp như số nút trong lớp ẩn, số lớp ẩn, v.v. rất khó tối ưu hóa. Nhưng những thứ này không được tìm thấy trong các mạng thần kinh RBF.

Phần kết luận

Trong bài viết này, chúng ta đã thảo luận về một trong những hàm chuyển đổi hữu ích nhất trong học máy. Tôi đã cố gắng giải thích khái niệm phức tạp này mà không cần nhiều phép tính toán học chuyên sâu một cách rõ ràng nhắm mục tiêu đến những người mới bắt đầu trong không gian học tập AIML.


Chức năng này có sẵn dưới dạng thư viện sẵn có trong hầu hết các ngôn ngữ lập trình định hướng khoa học dữ liệu như Python hoặc R. Do đó, thật dễ dàng để triển khai chức năng này khi bạn hiểu được trực giác lý thuyết. Tôi đã thêm các liên kết đến một số tài liệu nâng cao trong phần tài liệu tham khảo, nơi bạn có thể đi sâu vào các tính toán phức tạp nếu bạn quan tâm.

Người giới thiệu

  1. Hàm cơ sở xuyên tâm - Wikipedia
  2. Radial Basis Function network Lưu trữ 23-04-2014 tại Wayback Machine
  3. Đầu chổi, David H.; Lowe, David (1988)."Mạng nội suy chức năng đa biến và mạng thích ứng" (PDF). Hệ thống phức tạp . 2 : 321–355. Bản gốc (PDF) lưu trữ ngày 14-07-2014.
  4. Michael JD Powell (1977). "Khởi động lại quy trình cho phương pháp gradient liên hợp". Lập trình toán học . 12 (1): 241–254. doi : 10.1007/bf01593790 . S2CID 9500591 .
  5. Sahin, Ferat (1997). Phương pháp tiếp cận chức năng cơ sở xuyên tâm đối với vấn đề phân loại hình ảnh màu trong ứng dụng công nghiệp thời gian thực (M.Sc.). Công nghệ Virginia . P. 26. hdl : 10919/36847 . Các hàm cơ sở xuyên tâm lần đầu tiên được giới thiệu bởi Powell để giải bài toán nội suy đa biến thực.