paint-brush
구에 대한 커널 보간법의 분산 불확실성 정량화~에 의해@interpolation
239 판독값

구에 대한 커널 보간법의 분산 불확실성 정량화

~에 의해 The Interpolation Publication7m2024/03/10
Read on Terminal Reader

너무 오래; 읽다

이 기사에서는 잡음이 있는 구형 데이터 보간에서 불확실성을 관리하기 위한 솔루션으로 DKI(분산 커널 보간)를 제안합니다. DKI는 분할 정복 전략을 사용하여 견고성과 근사 정확도를 최적화합니다. 수치 시뮬레이션을 통해 그 효율성을 검증합니다.
featured image - 구에 대한 커널 보간법의 분산 불확실성 정량화
The Interpolation Publication HackerNoon profile picture

저자:

(1) Sha-Bo Lin, Xi'an Jiaotong University 경영대학 지능 의사결정 및 기계 학습 센터;

(2) Xingping Sun, 미주리 주립대학교 수학과;

(3) Di Wang, Xi'an Jiaotong University 경영대학 지능 의사결정 및 기계 학습 센터.

콘텐츠 개요

개요 및 소개

구에 대한 커널 보간의 불확실성 관계

분산 커널 보간

구적 규칙을 통한 연산자 차이점

증명

수치 검증

참고자료

추상적인

분산된 데이터의 방사형 기저 함수(RBF) 커널 보간에 대해 Schaback[30]은 1995년에 달성 가능한 근사 오류와 기본 보간 행렬의 조건수를 동시에 작게 만들 수 없음을 입증했습니다. 그는 이 발견을 "불확실성 관계"라고 불렀는데, 그로 인해 RBF 커널 보간법은 잡음이 많은 데이터에 취약하다는 바람직하지 않은 결과를 얻었습니다. 본 논문에서는 무시할 수 없는 크기의 잡음이 있는 구면 데이터를 보간함으로써 발생하는 불확실성을 관리하고 정량화하기 위한 분산 보간법을 제안하고 연구한다. 우리는 또한 우리의 방법이 까다로운 컴퓨팅 환경에서 시끄러운 데이터를 처리하는 측면에서 실용적이고 강력하다는 것을 보여주는 수치 시뮬레이션 결과를 제시합니다.


핵심 단어. 커널 보간, 분산 불확실성 완화, 분산 구형 데이터






구에 대한 커널 보간의 불확실성 관계









3. 분산 커널 보간.

결과 2.2는 무시할 수 없는 크기의 잡음이 있는 데이터에 직면하면서 커널 보간이 제대로 수행되지 않음을 보여줍니다. 이러한 큰 단점을 극복하기 위해 본 절에서는 문헌[37, 19]의 "분산 학습"을 기반으로 하는 분산 커널 보간(DKI) 방법을 제안하고 연구합니다. 비유적으로 말하면 이는 불확실성 정량화를 위한 분할 정복 전략입니다. 자세히 설명하기 위해 이 방법을 세 단계로 설명합니다.











4. 구적법칙을 통한 연산자 차이.

이 섹션에서는 먼저 [8]에서 시작된 적분 연산자 접근 방식을 간략하게 설명한 다음 관심 있는 연산자의 차이에 대한 엄격한 상한을 도출하여 특정 유형의 Sobolev 샘플링 부등식[12]을 부산물로 얻습니다. 이 섹션의 주요 내용은 Proposition 4.5) 및 Lemma 4.8을 포함합니다.

























6. 수치 검증

본 섹션에서는 DKI의 우수한 성능을 검증하기 위해 4번의 시뮬레이션을 수행합니다. 첫 번째는 DKI가 커널 보간의 불확실성을 우회하는 데 성공했음을 보여줍니다. 두 번째는 DKI에서 m의 역할을 보여줍니다. 세 번째는 DKI에서 분할전략의 역할에 초점을 맞춘다. 마지막은 DKI를 DFH(분산 필터링된 초보간법) [21], s * 디자인을 사용한 스케치[20] 및 DKRR(분산 커널 능선 회귀) [8]을 포함하여 여러 가지 널리 사용되는 구형 데이터 피팅 방식과 비교합니다.








시뮬레이션 2: 이 시뮬레이션에서는 DKI에서 매개변수 m의 역할을 보여줍니다. 우리는 10014개의 훈련 샘플을 생성합니다(141개의 디자인을 입력으로 사용). 분할 수 m의 범위는 {5, 10, · · · , 200}입니다. 그림 6.2는 총 훈련 샘플 수가 주어진 경우 DKI의 RMSE와 다양한 가우스 잡음 수준에서 로컬 머신 수 사이의 관계를 보여줍니다. 그림 6.2에서 다음과 같은 주장을 결론 내릴 수 있습니다. 1) 노이즈 수준이 높은 훈련 샘플의 경우 테스트 RMSE는 일반적으로 처음에는 감소하다가 로컬 머신 수가 증가함에 따라 천천히 증가합니다. m의 적당한 값은 DKI에 대한 좋은 근사 속성에 더 전도성이 있습니다. 그 이유는 m이 너무 작으면 커널 보간에서 불확실성 문제를 성공적으로 해결하지 못하기 때문입니다. m이 너무 크면 피팅 오류가 증가하여 일반화 성능이 약간 저하됩니다. 2) RMSE가 가장 낮은 최적 수 m은 가우시안 노이즈가 증가함에 따라 커집니다. 이는 근사 오류가 주로 큰 잡음(즉, 큰 M)에 대한 샘플 오류와 관련되고 큰 m을 사용하여 줄일 수 있는 정리 3.2의 방정식(3.3)을 검증합니다.








참고자료

[1] R. Bhatia, 매트릭스 분석, vol. 169, 스프링거 과학 및 비즈니스 미디어, 2013.


[2] JS Brauchart 및 K. Hesse, 임의 차원의 영역에 대한 수치 적분, 구성적 근사, 25(2007), pp. 41-71.


[3] G. Brown 및 F. Dai, 콤팩트한 2점 균질 공간에서 매끄러운 함수의 근사, Journal of Functional Analysis, 220(2005), pp. 401-423.


[4] A. Chernih, IH Sloan 및 RS Womersley, Wendland 함수는 부드러움이 증가하면서 가우스로 수렴합니다. Advances in Computational Mathematics, 40(2014), pp. 185–200.


[5] F. Dai, 배가 가중치 및 a무게 가중치에 관한 다변량 다항식 부등식, Journal of Functional Analysis, 235(2006), pp. 137-170.


[6] F. Dai, 구면의 일반화된 초보간법에 대하여, Proceedings of the American Mathematical Society, 134(2006), pp. 2931–2941.


[7] HW Engl, M. Hanke 및 A. Neubauer, 역 문제의 정규화, vol. 375, 스프링거 과학 및 비즈니스 미디어, 1996.


[8] H. Feng, S.-B. 린, 그리고 D.-X. Zhou, 구에 분산적으로 저장된 데이터를 사용한 방사형 기반 함수 근사, arXiv:2112.02499, (2021).


[9] T. Hangelbroek, FJ Narcowich, X. Sun 및 JD Ward, 다양체의 커널 근사화 ii: l2 프로젝터의 l 표준, SIAM Journal on Mathematical Analysis, 43(2011), pp. 662-684.


[10] T. Hangelbroek, FJ Narcowich 및 JD Ward, 다양체의 커널 근사화 i: 르베그 상수 경계, SIAM Journal on Mathematical Analysis, 42(2010), pp. 1732-1760.


[11] K. Hesse, IH Sloan 및 RS Womersley, 구에서 잡음이 있는 산란 데이터의 방사형 기반 함수 근사, Numerische Mathematik, 137(2017), pp. 579-605.


[12] K. Hesse, IH Sloan 및 RS Womersley, 시끄러운 분산 데이터가 있는 구의 로컬 rbf 기반 페널티 최소 제곱 근사, Journal of Computational and Applied Mathematics, 382(2021), p. 113061.


[13] S. Hubbert, QT Le Gia 및 TM Morton ˆ, 구형 방사형 기초 함수, 이론 및 응용, Springer, 2015.


[14] MA King, RJ Bingham, P. Moore, PL Whitehouse, MJ Bentley 및 GA Milne, 남극 해수면 기여도에 대한 낮은 위성 중력 추정치, Nature, 491(2012), pp. 586–589.


[15] QT Le Gia, FJ Narcowich, JD Ward 및 H. Wendland, 구의 방사형 기초 함수에 의한 연속 및 이산 최소 제곱 근사, Journal of Approximation Theory, 143(2006), pp. 124-133.


[16] P. Leopardi, 단위 구를 동일한 면적과 작은 직경의 영역으로 분할, 수치 분석에 대한 전자 거래, 25(2006), pp. 309-327.


[17] J. Levesley, Z. Luo 및 X. Sun, 보간 행렬 및 양의 정부호와 관련된 역의 Norm 추정, 미국 수학 학회 회보(1999), pp. 2127-2134.


[18] S.-B. Lin, X. Chang 및 X. Sun, 고차원 분산 데이터의 커널 보간, arXiv 사전 인쇄 arXiv:2009.01514, (2020).


[19] S.-B. Lin, X. Guo 및 D.-X. Zhou, 정규화된 최소 제곱을 사용한 분산 학습, The Journal of Machine Learning Research, 18(2017), pp. 3202–3232.


[20] S.-B. 린, D. 왕, 그리고 D.-X. Zhou, 구에 구형 디자인을 사용한 스케치, 과학 계산에 관한 SIAM 저널, 출판 중(2023).


[21] S.-B. 린(Lin), YG왕(YG Wang), D.-X. Zhou, 구의 시끄러운 데이터에 대한 분산 필터링된 초보간법, SIAM Journal on Numerical Analysis, 59(2021), pp. 634–659.


[22] JD McEwen 및 Y. Wiaux, 영역에 대한 새로운 샘플링 정리, 신호 처리에 대한 IEEE 트랜잭션, 59(2011), pp. 5876–5887.


[23] H. Mhaskar, F. Narcowich 및 J. Ward, 구형 marcinkiewicz-zygmund 부등식 및 양의 구적법, 계산 수학, 70(2001), pp. 1113-1130.


[24] HN Mhaskar, 구면의 구역 함수 네트워크에 의한 가중 구적 공식 및 근사, Journal of Complexity, 22(2006), pp. 348-370.


[25] C. Muller ¨, Spherical Harmonics, vol. 1966년, 스프링거 17일.


[26] FJ Narcowich, N. Sivakumar 및 JD Ward, 유클리드 구의 분산 데이터 보간에 대한 안정성 결과, Advances in Computational Mathematics, 8(1998), pp. 137–163.


[27] FJ Narcowich, X. Sun, JD Ward 및 H. Wendland, 구형 기반 함수를 통한 산란 데이터 보간에 대한 직접 및 역 Sobolev 오류 추정, Foundations of Computational Mathematics, 7(2007), pp. 369-390.


[28] FJ Narcowich 및 JD Ward, 구의 산란 데이터 보간: 오류 추정 및 로컬로 지원되는 기본 함수, SIAM Journal on Mathematical Analysis, 33(2002), pp. 1393–1410.


[29] A. Rudi, R. Camoriano 및 L. Rosasco, Less is more: Nystr¨om 계산 정규화., NIPS, 2015, pp. 1657–1665.


[30] R. Schaback, 방사형 기저 함수 보간에 대한 오류 추정 및 조건 번호, Advances in Computational Mathematics, 3(1995), pp. 251-264.


[31] S. Smale 및 D.-X. Zhou, Shannon 샘플링 및 점 값으로부터의 함수 재구성, Bulletin of the American Mathematical Society, 41(2004), pp. 279-305.


[32] S. Smale 및 D.-X. Zhou, Shannon 샘플링 ii: 학습 이론과의 연결, 응용 및 전산 조화 분석, 19(2005), pp. 285-302.


[33] Y.-T. Tsai와 Z.-C. Shih, 구형 방사형 기초 함수 및 클러스터형 텐서 근사를 사용하여 모든 주파수 사전 계산된 복사 복사, TOG(ACM Transactions on Graphics), 25(2006), pp. 967-976.


[34] H. Wendland, 분산형 데이터 근사화, vol. 17, 캠브리지 대학 출판부, 2004.


[35] MA Wieczorek 및 RJ Phillips, 구형의 잠재적 변칙: 달 지각의 두께에 대한 적용, 지구물리학 연구 저널: 행성, 103(1998), pp. 1715–1724.


[36] RS Womersley, 현대 계산 수학 - Ian Sloan의 80번째 생일 축하, Springer, 2018, pp. 1243–1285에서 좋은 기하학적 특성을 가진 효율적인 구형 디자인.


[37] Y. Zhang, J. Duchi 및 M. Wainwright, 커널 능선 회귀 분석 분할 및 정복: 최적 비율이 최소 최대인 분산 알고리즘, The Journal of Machine Learning Research, 16(2015), pp. 3299–3340.


SM1. 부록 A: 데이터 부문의 선택 및 판단 전략. 이 부록에서는 선택 및 판단(SAJ) 전략의 세부 구현을 제시합니다. 우리의 목표는 분리 반경이 주어진 공차 c0보다 작지 않은 유사한 카디널리티의 일련의 하위 집합을 파생시키는 것입니다. SAJ에는 두 단계가 있습니다.






이 문서는 CC0 1.0 DEED 라이선스에 따라 arxiv에서 볼 수 있습니다 .