الانحدار المتدرج هو أكثر تقنيات التحسين شيوعًا في نمذجة التعلم الآلي. تعمل الخوارزمية على تقليل الخطأ بين القيم المتوقعة والحقيقة الأساسية. نظرًا لأن التقنية تأخذ في الاعتبار كل نقطة بيانات لفهم الخطأ وتقليله، فإن أدائها يعتمد على حجم بيانات التدريب. تم تصميم تقنيات مثل الانحدار المتدرج العشوائي (SGD) لتحسين أداء الحساب ولكن على حساب دقة التقارب.
يحقق متوسط التدرج العشوائي التوازن بين النهج الكلاسيكي المعروف باسم الانحدار الكامل والتدرج الانحداري العشوائي، ويوفر كلا الفائدتين. ولكن قبل أن نتمكن من استخدام الخوارزمية، يتعين علينا أولاً فهم أهميتها لتحسين النموذج.
تحتوي كل خوارزمية تعلم آلي على دالة خسارة مرتبطة بها تهدف إلى تقليل أو تحسين أداء النموذج. من الناحية الرياضية، يمكن تعريف الخسارة على النحو التالي:
إنه ببساطة الفرق بين الناتج الفعلي والمتوقع، وتقليل هذا الفرق يعني أن نموذجنا يقترب من قيم الحقيقة الأساسية.
تستخدم خوارزمية التقليل الانحدار التدريجي لاجتياز دالة الخسارة والعثور على الحد الأدنى العالمي. تتضمن كل خطوة من خطوات الاجتياز تحديث أوزان الخوارزمية لتحسين الناتج.
تستخدم خوارزمية الانحدار المتدرج التقليدية متوسط جميع التدرجات المحسوبة عبر مجموعة البيانات بأكملها. تبدو دورة حياة مثال تدريب واحد على النحو التالي:
تبدو معادلة تحديث الوزن كما يلي:
حيث يمثل W
أوزان النموذج و dJ/dW
هو المشتق لدالة الخسارة بالنسبة لوزن النموذج. تتمتع الطريقة التقليدية بمعدل تقارب مرتفع ولكنها تصبح مكلفة حسابيًا عند التعامل مع مجموعات بيانات كبيرة تضم ملايين نقاط البيانات.
تظل منهجية SGD كما هي في GD العادية، ولكن بدلاً من استخدام مجموعة البيانات بالكامل لحساب التدرجات، فإنها تستخدم دفعة صغيرة من المدخلات. تعد الطريقة أكثر كفاءة ولكنها قد تقفز كثيرًا حول الحد الأدنى العالمي لأن كل تكرار يستخدم جزءًا فقط من البيانات للتعلم.
تم تقديم نهج متوسط التدرج العشوائي (SAG) كحل وسط بين GD وSGD. فهو يختار نقطة بيانات عشوائية ويقوم بتحديث قيمتها بناءً على التدرج عند تلك النقطة ومتوسط مرجح للتدرجات السابقة المخزنة لتلك النقطة المحددة من البيانات.
على غرار SGD، تقوم SAG بنمذجة كل مشكلة كمجموع محدود من الدوال المحدبة القابلة للاشتقاق. في أي تكرار معين، تستخدم التدرجات الحالية ومتوسط التدرجات السابقة لتحديث الوزن. تأخذ المعادلة الشكل التالي:
بين الخوارزميتين الشائعتين، التدرج الكامل (FG) والانحدار التدرجي العشوائي (SGD)، تتمتع خوارزمية FG بمعدل تقارب أفضل لأنها تستخدم مجموعة البيانات بالكامل أثناء كل تكرار للحساب.
على الرغم من أن SAG له بنية مشابهة لـ SGD، فإن معدل تقاربه مماثل وأحيانًا أفضل من نهج التدرج الكامل. يلخص الجدول 1 أدناه النتائج من تجارب
وعلى الرغم من أدائها المذهل، فقد تم اقتراح العديد من التعديلات على خوارزمية SGD الأصلية للمساعدة في تحسين الأداء.
الانحدار المتدرج هو تحسين شائع يستخدم لتحديد الحد الأدنى العالمي للوظائف الهدفية المقدمة. تستخدم الخوارزمية تدرج الوظيفة الهدفية لاجتياز منحدر الوظيفة حتى تصل إلى أدنى نقطة.
يعد الانحدار الكامل المتدرج (FG) والانحدار العشوائي المتدرج (SGD) نوعين شائعين من الخوارزمية. يستخدم الانحدار الكامل المتدرج مجموعة البيانات بالكامل أثناء كل تكرار ويوفر معدل تقارب مرتفع بتكلفة حسابية عالية. في كل تكرار، يستخدم الانحدار العشوائي المتدرج مجموعة فرعية من البيانات لتشغيل الخوارزمية. إنه أكثر كفاءة بكثير ولكن مع تقارب غير مؤكد.
يعد التدرج المتوسط العشوائي (SAG) أحد الاختلافات الأخرى التي توفر فوائد الخوارزميتين السابقتين. فهو يستخدم متوسط التدرجات السابقة ومجموعة فرعية من مجموعة البيانات لتوفير معدل تقارب مرتفع مع حساب منخفض. ويمكن تعديل الخوارزمية بشكل أكبر لتحسين كفاءتها باستخدام المتجهات والدفعات الصغيرة.