31,912 قراءة٪ s

فهم متوسط التدرج العشوائي

بواسطة Andrey Kustarev4m2024/06/06

IDMore

طويل جدا؛ ليقرأ

الانحدار التدرجي هو تحسين شائع يستخدم لتحديد الحد الأدنى العالمي لوظائف الهدف المقدمة. تستخدم الخوارزمية تدرج وظيفة الهدف لاجتياز منحدر الوظيفة حتى تصل إلى أدنى نقطة. الانحدار التدرجي الكامل (FG) والانحدار التدرجي العشوائي (SGD) هما نوعان شائعان من الخوارزمية. يستخدم FG مجموعة البيانات بالكامل أثناء كل تكرار ويوفر معدل تقارب مرتفع بتكلفة حسابية عالية. في كل تكرار، يستخدم SGD مجموعة فرعية من البيانات لتشغيل الخوارزمية. إنه أكثر كفاءة بكثير ولكن مع تقارب غير مؤكد. الانحدار المتوسط العشوائي (SAG) هو نوع آخر يوفر فوائد الخوارزميتين السابقتين. إنه يستخدم متوسط التدرجات السابقة ومجموعة فرعية من مجموعة البيانات لتوفير معدل تقارب مرتفع مع حساب منخفض. يمكن تعديل الخوارزمية بشكل أكبر لتحسين كفاءتها باستخدام المتجهات والدفعات الصغيرة.

People Mentioned

Companies Mentioned

featured image - فهم متوسط التدرج العشوائي

الانحدار المتدرج هو أكثر تقنيات التحسين شيوعًا في نمذجة التعلم الآلي. تعمل الخوارزمية على تقليل الخطأ بين القيم المتوقعة والحقيقة الأساسية. نظرًا لأن التقنية تأخذ في الاعتبار كل نقطة بيانات لفهم الخطأ وتقليله، فإن أدائها يعتمد على حجم بيانات التدريب. تم تصميم تقنيات مثل الانحدار المتدرج العشوائي (SGD) لتحسين أداء الحساب ولكن على حساب دقة التقارب.

يحقق متوسط التدرج العشوائي التوازن بين النهج الكلاسيكي المعروف باسم الانحدار الكامل والتدرج الانحداري العشوائي، ويوفر كلا الفائدتين. ولكن قبل أن نتمكن من استخدام الخوارزمية، يتعين علينا أولاً فهم أهميتها لتحسين النموذج.

تحسين أهداف التعلم الآلي باستخدام الانحدار التدريجي

تحتوي كل خوارزمية تعلم آلي على دالة خسارة مرتبطة بها تهدف إلى تقليل أو تحسين أداء النموذج. من الناحية الرياضية، يمكن تعريف الخسارة على النحو التالي:

إنه ببساطة الفرق بين الناتج الفعلي والمتوقع، وتقليل هذا الفرق يعني أن نموذجنا يقترب من قيم الحقيقة الأساسية.

تستخدم خوارزمية التقليل الانحدار التدريجي لاجتياز دالة الخسارة والعثور على الحد الأدنى العالمي. تتضمن كل خطوة من خطوات الاجتياز تحديث أوزان الخوارزمية لتحسين الناتج.

نزول متدرج عادي

تستخدم خوارزمية الانحدار المتدرج التقليدية متوسط جميع التدرجات المحسوبة عبر مجموعة البيانات بأكملها. تبدو دورة حياة مثال تدريب واحد على النحو التالي:

تبدو معادلة تحديث الوزن كما يلي:

حيث يمثل W أوزان النموذج و dJ/dW هو المشتق لدالة الخسارة بالنسبة لوزن النموذج. تتمتع الطريقة التقليدية بمعدل تقارب مرتفع ولكنها تصبح مكلفة حسابيًا عند التعامل مع مجموعات بيانات كبيرة تضم ملايين نقاط البيانات.

الانحدار التدرجي العشوائي (SGD)

تظل منهجية SGD كما هي في GD العادية، ولكن بدلاً من استخدام مجموعة البيانات بالكامل لحساب التدرجات، فإنها تستخدم دفعة صغيرة من المدخلات. تعد الطريقة أكثر كفاءة ولكنها قد تقفز كثيرًا حول الحد الأدنى العالمي لأن كل تكرار يستخدم جزءًا فقط من البيانات للتعلم.

متوسط التدرج العشوائي

تم تقديم نهج متوسط التدرج العشوائي (SAG) كحل وسط بين GD وSGD. فهو يختار نقطة بيانات عشوائية ويقوم بتحديث قيمتها بناءً على التدرج عند تلك النقطة ومتوسط مرجح للتدرجات السابقة المخزنة لتلك النقطة المحددة من البيانات.

على غرار SGD، تقوم SAG بنمذجة كل مشكلة كمجموع محدود من الدوال المحدبة القابلة للاشتقاق. في أي تكرار معين، تستخدم التدرجات الحالية ومتوسط التدرجات السابقة لتحديث الوزن. تأخذ المعادلة الشكل التالي:

معدل التقارب

بين الخوارزميتين الشائعتين، التدرج الكامل (FG) والانحدار التدرجي العشوائي (SGD)، تتمتع خوارزمية FG بمعدل تقارب أفضل لأنها تستخدم مجموعة البيانات بالكامل أثناء كل تكرار للحساب.

على الرغم من أن SAG له بنية مشابهة لـ SGD، فإن معدل تقاربه مماثل وأحيانًا أفضل من نهج التدرج الكامل. يلخص الجدول 1 أدناه النتائج من تجارب شميدت وآخرون .

تعديلات إضافية

وعلى الرغم من أدائها المذهل، فقد تم اقتراح العديد من التعديلات على خوارزمية SGD الأصلية للمساعدة في تحسين الأداء.

إعادة الترجيح في التكرارات المبكرة: يظل تقارب SAG بطيئًا أثناء التكرارات القليلة الأولى لأن الخوارزمية تعمل على تطبيع الاتجاه باستخدام n (إجمالي عدد نقاط البيانات). وهذا يوفر تقديرًا غير دقيق لأن الخوارزمية لم تر العديد من نقاط البيانات بعد. يقترح التعديل التطبيع باستخدام m بدلاً من n، حيث يمثل m عدد نقاط البيانات التي تمت رؤيتها مرة واحدة على الأقل حتى تلك التكرارة المعينة.
الدفعات الصغيرة: يستخدم أسلوب التدرج العشوائي الدفعات الصغيرة لمعالجة نقاط بيانات متعددة في وقت واحد. ويمكن تطبيق نفس الأسلوب على SAG. وهذا يسمح بالتوجيه والتوازي لتحسين كفاءة الكمبيوتر. كما يقلل من تحميل الذاكرة، وهو تحد بارز لخوارزمية SAG.
تجربة حجم الخطوة: يوفر حجم الخطوة المذكور سابقًا (116L) نتائج مذهلة، لكن المؤلفين أجروا تجارب أخرى باستخدام حجم الخطوة 1L. وقد قدم الأخير تقاربًا أفضل. ومع ذلك، لم يتمكن المؤلفون من تقديم تحليل رسمي للنتائج المحسنة. وخلصوا إلى أنه يجب تجربة حجم الخطوة للعثور على الحجم الأمثل للمشكلة المحددة.

الأفكار النهائية

الانحدار المتدرج هو تحسين شائع يستخدم لتحديد الحد الأدنى العالمي للوظائف الهدفية المقدمة. تستخدم الخوارزمية تدرج الوظيفة الهدفية لاجتياز منحدر الوظيفة حتى تصل إلى أدنى نقطة.

يعد الانحدار الكامل المتدرج (FG) والانحدار العشوائي المتدرج (SGD) نوعين شائعين من الخوارزمية. يستخدم الانحدار الكامل المتدرج مجموعة البيانات بالكامل أثناء كل تكرار ويوفر معدل تقارب مرتفع بتكلفة حسابية عالية. في كل تكرار، يستخدم الانحدار العشوائي المتدرج مجموعة فرعية من البيانات لتشغيل الخوارزمية. إنه أكثر كفاءة بكثير ولكن مع تقارب غير مؤكد.

يعد التدرج المتوسط العشوائي (SAG) أحد الاختلافات الأخرى التي توفر فوائد الخوارزميتين السابقتين. فهو يستخدم متوسط التدرجات السابقة ومجموعة فرعية من مجموعة البيانات لتوفير معدل تقارب مرتفع مع حساب منخفض. ويمكن تعديل الخوارزمية بشكل أكبر لتحسين كفاءتها باستخدام المتجهات والدفعات الصغيرة.