جيفري هينتون ، أستاذ في جامعة تورنتو وزميل هندسة في جوجل الدماغ، مؤخرًا ورقة بحثية عن إلى الأمام إلى الأمام الخوارزمية (FF) ، وهي تقنية لتدريب الشبكات العصبية التي تستخدم تمريرين إلى الأمام من البيانات عبر الشبكة ، بدلاً من انتشار عكسيلتحديث أوزان النموذج.
دافع هينتون للخوارزمية هو معالجة بعض أوجه القصور في تدريب الانتشار العكسي القياسي الذي يتطلب معرفة كاملة بالحسابات في التمرير الأمامي لحساب المشتقات وتخزين قيم التنشيط أثناء التدريب. كانت رؤية هينتون هي استخدام تمريرين إلى الأمام من بيانات الإدخال - واحدة إيجابي واحد سلبي—التي لها وظائف موضوعية معاكسة ليتم تحسينها. أظهر Hinton أن الشبكات المدربة على FF يمكنها أداء مهام الرؤية الحاسوبية (CV) بالإضافة إلى تلك التي تم تدريبها باستخدام backpropagation. وفقا لهينتون ،
خوارزمية Forward-Forward (FF) قابلة للمقارنة من حيث السرعة إلى backpropagation ولكن لها ميزة أنه يمكن استخدامها عندما تكون التفاصيل الدقيقة للحساب الأمامي غير معروفة. كما أن لديها ميزة أنها يمكن أن تتعلم أثناء نقل البيانات المتسلسلة عبر شبكة عصبية دون تخزين الأنشطة العصبية أو التوقف عن نشر مشتقات الخطأ ... المنطقتان اللتان قد تتفوق فيهما الخوارزمية إلى الأمام على الانتشار العكسي كنموذج التعلم في القشرة وكوسيلة للاستفادة من الأجهزة التناظرية منخفضة الطاقة للغاية دون اللجوء إلى التعلم المعزز.
على الرغم من أن الشبكات العصبية الاصطناعية (ANN) تعتمد على أ نموذج رياضي للدماغ، فإن خوارزمية الانتشار العكسي القياسية المستخدمة لتدريب هذه الشبكات لا تستند إلى أي عملية بيولوجية معروفة. إلى جانب كونه غير قابل للتصديق بيولوجيًا ، فإن للتكاثر العكسي أيضًا بعض العيوب الحسابية كما هو مذكور أعلاه. يشير هينتون إلى أنه يمكن تدريب الشبكات العصبية الاصطناعية باستخدام التعلم المعزز (RL) دون انتشار عكسي ، ولكن هذه التقنية "تتوسع بشكل سيئ ... للشبكات الكبيرة التي تحتوي على ملايين أو مليارات من المعلمات." في عام 2021 ، غطت InfoQ بديلاً مقبولًا بيولوجيًا للانتشار العكسي يسمى التعلم بالاستدلال الصفري (Z-IL) والتي يمكنها إعادة إنتاج نتائج التكاثر العكسي بالضبط.
تستبدل خوارزمية Hinton's FF التمريرات الأمامية والخلفية لتدريب backpropagation بتمريرتين للأمام "تعملان بنفس الطريقة مثل بعضها البعض". يعمل التمريرة الأمامية الأولى على بيانات إيجابية من مجموعة تدريب ، ويتم ضبط أوزان الشبكة لتؤدي إلى زيادة هذا الإدخال للطبقة أفضل القيمة. في التمرير الأمامي الثاني ، يتم إعطاء الشبكة مثالًا سلبيًا تم إنشاؤه والذي لا يتم أخذه من مجموعة البيانات. يتم ضبط أوزان الشبكة بحيث يقلل هذا الإدخال من جودة الطبقة.
استخدم Hinton FF لتدريب العديد من الشبكات العصبية لأداء مهام السيرة الذاتية على منيست سيفار مجموعات البيانات. كانت الشبكات صغيرة نسبيًا ، وتحتوي على طبقتين أو ثلاث طبقات تلافيفية مخفية ، وتم تدريبها لأقل من 100 عصر. عند التقييم على مجموعات بيانات الاختبار ، كان أداء الشبكات المدربة على FF "أسوأ قليلاً فقط" من تلك التي تم تدريبها باستخدام backpropagation.
نفذ دييغو فيوري ، كبير التكنولوجيا في Nebuly ، خوارزمية Hinton's FF و ناقش نتائجه على تويتر:
اقترحت ورقة هينتون خوارزميتين مختلفتين للأمام إلى الأمام ، أطلق عليها اسم Base and Recurrent. دعونا نرى لماذا ، على الرغم من الاسم ، فإن Base هي في الواقع الخوارزمية الأكثر أداءً .... يمكن أن تكون خوارزمية Base FF أكثر كفاءة في الذاكرة من خاصية backprop الكلاسيكية ، مع توفير يصل إلى 2٪ في الذاكرة للشبكات العميقة.