رفتن به محتوای اصلی
x
تصویر

جلسه دفاع پایان ­نامه کارشناسی ارشد (آقای پویان شفاعت)

موضوع:  یادگیری تقویتی عمیق ربات دوپا جهت راه رفتن روی سطح شیب‌دار با استفاده از بهینه‌سازی سیاست مجاورتی

ارائه دهنده: پویان شفاعت

استاد راهنما: دکتر محمد دانش

استادان داور: دکتر سعید بهبهانی- دکتر مهدی کاروان

 

 

چکيده:

پیشرفت‌های اخیر در زمینه یادگیری تقویتی قابلیت‌های امیدوارکننده این روش‌ را در حوزه کنترل ربات نشان داده است. این پژوهش پس از مرور الگوریتم‌های نوین یادگیری تقویتی، یکی از این الگوریتم‌ها را جهت کنترل هوشمند حرکت ربات به کار می‌گیرد. روش‌های کلاسیک جهت کنترل ربات نیاز به خبرگی زیادی دارد و همینطور به سختی قابل پیاده‌سازی هستند. این روش‌ها دقت بالایی دارند، اما در مقابل روش‌های یادگیری تقویتی عمیق تعمیم‌پذیر هستند و نسبت به تغییر محیط مسئله قوام خوبی ارائه می‌دهند. در این پژوهش یکی از محیط‌های جیم موجوکو به نام Walker-2d مورد آزمایش قرار گرفت و الگوریتم بهینه‌سازی سیاست مجاورتی روی آن پیاده‌سازی شد. هدف از انجام این آزمایش آموزش راه رفتن به ربات روی شیب‌های مختلف بود. مشخص شد که ربات دوپا قابلیت راه رفتن روی شیب‌های مختلف را تنها با تغییر در تابع پاداش پیدا کرد. همچنین به علاوه نتایج ذکر شده، پس از آموزش ربات روی هر شیب، اقدام به آزمایش مدل‌های از قبل آموزش دیده شد. در این آزمایش هر کدام از مدل‌ها روی چند شیب مختلف امتحان شدند و مشخص شد بر خلاف انتظار، ربات‌ هنوز تا حدودی قادر به راه رفتن بود. این آزمایش قوام بیشتر این روش را نشان داد.

تحت نظارت وف ایرانی