27 آوریل 2016
گامبیهایی که همیشه پذیرفته میشوند
گامبی به انواعی از شروع بازی شطرنج گفته میشود که یکی از بازیکنان، و معمولا بازیکن سفید، یک مهره را به صورت طعمه به حریف پیشکش میکند تا او برای مدتی محدود در برتری عددی و حتی موقعیتی باشد. اما اگر حریفی که گامبی را میپذیرد، به اندازه کافی حواسش جمع نباشد، امکان دارد که کل بازی را واگذار کند و در دامی که برایش پهن شده است، گرفتار شود.
علم هوش مصنوعی، هم اکنون به درجهای از رشد رسیده است که عملا هیچ انسانی قدرت مقابله با کامپیوترها را، در زمینه بازیهایی مانند شطرنج و گو ندارد. مبحث یادگیری تقویتی (Reinforcement Learning) یکی از زیربخشهای یادگیری ماشین و هوش مصنوعی است و از اصلیترین ابزارهای پیادهسازی بازیکنهای کامپیوتری شطرنج و بازیهای مشابه است.
در یادگیری تقویتی، به صورت ریاضی ثابت میشود که سیاست حریصانه و منفعت طلبی محض و آنی، نمیتواند به موفقیت تضمینی بیانجامد. به عبارت دیگر، مستقل از مهارت و اطلاعاتی که داریم، همواره مقداری آیندهنگری لازم داریم تا ما را از افتادن در دام، مصون بدارد. طبق این اصول، گاهی اوقات باید حرکتهایی را انجام دهیم، که ظاهرا به ضرر ماست؛ اما اثر این حرکت، با پیروی از یک سیاست عقلانی، در آینده نزدیک یا دور، به کلی حذف و با سودی بزرگ جایگزین خواهد شد.
من معمولا این نوع سیاست غیر حریصانه و منطقی را، مثل یک دورخیز میدانم که ورزشکاران پیش از پرش یا ضربه زدن، انجام میدهند. اغلب بدون چنین دورخیزهایی، امکان ایجاد شتاب به اندازه کافی وجود نخواهد داشت. در حوزه تصمیمگیری نیز، بیش از اندازه حریصانه عمل کردن، نمیتواند شتاب لازم را برای همگرا شدن به یک تصمیم بهینه ایجاد کند.
متأسفانه در فرهنگ عمومی و اجتماعی ما، سیاستی که بیش از همه رایج است، بهرهمندی آنی و حریصانه از نتیجه تصمیمات است. اگر یک تصمیم، در عرض یک ساعت، یک روز، یا یک ماه جواب مثبت ندهد، عملا جایی در سبد برنامهریزی ما نخواهد داشت. این نوع تصمیمگیری، روزانه در خیابانها، محلهای کار، مراکز تحصیلی و سایر عرصهها به وفور قابل مشاهده است. اما اصول ریاضی هوش مصنوعی، تصریح میکنند که این سیاست الزاما به نتیجه خوبی نخواهد رسید. ما همیشه در حال پذیرفتن گامبی هستیم؛ بدون آن که به عواقبش فکر کنیم و یا طرحی برای پس دادنش داشته باشیم.