المستخلص: |
من أجل إيجاد السياسة التنافسية الناجعة التي تحدد وفق التفاعل ما بين الأعوان كثيرًا ما نلجأ إلى الألعاب التصادفية. يتحتم علينا أن نشير في هذا الصدد خوارزم ناش للتعلم والذي يعرف باسم Nash Q Learning يمثل أحسن طريقة للبحث وضبط السياسة التنافسية حيث نتمكن عمليًا من استعمال توازن ناش دون حاجة لمعرفة نموذج المحيط. إننا نحاول في هذه الورقة أن نتناول بالدراسة الألعاب الساكنة وكذلك الديناميكية التي تحتوي على عونين وفعلين، كما نحاول أن نبرهن بأن استعمال توازن ناش الذي عادة ما يكون مرغوبًا فيه لدى الأعوان بلا تردد منهم قد يؤدي إلى وضعية دون الأمثلة. وقد إرتأينا أن نقترح بعد ذلك توسيع خوارزم Nash Q Learning بإضافة توازن آخر هو توازن ستاكلبرغ ثم برهنا بأنه ممكن للأعوان أن يستفيدون أكثر بفضل هذا الخوارزم (المضاف إليه توازن ستاكلبرغ) أكثر مما يستفيدون من خوارزم Nash Q Learning بمفرده.
|