یادگیری هیبریدی
کدام مدلهای تصمیمگیری، محرک بازار سهام است؟
ما آدمها چگونه تصمیم میگیریم؟ سنتیهای اقتصاد معتقدند ما به گونهای عمل میکنیم که گویی «معادله بلمن» را حل کردهایم. در مقابل، روانشناسان و عصبشناسان، با چارچوبی متفاوتتر پذیرفتهاند که ما بر اساس یک سیستم هیبریدی یعنی ترکیب دو سیستم یادگیری «بدون مدل» و «مبتنی بر مدل» با هدفِ «تخمین ارزش یک عمل معین» رفتار میکنیم. در واقع، ما یک میانگین وزنی از برآوردهای بدون مدل و مبتنی بر مدل از ارزش اقدامات مختلف را به دست آورده و از تخمینهای ترکیبی حاصل برای انتخاب خود استفاده میکنیم. بدین نحو که بر مبنای سیستمِ بدون مدل که متفاوت از مدلهای اقتصادی سنتی است و تبعیتی از «الگوی جهانی» ندارد، هیچ تلاشی برای ایجاد توزیع احتمالی نتایج آینده نمیکنیم، بلکه با تجربه یاد میگیریم؛ یعنی در بازههای زمانی مختلف، کاری را امتحان کرده، نتیجه را میبینیم و سپس تخمین خود از ارزش آن کار را با دو کمیت مهم بهروزرسانی میکنیم: یکی خطای پیشبینی پاداش (پاداشی که پس از انجام عمل نسبت به آنچه پیشبینی کرده بودیم، میبینیم) و دیگری میزان یادگیری؛ با این مبنا که اگر خطای پیشبینی مثبت باشد، برآورد خود را افزایش داده، برای عمل ارزش قائل شده و احتمال تکرار عمل در آینده برایمان افزایش مییابد؛ اما اگر خطای پیشبینی منفی باشد، ارزش تخمینی عمل کاهش مییابد و احتمال تکرار آن کمتر میشود. در حقیقت، این چارچوبِ بدون مدل که بهطور فزایندهای هم از سوی روانشناسان و دانشمندان علوم اعصاب هم پذیرفته شده، شواهدی مبنی بر انجام محاسبات واقعی به وسیله مغز را منعکس میکند و نشان میدهد نورونهای مغز خطای پیشبینی پاداش مورد استفاده در یادگیری بدون مدل را رمزگذاری میکنند. در حالی که در مقابل و در الگوریتم مبتنی بر مدل که شبیه به رویکردهای اقتصادی سنتی است، زیرا مدلی از جهان را میسازد -توزیع احتمالی از نتایج آینده- و سپس از آن برای محاسبه ارزش اقدامات مختلف استفاده میکند، ذهن پس از مشاهده نتیجهای در یک لحظه از زمان، احتمالی را که به نتیجه اختصاص داده افزایش داده، احتمالات سایر نتایج را کاهش میدهد و مجدد از نرخ یادگیری و خطای پیشبینی استفاده میکند تا میزان شگفتانگیز بودن یک نتیجه را اندازهگیری کند.
شماتیک تصمیمگیری
بگذارید با مثالی، چگونگی تصمیمگیری ترکیبی از دو سیستم «بدون مدل» را که متاثر از «قانون اثر» ثورندایک در سال 1933 است و سیستم «مبتنی بر مدل» برآمده از مفهوم «نقشه شناختی» تولمن در سال 1948 که بازنمایی درونی از محیط است، بهتر نشان دهیم. به تصویر شماره یک نگاه کنید. این شماتیک، محور ساختاری آزمایش ناتانیل دی داو و همکارانش در سال 2011 با عنوان «تاثیرهای مبتنی بر مدل در انتخابهای انسانی و خطاهای پیشبینی خطی» است. بر اساس این ساختار، شرکتکنندهای منتخب میشود. او در مرحله اول، بین دو گزینه A و B حق انتخاب دارد. در مرحله دوم نیز میتواند گزینههای C و D یا E و F را انتخاب کند و پاداش مربوط به گزینه انتخابی را به دست آورد؛ با این توضیح که شرکتکننده میداند هر یک از گزینههای مرحله اول در درجه اول با یکی از جفتهای C-D و E-F مرتبط است و اگر در مرحله اول B را انتخاب کند، انتخابهای بعدی با احتمال 7 /0، بین E و F و با احتمال 3 /0 بین C و D خواهد بود و بر این اساس میتواند پاداش بگیرد. از اینرو، اگر شرکتکننده در مرحله اول، A را انتخاب کند و گزینه انتخابی بعدی او E از کادر E و F باشد و پاداش بگیرد، طبق سیستم بدون مدل، او در آزمایشهای بعدی نیز دوباره A را انتخاب خواهد کرد زیرا به انتخاب او در نهایت پاداش داده شده است. اما در سیستم مبتنی بر مدل، چون از اطلاعات مربوط به ساختار کار استفاده میکند و از آنجا که B احتمال بیشتری برای پایان دادن به گزینه E و دستیابی به پاداش دارد، او B را در آزمایش بعدی انتخاب میکند و آن را ترجیح میدهد. مضاف بر آن، تحلیل رگرسیونی این پژوهش هم در فهم اینکه چگونه مقدار متغیری با ثابت بودن دیگر متغیرها تغییر میکند و آیا شرکتکننده، انتخابِ مرحله اول و قبلی خود را روی دو متغیر تکرار میکند یا خیر، نشان میدهد. پس از انتخاب اولیه A، گزینههای رایجِ مرحله دوم C و D و در موارد نادر E و F هستند؛ بنابراین اگر رفتار صرفاً از طریق سیستم بدون مدل هدایت شود، تنها ضریب روی رگرسیون اول معنادار خواهد بود و چنانچه رفتار صرفاً توسط سیستم مبتنی بر مدل هدایت شود، فقط ضریب بر روی رگرسیون دوم معنا مییابد. با وجود این چون هر دو ضرایب، قابل توجه هستند، به این معنا که هر دو سیستم نقشی را ایفا میکنند، تمرین تخمینی تایید دارد که شرکتکنندگان تقریباً 60 درصد وزن انتخابی را بر روی سیستم بدون مدل /آزاد و 40 درصد را بر روی سیستم مبتنی بر مدل قرار میدهند. نتیجهای که «چارنس و لوین» نیز در آزمایش متفاوتتری که در آن، یادگیری بدون مدل و مبتنی بر مدل را «یادگیری تقویتی» و «یادگیری بیزی» (که پارامترهای مدل (مانند وزن شبکه) را با به حداکثر رساندن احتمال عقبی پارامترها با توجه به دادههای آموزشی تعیین میکند)، نامیده بودند، تایید شد و اثبات کرد، رفتار شرکتکنندگان تا حدود قابل توجهی به وسیله سیستم بدون مدل هدایت میشود و از حیث روانشناسی و عصبشناسی، به استناد یافتههای گلاشر و همکارانش (شکل2)، با تصویربرداری تشدید مغناطیسی عملکردی (fMRI)، فعالیت عصبی در جسم مخطط شکمی (کورپوس استریاتوم) مغز با خطای پیشبینی برای سیستم بدون مدل ارتباط دارد، در حالی که فعالیت عصبی در ناحیهای از قشر جلوی مغز با خطای پیشبینی برای سیستم مبتنی بر مدل نشان میدهد مغز هنگام تصمیمگیری الگوریتمهای بدون مدل و مبتنی بر مدل را اجرا میکند.
آگاهی خاموش
اما آیا با زمینه متعارفی که الگوریتمهای بدون مدل و مبتنی بر مدل در آن اعمال میشوند میتوان مشکلات انتخاب یک پورتفولیو را که در آن یک نفر نقدینگیاش را بین یک دارایی بدون ریسک و یک دارایی پرخطر تقسیم میکند تا در آینده با مطلوبیتی قابل قبول، ثروتش به حداکثر برسد توضیح داد و در یک محیط اقتصادی، از این دو سیستم برای توضیح طیفی از حقایق تجربی استفاده کرد؟ جواب مثبت است؛ چون ما در این مقاله، در قالب چارچوبی قابل اعمال در بیشتر حوزههای اقتصادی و با توجه ویژه به سیستم بدون مدل برای اقتصاددانان و اینکه چگونه پیشبینیهای آن با پیشبینیهای سیستم مبتنی بر مدل -که ردپای بسیار کمتری در اقتصاد و امور مالی دارد- متفاوت است، به این سوال پاسخ دادهایم. ما در تجزیه و تحلیل ویژگیهای چارچوب تعریفی این پژوهش متوجه شدیم: یک بازده خوب در بازار سهام، تخصیص قبلی سرمایهگذار را (تخمین بدون مدل، ارزش تخصیص را افزایش میدهد) تقویت میکند و این افزایش، زمانی قویتر است که تخصیص قبلی بالا باشد؛ چون برای یک بازدهی معین، زمانی که تخصیص قبلی بالا باشد، پاداش یا بازده پورتفوی هم بالاتر است و در نتیجه، بهطور متوسط، بازده خوب، سرمایهگذار را متعاقباً به سمت سرمایهگذاریهای بیشتر سوق میدهد. برای نمونه، اگر سرمایهگذار تخصیص 20درصدی بازار سهام را انتخاب کند و بازار بازدهی بالایی داشته باشد، این اقدام، انتخاب تخصیص 20درصدی را «تقویت» میکند؛ یعنی خطای پیشبینی پاداش مثبت، ارزش این تخصیص را افزایش میدهد و این احتمال را بیشتر میکند که سرمایهگذار در آینده آن را دوباره انتخاب کند. بهطور مشابه، اگر او یک تخصیص 80درصدی را انتخاب کند و بازار بازدهی بالایی داشته باشد، این شرایط، تخصیص 80 درصد را تقویت میکند. بنابراین، بازده بالای بازار، اگرچه ممکن است سرمایهگذار را به انتخاب سرمایهگذاری و تخصیص کم سوق دهد اما از سوی دیگر، او را به انتخاب یک تخصیص بالا میکشاند؛ چون تقویت در مورد تخصیص 80 درصد قویتر است و بازده بالای بازار سهام به خطای پیشبینی پاداش بزرگترِ زمانی منجر میشود. در مورد سیستم مبتنی بر مدل هم، وقتی این سیستم پس از مشاهده بازده جدید سهام، توزیع بازده درکشده خود را بهروز میکند، احتمال بازدههای قبلی و اهمیت آنها را کم میکند؛ یعنی بهطور شهودی، با استفاده از نرخ یادگیری ثابت، سرمایهگذار به گونهای عمل میکند که گویی محیط غیرساکن است؛ به این ترتیب، او وزن بیشتری بر بازدهیهای اخیر میگذارد. از سوی دیگر، نسبت به سیستم مبتنی بر مدل که تخصیص پیشنهادی آن وزن زیادی بر بازدههای جدید وارد میکند، تخصیص بدون مدل بهطور قابل توجهی به بازدهیهای گذشته، وزن میدهد و صرفاً ارزش سرمایهگذاری آخر را بهروزرسانی میکند و مقادیر تخصیصی دیگر بدون تغییر میماند.
سوگیری سرمایهای
علاوه بر آن، چون سرمایهگذاران معمولاً تقاضای برونیابی دارند؛ تقاضای آنها برای یک دارایی پرخطر به میانگین وزنی بازدهی گذشته دارایی وابستگی پیدا میکند و در عین حال، با یک سوگیری جدی از باورهای موجود، نسبت به بازده جدید، واکنش بیش از حد و غیرقابل انتظاری نشان میدهند؛ و این در حالی است که طبق مطالعات قبلی، فقط در سیستم مبتنی بر مدل است که میتوان بر باورها اثر گذاشت و به صراحت توزیع احتمالی نتایج آینده را مشخص کرد که دلیلش هم معلوم است؛ هنگامی که فردی از باورهایش درباره بازدهی سالهای آینده میگوید، بیشک از سیستم مبتنی بر مدل، خط مشی گرفته، اما به قطع تخصیص سرمایهای و انباشت نقدینگی او تحت تاثیر هر دو سیستم بوده است و اینجاست که گسستی بین باور و رفتار سرمایهای شکل میگیرد و موضوع اینرسی فردی در سرمایهگذاری و نقدینگی بازهای، پراکندگی مقطعی و بزرگ سرمایهای در بازار سهام، عدم مشارکت گسترده در بازار سهام میان خانوارها و اصرار سرمایهگذاران خانوادگی بر انتخابهای مختوم به شکست مالی، اهمیت مییابد و نشان میدهد که بر اساس تئوری بازی و اقتصاد رفتاری همانگونه که مردم با اثرگذاری «حافظه، توجه، تمرکز و کدگذاری ادراکی» یاد میگیرند چه اقداماتی را در سرمایهگذاریهای استراتژیک انجام دهند یا به سوگیری روی آورند، روشهای کارآمد نیز حداقل به دو دلیل بر تصمیمگیریهای مالی و رفتاری تاثیر میگذارند؛ اول آنکه، سیستم بدون مدل جزء اساسی تصمیمگیری انسانی است و در هر تصمیمی نقش ایفا میکند مگر اینکه بهطور صریح «خاموش» شود؛ ولی چون مغز گاه بدون آگاهی آگاهانه فرد عمل میکند، بسیاری از سرمایهگذاران تاثیر آن را تشخیص نخواهند داد، بنابراین در خاموش کردن آن شکست میخورند. دوم اینکه، بسیاری از مردم، «مدل» خوبی از بازارهای مالی ندارند. برای مثال، آنها اغلب درک ضعیفی از ساختار و توزیع آماری بازده دارند و حتی اگر درک خوبی هم از آن داشته باشند، نمیتوانند خط مشی بهینه را محاسبه کنند یا بهطور شهودی آن را تشخیص دهند. بدینرو، برای بسیاری از سرمایهگذاران، راهحل کاربردی وجود نخواهد داشت؛ در نتیجه، مغز، دوباره بدون آگاهیِ آگاهانه فرد، حداقلِ مقدار از کنترل تصمیمگیری مالی را به سیستم بدون مدل و قانون «آمادگی، اثر و تمرین» اختصاص میدهد، چون این سیستم به مدلی از محیط نیاز ندارد. از اینرو، با این استدلالها، اگر چه سیستم بدون مدل، روش جدیدی از تفکر را معرفی میکند که مبتنی بر تقویت اقدامات گذشته است، ولی اکثریت قریببهاتفاق چارچوبهای اقتصادی، رویکردی مبتنی بر مدل دارند و مهمتر آنکه سه فرضیه دیگر پیرامون «نرخهای یادگیری متغیر با زمان، فضاهای اقدام جایگزین و استنباط باورها از سیستم بدون مدل» وجود دارد که تجزیه و تحلیل دقیقِ آنها در آینده میتواند این ادعا را صریحتر تبیین کند.
فرضیههای مجهول
بر مبنای مطالعات، ما اغلب، نرخ یادگیری هر سرمایهگذار را در طول زمان، ثابت میدانیم و نشان دادهایم که حتی این مورد ساده کاربردهای زیادی دارد. با وجود این، نرخ یادگیری ممکن است در طول زمان متفاوت باشد. به عنوان مثال، شواهدی وجود دارد که نشان میدهد در مواقعی که نوسانات بیشتر است، این نرخ افزایش مییابد و به همین خاطر، چنین فرضی میتواند در قالب چارچوب این مقاله، در آینده بازتحلیل شود تا پیشبینیهایِ مفید برای مثال، در مورد رفتار سرمایهگذار در دورههای بحران، نتایج جدیدی را باعث شود. مضاف بر آن، ما در این مقاله، از یک فضای اقدام استاندارد بر اساس کسری از ثروت تخصیصیافته به بازار سهام استفاده کردیم، بدین صورت که در هر زمان، یک سرمایهگذار میتواند صفر، 10 یا 20 درصد از ثروت خود را به بازار سهام اختصاص دهد. حال اگر یکی از ویژگیهای سیستم بدون مدل را این در نظر بگیریم که میتواند به راحتی فضاهای اقدام جایگزین را در خود جای دهد مانند «هیچ کاری نکن»، «احتمال افزایش قرار گرفتن در معرض بازار سهام تا 10 درصد را نادیده نگیر» یا «به کاهش قرار گرفتن در معرض بازار سهام 10 درصد دقت کن»، مفاهیم آن بهطور گسترده میتواند در چارچوبهای پژوهشی ادغام شود و مطالعات بعدی از آن حتی به فرضیههای جدیدتری نیز برسند. و در نهایت اینکه، ما تاکنون باورها را فقط با سیستم مبتنی بر مدل رابطهسنجی کردهایم در حالی که ممکن است فردی با سیستم بدون مدل در استنتاج باورها به نتایج غیرقابل پیشبینی برسد. به عنوان مثال، زمانی که از سرمایهگذار در مورد بازده یا ریسک آینده بازار سهام سوال میشود، طبیعی است که او با سیستم مبتنی بر مدل تحلیل میکند چون به او معیار مستقیمی از باورها میدهد. با این حال، امکان آن هست که او تحت تاثیر سیستم بدون مدل قرار بگیرد، بهطوری که سیستم بدون مدل او ارزش Q بالاتری نسبت به بازار سهام بدون ریسک اختصاص دهد و حتی این را به عنوان نشانهای از برتر بودن بازار تلقی کند یا در پیشبینی بازده بالاتر با ریسک کمتر برخلاف پیشبینی چارچوبهای سنتی که در آن ریسک و بازده بهطور ذهنی درک میشود به ارتباط مثبتتری دست یابد.