همه دروغ میگویند
چرا نمیتوانیم به گوگل دروغ بگوییم؟
اکثر ما دوست داریم به گونهای خاص و متفاوت و غیرقابل پیشبینی باشیم که گوگل هم نتواند چیز زیادی درباره ما بگوید. اما اشتباه میکنیم؛ در واقع اگر لازم باشد شخصیترین و مخفیترین جزئیات زندگی شما و تمایلاتی که دارید با بررسی آنچه در اینترنت انجام دادهاید، مشخص خواهد شد و تازه این همه مشکل نیست. مساله مهمتر این است که تقریباً در تمام این موارد، چیزی که شما در صورت مورد سوال قرار گرفتن اظهار خواهید کرد، با واقعیتی که اینترنت درباره شما میگوید تفاوت دارد. به بیان سادهتر، مهم نیست چه ادعایی داریم همه ما حداقل (و واقعاً حداقل) در پاسخ یکسوم سوالها دروغ میگوییم و عجیبتر آنکه این کار را بعضاً در مواردی انجام میدهیم که هیچ نیاز یا دلیلی برای آن نیست. کتاب «همه دروغ میگویند» نوشته «ست استیونز دیویدویتز» متخصص کلانداده که در سال 2017 برای اولینبار منتشر شد، به بررسی این موضوع پرداخته است. وی که در استنفورد در رشته فلسفه تحصیل کرده، در سال 2013 مدرک دکترای اقتصاد خود را از دانشگاه هاروارد دریافت کرد و مدتی به عنوان دانشمند داده در شرکت گوگل مشغول به کار بوده است، از تجربیات کاری خود در نوشتن کتاب استفاده کرده است. کتاب را با عنوان فرعی، «آنچه اینترنت میتواند درباره اینکه ما واقعاً چه کسی هستیم، بگوید» در ماه می سال 2017 انتشارات dey street books به بازار کتاب ارائه کرد و توانست عناوین بسیاری از جمله بهترین کتاب سال اکونومیست و ساعت خبر شبکه پیبیاس را به دست آورد و در فهرست پرفروشهای نیویورکتایمز قرار بگیرد.
در پایان یک روز معمولی در اوایل قرن بیست و یکم جستوجوهای اینترنتی افراد، هشت تریلیون گیگابایت داده ایجاد خواهد کرد. استیونز دیویدویتز اعتقاد دارد این حجم سرسامآور اطلاعات -که در تاریخ بیسابقه است- میتواند چیزهای زیادی در مورد اینکه چه کسی هستیم به ما بگوید- ترسها، خواستهها و رفتارهایی که ما را هدایت میکنند و تصمیمات آگاهانه و ناخودآگاهی که میگیریم. میتوانیم دانش شگفتانگیزی در مورد روان انسان به دست آوریم که کمتر از 20 سال پیش، غیرقابل درک به نظر میرسید. در واقع استیونز دیویدویتز پیشبینی میکند که میشل فوکو، فروید یا مارکس بعدی از میان دانشمندان داده ظهور خواهند کرد و نظریاتی بسیار دقیقتر خواهند داشت چرا که به جامعه آماری بسیار بسیار وسیعتری با دادههایی بسیار جزئیتر دسترسی دارند. وی در کتاب خود در هشت فصل به علاوه دو فصل مقدمه و نتیجهگیری تلاش میکند نشان دهد چرا به نظر وی این اینترنت و کلاندادههاست که آینده بشری را شکل خواهد داد. کلانداده در واقع به حجم عظیمی از اطلاعات گفته میشود که برای درک آن و بازگرداندن آن به زبان انسانی، به توان محاسباتی بسیار بالایی نیاز است. کاری که دانشمندان داده انجام میدهند در واقع این بازگردانی اطلاعات موجود در کلاندادهها، به آمار و ارقام و اطلاعات قابل درک است. اطلاعاتی مانند اینکه در مناطقی که ساکنان آنها در گوگل جستوجوهایی شامل کلمه «کاکاسیاه» انجام دادهاند، اکثریت به دونالد ترامپ رای دادهاند. یا اینکه در میزان رای به بایدن و اوباما، نژاد و حزب، هر کدام چقدر اهمیت داشتند. حجم عظیم اطلاعات که باعث میشود نتایج بسیار نزدیک به واقعیت باشند اولین ویژگی مهم کلاندادههاست که در کتاب مورد بحث قرار میگیرد. برای توضیح اینکه حجم کلاندادهها در واقع چه اثری میتوانند داشته باشند، نویسنده از مثال مادربزرگ خودش استفاده میکند که ویژگیهای یک همسر مناسب را برای نویسنده توضیح میدهد. ویژگیهایی که بر اساس 88 سال مشاهده روابط مختلف اطرافیان باعث شده بود وی دیدگاهی شهودی درباره اینکه رابطه با چه افرادی طولانیمدت، دائمی و به عبارتی موفق خواهد بود، داشته باشد. دانشمندان کلانداده در واقع همان شهود افراد مسن را دارند با دادههایی میلیونها بار بیشتر و صدالبته معتبر و قابل اطمینانتر. اما این تنها ویژگی نیست که کلاندادهها را مهم کرده است. ویژگی بسیار مهم دوم، که باعث میشود کلاندادهها و بررسی آنها اهمیتی بسیار زیاد داشته باشند این موضوع است که برخلاف مردم در نظرسنجیها و بررسیهای مختلف، کلاندادهها دروغ نمیگویند. اخیراً، فارغالتحصیلان دانشگاه مریلند در مورد معدل نمرات یا معدل آنها مورد بررسی قرار گرفتند. از میان پاسخدهندگان، دو درصد اعتراف کردند که با معدل کمتر از 5 /2 در مقیاس چهارنمرهای فارغالتحصیل شدهاند. با این حال، طبق سوابق رسمی، این رقم بسیار بیشتر و 11 درصد بود. اما چرا مردم دروغ میگویند؟ خب، طبیعی است که ما میخواهیم هم برای خود و هم برای دیگران خوب به نظر برسیم، بنابراین مردم پاسخهایشان را برای ایجاد دید مثبتتری نسبت به خود تغییر میدهند. تلاش برای تغییر واقعیت به نحوی که باعث میشود ما بهتر به نظر برسیم، سوگیری مطلوبیت اجتماعی نامیده میشود.
علاوه بر این، اغلب در میان پاسخدهندگان این آمادگی وجود دارد که به دلایل مختلف بخواهند فردی که نظرسنجی را اجرا میکند تحت تاثیر قرار دهند. ما میخواهیم تاثیر خوبی بگذاریم، چه ناشناس باشیم، چه نباشیم. به عنوان یک مثال افراطی، اگر سوالکننده مشخصاتی شبیه پدرتان داشته باشد، ممکن است تمایلی به بیان جزئیات تجربیات مربوط به مواد مخدر در دانشگاه نداشته باشید. این تمایل انسان برای گفتن دروغ است، که باعث میشود نظرسنجیها در تلاش برای درک رفتار، افکار، خواستهها و باورها غیرقابل اعتماد باشند. در نتیجه به دومین دلیل قدرتمند بودن کلانداده میرسیم: کلاندادهها دروغ نمیگویند. آنها به این دلیل که از طریق رفتار آنلاین بدون فیلتر جمعآوری شدهاند، همیشه حقیقت را آشکار میکنند. کلاندادهها میتواند چیزهای شگفتانگیزی را در مورد افراد نشان دهد که شاید نمیخواستند مستقیماً با انسان دیگری، حتی به صورت ناشناس، به اشتراک بگذارند.
ویژگی سوم که به نظر نویسنده باعث میشود کلاندادهها در دنیای امروز بسیار مهم باشند، این است که علاوه بر استخراج یک تصویر بزرگ از آن (به طور مثال روند نژادپرستی در جهان)، میتوان این تصویر را تا حد مورد نیاز کوچک کرد و مثلاً روند هر متغیری در یک شهر خاص را هم استخراج کرد. کتاب در این مورد از یک مثال واقعی استفاده میکند. آج چتی، استاد دانشگاه هاروارد میخواست بررسی کند که آیا مردم فکر میکنند رویای آمریکایی هنوز زنده است یا خیر. او تصمیم گرفت از کلاندادهها برای بررسی این موضوع استفاده کند تا به یک سوال دقیقتر پاسخ دهد: آیا افرادی که والدینشان فقیر هستند میتوانند رشد کنند تا خودشان ثروتمند شوند؟ تیم وی از سوابق مالیاتی جمعآوریشده از طریق سرویس درآمد داخلی ایالاتمتحده استفاده کرد که در مجموع بیش از یک میلیارد مشاهدات مالیاتی داشتند. دادهها همانطور که انتظار میرفت فاشکننده حقیقتی بود که با ادعاها تفاوت داشت. معلوم شد که در مقایسه با سایر کشورهای توسعهیافته مانند دانمارک و کانادا، وضعیت ایالاتمتحده برای افراد فقیر عالی نیست. یک آمریکایی فقیر 5 /7 درصد شانس موفقیت در رشته انتخابی خود را داشت. اما برای دانمارکیها و کاناداییها این شانس به ترتیب 7 /11 و 5 /13 درصد بود. این تصویر بزرگ و جهانی بود، اما زیبایی دادههای بزرگ این است که چتی میتوانست بر دادههای ایالتها، شهرها، شهرکها و محلههای مختلف زوم کند. هنگامی که او این کار را کرد، دریافت که دادهها نشان میدهد که رویای آمریکایی وجود دارد- اما فقط در چند منطقه محدود. در سن خوزه، کالیفرنیا، یک آمریکایی فقیر 9 /12 درصد شانس ثروتمند شدن داشت که بهتر از دانمارک است. اما برای یک آمریکایی که در شارلوت، کارولینای شمالی بزرگ میشود، این شانس تنها 4 /4 درصد بود. این توانایی بزرگنمایی است که نشان میدهد چگونه دادههای بزرگ میتوانند درک دقیقی از جهان در هر کجا و در هر مقیاسی که انتخاب کنیم به ما بدهد. این موضوع نهتنها برای بررسیهای علمی که برای مواردی مانند آموزش یا کمپینهای انتخاباتی و موسسات غیرانتفاعی و خیریه میتواند بسیار حیاتی باشد. ویژگی مهم دیگر استفاده از کلاندادهها کاهش هزینههاست. در بررسیهای مختلف ابتدا باید وجود همبستگی میان دو متغیر (مثل استفاده از یک نوشیدنی با سلامت) ثابت شده، سپس اثبات شود این همبستگی به معنای علیت است (استفاده از نوشیدنی باعث سلامت یا بیماری شده نه عوامل دیگر) و پس از آن میزان این همبستگی بررسی شود. مرحله اثبات علیت که به آن آزمونهای A /B گفته میشود، به دلیل زمانبر بودن و میزان زیاد متغیرهای درگیر در مساله، بسیار هزینهبر است. دادههای کلان زمان و هزینه لازم برای این بررسی را به شدت کاهش داده است و این چهارمین دلیل اهمیت بسیار زیاد کلاندادههاست. اما همانطور که احتمالاً همه ما میدانیم، وجود و استفاده از کلاندادهها همیشه مثبت نیست و اتفاقاً نگرانیهای زیادی درباره دسترسی به آن و امکان سوءاستفاده از آن وجود دارد. محور اصلی بخشی از مهمترین انتقادهای واردشده بر این کتاب، کوچک نشان دادن (بهزعم منتقدان) نگرانیهای موجود در این مورد است. علاوه بر این در سالهای بعد از 2017، به دلایل مختلف نگرانیها درباره نحوه استفاده از کلاندادهها به صورت صعودی نیز رشد داشته است. استیونز دیویدویتز به برخی از این مشکلات در کتاب اشاره کرده است. به عنوان مثال استفاده از کلاندادهها وقتی تعداد متغیرهای موثر بر مورد بررسی بسیار زیاد است، یا متغیر مورد بررسی مقیاس سنجش کمی ندارد، میتواند حتی باعث انحراف یا نتیجهگیری اشتباه شود. علاوه بر این، در فصول پایانی کتاب درباره استفاده دولتها از اطلاعات کلاندادهها بحث شده است. درباره استفاده دولت و نهادهای وابسته به دولت از کلاندادهها دو دسته ملاحظات وجود دارد. اول، نیاز به کمک به افراد بر اساس جستوجوهایی که در اینترنت انجام میدهند. به عنوان مثال آیا دولتها با فرض دسترسی به اطلاعات باید با اشخاصی که درباره خودکشی جستوجویی انجام میدهند مراجعه کرده و از وضعیت آنها مطمئن شوند؟ اگر بدانید هر ماه حدود 5 /3 تا 4 میلیون جستوجو درباره خودکشی انجام میشود اما اقدام به این عمل تنها چهار هزار مورد در ماه است آیا پاسختان تغییر میکند؟ به استدلال نویسندگان، علاوه بر جنبه اقتصادی قضیه (بهکارگیری مددکار اجتماعی برای رسیدگی به سه و نیم میلیوننفری که کمتر از یکدهم درصد آنها قصد خودکشی دارند) بنا به ملاحظات اخلاقی نیز دولتها باید تنها در مواردی محدود و در سطح کلان، از این دادهها استفاده کنند.
«همه دروغ میگویند» نگاهی جذاب، غافلگیرکننده و گاهی اوقات خندهدار به همه چیز از اقتصاد گرفته تا اخلاق و ورزش و نژاد و جنسیت و موارد دیگر ارائه میدهد که همگی از دنیای دادههای بزرگ استخراج شدهاند. چند درصد از رایدهندگان سفیدپوست به دلیل سیاهپوست بودن باراک اوباما به او رای ندادند؟ آیا جایی که به مدرسه میروید بر میزان موفقیت شما در زندگی تاثیر میگذارد؟ آیا والدین پنهانی فرزندان پسر را بر دختر ترجیح میدهند؟ آیا فیلمهای خشونتآمیز بر میزان جرم و جنایت تاثیر میگذارد؟ آیا میتوانید بازار سهام را شکست دهید؟
استیونز دیویدویتز با بررسی این سوالات و بسیاری سوالات دیگر، مکاشفههایی ارائه میدهد که میتواند به ما در درک بهتر خود و زندگی خود کمک کند. وی با تکیه بر مطالعات و آزمایشهایی که در مورد اینکه واقعاً چگونه زندگی میکنیم و چگونه فکر میکنیم، به روشهای جذاب و اغلب خندهدار نشان میدهد که تا چه حد تمام دنیا واقعاً یک آزمایشگاه است. نویسنده با نتیجهگیریهایی عجیب اما واقعی، تاملبرانگیز یا ناراحتکننده، قدرت این بعد از حقیقت دیجیتالی و پتانسیل عمیقتر آن را بررسی میکند- سوگیریهایی را که عمیقاً در درون ما نهفته است، اطلاعاتی که میتوانیم از آنها برای تغییر فرهنگمان استفاده کنیم، و سوالاتی که درباره روابط احساسی یا حتی سلامت فیزیکی خود داریم اما میترسیم آنها را از پزشکمان بپرسیم. همه ما هر روز تحت تاثیر کلاندادهها قرار میگیریم و تاثیر آن در حال افزایش است. «همه دروغ میگویند» ما را به چالش میکشد تا در مورد اینکه چگونه آن و جهان را میبینیم متفاوت فکر کنیم.