اعداد میانبرهایی هستند برای درک کردن و باید گفت، هیچ میانبری وجود ندارد! موضوع امروز من این است: همه اعداد اشتباه هستند.
جدی میگویم! هروقت با یک عدد مواجه شدید (در یک توییت، تیتر روزنامه، ایمیل اداری، گزارش فنی، کتاب درسی و …) این گونه فرض کنید که اشتباه است. آن را اطلاعات غلط دشمن و خرابکاری عمدی در درک شما از جهان در نظر بگیرید و بیتوجه از کنارش رد شوید.
حتما به این فکر میکنید که من مبالغه میکنم تا شما را تحت تاثیر قرار دهم. نه این طور نیست! واقعا جدی میگویم. البته تمام اعداد غلط نیستند اما این اتفاق خیلی خیلی بیشتر از شهود و درک مستقیم شما میافتد. بنابراین من میگویم بهتر است همه اعداد را به صورت پیشفرض، غلط در نظر بگیریم.
من آرام آرام و طی سالها به اینجا رسیدم. ولی حالا که به صورت جدی به این مساله توجه میکنم، میبینم که همه جا پر از اشتباه است.
پیدا کردن مثال خیلی ساده است
روزی که من نشستم تا این مطلب را بنویسم، برای پیدا کردن نمونه، تیترهای روزنامه نیویورک تایمز را مرور کردم. لازم نبود خیلی جستجو کنم:
«نیم میلیون مورد شناخته شده ابتلا به ویروس کرونا»
چی؟ در دوران پیک اومیکرون، فقط در آمریکا آمار هر روز بیشتر از این رقم بود. مشخص است که منظور آنها نیم میلیارد مورد بوده نه نیم میلیون.
به این مساله فکر کنید. نیویورک تایمز در یک بخش برجسته یعنی در تیتر خبر، از عددی استفاده کرده هزار برابر اشتباه است. یک هزار! کاملا، تقریبا و به صورت غیرمنطقی غلط است.
چطور ممکن است چنین اتفاقی بیفتد؟ آیا بخش پژوهشی آنها از یک متد ناقص استفاده میکند؟ آیا آنها قربانی یک کمپین اطلاعات غلط شدهاند؟ آیا کسی به صورت تصادفی این تیتر خبری را در ابتدای سال 2020 نوشته است؟ آیا آنها هک شدهاند؟
طبیعتا نه. آشکار است که این فقط یک اشتباه تایپی است. مساله بزرگی نیست. ولی مساله بزرگ این است که اشتباهی هزار برابری را یک مساله بزرگ ندانیم. بدین ترتیب این ایده که «اعداد به معنی همه چیز هستند» تضعیف میشود. در ضمن ما را با این حقیقت مواجه میکند که یک عدد غلط دقیقا شبیه به یک عدد صحیح است. در این مورد، عدد به اندازهای غلط است که با بررسی اتفاقی هم مشکل آن مشخص میشود. ولی بیشتر اشتباهات، آشکار نیستند. و حتی این اشتباه آشکار هم تا صفحه اول روزنامه رسیده و کسی متوجهش نشده است.
تصور کنید شما در صف یک بوفه رستوران هستید و میبینید که از دست یکی از کارکنان، یک تکه گوشت روی زمین میافتد. آنها گوشت را از روی زمین برداشته، آن را تمیز کرده و در بشقاب سرو غذا میاندازند. مشخص است که شما آن را نخواهید خورد. آیا شما با دقت یک تکه گوشت متفاوت را انتخاب میکنید؟ یا این که به خاطر آگاه شدن از سطح استاندارد بهداشت در آن مکان، رستوران را برای همیشه ترک میکنید؟ شما آن غذا را در دهان نمیگذارید. شما همین حالا دیدید که یک منبع خبری جریان اصلی، معادل استعاری سرو کردن گوشتی که روی زمین افتاده را انجام داده است. اجازه ندهید چنین فکتهایی وارد ذهن شما شوند.
حتی وقتی یک عدد درست است، در واقع غلط است
اشتباه نوشتن «میلیون» به جای «میلیارد» بدترین بخش آمارهای مربوط به شیوع کرونا نیست. این اشتباه بزرگی است اما این یکباره است. مشکل عمیقتر عبارت «به احتمال زیاد این یک کمشمارش (پایینتر از حد واقعی) است». این یک کمشمارش احتمالی نیست، یک بخش کوچک از ارزش واقعی است. آماری که تایمز میدهد (آماری که همه ارائه میکنند) بر اساس موارد گزارششده رسمی است. اگر کسی به جای تست PCR در آزمایشگاه، از تست در منزل استفاده کند یا اگر شخص موردنظر اصلا تست کرونا ندهد یا اگر افراد مبتلا در بخشی از جهان زندگی کنند که تست آزمایشگاهی در دسترس نباشد، یا اگر حالشان مساعد باشد و اصلا متوجه نشوند که بیمار شدهاند، هیچکدام از این موارد در آمار ثبت نمیشود.
من نتوانستم یک تخمین بهروز از مبتلایان در سراسر جهان پیدا کنم اما یک مقاله متعلق به اکتبر 2020 پیدا کردم که سازمان بهداشت جهانی یک تخمین حدود 760 میلیونی داشته است. در آن زمان، تعداد موارد گزارششده تنها 35 میلیون بود. از طرف دیگر، مرکز پیشگیری و کنترل بیماری آمریکا تخمین زده که در سپتامبر سال 2021 (یعنی قبل از اومیکرون) 146 میلیون آمریکایی مبتلا به کرونا شدهاند. حالا که من این یادداشت را مینویسم، ویروس کرونا در کل کشور پخش شده است. به نظر من این مساله در بخش بزرگی از جهان به همین ترتیب بوده است و چین یک استثناء بزرگ است (که البته شاید تغییر کند). «نیم میلیارد» کاملا دور از آمار واقعی مبتلایان است.
حداقل تایمز این مورد را اشاره کرده که این آمار موارد شناخته شده از مبتلایان است. خیلی وقتها اصلا به این تفاوتها اشاره نمیشود. ولی هر کسی که این خبر را می خواند از کلمه شناختهشده عبور میکند. آنها به صورت ذهنی نیم میلیارد مبتلا را با جمعیت کل جهان که 8 میلیارد است مقایسه میکنند و به این نتیجه میرسند که تقریبا یک نفر از هر 16 نفر در جهان مبتلا به کرونا هستند. در حالی که واقعیت این است که 2 نفر از هر 16 نفر در جهان مبتلا شدهاند.
بنابراین گفتن این که 500 میلیون نفر در سراسر جهان به کرونا مبتلا شدهاند یک کمشمارش است و مثل این است که بگوییم «بیشتر انسانها حداقل 7 سال و احتمالا بیشتر زندگی میکنند». از نظر فنی این گزاره درست است ولی در عمل ذهن شما را مشغول عددی میکند که معنای متفاوتی دارد؛ چیزی متفاوت با آنچه شما فکر میکنید اساسا یک دروغ باشد.
اشتباهات، اشتباهات در همه جا
همان روز، در همان مرور تیترهای خبری، روزنامه تایمز این زیبایی را هم تقدیم نگاه ما میکند:
متن خبر تقریبا چیز دیگری میگوید: «روسیه و اوکراین روی هم رفته بیش از یک چهارم گندم دنیا را صادر میکنند». در واقع طبق بهترین دادههایی که در این زمینه وجود دارد، روسیه و اوکراین روی هم رفته حدود 6 درصد از تولید گندم جهان را صادر میکنند (کمتر از یک چهارم عددی که تایمز گزارش کرده است). به نظر میرسد منظور تایمز این بوده که صادرات گندم از این دو کشور نزدیک به 30 درصد صادرات گندم جهان است. بیشتر گندم در همان کشوری که تولید شده مصرف میشود. بنابراین تولید گندم با صادرات گندم خیلی متفاوت است. به طور تصادفی، هیچکدام از این آمار و ارقام، سهم روسیه و اوکراین در تولید گندم را به ما نمیگویند: حدود 15 درصد.
مطمئنا حمله به اوکراین مشکلات جدی برای تامین گندم کشورهایی خاص ایجاد میکند. ولی این ایده که جهان با 25 درصد گندم کمتر باید نیازهایش را تامین کند درست نیست. در یک توییت هم این ادعا مطرح شده که اساسا هیچ کمبود اساسی در تامین گندم جهان وجود نخواهد داشت. نمیدانم این تحلیل درست است یا نه و برخی از بخشهای آن را نمیفهمم ولی میدانم که زیاد دست به دست شده و تکذیبیهای هم برای آن ندیدهام. نویسنده به این نکته اشاره کرده که بازارهای گندم به خوبی مشکل موردنظر را دیدهاند و قبل از حمله به اوکراین، تدابیری برای آن اندیشیدهاند و در نتیجه خیلی از تولیدکنندههای بزرگ (مثل هند و آمریکا) در این فصل بیش از مقدار معمول، کشت گندم داشتهاند. البته این به معنای عدم بروز مشکل در تامین گندم نیست. بیشتر مساله این خواهد بود که چطور گندم به کشورهایی که این محصول را نیاز دارند منتقل شود (نه یک کمبود جهانی واقعی).
در نتیجه باز هم دیدیم که اعداد غالبا به صورت اشتباه تفسیر میشوند (سهم از تولید گندم جهان در برابر سهم از صادرات در برابر صادرات به عنوان بخشی از تولید) و بدین ترتیب به شکل اشتباهی ارائه میشوند.
افراد کاملا حرفهای همیشه دچار اشتباه میشوند
مساله فقط نوشتههای روزنامهها نیست. من در زندگی حرفهای خود هم همیشه با اعداد گمراهکننده و اشتباه روبرو میشوم. اعداد خیلی مهم! چند روز پیش، یکی از مدیران پیامی مملو از نگرانی ارسال کرد و به ما اعلام کرد که هزینههای سرور برای یکی از سیستمهای کاری ما طی یک ماه 100 هزار دلار افزایش یافته است. بنابراین ما باید به سرعت به دنبال چاره میرفتیم.
این جمله «هر عددی اشتباه است» به سرعت به ذهن من رسید. امکان ندارد این عدد درست باشد. بعد از کمی تحقیق مشخص شد که حق با من بود. من فهمیدم که:
- هزینهها در واقع رشد 63 هزار دلاری داشته است. عدد 100 هزار دلار نتیجه خوانش اشتباه نمودار بود (من هم خیلی وقتها مرتکب این اشتباه میشوم).
- این یک رشد ماه به ماه 28 درصدی بود. این رقم متعلق به ماه مارس است و تعداد روزهای ماه مارس 11 درصد بیشتر از روزهای ماه فوریه است. بدین ترتیب نیمی از افزایش هزینهها همین جا معنیدار میشود.
- استفاده مشتری از سیستم موردنظر 9 درصد افزایش داشته و ما انتظار داریم هزینه بر اساس افزایش استفاده، بالا برود.
- با در نظر گرفتن همه اینها، افزایش غیرمنتظره فقط 16 هزار دلار بود نه 100 هزار دلار.
باید به این نکته هم اشاره کنم که آن مدیر آدم خیلی خوبی است. ما واقعا خوششانس هستیم که او را در تیم کاریمان داریم. منظور من از این داستان این نیست که او مرتکب یک اشتباه بزرگ شده است. این چیزها برای همه پیش میآید. منظور من این است که اعداد ممکن است هر اشتباه کوچکی را چند برابر کنند.
سایر نمونههای واقعی:
- محاسبات کاملا اشتباه بود چون بر اساس کاربران فعال بود اما یک نفر حالت «یک روز فعال» را محاسبه کرده بود (کاربرانی که روز گذشته از سیستم استفاده کردند) و دیگری، حالت «30 روز فعال» را (کاربرانی که در 30 روز اخیر از سیستم استفاده کردهاند). هر دوی آنها هم از عبارت «کاربران فعال» استفاده کردند.
- من بارها دیدهام که افراد در محاسبه اندازه دادههای موردنیاز دچار اشتباهات بزرگ میشوند. چون آنها فایلهای فشردهشده و فشردهنشده را با هم ترکیب میکنند.
- و البته مورد محبوب من: وقتی در شرکت گوگل کار میکردم، من دو مهندس بااستعداد را دیدم که یک طراحی مهندسی را رد کردند چون خیال میکردند هارد دیسک موردنیاز، بیش از توان گوگل است. حتی در سال 2008 هم این فضای هارد دیسک خیلی زیاد بود. من از آنها خواستم دوباره با هم حساب کنیم. مشخص شد که آنها «فعالیت در ثانیه» را با «فعالیت در روز» اشتباه گرفتهاند و بدین ترتیب تحلیلشان 86400 واحد اشتباه بود!
- نمی توانم این مورد را ننویسم: همیشه یاد اتفاق عجیبی میافتم که برای ناسا افتاد. آنها یک کاوشگر مریخ را از دست دادند چون یک نفر واحدهای اندازهگیری را با هم اشتباه گرفته بود! این یک ماجرای واقعی است!
ما اعداد را میانبری میدانیم برای فهمیدن
اعداد ابزارهای قدرتمندی هستند. ما با چند رقم ساده میتوانیم تمام تاریخچه پاندمی کرونا را خلاصه کنیم. ولی این یک شمشیر دولبه است. یک عدد میتواند یک سیستم پیچیده را در خود جای دهد ولی این به آن معنا نیست که ما با این عدد، کل سیستم را فهمیدهایم. و وقتی شما در درک و فهم مساله مشکل دارید، اصلا متوجه نمیشوید که چه زمانی اشتباهات رخ میدهند.
شما برای درک و فهم هر چیزی باید تلاش کنید. باید مساله را از چند زاویه بررسی کنید و نمونهها را ببینید و بعد وارد جزئیات شوید. تنها در این صورت است که میتوانید سیستم را با استفاده از چند عدد خلاصه کنید. یک عدد، میانبری به درک و فهم مسائل نیست. اعداد، ابزاری هستند برای کسانی که مساله مورد نظر را قبلا فهمیدهاند.
در ابتدای مطلب چند اشتباه را مثال زدم. من متوجه آن اشتباهات شدم چون مدل ذهنی خوبی از پاندمی کرونا دارم و مطالب زیادی در این باره خواندهام. در مورد مساله صادرات گندم هم اطلاع داشتم چون توییتهایی در این زمینه خوانده بودم و نویسنده توییتها، کسی است که بازارهای گندم را به خوبی میشناسد و اشتباه مربوطه را به خوبی توضیح داده بود. اشتباه مربوط به محل کار را هم تشخیص دادم چون کارشناس سیستمهای مربوطه هستم. چه کسی میداند چه اشتباهات دیگری وجود دارد که من از آنها بیخبرم.
نحوه برخورد مناسب با اعداد
قانون اول این است که به صورت پیشفرض، به هیچ عددی اعتماد نکنید. یک فیلتر در ذهنتان داشته باشید و طوری وانمود کنید که انگار اعداد اصلا وجود ندارند:
این تیتر خبری به صورت آشکار به ما میگوید که موارد ابتلا به کرونا همچنان در حال افزایش است و این تنها بخشی است که باید به صورت بالقوه قابل اعتماد در نظر بگیریم. وقتی مجبور میشوید به اطلاعات عددی اعتماد کنید، باید روی آن کار کنید. به اندازه کافی در مورد آن مطلب مطالعه کنید تا سیستم را درک کنید. بدین ترتیب تحلیل شما سطحی نخواهد بود. بعد واقعیتها را بررسی کنید. آیا اعداد معنادار هستند؟ آیا آنها در چارچوب درک و فهم شما از جهان جای میگیرند؟
مساله را از چند زاویه بررسی کنید. حتما به این اطمینان برسید که در بررسیهای مختلف، هر بار به جوابهای نامتناقض میرسید.
کاملا باید مطمئن باشید که میدانید هر عدد قرار است نماینده و نشاندهنده چه چیزی باشد: واحدها، وسعت (موارد کلی یا موارد شناخته شده از مبتلایان کرونا؟ تولیدات کلی یا صادرات گندم؟) و سایر ساختارها. همه چیز را خوب بررسی کنید.
همیشه در مورد بعضی کلمات و عبارات هوشیار باشید. مثلا «موارد شناختهشده» یا «تعداد فوتیها احتمالا با کشف اجساد دیگر، افزایش خواهد یافت.»؛ چنین کلمات و عباراتی میتوانند تا حد زیادی کتمان حقیقت را در خود پنهان کنند.
کلا بهتر است اعدادی را با هم مقایسه کنید که با استفاده از متدهای ثابت بر اساس یک بنیان استوار پردازش شده و به دست آمدهاند. به عنوان مثال اگر شما در روزنامه خواندید تولیدات گندم در سال 2021، سه درصد بیشتر از تولیدات گندم در سال 2020 بوده، احتمالا این اعداد درست هستند. البته شما نمیدانید! شاید یک کشور از سیستم گزارشی خارج شده یا اشتباهی در ارقام مربوط به یک سال رخ داده است. ولی به هر حال احتمال درست بودن این اعداد بیشتر است.
از سوی دیگر، مقایسه کردن اعداد از منابع مختلف (به عنوان مثال، تولیدات گندم از یک منبع و صادرات گندم از یک منبع دیگر) مشکلساز است.
مهمترین نکته این است که هرگز نباید به یک عدد اجازه دهید شما را فریب دهد و به این باور غلط برسید که چیزی را به خوبی درک کردهاید. برای درک و فهم یک مساله هیچ میانبری در کار نیست!
این مطلب ترجمهای بود از یادداشتی با همین عنوان، به قلم استیو منتشره در سایت climateer
1 دیدگاه
عالی و درست