هرگز به یک عدد اعتماد نکنید

اعداد میانبرهایی هستند برای درک کردن و باید گفت، هیچ میانبری وجود ندارد! موضوع امروز من این است: همه اعداد اشتباه هستند.

جدی می‌گویم! هروقت با یک عدد مواجه شدید (در یک توییت، تیتر روزنامه، ایمیل اداری، گزارش فنی، کتاب درسی و …) این گونه فرض کنید که اشتباه است. آن را اطلاعات غلط دشمن و خرابکاری عمدی در درک شما از جهان در نظر بگیرید و بی‌توجه از کنارش رد شوید.

حتما به این فکر می‌کنید که من مبالغه می‌کنم تا شما را تحت تاثیر قرار دهم. نه این طور نیست! واقعا جدی می‌گویم. البته تمام اعداد غلط نیستند اما این اتفاق خیلی خیلی بیشتر از شهود و درک مستقیم شما می‌افتد. بنابراین من می‌گویم بهتر است همه اعداد را به صورت پیش‌فرض، غلط در نظر بگیریم.

من آرام آرام و طی سال‌ها به اینجا رسیدم. ولی حالا که به صورت جدی به این مساله توجه می‌کنم، می‌بینم که همه جا پر از اشتباه است.

پیدا کردن مثال خیلی ساده است

روزی که من نشستم تا این مطلب را بنویسم، برای پیدا کردن نمونه، تیترهای روزنامه نیویورک تایمز را مرور کردم. لازم نبود خیلی جستجو کنم:

«نیم میلیون مورد شناخته شده ابتلا به ویروس کرونا»

چی؟ در دوران پیک اومیکرون، فقط در آمریکا آمار هر روز بیشتر از این رقم بود. مشخص است که منظور آن‌ها نیم میلیارد مورد بوده نه نیم میلیون.

به این مساله فکر کنید. نیویورک تایمز در یک بخش برجسته یعنی در تیتر خبر، از عددی استفاده کرده هزار برابر اشتباه است. یک هزار! کاملا، تقریبا و به صورت غیرمنطقی غلط است.

چطور ممکن است چنین اتفاقی بیفتد؟ آیا بخش پژوهشی آن‌ها از یک متد ناقص استفاده می‌کند؟ آیا آن‌ها قربانی یک کمپین اطلاعات غلط شده‌اند؟ آیا کسی به صورت تصادفی این تیتر خبری را در ابتدای سال 2020 نوشته است؟ آیا آن‌ها هک شده‌اند؟

طبیعتا نه. آشکار است که این فقط یک اشتباه تایپی است. مساله بزرگی نیست. ولی مساله بزرگ این است که اشتباهی هزار برابری را یک مساله بزرگ ندانیم. بدین ترتیب این ایده که «اعداد به معنی همه چیز هستند» تضعیف می‌شود. در ضمن ما را با این حقیقت مواجه می‌کند که یک عدد غلط دقیقا شبیه به یک عدد صحیح است. در این مورد، عدد به اندازه‌ای غلط است که با بررسی اتفاقی هم مشکل آن مشخص می‌شود. ولی بیشتر اشتباهات، آشکار نیستند. و حتی این اشتباه آشکار هم تا صفحه اول روزنامه رسیده و کسی متوجهش نشده است.

تصور کنید شما در صف یک بوفه رستوران هستید و می‌بینید که از دست یکی از کارکنان، یک تکه گوشت روی زمین می‌افتد. آن‌ها گوشت را از روی زمین برداشته، آن را تمیز کرده و در بشقاب سرو غذا می‌اندازند. مشخص است که شما آن را نخواهید خورد. آیا شما با دقت یک تکه گوشت متفاوت را انتخاب می‌کنید؟ یا این که به خاطر آگاه شدن از سطح استاندارد بهداشت در آن مکان، رستوران را برای همیشه ترک می‌کنید؟ شما آن غذا را در دهان نمی‌گذارید. شما همین حالا دیدید که یک منبع خبری جریان اصلی، معادل استعاری سرو کردن گوشتی که روی زمین افتاده را انجام داده است. اجازه ندهید چنین فکت‌هایی وارد ذهن شما شوند.

حتی وقتی یک عدد درست است،‌ در واقع غلط است

اشتباه نوشتن «میلیون» به جای «میلیارد» بدترین بخش آمارهای مربوط به شیوع کرونا نیست. این اشتباه بزرگی است اما این یک‌باره است. مشکل عمیق‌تر عبارت «به احتمال زیاد این یک کم‌شمارش (پایین‌تر از حد واقعی) است». این یک کم‌شمارش احتمالی نیست، یک بخش کوچک از ارزش واقعی است. آماری که تایمز می‌دهد (آماری که همه ارائه می‌کنند) بر اساس موارد گزارش‌شده رسمی است. اگر کسی به جای تست PCR در آزمایشگاه، از تست در منزل استفاده کند یا اگر شخص موردنظر اصلا تست کرونا ندهد یا اگر افراد مبتلا در بخشی از جهان زندگی کنند که تست آزمایشگاهی در دسترس نباشد، یا اگر حالشان مساعد باشد و اصلا متوجه نشوند که بیمار شده‌اند، هیچ‌کدام از این موارد در آمار ثبت نمی‌شود.

من نتوانستم یک تخمین به‌روز از مبتلایان در سراسر جهان پیدا کنم اما یک مقاله متعلق به اکتبر 2020 پیدا کردم که سازمان بهداشت جهانی یک تخمین حدود 760 میلیونی داشته است. در آن زمان، تعداد موارد گزارش‌شده تنها 35 میلیون بود. از طرف دیگر، مرکز پیشگیری و کنترل بیماری آمریکا تخمین زده که در سپتامبر سال 2021 (یعنی قبل از اومیکرون) 146 میلیون آمریکایی مبتلا به کرونا شده‌اند. حالا که من این یادداشت را می‌نویسم، ویروس کرونا در کل کشور پخش شده است. به نظر من این مساله در بخش بزرگی از جهان به همین ترتیب بوده است و چین یک استثناء بزرگ است (که البته شاید تغییر کند). «نیم میلیارد» کاملا دور از آمار واقعی مبتلایان است.

حداقل تایمز این مورد را اشاره کرده که این آمار موارد شناخته شده از مبتلایان است. خیلی وقت‌ها اصلا به این تفاوت‌ها اشاره نمی‌شود. ولی هر کسی که این خبر را می خواند از کلمه شناخته‌شده عبور می‌کند. آن‌ها به صورت ذهنی نیم میلیارد مبتلا را با جمعیت کل جهان که 8 میلیارد است مقایسه می‌کنند و به این نتیجه می‌رسند که تقریبا یک نفر از هر 16 نفر در جهان مبتلا به کرونا هستند. در حالی که واقعیت این است که 2 نفر از هر 16 نفر در جهان مبتلا شده‌اند.

بنابراین گفتن این که 500 میلیون نفر در سراسر جهان به کرونا مبتلا شده‌اند یک کم‌شمارش است و مثل این است که بگوییم «بیشتر انسان‌ها حداقل 7 سال و احتمالا بیشتر زندگی می‌کنند». از نظر فنی این گزاره درست است ولی در عمل ذهن شما را مشغول عددی می‌کند که معنای متفاوتی دارد؛ چیزی متفاوت با آنچه شما فکر می‌کنید اساسا یک دروغ باشد.

اشتباهات، اشتباهات در همه جا

همان روز، در همان مرور تیترهای خبری، روزنامه تایمز این زیبایی را هم تقدیم نگاه ما می‌کند:

متن خبر تقریبا چیز دیگری می‌گوید: «روسیه و اوکراین روی هم رفته بیش از یک چهارم گندم دنیا را صادر می‌کنند». در واقع طبق بهترین داده‌هایی که در این زمینه وجود دارد، روسیه و اوکراین روی هم رفته حدود 6 درصد از تولید گندم جهان را صادر می‌کنند (کمتر از یک چهارم عددی که تایمز گزارش کرده است). به نظر می‌رسد منظور تایمز این بوده که صادرات گندم از این دو کشور نزدیک به 30 درصد صادرات گندم جهان است. بیشتر گندم در همان کشوری که تولید شده مصرف می‌شود. بنابراین تولید گندم با صادرات گندم خیلی متفاوت است. به طور تصادفی، هیچ‌کدام از این آمار و ارقام، سهم روسیه و اوکراین در تولید گندم را به ما نمی‌گویند: حدود 15 درصد.

مطمئنا حمله به اوکراین مشکلات جدی برای تامین گندم کشورهایی خاص ایجاد می‌کند. ولی این ایده که جهان با 25 درصد گندم کمتر باید نیازهایش را تامین کند درست نیست. در یک توییت هم این ادعا مطرح شده که اساسا هیچ کمبود اساسی در تامین گندم جهان وجود نخواهد داشت. نمی‌دانم این تحلیل درست است یا نه و برخی از بخش‌های آن را نمی‌فهمم ولی می‌دانم که زیاد دست به دست شده و تکذیبیه‌ای هم برای آن ندیده‌ام. نویسنده به این نکته اشاره کرده که بازارهای گندم به خوبی مشکل موردنظر را دیده‌اند و قبل از حمله به اوکراین، تدابیری برای آن اندیشیده‌اند و در نتیجه خیلی از تولیدکننده‌های بزرگ (مثل هند و آمریکا) در این فصل بیش از مقدار معمول، کشت گندم داشته‌اند. البته این به معنای عدم بروز مشکل در تامین گندم نیست. بیشتر مساله این خواهد بود که چطور گندم به کشورهایی که این محصول را نیاز دارند منتقل شود (نه یک کمبود جهانی واقعی).

در نتیجه باز هم دیدیم که اعداد غالبا به صورت اشتباه تفسیر می‌شوند (سهم از تولید گندم جهان در برابر سهم از صادرات در برابر صادرات به عنوان بخشی از تولید) و بدین ترتیب به شکل اشتباهی ارائه می‌شوند.

افراد کاملا حرفه‌ای همیشه دچار اشتباه می‌شوند

مساله فقط نوشته‌های روزنامه‌ها نیست. من در زندگی حرفه‌ای خود هم همیشه با اعداد گمراه‌کننده و اشتباه روبرو می‌شوم. اعداد خیلی مهم! چند روز پیش، یکی از مدیران پیامی مملو از نگرانی ارسال کرد و به ما اعلام کرد که هزینه‌های سرور برای یکی از سیستم‌های کاری ما طی یک ماه 100 هزار دلار افزایش یافته است. بنابراین ما باید به سرعت به دنبال چاره می‌رفتیم.

این جمله «هر عددی اشتباه است» به سرعت به ذهن من رسید. امکان ندارد این عدد درست باشد. بعد از کمی تحقیق مشخص شد که حق با من بود. من فهمیدم که:

  • هزینه‌ها در واقع رشد 63 هزار دلاری داشته است. عدد 100 هزار دلار نتیجه خوانش اشتباه نمودار بود (من هم خیلی وقت‌ها مرتکب این اشتباه می‌شوم).
  • این یک رشد ماه به ماه 28 درصدی بود. این رقم متعلق به ماه مارس است و تعداد روزهای ماه مارس 11 درصد بیشتر از روزهای ماه فوریه است. بدین ترتیب نیمی از افزایش هزینه‌ها همین جا معنی‌دار می‌شود.
  • استفاده مشتری از سیستم موردنظر 9 درصد افزایش داشته و ما انتظار داریم هزینه بر اساس افزایش استفاده، بالا برود.
  • با در نظر گرفتن همه این‌ها، افزایش غیرمنتظره فقط 16 هزار دلار بود نه 100 هزار دلار.

باید به این نکته هم اشاره کنم که آن مدیر آدم خیلی خوبی است. ما واقعا خوش‌شانس هستیم که او را در تیم کاری‌مان داریم. منظور من از این داستان این نیست که او مرتکب یک اشتباه بزرگ شده است. این چیزها برای همه پیش می‌آید. منظور من این است که اعداد ممکن است هر اشتباه کوچکی را چند برابر کنند.

سایر نمونه‌های واقعی:

  • محاسبات کاملا اشتباه بود چون بر اساس کاربران فعال بود اما یک نفر حالت «یک روز فعال» را محاسبه کرده بود (کاربرانی که روز گذشته از سیستم استفاده کردند) و دیگری، حالت «30 روز فعال» را (کاربرانی که در 30 روز اخیر از سیستم استفاده کرده‌اند). هر دوی آن‌ها هم از عبارت «کاربران فعال» استفاده کردند.
  • من بارها دیده‌ام که افراد در محاسبه اندازه داده‌های موردنیاز دچار اشتباهات بزرگ می‌شوند. چون آن‌ها فایل‌های فشرده‌شده و فشرده‌نشده را با هم ترکیب می‌کنند.
  • و البته مورد محبوب من: وقتی در شرکت گوگل کار می‌کردم، من دو مهندس بااستعداد را دیدم که یک طراحی مهندسی را رد کردند چون خیال می‌کردند هارد دیسک موردنیاز، بیش از توان گوگل است. حتی در سال 2008 هم این فضای هارد دیسک خیلی زیاد بود. من از آن‌ها خواستم دوباره با هم حساب کنیم. مشخص شد که آن‌ها «فعالیت در ثانیه» را با «فعالیت در روز» اشتباه گرفته‌اند و بدین ترتیب تحلیل‌شان 86400 واحد اشتباه بود!
  • نمی توانم این مورد را ننویسم: همیشه یاد اتفاق عجیبی می‌افتم که برای ناسا افتاد. آن‌ها یک کاوشگر مریخ را از دست دادند چون یک نفر واحدهای اندازه‌گیری را با هم اشتباه گرفته بود! این یک ماجرای واقعی است!

ما اعداد را میانبری می‌دانیم برای فهمیدن

اعداد ابزارهای قدرتمندی هستند. ما با چند رقم ساده می‌توانیم تمام تاریخچه پاندمی کرونا را خلاصه کنیم. ولی این یک شمشیر دولبه است. یک عدد می‌تواند یک سیستم پیچیده را در خود جای دهد ولی این به آن معنا نیست که ما با این عدد، کل سیستم را فهمیده‌ایم. و وقتی شما در درک و فهم مساله مشکل دارید، اصلا متوجه نمی‌شوید که چه زمانی اشتباهات رخ می‌دهند.

شما برای درک و فهم هر چیزی باید تلاش کنید. باید مساله را از چند زاویه بررسی کنید و نمونه‌ها را ببینید و بعد وارد جزئیات شوید. تنها در این صورت است که می‌توانید سیستم را با استفاده از چند عدد خلاصه کنید. یک عدد، میانبری به درک و فهم مسائل نیست. اعداد، ابزاری هستند برای کسانی که مساله مورد نظر را قبلا فهمیده‌اند.

در ابتدای مطلب چند اشتباه را مثال زدم. من متوجه آن اشتباهات شدم چون مدل ذهنی خوبی از پاندمی کرونا دارم و مطالب زیادی در این باره خوانده‌ام. در مورد مساله صادرات گندم هم اطلاع داشتم چون توییت‌هایی در این زمینه خوانده بودم و نویسنده توییت‌ها، کسی است که بازارهای گندم را به خوبی می‌شناسد و اشتباه مربوطه را به خوبی توضیح داده بود. اشتباه مربوط به محل کار را هم تشخیص دادم چون کارشناس سیستم‌های مربوطه هستم. چه کسی می‌داند چه اشتباهات دیگری وجود دارد که من از آن‌ها بی‌خبرم.

نحوه برخورد مناسب با اعداد

قانون اول این است که به صورت پیش‌فرض، به هیچ عددی اعتماد نکنید. یک فیلتر در ذهن‌تان داشته باشید و طوری وانمود کنید که انگار اعداد اصلا وجود ندارند:

این تیتر خبری به صورت آشکار به ما می‌گوید که موارد ابتلا به کرونا همچنان در حال افزایش است و این تنها بخشی است که باید به صورت بالقوه قابل اعتماد در نظر بگیریم. وقتی مجبور می‌شوید به اطلاعات عددی اعتماد کنید، باید روی آن کار کنید. به اندازه کافی در مورد آن مطلب مطالعه کنید تا سیستم را درک کنید. بدین ترتیب تحلیل شما سطحی نخواهد بود. بعد واقعیت‌ها را بررسی کنید. آیا اعداد معنادار هستند؟ آیا آن‌ها در چارچوب درک و فهم شما از جهان جای می‌گیرند؟

مساله را از چند زاویه بررسی کنید. حتما به این اطمینان برسید که در بررسی‌های مختلف، هر بار به جواب‌های نامتناقض می‌رسید.

کاملا باید مطمئن باشید که می‌دانید هر عدد قرار است نماینده و نشان‌دهنده چه چیزی باشد: واحدها، وسعت (موارد کلی یا موارد شناخته شده از مبتلایان کرونا؟ تولیدات کلی یا صادرات گندم؟) و سایر ساختارها. همه چیز را خوب بررسی کنید.

همیشه در مورد بعضی کلمات و عبارات هوشیار باشید. مثلا «موارد شناخته‌شده» یا «تعداد فوتی‌ها احتمالا با کشف اجساد دیگر، افزایش خواهد یافت.»؛ چنین کلمات و عباراتی می‌توانند تا حد زیادی کتمان حقیقت را در خود پنهان کنند.

کلا بهتر است اعدادی را با هم مقایسه کنید که با استفاده از متدهای ثابت بر اساس یک بنیان استوار پردازش شده و به دست آمده‌اند. به عنوان مثال اگر شما در روزنامه خواندید تولیدات گندم در سال 2021، سه درصد بیشتر از تولیدات گندم در سال 2020 بوده، احتمالا این اعداد درست هستند. البته شما نمی‌دانید! شاید یک کشور از سیستم گزارشی خارج شده یا اشتباهی در ارقام مربوط به یک سال رخ داده است. ولی به هر حال احتمال درست بودن این اعداد بیشتر است.

از سوی دیگر، مقایسه کردن اعداد از منابع مختلف (به عنوان مثال، تولیدات گندم از یک منبع و صادرات گندم از یک منبع دیگر) مشکل‌ساز است.

مهم‌ترین نکته این است که هرگز نباید به یک عدد اجازه دهید شما را فریب دهد و به این باور غلط برسید که چیزی را به خوبی درک کرده‌اید. برای درک و فهم یک مساله هیچ میانبری در کار نیست!

این مطلب ترجمه‌ای بود از یادداشتی با همین عنوان، به قلم استیو منتشره در سایت climateer

دیدگاهتان را بنویسید