Skip to content Skip to sidebar Skip to footer

هوش مصنوعی و سرطان؛ از امید به تشخیص دقیق تا خطر تبعیض نظام‌مند

به گزارش خبرنگار مهر؛ پیشرفت‌های سریع در کاربردهای پزشکی هوش مصنوعی، این امید را تقویت کرده است که فرایند تشخیص سرطان دقیق‌تر، سریع‌تر و همگن‌تر شود. ایده اصلی این است که مدل‌های یادگیری عمیق با مشاهده الگوهای میکروسکوپی در تصاویر پاتولوژی، بتوانند طبقه‌بندی‌های پیچیده را انجام دهند و در کنار متخصصان، خطای انسانی را کاهش دهند.

با این حال، پژوهش‌های علمی نشان می‌دهند که همین توانمندی فوق‌العاده در استخراج سیگنال‌های پنهان، می‌تواند به یک مسیر انحرافی تبدیل شود. مسیری که در آن مدل، داده‌های جمعیت شناختی مانند سن، جنسیت و نژاد را از خود تصویر استخراج می‌کند و سپس همان متغیرها را به صورت ناخواسته به ستون فقرات تحلیل بافت تبدیل می‌کند. نتیجه، شکاف در عملکرد و بازتولید تبعیض در یکی از حساس‌ترین نقاط زنجیره درمان است.

یافته اصلی مطالعات و چرایی غیرمنتظره بودن آن‌ها

مطالعه تازه‌ای که در نشریه «Cell Reports Medicine» منتشر شده، چهار سامانه پیشرو تشخیص مبتنی بر هوش مصنوعی در تشخیص پزشکی را از منظر تفاوت عملکرد در گروه‌های جمعیتی بررسی می‌کند. پژوهشگران دانشگاه هاروارد نزدیک به ۲۹ هزار تصویر پزشکی مربوط به سرطان از حدود ۱۴ هزار و ۴۰۰ بیمار را تحلیل کرده‌اند و گزارش می‌دهند که مدل‌های یادگیری عمیق در ۲۹.۳ درصد از وظایف تشخیصی خود، سوگیری معنادار نشان داده‌اند. این رقم از نظر سیاست‌گذاری سلامت دیجیتال، صرفاً یک خطای آماری نیست و به این معنا است که در تقریباً یک سوم موقعیت‌های ارزیابی، احتمال دارد عملکرد مدل به‌گونه‌ای با ویژگی‌های جمعیتی گره بخورد که برای بخشی از بیماران، کیفیت تشخیص یا طبقه‌بندی سلولی کاهش یابد.

وجه شوک‌آور یافته‌ها در این است که مدل‌ها ظاهراً توانسته‌اند نشانه‌های مرتبط با نژاد را از تصاویر مربوط به بافت‌شناسی استخراج کنند. در روایت پژوهش، خواندن متغیرهای جمعیت شناختی از روی تصاویر پزشکی، برای پاتولوژیست انسانی در حد یک مأموریت ناممکن تلقی می‌شود؛ اما مدل‌های یادگیری عمیق، به دلیل توانایی در تشخیص سیگنال‌های زیستی بسیار ریز و غیرشهودی، از مسیری به این اطلاعات می‌رسند. همین قابلیت که در نگاه نخست مزیت فنی به نظر می‌رسد، در عمل می‌تواند به یک آسیب راهبردی در عدالت تشخیصی تبدیل شود.

مکانیسم سوگیری چگونه شکل می‌گیرد

محققان توضیح می‌دهند که خطاهای ناشی از سوگیری زمانی پدید می‌آید که مدل، به‌جای تمرکز صرف بر ویژگی‌های بافتی مرتبط با نوع سرطان، به الگوهایی متکی شود که با گروه‌های جمعیتی همبستگی دارند. به زبان دقیق‌تر، مدل ابتدا به صورت ضمنی یا صریح، سن یا جنسیت یا نژاد را حدس می‌زند و سپس آن متغیر را به یک میانبر برای تصمیم‌گیری تبدیل می‌کند. این میانبر می‌تواند از جنس تفاوت در توزیع سلولی، نسبت عناصر حمایتی یا الگوهای غیرمستقیم دیگری باشد که در داده‌های آموزشی وجود داشته است.

برای نمونه، گزارش اشاره می‌کند که مدل‌ها توانسته‌اند نمونه‌های متعلق به بیماران سیاه پوست را تشخیص دهند، زیرا در این تصاویر شمار بیشتری از سلول‌های غیرطبیعی و نئوپلاستیک و شمار کمتری از عناصر حمایتی نسبت به تصاویر بیماران سفیدپوست مشاهده شده است. در چنین شرایطی، مسئله اصلی این نیست که تفاوت زیستی میان دو گروه وجود دارد یا ندارد. مسئله اصلی این است که مدل، از تفاوت‌هایی که ممکن است محصول عوامل متعددی مانند تفاوت دسترسی به مراقبت، زمان مراجعه، کیفیت نمونه‌برداری یا حتی الگوهای جمعیتی در مراکز درمانی باشد، یک شاخص هویتی می‌سازد و سپس آن شاخص هویتی را وارد تصمیم تشخیصی می‌کند.

چرا شکاف داده به تبعیض عملکردی تبدیل می‌شود؟

در ادامه، گزارش علمی مذکور یک چرخه کلاسیک را ترسیم می‌کند. بر همین اساس، اگر داده‌های آموزشی عمدتاً از گروه غالب، مثلاً بیماران سفیدپوست، تأمین شده باشد، مدل برای گروه‌های دارای نمایندگی کمتر، حتی در صورت وجود داده کلی از سرطان، با مشکل مواجه می‌شود. مثال مشخص این که مدل‌ها در تمایز زیررده‌های سرطان ریه در بیماران سیاه پوست دچار افت عملکرد بوده‌اند. همچنین نکته مهم دیگر این است که این افت لزوماً به علت کمبود داده درباره سرطان ریه نیست، بلکه از کمبود داده سرطان ریه از همان گروه جمعیتی مربوط می‌شود. در نتیجه، مدل در لحظه تصمیم، به‌جای اتکا به شواهد کافی از وضعیت بیمار، به الگوهای غالب در داده‌های غالب پناه می‌برد و این امر، همان بازتولید ساختاری تبعیض است.

از منظر حکمرانی داده، این وضعیت یک هشدار روشن برای سیاست‌گذاران دارد. کیفیت و عدالت در عملکرد یک سامانه پزشکی مبتنی بر هوش مصنوعی، صرفاً با افزایش حجم داده تضمین نمی‌شود. نمایندگی داده و توزیع متوازن آن در زیرگروه‌های جمعیتی و بالینی، یک شرط لازم است. اگر این شرط رعایت نشود، مدل حتی با دقت کلی بالا، در سطح زیرگروه‌ها خطاهای نظام‌مند تولید می‌کند و این خطاها می‌توانند به پیامدهای درمانی متفاوت برای گروه‌های مختلف منجر شوند.

توهم عینیت در تصویربرداری پزشکی و چالش واقعی

یکی از گزاره‌های کلیدی متخصصان و پژوهشگران این است که انتظار می‌رود ارزیابی آسیب شناسی عینی باشد و برای تشخیص از روی تصویر، دانستن متغیرهای جمعیت شناختی ضرورت ندارد؛ اما یافته‌های مطالعه نشان می‌دهد که عینیت در سطح انسان، تضمین عینیت در سطح مدل نیست. مدل به دنبال بیشینه‌سازی عملکرد در چارچوب داده آموزشی است و اگر در داده آموزشی، میانبرهای جمعیتی وجود داشته باشد، مدل آن‌ها را کشف می‌کند و به کار می‌گیرد.

بنابراین، حتی اگر پزشک انسانی به صورت هنجاری تلاش کند متغیرهای هویتی را کنار بگذارد، مدل می‌تواند همان متغیرها را از درون تصویر پزشکی استخراج کند و به صورت پنهان وارد فرایند تصمیم‌گیری نماید. این وضعیت، یک تغییر پارادایمی در تصور ما از ریسک‌های هوش مصنوعی پزشکی ایجاد می‌کند. مسئله تنها سوگیری ناشی از ورودی صریح اطلاعات جمعیت شناختی نیست. بلکه تصویر بالینی ممکن است حامل شاخص‌های غیرمستقیم باشد و مدل می‌تواند آن‌ها را به متغیرهای حساس تبدیل کند.

راه‌حل پیشنهادی و معنای آن برای سیاست‌گذاران

پژوهشگران در کنار نقد، یک مسیر اصلاحی برای پدیده سوگیری نژادی هوش مصنوعی معرفی کرده‌اند. آن‌ها یک چارچوب آموزشی جدید با نام «FAIR Path» توسعه داده‌اند و ادعا می‌کنند که با اعمال این چارچوب پیش از تحلیل، ۸۸.۵ درصد از نابرابری‌های عملکردی مهار شده است. با این حال، باقی ماندن ۱۱.۵ درصد از شکاف عملکردی، نشان می‌دهد که مسئله به طور کامل حل نشده و همچنان ظرفیت خطای نامتوازن در این زمینه وجود دارد.

در سطح سیاست‌گذاری، اهمیت اصلی این بخش آن است که کنترل سوگیری صرفاً یک توصیه اخلاقی نیست و باید به یک الزام فنی و مقرراتی تبدیل شود. اگر چارچوب‌هایی مانند «FAIR Path» اختیاری و داوطلبانه باقی بمانند، بازار و فشار زمان عرضه محصول می‌تواند باعث شود برخی سامانه‌ها بدون ارزیابی کافی عدالت و ایمنی توزیعی وارد گردش کار بالینی شوند. در چنین وضعیتی، نقش تنظیم‌گر حوزه پزشکی، نهادهای ارزیاب فناوری سلامت و کمیته‌های اخلاق پژوهش، از حالت توصیه‌ای خارج می‌شود و به یک مسئولیت حکمرانی بدل می‌گردد.

جمع‌بندی

در نهایت، می‌توان نتیجه گرفت که هرچه مدل‌های پزشکی قدرتمندتر می‌شوند، توانایی آن‌ها برای استخراج سیگنال‌های پنهان نیز افزایش می‌یابد و همین توانایی می‌تواند ابعاد جدیدی از سوگیری را برجسته سازد؛ بنابراین، تمرکز صرف بر دقت کلی مدل، معیار کافی برای پذیرش نیست. ارزیابی باید به صورت نظام‌مند در سطح زیرگروه‌های جمعیتی صورت گیرد و سازوکارهای کاهش سوگیری باید بخشی از استاندارد توسعه و استقرار باشند.

اگر هوش مصنوعی قرار است به عنوان زیرساخت تشخیص و درمان آینده پذیرفته شود، باید هم زمان سه لایه کیفیت داده و نمایندگی عادلانه، سازوکارهای فنی کنترل سوگیری در مرحله آموزش و اعتبارسنجی و الزامات نظارتی و پاسخ‌گویی مانع ورود محصولات پرریسک به چرخه استفاده، به صورت همگن تقویت شود. کارشناسان معتقدند در غیر این صورت، ابزارهایی که با وعده افزایش عدالت و دقت وارد پزشکی شده‌اند، می‌توانند به شکل نامحسوس، نابرابری‌های موجود را تثبیت و حتی تشدید کنند.

Leave a comment

0.0/5