وقتی از «GPT-۳» که یک سیستم زبانی بسیار قوی و محبوب مبتنی بر هوش مصنوعی است، پرسیده شد که آیا برای باد زدن ذغالسنگ به منظور تقویت کردن آتش آن، بیشتر از یک نقشه کاغذی استفاده میکند یا یک سنگ را به کار میبرد، سنگ را ترجیح داد.
به گزارش فست کمپانی، این هوش مصنوعی در پاسخ به این پرسش که برای صاف کردن دامن چروک خود، بهتر است یک فلاسک گرم را به کار بگیریم یا از یک سنجاق سر استفاده کنیم، سنجاق سر را پیشنهاد کرد.
همچنین، از GPT-۳ پرسیده شد که اگر برای کار کردن در یک فستفود نیاز باشد موهای خود را بپوشانید، کدام یک بهتر عمل میکند؛ یک کاغذ بستهبندی ساندویچ یا یک نان همبرگر و پاسخ GPT-۳، نان همبرگر بود.
چرا GPT-۳ چنین انتخابهایی را انجام میدهد، در حالی که بیشتر انسانها گزینه دیگری را انتخاب میکنند؟ دلیل انتخابهای عجیب این است که GPT-۳، زبان را به روشی که انسانها درک میکنند، نمیفهمد.
واژههای بدون معنا
یک پژوهشگر حوزه روانشناسی، بیش از ۲۰ سال پیش مجموعهای از سناریوها را برای آزمایش درک یک مدل رایانهای از زبان ارائه کرد. آن مدل به طور دقیق بین استفاده از سنگ و نقشه تمایز قائل نشد؛ در حالی که انسانها این کار را به راحتی انجام دادند.
یک دانشجوی مقطع دکتری علوم شناختی اخیرا از همان سناریوها برای آزمایش کردن GPT-۳ استفاده کرده است. اگرچه GPT-۳ بهتر از مدل قدیمیتر عمل کرد اما عملکرد آن به طور قابل توجهی بدتر از انسان بود. این هوش مصنوعی، سه سناریوی ذکر شده در بالا را کاملا اشتباه فهمید.
فناوری GPT-۳ با یادداشتبرداری از تریلیونها نمونه، در مورد زبان یاد میگیرد تا بداند که واژهها معمولا به دنبال کدام واژههای دیگر میآیند. قوانین آماری قوی در توالی زبان، به GPT-۳ امکان میدهند تا اطلاعات زیادی را در مورد زبان بیاموزد و این دانش متوالی اغلب به ChatGPT امکان میدهد تا جملات، مقالات، شعرها و رمزهای رایانهای معقولی را تولید کند.
اگرچه GPT-۳ در یادگیری قواعد زبان انسان، بسیار خوب است اما نمیفهمد که هر یک از این واژهها برای یک انسان چه معنایی دارند.
انسانها موجودات بیولوژیکی هستند و با بدنهایی تکامل یافتهاند که برای انجام دادن کارها باید در دنیای فیزیکی و اجتماعی فعالیت کنند. زبان، روشی است که به انسانها در انجام دادن این کار کمک میکند. فناوری GPT-۳، یک سیستم نرمافزاری مصنوعی است که فقط میتواند واژه بعدی را پیشبینی کند. این کار بدان معنا نیست که پیشبینیها باید در دنیای واقعی به کار گرفته شوند.
من هستم؛ پس میفهمم
معنای یک واژه یا جمله، ارتباط نزدیکی با بدن انسان دارد و توانایی انسانها برای کار کردن، درک کردن و داشتن احساسات را شامل میشود. افزایش شناخت انسان، با تجسم یافتن ادامه پیدا میکند. برای مثال، درک انسانها از اصطلاحی مانند کاغذ بستهبندی ساندویچ شامل ظاهر، وزن، احساس کردن کاغذ و نحوه استفاده از آن برای بستهبندی یک ساندویچ است. همچنین، درک انسانها از کاغذ ساندویچ شامل این است که چگونه یک نفر میتواند از همان کاغذ برای فرصتهای بیشمار دیگری استفاده کند؛ مانند فشردن و تبدیل کردن آن به یک توپ برای بازی یا به کار بردن کاغذ به عنوان پوششی برای مو.
همه این کاربردها به دلیل ماهیت بدن و نیازهای انسان به وجود میآیند. انسانها دستهایی دارند که میتوانند کاغذ را تا کنند و نیاز به استفاده از آنها در کارها مهم است. این بدان معناست که مردم میدانند چگونه از چیزهایی استفاده کنند که در آمار استفاده از زبان ذکر نشدهاند.
فناوری GPT-۳ و جانشین آن، GPT-۴ و همتایانی مانند «Bard»، «Chinchilla» و «LLaMA» بدن ندارند و به همین دلیل نمیتوانند به تنهایی تعیین کنند که کدام اشیا تاشو هستند یا بسیاری از ویژگیهای دیگر را دارند. با کمک دستها و بازوهای انسان، نقشههای کاغذی میتوانند آتش را شعلهور کنند و فلاسک باعث برطرف شدن چین و چروک میشود.
فناوری GPT-۳ به دلیل نداشتن بازو و دست نمیتواند این کارها را انجام دهد. این نرمافزار تنها در صورتی میتواند کارها را جعل کند که در جریان واژهها در اینترنت، با چیز مشابهی برخورد کرده باشد.
آیا یک مدل بزرگ زبانی مبتنی بر هوش مصنوعی میتواند زبان را به روشی که انسانها میفهمند، درک کند؟ به نظر دانشمندان، بدون داشتن بدن، حواس، اهداف و شیوههای زندگی شبیه به انسان، چنین چیزی ممکن نیست.
پیش به سوی احساس کردن جهان!
فناوری GPT-۴، روی تصاویر و متنها آموزش داده شد که به آن امکان داد تا روابط آماری بین واژهها و پیکسلها را بیاموزد. در هر حال، پژوهشگران هنوز نمیتوانند تحلیل اصلی خود را روی GPT-۴ انجام دهند زیرا در حال حاضر خروجی مورد نظر را ارائه نمیدهد. وقتی سه پرسش مطرحشده در بالا از GPT-۴ پرسیده شد، به آنها پاسخ درستی داد. این میتواند به دلیل یادگیری مدل از ورودیهای پیشین یا افزایش یافتن اندازه ورودی بصری آن باشد.
با وجود این، با فکر کردن به اشیایی که قابلیتهای شگفتانگیزی دارند و مدل احتمالا با آنها روبهرو نشده است، میتوان به ساختن نمونههای جدید ادامه داد. به عنوان مثال، GPT-۴ میگوید یک فنجان که قسمت پایین آن بریده شده، بهتر از یک لامپ که قسمت پایین آن نیز بریده شده است، برای نگه داشتن آب عمل خواهد کرد.
یک مدل با توانایی دسترسی به تصاویر ممکن است شبیه به کودکی باشد که زبان و جهان را از تلویزیون میآموزد. این روش برای او آسانتر از یادگیری با رادیو است اما به دست آوردن درک مشابه انسان، به یک فرصت حیاتی برای تعامل با جهان نیاز دارد.
پژوهشهای اخیر از این روش استفاده کردهاند و مدلهای زبانی را برای تولید شبیهسازیهای فیزیکی، تعامل با محیطهای فیزیکی و حتی تولید برنامههای رباتیک آموزش دادهاند. درک تجسم زبان ممکن است هنوز راه درازی را در پیش داشته باشد اما این نوع پروژههای تعاملی چندحسی، گامهای مهمی در این راه به شمار میروند.
ChatGPT یک فناوری جذاب است که بدون شک برای اهداف خوب و گاهی نه چندان خوب استفاده خواهد شد اما فریب نخورید و فکر نکنید ChatGPT واژههایی را که میفرستد میفهمد، چه رسد به این که قدرت درک داشته باشد.