تحقیقات جدید نشان میدهد که برخی از بزرگترین توسعهدهندگان هوش مصنوعی از رونویسیهای ویدیوهای یوتیوب بدون اجازه سازندگان آنها برای آموزش مدلهای خود استفاده کردهاند. این اقدام با نقض قوانین یوتیوب صورت گرفته است. بر اساس تحقیقات مشترک انجامشده، شرکتهایی مانند اپل، انویدیا، آنتروپیک و سایر شرکتهای بزرگ هوش مصنوعی از مجموعهای دادهای به نام YouTube Subtitles استفاده کردهاند که شامل رونویسی تقریباً ۱۷۵ هزار ویدیو از ۴۸ هزار کانال است. همه این کارها بدون اطلاع سازندگان ویدیوها انجام شده است.
مجموعه داده YouTube Subtitles شامل متن زیرنویسهای ویدیوهاست که اغلب به چندین زبان ترجمه شده است. این مجموعه را EleutherAI ساخته است که هدف آن را کاهش موانع توسعه هوش مصنوعی برای کسانی که خارج از شرکتهای بزرگ فناوری هستند توصیف میکند. این مجموعه بخشی از مجموعه داده بزرگتر EleutherAI به نام Pile است که شامل مقالات ویکیپدیا، سخنرانیهای پارلمان اروپا و حتی ایمیلهای Enron نیز میشود.
با این حال، Pile طرفداران زیادی در بین شرکتهای بزرگ فناوری دارد. به عنوان مثال، اپل از Pile برای آموزش مدل هوش مصنوعی OpenELM خود استفاده کرده است، در حالی که مدل هوش مصنوعی Salesforce که دو سال پیش منتشر شد با Pile آموزش دیده است و از آن زمان تاکنون بیش از ۸۶ هزار بار دانلود شده است.
مجموعه داده YouTube Subtitles طیف گستردهای از کانالهای محبوب در زمینه اخبار، آموزش و سرگرمی را دربر میگیرد. این شامل محتوای یوتیوبرهای معروف مانند MrBeast و Marques Brownlee نیز میشود. همه این افراد بدون اطلاع از ویدیوهایشان برای آموزش مدلهای هوش مصنوعی استفاده شده است. Proof News ابزاری جستوجو ایجاد کرده است که میتوانید با استفاده از آن بررسی کنید آیا یک ویدیو یا کانال خاص در این مجموعه وجود دارد یا خیر. حتی چند ویدیوی TechRadar نیز در این مجموعه یافت شده است.
استفاده از مجموعه داده YouTube Subtitles به نظر میرسد با شرایط خدمات یوتیوب که بهصراحت از جمعآوری خودکار ویدیوها و دادههای مرتبط با آنها جلوگیری میکند، در تضاد است. با این حال، این مجموعه داده با استفاده از یک اسکریپت که زیرنویسها را از طریق API یوتیوب دانلود میکند، جمعآوری شده است. این تحقیق نشان میدهد حدود ۵۰۰ عبارت جستوجو برای دانلود خودکار ویدیوها استفاده شده است.
این کشف باعث تعجب و خشم بسیاری از سازندگان یوتیوب شده است که در مصاحبه با Proof و Wired مورد بررسی قرار گرفتند. نگرانیها درباره استفاده غیرمجاز از محتوا معتبر است و برخی از سازندگان از این ایده که کار آنها بدون پرداخت هزینه یا اجازه در مدلهای هوش مصنوعی استفاده میشود، ناراحت هستند. این موضوع بهویژه برای کسانی که متوجه شدند مجموعه داده شامل رونویسی ویدیوهای حذف شده آنهاست و در یک مورد، دادهها از سازندهای است که کل حضور آنلاین خود را حذف کرده است، صادق است.
EleutherAI در این گزارش اظهارنظری نکرده است. این سازمان ماموریت خود را دموکراتیزه کردن دسترسی به فناوریهای هوش مصنوعی از طریق انتشار مدلهای آموزشدیده توصیف میکند. این ممکن است با منافع سازندگان محتوا و پلتفرمها در تضاد باشد، اگر این مجموعه داده نمونهای از آن باشد. نبردهای قانونی و نظارتی در مورد هوش مصنوعی از قبل پیچیده بودند. این نوع افشاگری احتمالاً چشمانداز اخلاقی و قانونی توسعه هوش مصنوعی را دشوارتر میکند. یافتن تعادل بین نوآوری و مسئولیت اخلاقی برای هوش مصنوعی آسان است، اما تولید آن بسیار سختتر خواهد بود.