هوش مصنوعی به شکل غیرقانونی آموزش می‌بیند

تحقیقات جدیدی از Proof News و Wired نشان می‌دهد برخی از بزرگ‌ترین توسعه‌دهندگان هوش مصنوعی از رونویسی‌های ویدیوهای یوتیوب بدون اجازه سازندگان آنها برای آموزش مدل‌های خود استفاده کرده‌اند. این اقدام با نقض قوانین یوتیوب صورت گرفته است.

آفتاب‌‌نیوز :

تحقیقات جدید نشان می‌دهد که برخی از بزرگ‌ترین توسعه‌دهندگان هوش مصنوعی از رونویسی‌های ویدیو‌های یوتیوب بدون اجازه سازندگان آن‌ها برای آموزش مدل‌های خود استفاده کرده‌اند. این اقدام با نقض قوانین یوتیوب صورت گرفته است. بر اساس تحقیقات مشترک انجام‌شده، شرکت‌هایی مانند اپل، انویدیا، آنتروپیک و سایر شرکت‌های بزرگ هوش مصنوعی از مجموعه‌ای داده‌ای به نام YouTube Subtitles استفاده کرده‌اند که شامل رونویسی تقریباً ۱۷۵ هزار ویدیو از ۴۸ هزار کانال است. همه این کار‌ها بدون اطلاع سازندگان ویدیو‌ها انجام شده است.

مجموعه داده YouTube Subtitles شامل متن زیرنویس‌های ویدیوهاست که اغلب به چندین زبان ترجمه شده است. این مجموعه را EleutherAI ساخته است که هدف آن را کاهش موانع توسعه هوش مصنوعی برای کسانی که خارج از شرکت‌های بزرگ فناوری هستند توصیف می‌کند. این مجموعه بخشی از مجموعه داده بزرگ‌تر EleutherAI به نام Pile است که شامل مقالات ویکی‌پدیا، سخنرانی‌های پارلمان اروپا و حتی ایمیل‌های Enron نیز می‌شود.

با این حال، Pile طرفداران زیادی در بین شرکت‌های بزرگ فناوری دارد. به عنوان مثال، اپل از Pile برای آموزش مدل هوش مصنوعی OpenELM خود استفاده کرده است، در حالی که مدل هوش مصنوعی Salesforce که دو سال پیش منتشر شد با Pile آموزش دیده است و از آن زمان تاکنون بیش از ۸۶ هزار بار دانلود شده است.

مجموعه داده YouTube Subtitles طیف گسترده‌ای از کانال‌های محبوب در زمینه اخبار، آموزش و سرگرمی را دربر می‌گیرد. این شامل محتوای یوتیوبر‌های معروف مانند MrBeast و Marques Brownlee نیز می‌شود. همه این افراد بدون اطلاع از ویدیوهایشان برای آموزش مدل‌های هوش مصنوعی استفاده شده است. Proof News ابزاری جست‌وجو ایجاد کرده است که می‌توانید با استفاده از آن بررسی کنید آیا یک ویدیو یا کانال خاص در این مجموعه وجود دارد یا خیر. حتی چند ویدیوی TechRadar نیز در این مجموعه یافت شده است.

استفاده از مجموعه داده YouTube Subtitles به نظر می‌رسد با شرایط خدمات یوتیوب که به‌صراحت از جمع‌آوری خودکار ویدیو‌ها و داده‌های مرتبط با آن‌ها جلوگیری می‌کند، در تضاد است. با این حال، این مجموعه داده با استفاده از یک اسکریپت که زیرنویس‌ها را از طریق API یوتیوب دانلود می‌کند، جمع‌آوری شده است. این تحقیق نشان می‌دهد حدود ۵۰۰ عبارت جست‌وجو برای دانلود خودکار ویدیو‌ها استفاده شده است.

این کشف باعث تعجب و خشم بسیاری از سازندگان یوتیوب شده است که در مصاحبه با Proof و Wired مورد بررسی قرار گرفتند. نگرانی‌ها درباره استفاده غیرمجاز از محتوا معتبر است و برخی از سازندگان از این ایده که کار آن‌ها بدون پرداخت هزینه یا اجازه در مدل‌های هوش مصنوعی استفاده می‌شود، ناراحت هستند. این موضوع به‌ویژه برای کسانی که متوجه شدند مجموعه داده شامل رونویسی ویدیو‌های حذف شده آنهاست و در یک مورد، داده‌ها از سازنده‌ای است که کل حضور آنلاین خود را حذف کرده است، صادق است.

EleutherAI در این گزارش اظهارنظری نکرده است. این سازمان ماموریت خود را دموکراتیزه کردن دسترسی به فناوری‌های هوش مصنوعی از طریق انتشار مدل‌های آموزش‌دیده توصیف می‌کند. این ممکن است با منافع سازندگان محتوا و پلتفرم‌ها در تضاد باشد، اگر این مجموعه داده نمونه‌ای از آن باشد. نبرد‌های قانونی و نظارتی در مورد هوش مصنوعی از قبل پیچیده بودند. این نوع افشاگری احتمالاً چشم‌انداز اخلاقی و قانونی توسعه هوش مصنوعی را دشوارتر می‌کند. یافتن تعادل بین نوآوری و مسئولیت اخلاقی برای هوش مصنوعی آسان است، اما تولید آن بسیار سخت‌تر خواهد بود.

منبع: تجارت نیوز

گزارش خطا

لینک کوتاه: https://aftabnews.ir/003rtJ

برچسب ها: اپل ، هوش مصنوعی ، فناوری