کد خبر: ۱۰۲۹۶۱۲
تاریخ انتشار : ۲۹ آذر ۱۴۰۴ - ۰۹:۲۶

قابلیت‌های نسخه جدید «جمنای»؛ همزمان هم می‌بیند و هم می‌خواند!

قابلیت‌های «جمنای ۳ فلش» که در روز‌های اخیر رونمایی شده، رقبا را غافلگیر کرده است.
قابلیت‌های نسخه جدید «جمنای»؛ همزمان هم می‌بیند و هم می‌خواند!
آفتاب‌‌نیوز :

در روز‌های اخیر گوگل از مدل جدیدی با نام «جمنای ۳ فلش» رونمایی کرده که به‌سرعت به یکی از مهم‌ترین تحولات فضای هوش مصنوعی مصرفی و جست‌وجوی آنلاین تبدیل شده است. این مدل نه به‌عنوان یک ابزار آزمایشگاهی یا صرفاً حرفه‌ای، بلکه به‌عنوان موتور پیش‌فرض تجربه هوش مصنوعی گوگل معرفی شده؛ تصمیمی که نشان می‌دهد گوگل جمنای ۳ فلش را برای استفاده روزمره میلیون‌ها کاربر طراحی کرده است. 

هدف اصلی این مدل، ایجاد تعادلی میان سرعت بسیار بالا، هزینه کمتر و حفظ سطح قابل‌قبولی از دقت و استدلال است؛ ترکیبی که برای جست‌وجوی هوشمند، پاسخ‌دهی فوری و تعاملات مداوم با کاربر اهمیت حیاتی دارد.

پردازش همزمان عکس، متن، صدا و ویدئو

جمنای ۳ فلش عضوی از نسل سوم خانواده مدل‌های جمنای است؛ نسلی که گوگل آن را ادامه مسیر مدل‌های چندوجهی (Multimodal) خود می‌داند. منظور از چندوجهی این است که مدل می‌تواند به‌طور هم‌زمان با انواع مختلف داده مانند متن، تصویر، صدا و حتی ویدئو کار کند. به زبان ساده، جمنای ۳ فلش می‌تواند یک سؤال متنی را همراه با یک تصویر یا فایل صوتی تحلیل کند و بر اساس مجموع این اطلاعات پاسخ بدهد، بدون آن‌که کاربر مجبور باشد همه‌چیز را فقط در قالب متن توضیح دهد. این قابلیت پیش‌تر هم در مدل‌های جمنای وجود داشت، اما در نسخه فلش با تمرکز بر سرعت و پاسخ‌گویی آنی بهینه‌سازی شده است.

پاسخگویی بدون مکث به سوالات

مهم‌ترین ویژگی جمنای ۳ فلش، سرعت آن است. گوگل به‌صراحت اعلام کرده که این مدل برای پاسخ‌دهی تقریباً هم‌سطح با جست‌وجوی سنتی طراحی شده؛ یعنی زمانی که کاربر سؤال خود را می‌پرسد، پاسخ باید تقریباً بدون مکث و تأخیر ظاهر شود. در مقایسه با مدل‌های سنگین‌تر مانند جمنای پرو، فلش سبک‌تر است و منابع محاسباتی کمتری مصرف می‌کند. اگر بخواهیم این تفاوت را ساده توضیح دهیم، جمنای پرو شبیه یک متخصصی است که برای حل مسائل پیچیده زمان بیشتری می‌گذارد، اما جمنای فلش شبیه دستیاری سریع است که باید فوراً جواب بدهد، حتی اگر مسئله کمی ساده‌تر باشد.

گوگل برای رسیدن به این سرعت بالا، بخشی از تمرکز خود را بر بهینه‌سازی مصرف توکن‌ها (Token) گذاشته است. توکن‌ها در واقع واحد‌های پردازش متن برای مدل‌های زبانی هستند؛ هرچه تعداد توکن‌های مصرفی کمتر باشد، پاسخ سریع‌تر و هزینه محاسباتی پایین‌تر خواهد بود. گزارش‌های رسمی و رسانه‌های تخصصی فناوری نشان می‌دهند که جمنای ۳ فلش نسبت به برخی مدل‌های قبلی گوگل، توکن کمتری مصرف می‌کند، بدون آن‌که کیفیت پاسخ به‌طور محسوسی افت کند. این موضوع برای گوگل اهمیت استراتژیک دارد، چون مدلی که قرار است به‌صورت گسترده و روزانه توسط میلیون‌ها کاربر استفاده شود، باید هم سریع باشد و هم مقرون‌به‌صرفه.

پاسخ دقیق به سوالات پیچیده

یکی دیگر از نکات مهم درباره جمنای ۳ فلش، حفظ توانایی استدلال در کنار سرعت است. معمولاً مدل‌های بسیار سریع، در تحلیل‌های عمیق یا پاسخ به سؤالات پیچیده ضعف نشان می‌دهند، اما گوگل تلاش کرده در این نسخه چنین افتی به حداقل برسد. برای این منظور، جمنای ۳ فلش با دو حالت عملکرد معرفی شده است: حالت سریع (Fast) که برای پاسخ‌های فوری و کار‌های روزمره استفاده می‌شود و حالت اندیشمند یا تفکربرانگیز (Thinking) که در آن مدل کمی بیشتر «فکر می‌کند» تا پاسخ دقیق‌تری بدهد.

این تفاوت برای کاربر نهایی به این معناست که در پرسش‌های ساده، پاسخ فوری دریافت می‌کند و در پرسش‌های پیچیده‌تر، مدل زمان بیشتری صرف تحلیل می‌کند، بدون آن‌که تجربه کاربری مختل شود.

عملکرد نسخه جدید در سنجه‌های اصلی

در ارزیابی عملکرد جمنای ۳ فلش، گوگل و رسانه‌های تخصصی فناوری به نتایج این مدل در چند «سنجه» شناخته‌شده اشاره کرده‌اند؛ سنجه‌هایی که هرکدام بخش متفاوتی از توانایی‌های یک مدل هوش مصنوعی را می‌سنجند. یکی از مهم‌ترین آنها سنجه «جی‌پی‌کیو‌ای دایموند» (GPQA Diamond) است. این سنجه برای ارزیابی توانایی مدل‌ها در پاسخ‌گویی به پرسش‌های علمی بسیار دشوار طراحی شده و سؤالات آن عمدتاً در سطح تحصیلات تکمیلی، به‌ویژه در حوزه‌هایی مانند فیزیک، شیمی و زیست‌شناسی هستند. هدف GPQA این است که مشخص کند آیا یک مدل صرفاً الگو‌های زبانی را تقلید می‌کند یا واقعاً توانایی استدلال و ترکیب مفاهیم علمی پیچیده را دارد.

گزارش‌های منتشرشده نشان می‌دهد جمنای ۳ فلش با وجود سبک‌تر بودن نسبت به مدل‌های پرچم‌دار، در این سنجه عملکرد قابل‌توجهی داشته و فاصله آن با مدل‌های بزرگ‌تر کمتر از حد انتظار بوده است. این نتیجه برای مدلی که تمرکز اصلی‌اش بر سرعت و پاسخ‌گویی فوری است، نشان می‌دهد که کاهش زمان پردازش لزوماً به معنای افت شدید در توانایی علمی نیست.

سنجه مهم دیگر «ام‌ام‌ام‌یو پرو» (MMMU Pro) است که برای سنجش توانایی چندوجهی مدل طراحی شده است. در این سنجه، مدل باید بتواند اطلاعات متنی، تصویری و گاهی نموداری را به‌طور هم‌زمان تحلیل کند و بر اساس ترکیب آنها به پرسش پاسخ دهد. به بیان ساده، MMMU Pro بررسی می‌کند که آیا یک مدل می‌تواند مثل انسان، هم‌زمان «ببیند» و «بخواند» و از هر دو نوع اطلاعات نتیجه‌گیری کند یا نه. نتایج گزارش‌شده نشان می‌دهد جمنای ۳ فلش در این سنجه نیز عملکردی پایدار و رقابتی دارد، به‌ویژه در مقایسه با مدل‌هایی که برای مصرف عمومی طراحی شده‌اند.

علاوه بر این، در سنجه‌ای با عنوان «آخرین آزمون بشریت» (Humanity’s Last Exam) که مجموعه‌ای از پرسش‌های بسیار متنوع و دشوار در حوزه‌های مختلف دانشی است، جمنای ۳ فلش بدون استفاده از ابزار‌های کمکی امتیازی قابل‌توجه کسب کرده است. با این حال، باید تأکید کرد که این نتایج عمدتاً بر اساس گزارش‌های منتشرشده از سوی گوگل و منابع رسانه‌ای معتبر فناوری هستند و هنوز مجموعه گسترده‌ای از ارزیابی‌های مستقل دانشگاهی برای تأیید نهایی این عملکرد‌ها منتشر نشده است.

به نسخه جدید کجا در دسترس است؟

جمنای ۳ فلش اکنون به‌عنوان مدل پیش‌فرض در اپلیکیشن جمنای گوگل و همچنین در حالت هوش مصنوعی جست‌و‌جو (AI Mode) استفاده می‌شود. این تصمیم نشان می‌دهد گوگل به این مدل به‌عنوان ستون اصلی تجربه آینده جست‌و‌جو نگاه می‌کند. در عمل، کاربرانی که از جست‌وجوی گوگل استفاده می‌کنند، ممکن است بدون آن‌که متوجه تغییر خاصی شوند، پاسخ‌هایی سریع‌تر، محاوره‌ای‌تر و هوشمندانه‌تر دریافت کنند. این همان جایی است که گوگل تلاش می‌کند مرز میان «جست‌و‌جو» و «گفت‌و‌گو با هوش مصنوعی» را کمرنگ‌تر کند.

برای توسعه‌دهندگان نیز جمنای ۳ فلش از طریق ابزار‌های رسمی گوگل مانند Gemini API، Google AI Studio و Vertex AI در دسترس قرار گرفته است. این یعنی شرکت‌ها و برنامه‌نویسان می‌توانند از این مدل برای ساخت دستیار‌های هوشمند، ابزار‌های پشتیبانی مشتری، تحلیل محتوای چندرسانه‌ای و بسیاری کاربرد‌های دیگر استفاده کنند. مزیت اصلی برای توسعه‌دهندگان، همان ترکیب سرعت و هزینه کمتر است؛ مدلی که بتواند در مقیاس بالا پاسخ بدهد، بدون آن‌که هزینه‌های سرور و پردازش را به‌شدت افزایش دهد.

از منظر راهبردی، معرفی جمنای ۳ فلش را می‌توان بخشی از رقابت مستقیم گوگل با دیگر بازیگران بزرگ هوش مصنوعی دانست. در حالی که برخی شرکت‌ها تمرکز خود را بر مدل‌های بسیار بزرگ و سنگین گذاشته‌اند، گوگل با فلش نشان می‌دهد که آینده را در مدل‌هایی می‌بیند که «به‌اندازه کافی هوشمند» و در عین حال «به‌اندازه کافی سریع» هستند. این رویکرد به‌ویژه برای خدمات عمومی مانند جست‌و‌جو، نقشه، ایمیل و دستیار‌های دیجیتال اهمیت دارد؛ خدماتی که کاربران انتظار دارند همیشه و بدون معطلی در دسترس باشند.

هنوز جای بررسی بیشتر هست

با این حال، باید به محدودیت‌های اطلاعات موجود هم اشاره کرد. گوگل جزئیات فنی عمیق مانند تعداد دقیق پارامترها، ساختار معماری داخلی یا شیوه دقیق آموزش جمنای ۳ فلش را منتشر نکرده است. این رویکرد در میان شرکت‌های بزرگ فناوری رایج است، اما باعث می‌شود تحلیل‌های کاملاً فنی و دانشگاهی درباره مدل دشوار باشد. همچنین هنوز داده‌های بلندمدت درباره عملکرد این مدل در سناریو‌های واقعی و پیچیده به‌طور عمومی منتشر نشده است.

در مجموع، جمنای ۳ فلش را می‌توان تلاشی جدی از سوی گوگل برای بازتعریف تجربه هوش مصنوعی روزمره دانست؛ مدلی که قرار نیست صرفاً قدرت‌نمایی فنی کند، بلکه باید در زندگی دیجیتال کاربران جا بیفتد. سرعت بالا، مصرف بهینه منابع، پشتیبانی از ورودی‌های متنوع و ادغام مستقیم با جست‌وجوی گوگل، همگی نشان می‌دهند که این مدل بیش از آن‌که یک محصول نمایشی باشد، ابزاری عملی برای آینده نزدیک است. اینکه جمنای ۳ فلش در عمل تا چه اندازه می‌تواند وعده‌های خود را محقق کند، موضوعی است که با گذر زمان و انتشار ارزیابی‌های مستقل روشن‌تر خواهد شد، اما آنچه مسلم است، این مدل جایگاه مهمی در راهبرد هوش مصنوعی گوگل پیدا کرده است.

بازدید از صفحه اول
ارسال به دوستان
نسخه چاپی
ذخیره
عضویت در خبرنامه
نظر شما
پرطرفدار ترین عناوین