شناسه خبر : 45184 لینک کوتاه
تاریخ انتشار:

جمینی تازه‌نفس

آیا جمینی می‌تواند رقیب را از میدان به در کند؟

 

زهرا تهرانی / نویسنده نشریه 

در مورد تاریخ انتشار تخمینی Google Deepmind Gemini کنجکاو هستید؟ شما در این انتظار تنها نیستید.

Deepmind Gemini گوگل یکی دیگر از الگوهای زبان هوش مصنوعی است که روی متن کار می‌کند. این پروژه به عنوان آخرین پروژه سطح بالای گوگل در حال ظهور است که هنوز در دست توسعه است. این الگوی جدید مانند چت جی‌پی‌تی (ChatGPT)، مرزهای نوآوری‌های جدید در فناوری هوش مصنوعی را نیز در پیش خواهد گرفت، اما ادعا می‌شود که از رقیب خود قدرتمندتر است. با این حال، زمان نشان خواهد داد که کدام الگو قدرتمندتر است. اکنون ممکن است تعجب کنید که گوگل چه زمانی آن را منتشر می‌کند تا آخرین ویژگی‌های آن را در برابر سیستم هوش مصنوعی Chat GPT-4 آزمایش کند. با وجود این، در حال حاضر پاسخ چندان مشخص نیست.

جمینی به بازار می‌آید

چت جی‌پی‌تی یک روبات چت هوش مصنوعی است که Open AI آن را  ایجاد کرده است. اوپن ای‌آی یک شرکت تحقیقاتی هوش مصنوعی است که  به وسیله مدیر عامل سام آلتمن از میان  سرمایه‌گذاران دیگر تاسیس شده است. روبات چت مبتنی بر زبان طبیعی به وسیله فناوری هوش مصنوعی هدایت می‌شود. در پردازش زبان طبیعی برای پاسخ دادن به کاربر‌ها با آنها گفت‌وگو می‌کند اما نه به صورت صوتی بلکه به صورت متنی. کاربران سیستم هوش مصنوعی می‌توانند پرسش‌هایی را مطرح کنند، مانند موتورهای جست‌وجویی چون گوگل، یا از روبات بخواهند محتوایی منحصر به‌فرد با هوش مصنوعی  بنویسد یا حتی متن موجود را دوباره قالب‌بندی کند. ChatGPT OpenAI می‌تواند مانند یک انسان با کاربر چت کند و کتاب، مقاله و شعر بنویسد. از طریق پلاگین‌ها، GPT-4  (Generative Pre-Trained Transformer) LLM (الگوی زبانی گسترده) می‌تواند با استفاده از نرم‌افزار مورد علاقه شما به وظایف پیچیده و چندوجهی عمل کند! در ژانویه سال 2023، این نرم‌افزار به سریع‌ترین برنامه کاربردی نرم‌افزاری مصرف‌کننده در تاریخ تبدیل شد که بیش از 100 میلیون کاربر به آن توجه نشان دادند و به افزایش ارزش Open AI به 29 میلیارد دلار آمریکا منجر شد. راه‌اندازی چت جی‌پی‌تی در نوامبر گذشته، پایه‌های گوگل را تکان داد. چت بات محبوب چنان تهدیدی برای تجارت این شرکت به شمار می‌رفت که مجبور شد عملکرد خود را قرمز اعلام کند و شروع به سرمایه‌گذاری برای دستیابی به فناوری هوش مصنوعی مولد کرد. این تلاش نه‌تنها به انتشار Google Bard بلکه جمینی (Gemini) نیز  منجر شده است. گوگل در آخرین اعلامیه خود در کنفرانس «گوگل نکست» در سانفرانسیسکو اعلام کرد که تمام مراحل را طی کرده  است و طیف گسترده‌ای از فناوری‌ها و مشارکت‌های جدید هوش مصنوعی را نشان می‌دهد. به نظر می‌رسد جمینی برای مقابله مستقیم با پیشرفت‌های اخیر Open AI و مایکروسافت طراحی شده است، هجوم نوآوری‌های گوگل نشان‌دهنده تغییر موقعیت تهاجمی آن در چشم‌انداز هوش مصنوعی است. با وجود اینکه گوگل در مراحل اولیه توسعه قرار دارد، پیشرفت‌های قابل توجهی را در قابلیت‌های چندوجهی جمینی گزارش می‌دهد که از الگو‌های قبلی پیشی گرفته است. قابل توجه است که جمینی از ابتدا با یک رویکرد طراحی چندوجهی در نظر گرفته شد. این طراحی نه‌تنها چندوجهی بودن را در اولویت قرار می‌دهد و به آن امکان پردازش و درک اشکال مختلف داده را می‌دهد، بلکه بر کارایی بالا از نظر ابزارها و ادغام‌های API نیز تاکید دارد. معماری جمینی علاوه بر این آماده است تا نوآوری‌های آینده، به‌ویژه حافظه و برنامه‌ریزی را تسهیل کند. پیامدهای این پیشرفت قابل توجه است، زیرا به درک بهتر و تعامل با انواع مختلف داده‌ها اشاره می‌کند. در حالی که جی‌پی‌تی-4  در درک و تولید متن محاوره‌ای مهارت دارد، جمینی با مهارت در پردازش ورودی‌های مختلف، از جمله متن، تصاویر و ویدئوها، از این امر فراتر خواهد رفت. جمینی همچنین قادر به تولید خروجی در قالب متن، فیلم، صدا، موسیقی و تصویر خواهد بود. علاوه بر این، دارای قابلیت استدلال و توانایی تسهیل ترجمه در زبان‌های مختلف و فرمت‌های ورودی خواهد بود. علاوه بر این، در میان کارمندان گوگل حول محور استفاده از جمینی برای عملکردهای مختلف بحث‌های مختلفی در گرفته است. این موضوع شامل کارهایی مانند تجزیه و تحلیل نمودارها، تولید تصاویر گرافیکی همراه با توضیحات متنی، و اجرای نرم‌افزار از طریق متن یا دستورات صوتی است.

جمینی صنعت هوش مصنوعی را متحول می‌کند

جمینی یک موتور جست‌وجوی چندوجهی است که قدرت آن پنج برابر چت جی‌پی‌تی است. جمینی با تعداد تراشه‌ای بسیار بالاتر و قدرتمند آمده است تا چت جی‌پی‌تی را به‌عنوان مطرح‌ترین قالب هوش مصنوعی مولد در این سیاره از بین ببرد. گوگل همچنین طیف قابل توجهی از ابزارهای مبتنی بر هوش مصنوعی را در این الگو به نمایش گذاشت که عمدتاً برنامه‌های کاربردی سازمانی را هدف قرار می‌دهند. به عنوان مثال، «هوش مصنوعی Duet در فضای کاری» به کاربران در تهیه پیش‌نویس ایمیل، ایجاد اسناد و تولید تصاویر سفارشی در برنامه‌های گوگل کمک می‌کند. گوگل اعلام کرد که این افزوده در پاسخ به تقاضای شدید مشتریان است و قبلاً به وسیله بیش از یک میلیون کاربر آزموده شده است. گوگل در ادامه پیشرفت‌های خود، نسخه جدید الگوی متنی خود را به نام PaLM معرفی کرد که برای تسهیل پردازش اسناد متنی گسترده‌تر مانند خلاصه‌های حقوقی و کتاب‌ها طراحی شده است. ابزار جذابی به نام SynthID نیز معرفی شده است. این فناوری می‌تواند تصاویر تولیدشده از طریق هوش مصنوعی را به‌طور نامحسوس واترمارک (واتر مارک یک لوگو، متن یا الگویی است که از قصد روی یک تصویر قرار داده می‌شود) کند و فایل دیجیتال را به‌گونه‌ای تغییر دهد که برای انسان نامرئی باشد، اما برای مقاومت در برابر هرگونه تغییر یا دستکاری تصویر طراحی شده است. همکاری مشترک Google Brain و Deep  Mind، همراه با راه‌اندازی قریب‌الوقوع جمینی، نشان‌دهنده چالش‌های بالقوه برای رقبایی مانند Open AI است. با توجه به اینکه سرگئی برین و دیگر افراد برجسته تلاش‌های هوش مصنوعی گوگل را تقویت می‌کنند، زمینه برای پیشرفت‌های مخرب نیز فراهم شده است. نکته قابل توجه این است که  آموزش جمینی در ویدئوهای یوتیوب به آن مزیت منحصربه‌فردی می‌دهد و آن را قادر می‌کند علاوه بر متن و تصاویر، داده‌های ویدئویی را پردازش کند و از قابلیت‌های جی‌پی‌تی-4  پیشی بگیرد. نفوذ جمینی در ابعاد مختلف فراتر از پیشینیان خود است. گزارش‌ها حاکی از آن است که آموزش جمینی شامل دو برابر تعداد توکن‌ها در مقایسه با جی‌پی‌تی-4  و ده برابر  PalM2  است که بسیار قابل توجه است. این پیشرفت‌های اساسی جمینی را به عنوان یک پیشتاز در مسابقه هوش مصنوعی مطرح می‌کند.

تقویت خدمات سازمانی

 گوگل به جمینی امید بسته است تا طیف گسترده‌ای  از خدمات را تقویت کند. این برنامه‌ها از روبات چت بارد که با چت جی‌پی‌تی و اوپن ای‌آی رقابت می‌کند تا پلت‌فرم‌های سازمانی مانند Google Docs و Slides را شامل می‌شود. برای دستیابی به این هدف، گوگل در نظر دارد از توسعه‌دهندگان برنامه برای دسترسی به جمینی از طریق بخش اجاره سرور Google Cloud خود هزینه دریافت کند. در حال حاضر، Google Cloud از طریق Vertex AI به الگوهای نه‌چندان پیشرفته‌تر طراحی‌شده از سوی گوگل دسترسی پیدا می‌کند. با ترکیب این ویژگی‌های جدید، گوگل قصد دارد فاصله خود را با مایکروسافت که در ادغام ویژگی‌های جدید هوش مصنوعی در مجموعه آفیس 365 به پیشرفت قابل توجهی رسیده است، کاهش دهد. 

مایکروسافت همچنین الگوهای اوپن ای‌آی را به کاربران برنامه‌های خود ارائه کرده است. گوگل در حال گسترش قابلیت‌های ابری خود نیز هست و 20 الگوی جدید هوش مصنوعی را به مجموعه موجود خود اضافه کرده است و تعداد کل را به 100 رسانده است. به عنوان بخشی از این کار، گوگل به مشتریان ابری سازمانی خود دسترسی به مدل (AI LLaMa) شرکت متاپلت‌فرمز (شرکت فیسبوک) و استارت‌آپ (Anthropic’S Claude) را ارائه می‌دهد.

تراشه‌های هوش مصنوعی سفارشی و قابلیت‌های ابررایانه

73پیش از راه‌اندازی واحد پردازش تانسور (آرایه چندبعدی) نسل پنجم (TPU)، گوگل نسخه‌ای بهینه‌سازی شده برای genAI و الگو‌های زبان گسترده به نام TPU v5e را در دسترس قرار داده است. این تراشه بخشی از چیزی است که گوگل از آن به عنوان یک «ابرکامپیوتر» یاد می‌کند؛ متشکل از 256 تراشه (TPU v5e) که می‌توانند برای رفع چالش‌های محاسباتی پیچیده به هم متصل شوند.

 مشارکت‌های جدید و برنامه‌های آینده

قابل توجه است که گوگل مشارکت‌های جدیدی را با شرکت‌هایی مانند جنرال‌موتورز و استی‌لادر تضمین کرده است که مستقیماً همکاری‌های قبلی اوپن ای‌آی با این سازمان‌ها را به چالش می‌کشد. این شرکت همچنین از یک توافق چندساله با دولت ال‌سالوادور با تمرکز بر دیجیتالی کردن بخش‌های دولتی، مراقبت‌های بهداشتی و آموزشی این کشور خبر داده است.

 موارد استفاده در پزشکی 

گوگل در ادغام الگو‌های هوش مصنوعی خود برای توسعه در زمینه پزشکی بسیار تلاش کرده است. این شرکت در حال آزمایش یک ابزار هوش مصنوعی به نام MED-2PALM است که به پرسش‌های پزشکی پاسخ می‌دهد. این محصول در موسسه‌های بهداشتی مشهوری مانند بیمارستان تحقیقاتی مایوکلینیک آزمایش می‌شود. این تلاش‌ها را می‌توان با جمینی گسترده‌تر کرد و در چت‌روبات‌های پزشکی یا روباتیک برای انجام جراحی‌ها یا کمک به روش‌های پزشکی استفاده کرد.

ساخت روبات‌های فوق‌العاده باحال

علاوه بر این، گوگل همچنین ممکن است به دنبال ادغام بینش‌های خود از ساخت DeepMind’s Gato، یک سیستم «عمومی» باشد که برای تکمیل 604 کار از طریق آموزش چندوجهی و چندوظیفه‌ای، از جمله شرح تصویر، گفت‌وگو و بازوی روباتی آموزش دیده است. جنبه منحصر به‌فرد گاتو تنوع وظایف و رویکرد آموزشی آن است که از یک شبکه عصبی ترانسفورماتور و روش‌های مختلف داده مانند متن، تصاویر و...  استفاده می‌کند. در طول استقرار، گاتو اعلان‌ها و مشاهدات را نشانه‌گذاری می‌کند تا اقدامات را به صورت متوالی ایجاد کند. به طور مشابه، با راه‌اندازی اخیر RT-2، که مبتنی بر معماری ترانسفورماتور است و بر روی متن و تصاویر وب آموزش داده شده است، آن را قادر می‌کند تا به طور مستقیم اقدامات روباتیک را تولید کند. مشابه الگوهای زبان، از داده‌های وب یاد می‌گیرد تا رفتار روبات را هدایت کند. این نوآوری مبتنی بر الگو‌های زبان بینایی مانند VLM PaLI-X و PaLM-E است و با استفاده از زبان بینایی روی عمل  خروجی یعنی رفتار تعیین شده برای روبات‌ها نظارت می‌کند.

Google Deep Mind  با عرضه اخیر RT-2  خود که جانشین مدل روباتیکس ترانسفورمر  است، جهشی به جلو در زمینه روباتیک نیز داشته است. RT-2 مبتنی بر معماری ترانسفورماتور است و بر روی متن و تصاویر وب آموزش داده شده است که به آن امکان می‌دهد مستقیماً اقدامات روباتیک را ایجاد کند.

امتیاز قیمت و در دسترس بودن

گوگل این ابزارهای مبتنی بر هوش مصنوعی را با قیمت ماهانه 30 دلار برای هر کاربر در دسترس مشتریان سازمانی قرار داده است. این شرکت همچنین به عرضه پیشنهاد‌های بیشتر با هدف بخش‌های مختلف مشتریان، از جمله کسب‌وکارهای کوچک و متوسط و مصرف‌کنندگان اشاره کرد. اعلامیه‌های گسترده گوگل نشان‌دهنده تلاشی هماهنگ برای بازپس‌گیری کانون توجه در نوآوری هوش مصنوعی و مقابله با استراتژی‌های رقبایی مانند اوپن ای‌آی و مایکروسافت است. با این ابزارها و مشارکت‌های جدید، گوگل به‌شدت خود را به عنوان یک راه‌حل فراگیر برای نیازهای هوش مصنوعی سازمانی معرفی می‌کند. 

دراین پرونده بخوانید ...