جمینی تازهنفس
آیا جمینی میتواند رقیب را از میدان به در کند؟
در مورد تاریخ انتشار تخمینی Google Deepmind Gemini کنجکاو هستید؟ شما در این انتظار تنها نیستید.
Deepmind Gemini گوگل یکی دیگر از الگوهای زبان هوش مصنوعی است که روی متن کار میکند. این پروژه به عنوان آخرین پروژه سطح بالای گوگل در حال ظهور است که هنوز در دست توسعه است. این الگوی جدید مانند چت جیپیتی (ChatGPT)، مرزهای نوآوریهای جدید در فناوری هوش مصنوعی را نیز در پیش خواهد گرفت، اما ادعا میشود که از رقیب خود قدرتمندتر است. با این حال، زمان نشان خواهد داد که کدام الگو قدرتمندتر است. اکنون ممکن است تعجب کنید که گوگل چه زمانی آن را منتشر میکند تا آخرین ویژگیهای آن را در برابر سیستم هوش مصنوعی Chat GPT-4 آزمایش کند. با وجود این، در حال حاضر پاسخ چندان مشخص نیست.
جمینی به بازار میآید
چت جیپیتی یک روبات چت هوش مصنوعی است که Open AI آن را ایجاد کرده است. اوپن ایآی یک شرکت تحقیقاتی هوش مصنوعی است که به وسیله مدیر عامل سام آلتمن از میان سرمایهگذاران دیگر تاسیس شده است. روبات چت مبتنی بر زبان طبیعی به وسیله فناوری هوش مصنوعی هدایت میشود. در پردازش زبان طبیعی برای پاسخ دادن به کاربرها با آنها گفتوگو میکند اما نه به صورت صوتی بلکه به صورت متنی. کاربران سیستم هوش مصنوعی میتوانند پرسشهایی را مطرح کنند، مانند موتورهای جستوجویی چون گوگل، یا از روبات بخواهند محتوایی منحصر بهفرد با هوش مصنوعی بنویسد یا حتی متن موجود را دوباره قالببندی کند. ChatGPT OpenAI میتواند مانند یک انسان با کاربر چت کند و کتاب، مقاله و شعر بنویسد. از طریق پلاگینها، GPT-4 (Generative Pre-Trained Transformer) LLM (الگوی زبانی گسترده) میتواند با استفاده از نرمافزار مورد علاقه شما به وظایف پیچیده و چندوجهی عمل کند! در ژانویه سال 2023، این نرمافزار به سریعترین برنامه کاربردی نرمافزاری مصرفکننده در تاریخ تبدیل شد که بیش از 100 میلیون کاربر به آن توجه نشان دادند و به افزایش ارزش Open AI به 29 میلیارد دلار آمریکا منجر شد. راهاندازی چت جیپیتی در نوامبر گذشته، پایههای گوگل را تکان داد. چت بات محبوب چنان تهدیدی برای تجارت این شرکت به شمار میرفت که مجبور شد عملکرد خود را قرمز اعلام کند و شروع به سرمایهگذاری برای دستیابی به فناوری هوش مصنوعی مولد کرد. این تلاش نهتنها به انتشار Google Bard بلکه جمینی (Gemini) نیز منجر شده است. گوگل در آخرین اعلامیه خود در کنفرانس «گوگل نکست» در سانفرانسیسکو اعلام کرد که تمام مراحل را طی کرده است و طیف گستردهای از فناوریها و مشارکتهای جدید هوش مصنوعی را نشان میدهد. به نظر میرسد جمینی برای مقابله مستقیم با پیشرفتهای اخیر Open AI و مایکروسافت طراحی شده است، هجوم نوآوریهای گوگل نشاندهنده تغییر موقعیت تهاجمی آن در چشمانداز هوش مصنوعی است. با وجود اینکه گوگل در مراحل اولیه توسعه قرار دارد، پیشرفتهای قابل توجهی را در قابلیتهای چندوجهی جمینی گزارش میدهد که از الگوهای قبلی پیشی گرفته است. قابل توجه است که جمینی از ابتدا با یک رویکرد طراحی چندوجهی در نظر گرفته شد. این طراحی نهتنها چندوجهی بودن را در اولویت قرار میدهد و به آن امکان پردازش و درک اشکال مختلف داده را میدهد، بلکه بر کارایی بالا از نظر ابزارها و ادغامهای API نیز تاکید دارد. معماری جمینی علاوه بر این آماده است تا نوآوریهای آینده، بهویژه حافظه و برنامهریزی را تسهیل کند. پیامدهای این پیشرفت قابل توجه است، زیرا به درک بهتر و تعامل با انواع مختلف دادهها اشاره میکند. در حالی که جیپیتی-4 در درک و تولید متن محاورهای مهارت دارد، جمینی با مهارت در پردازش ورودیهای مختلف، از جمله متن، تصاویر و ویدئوها، از این امر فراتر خواهد رفت. جمینی همچنین قادر به تولید خروجی در قالب متن، فیلم، صدا، موسیقی و تصویر خواهد بود. علاوه بر این، دارای قابلیت استدلال و توانایی تسهیل ترجمه در زبانهای مختلف و فرمتهای ورودی خواهد بود. علاوه بر این، در میان کارمندان گوگل حول محور استفاده از جمینی برای عملکردهای مختلف بحثهای مختلفی در گرفته است. این موضوع شامل کارهایی مانند تجزیه و تحلیل نمودارها، تولید تصاویر گرافیکی همراه با توضیحات متنی، و اجرای نرمافزار از طریق متن یا دستورات صوتی است.
جمینی صنعت هوش مصنوعی را متحول میکند
جمینی یک موتور جستوجوی چندوجهی است که قدرت آن پنج برابر چت جیپیتی است. جمینی با تعداد تراشهای بسیار بالاتر و قدرتمند آمده است تا چت جیپیتی را بهعنوان مطرحترین قالب هوش مصنوعی مولد در این سیاره از بین ببرد. گوگل همچنین طیف قابل توجهی از ابزارهای مبتنی بر هوش مصنوعی را در این الگو به نمایش گذاشت که عمدتاً برنامههای کاربردی سازمانی را هدف قرار میدهند. به عنوان مثال، «هوش مصنوعی Duet در فضای کاری» به کاربران در تهیه پیشنویس ایمیل، ایجاد اسناد و تولید تصاویر سفارشی در برنامههای گوگل کمک میکند. گوگل اعلام کرد که این افزوده در پاسخ به تقاضای شدید مشتریان است و قبلاً به وسیله بیش از یک میلیون کاربر آزموده شده است. گوگل در ادامه پیشرفتهای خود، نسخه جدید الگوی متنی خود را به نام PaLM معرفی کرد که برای تسهیل پردازش اسناد متنی گستردهتر مانند خلاصههای حقوقی و کتابها طراحی شده است. ابزار جذابی به نام SynthID نیز معرفی شده است. این فناوری میتواند تصاویر تولیدشده از طریق هوش مصنوعی را بهطور نامحسوس واترمارک (واتر مارک یک لوگو، متن یا الگویی است که از قصد روی یک تصویر قرار داده میشود) کند و فایل دیجیتال را بهگونهای تغییر دهد که برای انسان نامرئی باشد، اما برای مقاومت در برابر هرگونه تغییر یا دستکاری تصویر طراحی شده است. همکاری مشترک Google Brain و Deep Mind، همراه با راهاندازی قریبالوقوع جمینی، نشاندهنده چالشهای بالقوه برای رقبایی مانند Open AI است. با توجه به اینکه سرگئی برین و دیگر افراد برجسته تلاشهای هوش مصنوعی گوگل را تقویت میکنند، زمینه برای پیشرفتهای مخرب نیز فراهم شده است. نکته قابل توجه این است که آموزش جمینی در ویدئوهای یوتیوب به آن مزیت منحصربهفردی میدهد و آن را قادر میکند علاوه بر متن و تصاویر، دادههای ویدئویی را پردازش کند و از قابلیتهای جیپیتی-4 پیشی بگیرد. نفوذ جمینی در ابعاد مختلف فراتر از پیشینیان خود است. گزارشها حاکی از آن است که آموزش جمینی شامل دو برابر تعداد توکنها در مقایسه با جیپیتی-4 و ده برابر PalM2 است که بسیار قابل توجه است. این پیشرفتهای اساسی جمینی را به عنوان یک پیشتاز در مسابقه هوش مصنوعی مطرح میکند.
تقویت خدمات سازمانی
گوگل به جمینی امید بسته است تا طیف گستردهای از خدمات را تقویت کند. این برنامهها از روبات چت بارد که با چت جیپیتی و اوپن ایآی رقابت میکند تا پلتفرمهای سازمانی مانند Google Docs و Slides را شامل میشود. برای دستیابی به این هدف، گوگل در نظر دارد از توسعهدهندگان برنامه برای دسترسی به جمینی از طریق بخش اجاره سرور Google Cloud خود هزینه دریافت کند. در حال حاضر، Google Cloud از طریق Vertex AI به الگوهای نهچندان پیشرفتهتر طراحیشده از سوی گوگل دسترسی پیدا میکند. با ترکیب این ویژگیهای جدید، گوگل قصد دارد فاصله خود را با مایکروسافت که در ادغام ویژگیهای جدید هوش مصنوعی در مجموعه آفیس 365 به پیشرفت قابل توجهی رسیده است، کاهش دهد.
مایکروسافت همچنین الگوهای اوپن ایآی را به کاربران برنامههای خود ارائه کرده است. گوگل در حال گسترش قابلیتهای ابری خود نیز هست و 20 الگوی جدید هوش مصنوعی را به مجموعه موجود خود اضافه کرده است و تعداد کل را به 100 رسانده است. به عنوان بخشی از این کار، گوگل به مشتریان ابری سازمانی خود دسترسی به مدل (AI LLaMa) شرکت متاپلتفرمز (شرکت فیسبوک) و استارتآپ (Anthropic’S Claude) را ارائه میدهد.
تراشههای هوش مصنوعی سفارشی و قابلیتهای ابررایانه
پیش از راهاندازی واحد پردازش تانسور (آرایه چندبعدی) نسل پنجم (TPU)، گوگل نسخهای بهینهسازی شده برای genAI و الگوهای زبان گسترده به نام TPU v5e را در دسترس قرار داده است. این تراشه بخشی از چیزی است که گوگل از آن به عنوان یک «ابرکامپیوتر» یاد میکند؛ متشکل از 256 تراشه (TPU v5e) که میتوانند برای رفع چالشهای محاسباتی پیچیده به هم متصل شوند.
مشارکتهای جدید و برنامههای آینده
قابل توجه است که گوگل مشارکتهای جدیدی را با شرکتهایی مانند جنرالموتورز و استیلادر تضمین کرده است که مستقیماً همکاریهای قبلی اوپن ایآی با این سازمانها را به چالش میکشد. این شرکت همچنین از یک توافق چندساله با دولت السالوادور با تمرکز بر دیجیتالی کردن بخشهای دولتی، مراقبتهای بهداشتی و آموزشی این کشور خبر داده است.
موارد استفاده در پزشکی
گوگل در ادغام الگوهای هوش مصنوعی خود برای توسعه در زمینه پزشکی بسیار تلاش کرده است. این شرکت در حال آزمایش یک ابزار هوش مصنوعی به نام MED-2PALM است که به پرسشهای پزشکی پاسخ میدهد. این محصول در موسسههای بهداشتی مشهوری مانند بیمارستان تحقیقاتی مایوکلینیک آزمایش میشود. این تلاشها را میتوان با جمینی گستردهتر کرد و در چتروباتهای پزشکی یا روباتیک برای انجام جراحیها یا کمک به روشهای پزشکی استفاده کرد.
ساخت روباتهای فوقالعاده باحال
علاوه بر این، گوگل همچنین ممکن است به دنبال ادغام بینشهای خود از ساخت DeepMind’s Gato، یک سیستم «عمومی» باشد که برای تکمیل 604 کار از طریق آموزش چندوجهی و چندوظیفهای، از جمله شرح تصویر، گفتوگو و بازوی روباتی آموزش دیده است. جنبه منحصر بهفرد گاتو تنوع وظایف و رویکرد آموزشی آن است که از یک شبکه عصبی ترانسفورماتور و روشهای مختلف داده مانند متن، تصاویر و... استفاده میکند. در طول استقرار، گاتو اعلانها و مشاهدات را نشانهگذاری میکند تا اقدامات را به صورت متوالی ایجاد کند. به طور مشابه، با راهاندازی اخیر RT-2، که مبتنی بر معماری ترانسفورماتور است و بر روی متن و تصاویر وب آموزش داده شده است، آن را قادر میکند تا به طور مستقیم اقدامات روباتیک را تولید کند. مشابه الگوهای زبان، از دادههای وب یاد میگیرد تا رفتار روبات را هدایت کند. این نوآوری مبتنی بر الگوهای زبان بینایی مانند VLM PaLI-X و PaLM-E است و با استفاده از زبان بینایی روی عمل خروجی یعنی رفتار تعیین شده برای روباتها نظارت میکند.
Google Deep Mind با عرضه اخیر RT-2 خود که جانشین مدل روباتیکس ترانسفورمر است، جهشی به جلو در زمینه روباتیک نیز داشته است. RT-2 مبتنی بر معماری ترانسفورماتور است و بر روی متن و تصاویر وب آموزش داده شده است که به آن امکان میدهد مستقیماً اقدامات روباتیک را ایجاد کند.
امتیاز قیمت و در دسترس بودن
گوگل این ابزارهای مبتنی بر هوش مصنوعی را با قیمت ماهانه 30 دلار برای هر کاربر در دسترس مشتریان سازمانی قرار داده است. این شرکت همچنین به عرضه پیشنهادهای بیشتر با هدف بخشهای مختلف مشتریان، از جمله کسبوکارهای کوچک و متوسط و مصرفکنندگان اشاره کرد. اعلامیههای گسترده گوگل نشاندهنده تلاشی هماهنگ برای بازپسگیری کانون توجه در نوآوری هوش مصنوعی و مقابله با استراتژیهای رقبایی مانند اوپن ایآی و مایکروسافت است. با این ابزارها و مشارکتهای جدید، گوگل بهشدت خود را به عنوان یک راهحل فراگیر برای نیازهای هوش مصنوعی سازمانی معرفی میکند.