رمزگشایی از مغز
هوش مصنوعی چگونه قدرت تکلم میدهد؟
هوش مصنوعی (AI) هوش ماشینها یا نرمافزارهاست که برخلاف هوش انسانها یا حیوانات ساخته دست بشر است. برنامههای کاربردی هوش مصنوعی شامل موتورهای جستوجوی وب پیشرفته (جستوجوی گوگل)، سیستمهای توصیه (استفادهشده به وسیله یوتیوب، آمازون و نتفلیکس)، درک گفتار انسان (مانند سیری و الکسا)، ماشینهای خودران (مانند Waymo)، مولد یا ابزارهای خلاقانه (ChatGPT و AIart)، و رقابت در بالاترین سطح در بازیهای استراتژیک (مانند شطرنج و Go) است. هوش مصنوعی به عنوان یک رشته دانشگاهی در سال 1956 شناخته شد. اما این رشته فرازونشیبهای بسیاری را تا امروز از سر گذرانده است. بسیاری با نقدهای مثبت و بسیاری با نقدهای منفی از این رشته استقبال کردند، اما از سال 2012، هر روز جایگاهی مهمتر در زندگی بشر به خود اختصاص داده است.
اهداف هوش مصنوعی
استدلال، حل مساله: پژوهشگران اولیه الگوریتمهایی را طراحی کردند و توسعه دادند که استدلال گامبهگام را تقلید میکردند که انسانها هنگام حل پازل یا استنتاجهای منطقی از آن استفاده میکردند. در اواخر دهههای 1980 و 1990 روشهایی برای تکمیل اطلاعات نامشخص یا ناقص، با استفاده از مفاهیم احتمالات و اقتصاد در هوش مصنوعی به کار گرفته شد. البته بسیاری از این الگوریتمها استدلال کافی برای حل مسائل بزرگ را نداشتند؛ حتی انسانها به ندرت از روش استنتاج گامبهگام که الگوریتمهای اولیه هوش مصنوعی میتوانست الگوسازی کند استفاده میکنند. مردم بیشتر مشکلات کوچک خود را با قضاوتهای آنی و شهودی حل میکنند. دستیابی به استدلال دقیق و کارآمد برای حل یک مشکل بزرگ کاری دشوار است.
بازنمایی دانش: بازنمایی دانش و مهندسی دانش به برنامههای هوش مصنوعی اجازه میدهد تا به پرسشها به صورت هوشمندانه پاسخ دهند و درباره حقایق دنیای واقعی استنتاج کنند. این پاسخ میتواند در قالب یک تصویر، یک پاراگراف کوتاه و حتی یک فایل صوتی کوتاه اما جامع باشد.
برنامهریزی و تصمیمگیری: «عامل» چیزی است که در دنیا دست به اقداماتی بزند. یک عامل منطقی اهداف یا اولویتهایی دارد و برای تحقق آنها اقداماتی انجام میدهد. عامل در برنامهریزیهایش هدف خاصی را دنبال میکند و در تصمیمگیریهایش ابتدا اولویتبندی میکند- برخی موقعیتها وجود دارند که ترجیح میدهد در آن قرار بگیرد و از قرار گرفتن در برخی موقعیتها اجتناب میکند. عاملی که دارای قدرت تصمیمگیری است، به هر موقعیت عددی اختصاص میدهد که میزان ترجیح عامل برای قرارگیری در آن موقعیت را اندازه میگیرد. بنابراین هوش مصنوعی میتواند به ما کمک کند که بر اساس اهداف و اولویتهایمان به استقبال کدام موقعیت برویم.
هوش اجتماعی: اینجا صحبت از موجوداتی است که عاطفه و احساس ندارند، اما تظاهر به داشتن احساس میکنند. سیستمهایی که این کار را انجام میدهند در اصل رابطهایی میان موجودات بیعاطفه و محاسبات عاطفی هستند که شامل سیستمهایی میشود که احساسات، عواطف و خلقوخوی انسان را تشخیص داده و تفسیر، پردازش یا شبیهسازی میکند. برای مثال، برخی از دستیاران مجازی طوری برنامهریزی شدهاند که صحبت یا حتی شوخی میکنند. این باعث میشود که آنها نسبت به پویایی عاطفی تعامل انسانی حساستر به نظر برسند یا تعامل انسان و رایانه را تسهیل کنند. با این حال، این تمایل به کاربران سادهلوح تصوری غیرواقعی از هوشمندی عوامل رایانهای موجود میدهد. موفقیتهای متوسط مربوط به محاسبات عاطفی شامل تجزیه و تحلیل احساسات متنی و اخیراً، تجزیه و تحلیل احساسات چندوجهی است که در آن هوش مصنوعی تاثیرات نمایش دادهشده از طریق یک سوژه ضبطشده را طبقهبندی میکند.
هوش مصنوعی یاریگر پزشکی
اگرچه تلفنهای هوشمند و شبکههای اجتماعی روزبهروز بیشتر به زندگی ما راه مییابند، اما ارتباط کلامی رایجترین روش تعامل میان مردم است. با این حال، برخی از افراد به دلیل ناتوانی جسمی یا بیماری، بدون توانایی صحبت کردن به دنیا میآیند یا ممکن است ناگهان قدرت تکلمشان را در اثر یک سانحه یا بیماری از دست بدهند. اکنون پیشرفت در فناوریهایی که فعالیت مغز را به صدا یا متن تبدیل میکنند راه را برای برقراری ارتباط از طریق سیگنالهای مغزی هموار میکنند که میتواند زندگی افراد دارای معلولیت را بسیار بهبود ببخشد. از دهه 1990، عصبشناسان و دانشمندان کامپیوتر از هوش مصنوعی برای پر کردن شکاف میان افکار افراد و اقداماتی که میخواهند انجام دهند، استفاده میکنند. رابطهای مغز و رایانه (BCI) از سیگنالهای الکتریکی استفاده میکنند تا وقتی فرد چیزی را تصور میکند، مانند حرکت بازوی خود، رایانه فرمان میدهد و اندام روباتیک به حرکت درمیآید. سیگنالهای مغزی را میتوان به صورت غیرتهاجمی با استفاده از الکتروانسفالوگرافی (EEG) اندازهگیری کرد؛ روشی که در آن الکترودهایی روی پوست سر قرار میگیرد. برای بسیاری از افرادی که دچار فلج هستند و قادر به صحبت کردن نیستند، سیگنالهایی از آنچه میخواهند بگویند در مغز آنها پنهان میشود. تاکنون هیچکس نتوانسته است مستقیماً از آن سیگنالها رمزگشایی کند. اما سه تیم تحقیقاتی اخیراً در تبدیل دادههای الکترودهای قرار دادهشده بر روی مغز به گفتار کامپیوتری به پیشرفتهایی دست پیدا کردهاند. آنها با استفاده از الگوهای محاسباتی معروف به شبکههای عصبی، کلمات و جملاتی را بازسازی کردند که در برخی موارد برای شنوندگان انسانی قابل درک بود.
کنجکاوی در مورد مغز
سئو هیون لی، مهندس اعصاب از دپارتمان مهندسی مغز در دانشگاه کره، در سئول، کره جنوبی، میگوید: «به عنوان یک دانشجوی جوان همیشه کنجکاوم بدانم مغز چگونه کار میکند. اما در مقام یک دانشجوی دکترا، میخواهم بیشتر به کشف اسرار آن بپردازم. با شناسایی فعالیت مغزی که با فکر کردن به کلمات خاص ایجاد میشود، امیدوارم بتوانیم فناوری ایجاد کنیم که به افرادی که نمیتوانند صحبت کنند یا توانایی صحبت کردن خود را از دست دادهاند کمک کند. تبدیل سیگنالهای مغز به گفتار طبیعی چالشبرانگیز است، زیرا دادههای EEG بسیار پرسروصدا هستند، بنابراین، توسعه هوش مصنوعی پیشرفته که میتواند ویژگیهای کلیدی را از دادهها انتخاب کند بسیار هیجانانگیز است. موفقیتهایی در تولید گفتار از سیگنالهای به دستآمده از الکترودهای کاشتهشده در جراحی یا زمانی که بیماران با صدای بلند صحبت میکردند، حاصل شده است. با این حال، برای فعال کردن «مکالمه بیصدا» برای کاربردهای گستردهتر در زندگیمان، مانند تولید متن در رایانه بدون تایپ روی صفحهکلید، تکنیکهای سادهتر و کمتر تهاجمی بسیار مهم خواهد بود. سئو هیون لی، استاد هوش مصنوعی و مهندسی مغز در دانشگاه کره، میگوید: «ما اکنون بهشدت به تولید صداها بدون نیاز به کاشت الکترود در مغز و تنها از طریق گفتار تصوری علاقهمند هستیم. گفتار تخیلی یا گفتار تصوری زمانی است که کسی تصور میکند بدون ایجاد صدا صحبت میکند یا کلمات را تقلید میکند. آزمایشگاه لی که موسسه برنامهریزی و ارزیابی فناوری اطلاعات و ارتباطات (IITP) آن را پشتیبانی میکند، متخصص تشخیص الگو و یادگیری ماشینی با تمرکز بر الگوهای سیگنالهای مغزی مرتبط با گفتار است. لی میگوید: «هدف اصلی پژوهش ما استفاده از این الگوها برای تجزیه و تحلیل آنچه یک فرد در حال فکر کردن به آن است و پیشبینی آنچه میخواهد بگوید است. فناوری BCI کنونی عمدتاً مبتنی بر متن و صداست، اما در آینده امیدواریم از سیگنالهای مغزی در گفتار تصوری استفاده کنیم، زیرا این سیگنالها میتوانند بسیار مستقیم و شهودی باشند.
یک رویکرد متفکرانه
دانشمندان با مطالعه بر روی عملکرد مغز چند نکته کلیدی را در هوش مصنوعی با هم ترکیب میکنند و حاصل آن ابزارهایی از جمله BCI است؛ ابزارهای یادگیری عمیق که ویژگیهای قابل توجهی را از سیگنالهای پیچیده مغز دریافت میکنند. در چنین سیستمی، فرد تصور میکند که میگوید «حالت چطور است؟»، EEG سیگنالهای ایجادشده از طریق این فکر را ضبط میکند، پیام را با استفاده از سیگنالهای مغز رمزگشایی میکند و در نهایت، صدای کاربر را پخش میکند. مساله دیگر این است که برخلاف کلام گفتاری، کلام خیالی هیچ رکورد صوتی ندارد که هوش مصنوعی بتواند آن را بررسی کند، و همچنین صدای مورد نیاز برای آموزش ترکیبکننده گفتار را ندارد. سئو هیون لی میگوید: «ما باید شروع دقیق گفتار تصوری را در سیگنالهای مغز شناسایی کنیم و این سیگنالها را با صدای کاربر مربوطه مطابقت دهیم.» سئو هیون لی همچنین در پژوهشهایش به این نکته رسیده است که، «ما ویژگیهای مشترکی را بین دو نوع گفتار مشاهده کردیم، مانند زمان، مکان و شدت سیگنالهای الکتریکی، و همچنین الگوهای فضایی مشابه، با هر دو نوع گفتار که مناطق مشابهی را از لوب تمپورال چپ و قشر پیشانی روشن میکنند».
تبدیل سیگنالهای مغز به گفتار
این تیم در حال کار بر روی یک نمونه مجازی است تا با ترکیب هوش مصنوعی با فناوری اطلاعات و ارتباطات و تولید دادههای بزرگ و روباتیک خانهها را هوشمند کند، به طوری که افراد دارای معلولیت قادر خواهند بود گرمایش، روشنایی، سرگرمی و وسایل خود را بهسادگی با فکر کردن کنترل کنند. سئو هیون لی میگوید: «ما هنوز از ترکیب جملات کامل با صدای طبیعی، فراتر از سطح کلمه، از گفتار تصوری فاصله داریم، اما در حال تلاش برای یافتن راههای بالقوه برای بهبود تکنیک خود هستیم.» او امیدوار است که بتوانند در دهه آینده به این هدف برسند تا نقشی تاثیرگذار بر زندگی بیماران بازی کنند. افراد دارای معلولیت یا بیماریهایی مانند اسکلروز جانبی آمیوتروفیک (ALS) (یک بیماری پیشرونده سیستم عصبی) ممکن است در نهایت توانایی صحبت کردن خود را از دست بدهند. «از فناوری مغز به گفتار میتوان برای ضبط مکالمه این افراد در حالی که هنوز قادرند صحبت کنند استفاده کرد، بنابراین آنها میتوانند یک روز دوباره با صدای خود صحبت کنند. در حال حاضر، فناوریهای هوش مصنوعی به کمک افرادی میآید که توانایی صحبت کردن خود را از دست دادهاند، و به آنها امکان میدهد کلمات و حروف را با حداقل حرکات کنترل مکاننما روی صفحه انتخاب کنند. سپس یک سینتیسایزر گفتار متن را پردازش میکند. استیون هاوکینگ، فیزیکدان معروف که از بیماری اسکلروز جانبی آمیوتروفیک رنج میبرد، دقیقاً از این طریق میتوانست سخنرانی کند. با این حال، این ابزار نقاط ضعفی نیز دارد. نقطه ضعف اصلی آن سرعت یا فقدان آن است. کاربر فقط میتواند 10 کلمه در دقیقه صحبت کند. برای مقایسه، سخنرانان در حالت عادی میتوانند حدود 150 کلمه در دقیقه صحبت کنند.
برطرف کردن نقاط ضعف
پژوهشگر هندی، دکتر ویشال ناندیگانا، اخیراً به کشفی نوآورانه در علم گفتار دست یافته است. پژوهشگران تیم او راهحلی ابداع کردهاند که میتواند سیگنالهای مغزی افراد مبتلا به اختلالات گفتاری را با صدای بلند به جملات کامل انگلیسی تبدیل کند. این فناوری سیگنالهای الکتریکی مغز را با استفاده از قوانین فیزیکی و تبدیلهای ریاضی رمزگشایی میکند. سپس این سیگنالهای مغزی به داده تبدیل میشوند. اما هنوز کار برای انجام دادن وجود دارد. برای اینکه این دادههای گفتاری تفسیر شوند، پژوهشهای بیشتری برای تبدیل سیگنالهای جریان یونی کنترلشده الکتریکی به یک پیام خاص مورد نیاز است. هنگامی که دانشمندان دادههای الکتروفیزیولوژیک کافی را از متخصصان مغز و اعصاب گرفتند، باید بتوانند آنچه افراد مبتلا به اختلالات گفتاری میخواهند با سهولت بیشتری بیان کنند را، تشخیص دهند. یکی دیگر از کاربردهای جالب این پژوهش، تفسیر سیگنالهای ارسالشده از طریق طبیعت است. دانشمندان به فتوسنتز یا واکنش گیاه به آبوهوا و پدیدههای خارجی اشاره میکنند. سیگنالهای داده ارسالشده از طریق گیاهان به طور بالقوه میتوانند به عنوان پیام خوانده شوند. در آینده، مردم ممکن است بتوانند واکنشهای طبیعت را تفسیر کنند. این موضوع به پیشبینی پدیدههای آبوهوایی خطرناک و بلایای طبیعی مانند بادهای موسمی، زلزله، سیل و سونامی کمک میکند. همه اینها را میتوان با کمک هوش مصنوعی و الگوریتمهای یادگیری عمیق انجام داد. اگرچه این فناوریها در حال حاضر فقط در مرحله آزمایشگاهی هستند، اما این امید را ایجاد میکنند که ما به راهحلهایی برای برخی از پیچیدهترین چالشهای زندگی دست یابیم.