جستجوی طولانی دانشمندان برای کامپیوتری که حرفهای ذهن شما را بیان کند
سیستمهای جدید رابط مغز و کامپیوتر درحال استفاده از دادههای مغز برای تولید گفتار در زمان واقعی هستند تا به افراد فاقد قدرت تکلم، توانایی صحبت کردن بدهند.
ساختار پژوهش جدیدی درزمینهی استفاده از رابط مغز و کامپیوتر برای ایجاد گفتار، به این شکل است که زنی با استفاده از میکروفون به زبان هلندی صحبت میکند، درحالیکه ۱۱ سوزن ریز ساختهشده از پلاتین و ایریدیوم امواج مغزی او را ثبت میکنند. این داوطلب ۲۰ ساله مبتلا به صرع است و پزشکانش آن قطعات فلزی را که طول آنها دو میلیمتر است (که هریک با حداکثر ۱۸ الکترود پوشانده شده است) را به قسمت جلو و سمت چپ مغز او متصل کردهاند، با این امید که منشا تشنجهای او را پیدا کنند. اما آن بخش کوچک طب سوزنی عصبی همچنین برای تیم جداگانهای از پژوهشگران فرصت خوبی فراهم کرده است، زیرا الکترودها با بخشهایی از مغز او در تماس هستند که مسئول تولید و تلفظ کلمات هستند.
این قسمت جالب کار است. پس از اینکه زن صحبت میکند (این بخش «گفتار آشکار» نامیده میشود) و پس از اینکه کامپیوتری به صورت الگوریتمی صداهای او را با فعالیت درون مغز او متناظر میکند، پژوهشگران از او میخواهند تا این کار را دوباره انجام دهد. این بار او بسیار به آهستگی نجوا میکند و کلمات را با دهان، زبان و فک خود با حالت بدون صدا اجرا میکند. این بخش «گفتار موردنظر» است. سپس او همهی این کارها را یک بار دیگر انجام میدهد، اما بدون هیچ حرکتی. در اینجا، پژوهشگران از او خواستهاند که صرفا گفتن آن کلمات را تصور کند.
این نسخهای از نحوهی صحبت کردن مردم بود، اما به شکل معکوس. در زندگی واقعی، ما ایدههای بیصدا را در بخشی از مغز خود آماده میکنیم، بخش دیگر آنها را به کلمات تبدیل میکند و سپس بخشهای دیگر حرکت دهان، زبان، لبها و حنجره را کنترل میکنند که حاصل آن ایجاد صداهای قابلشنیدن در فرکانسهای مناسب برای تولید گفتار است.
در اینجا، کامپیوترها به ذهن زن اجازه میدهند تا این توالی را رعایت نکند. آنها فعالیت مغز وی را زمانی که درمورد کلمات فکر میکرد (گفتار تجسمشده)، ثبت کردند و توانستند در زمان واقعی، سیگنالی شنیداری را مبتنیبر سیگنالهایی که از مغز او دریافت کرده بودند، اجرا کنند. صداها بهعنوان کلمه قابل درک نبودند و این پژوهش که در پایان سپتامبر منتشر شد، تاحدودی مقدماتی است. اما این واقعیت که آنها با سرعت میلیثانیهای از فکر و عمل اتفاق افتادند، نشاندهنده پیشرفت شگفتانگیزی در مسیر کاربرد تازهای از رابطهای مغز و کامیپوتر است: بخشیدن صدا به افرادی که نمیتوانند صحبت کنند.
ناتوانی مذکور «انارتریا» نامیده میشود و ناشی از اختلال عصبی یا آسیب مغزی است. این وضعیت، ناتوانکننده و وحشتناک است، اما مبتلایان چندین راه برای مقابله با آن دارند. افراد مبتلا به انارتریا، بهجای گفتار مستقیم، ممکن است از ابزارهایی استفاده کنند که حرکت قسمتهای دیگر بدن آنها را به حروف یا کلمات ترجمه میکند؛ حتی یک چشمک نیز کارساز است.
اخیر رابط مغز و کامپیوتری درون قشر مغز فرد مبتلا به سندرم قفلشدگی کاشته شد که به وی اجازه داد تا دستنوشتههای تجسمشده را به خروجی ۹۰ کاراکتر در دقیقه ترجمه کند. این دستاورد خوب است، اما عالی نیست. مکالمهی گفتاری معمول در زبان انگلیسی شامل حدود ۱۵۰ کلمه در دقیقه میشود.
مشکل این است که فرمولبندی و تولید گفتار واقعا پیچیده است و به بازخورد بستگی دارد: یک چرخهی ۵۰ میلیثانیهای بین زمانی که چیزی میگوییم و زمانی که خودمان آن را میشنویم، وجود دارد.
چرخهی مذکور همان چیزی است که به افراد امکان میدهد تا کیفیت گفتار خود را در زمان واقعی کنترل کنند و نیز همان چیزی است که به انسان اجازه میدهد تا در وهلهی اول صحبت کردن را یاد بگیرد: شنیدن زبان، تولید صدا، شنیدن اینکه خودمان آن صداها را تولید میکنیم (ازطریق گوش و قشر شنوایی) و مقایسهی آنچه انجام میگوییم با چیزی که در تلاش برای گفتن آن هستیم.
مشکل این است که برای بهترین رابطهای مغز و کامپیوتر (BCI) و کامپیوترها زمان بسیار بیشتری طول میکشد تا از دادههای مغز به تولید صدا برسند. اما پژوهشگرانی که با این زن هلندیزبان کار میکنند، این کار را تنها در ۳۰ میلیثانیه انجام دادند.
البته، صداهایی که سیستم آنها تولید میکرد، نامفهوم بود و شبیه کلمات بهنظر نمیرسید. اگر این موضوع بهبود پیدا کند، ازنظر تئوری، آن چرخه باید به اندازه کافی سریع باشد که بازخوردی را ایجاد کند که به کاربر امکان دهد روی چنین دستگاهی تمرین کند و به مرور زمان استفادهی بهتر از سیستم را یاد بگیرد؛ حتی اگر خودش نتواند صداهای قابلشنیدنی تولید کند.
کریستین هرف، دانشمند کامپیوتر در دانشگاه ماستریخت هلند و یکی از نویسندگان اصلی مقاله جدید میگوید بهعلت مجموعه داده محدود و زمان آزمایشی بسیار کوتاه، نتوانستیم زمان کافی برای تمرین در اختیار فرد مورد مطالعه قرار دهیم و فقط میخواستیم نشان دهیم چنین کاری امکانپذیر است.
دانشمندان علوم اعصاب حداقل ۲۰ سال است که روی دریافت سیگنالهای گفتاری از مغز افراد کار میکنند. آنها با کسب دانش بیشتر درمورد نحوهی ایجاد گفتار در مغز، از الکترودها و تصویربرداری برای اسکن فعالیت مغز حین صحبت کردن شخص، استفاده کردهاند. دانشمندان بهتدریج پیشرفت کردهاند و دادههایی به دست آوردهاند که میتواند به صداهای مصوتها و صامتها تبدیل شود. اما این کار آسان نیست.
سیاران کونی، پژوهشگر BCI در دانشگاه اولستر که روی تولید گفتار کار میکند، میگوید:
مطالعه و درک دقیق گفتار تجسمشده دشوار است. بحث جالبی در این زمینه وجود دارد، زیرا اگر بخواهیم از گفتار آشکار برای تأیید آن استفاده کنیم، باید متوجه شویم که رابطهی میان گفتار تجسمشده و گفتار آشکار چقدر نزدیک است.
درونیابی سیگنالهای بخشهایی از مغز که گفتار را فرمولبندی میکنند، دشوار است (خصوصا، شکنج پیشانی تحتانی که دسترسی به آن دشوار است).
گفتار تجسمشده فقط سرگردانی ذهن یا تکگویی درونی شما نیست و احتمالا بیشتر شبیه چیزی است که وقتی میخواهید درمورد آنچه باید بگویید، فکر کنید، در گوش ذهن خود میشنوید.
مقالهی مرتبط:تبدیل امواج مغزی به جملات به کمک هوش مصنوعیدانشمندان سیگنالهای مغز را به گفتار تبدیل کردندمغز چگونه به رمزگشایی از گفتار میپردازد
روشی که مغز برای انجام این کار دارد، ممکن است از چیزی که از دهان شما خارج میشود، متفاوت باشد (ازنظر نحوی، آواشناسی و سرعت). افراد مختلف ممکن است اطلاعات را به شکل منحصربهفردی در آن بخشهای مغز رمزگذاری کنند. همچنین، قبل از اینکه دهان کاری انجام دهد، هرآنچه بخشهای زبانی مغز انجام میدهند، باید به قشر پیشحرکتی و حرکتی برود که حرکات فیزیکی را کنترل میکنند.
اگر میخواهید سیستمی بسازید که توسط افرادی که نمیتوانند صحبت کنند، استفاده شود، باید به این موضوع توجه کنید که آنها کلمات خود را ندارند تا بتوانید از آنها برای اعتبارسنجی و تأیید سیستمی که گفتار را تولید میکند، استفاده کنید. هر پروتزی که به کمک BCI کار میکند، به آن نوع اعتبارسنجی و آموزش نیاز دارد. بهگفتهی هرف، مشکل گفتار تجسمشده این است که نتیجهی قابلمشاهدهای نداریم.
در سال ۲۰۱۹، گروهی از پژوهشگران دانشگاه کالیفرنیا در سانفرانسیسکو راهحل ظریفی ارائه کردند. آنها از افراد مورد مطالعه خواستند تا صحبت کنند و سیگنالهای نهتنها بخشهایی از مغز را که مسئول تولید کلمات بودند (قشر پیشانی تحتانی) ثبت کردند، بلکه همچنین سیگنالهای مناطق کنترلکننده حرکت دهان، زبان، فک و موارد دیگر را ثبت کردند.
پژوهشگران سپس سیستم یادگیری ماشینی را ساختند که میتوانست آن سیگنالها را به نسخه مجازی از حرکات مکانیکی گفتار تبدیل کند. سیستم آنها میتوانست کلمات قابل درک را تولید کند اما نه در زمان واقعی. این رویکرد «سیستم حلقهباز» نامیده میشود. آن تیم تحت هدایت ادی چانگ، عصبشناس دانشگاه کالیفرنیا (رقبای علمی تیمی که با زن هلندی زبان کار میکنند و تحت حمایت مالی شرکتی که قبلا فیسبوک نام داشت، قرار دارند) از آن زمان موفقیت چشمگیری دیگری را منتشر کردهاند.
آنها الکترودهایی را درون و اطراف مراکز قشری گفتار فردی جاسازی کردند که پس از سکته مغزی قدرت تکلم خود را از دست داده بود. پس از یک سال و نیم آموزش، آنها سیستمی داشتند که میتوانست از میان ۵۰ کلمه، کلمه موردنظر فرد را بگوید.
با کمک الگوریتمی که میتوانست پیشبینی کند کدام کلمه به احتمال زیاد به دنبال دیگری میآید، این سیستم به فرد کمک کرد تا ازطریق تولیدکنندهی گفتار، جملات هشت کلمهای را با سرعت حدود ۱۲ کلمه در دقیقه، صحبت کند. این اولین آزمایش واقعی در این زمینه است که یک فرد مبتلا به انارتریا چقدر کارآمد میتواند از چنین سیستمی استفاده کند. گفتار مصنوعی، هنوز در زمان واقعی ایجاد نشده بود، اما وجود کامپیوترهای بهتر بهمعنای افزایش سرعت و بهبود نتیجه است. گوپالا آنومانچیپالی، مهندس کامپیوتر و عصب در دانشگاه کالیفرنیا که روی این پژوهش کار میکرد، میگوید: «ما توانستیم از سیگنالهای نجواشده و نمایش بیکلام او برای تولید و رمزگشایی خروجی زبان استفاده کنیم. ما در مسیر تولید گفتار در زمان واقعی برای آن فرد قرار داریم».
آن رویکرد، با تمرکز روی واژهنامه ۵۰ کلمه، به کار تیم چانگ دقت و قابلیت فهم بهتری داد، اما محدودیتهایی نیز دارد. بدون حلقهی بازخورد، اگر کامپیوتر کلمهای را اشتباه متوجه شود، کاربر نمیتواند آن را تصحیح کند. علاوهبراین، ۸۱ هفته طول میکشد تا فرد یاد بگیرد آن ۵۰ کلمه را تولید کند. تصور کنید دستیابی به هزار کلمه چقدر طول خواهد کشید. فرانک گونت، عصبشناس گفتار در دانشگاه بوستون که روی پروژه کار نکرده است، میگوید:
هرچه کلمات بیشتری به این سیستم اضافه کنید، مسئله بغرنجتر میشود. اگر ۱۰۰ کلمه داشته باشید، رمزگشایی هر کلمه بسیار سختتر میشود و تعداد ترکیبها بسیار بیشتر میشود، بنابراین پیشبینی دشوارتر میشود. بیشتر مردم از هزاران کلمه استفاده میکنند و نه ۵۰ کلمه.
هدف از تلاش برای ساخت سیستم زمان واقعی مانند سیستمی که گروه هرف تلاش میکند آن را بسازد (سیستم حلقه بسته)، این است که درنهایت به کاربران اجازه دهد که نه کلمات بلکه صداها را تولید کنند. آواهایی مانند oh یا hh یا حتی هجاها یا صداهای صدادار واحدهای بنیادین گفتار هستند. با جمعآوری مجموعهای از همبستگیهای عصبی برای صداها بهطوریکه ماشین بتواند آن را درک کند، کاربر باید بتواند هر تعداد کلمهای را که میخواهد، بسازد.
گوتنر از اعضای تیمی بود که در سال ۲۰۰۹، از BCI کاشتهشده در قشر حرکتی فرد مبتلا به سندرم قفلشدگی استفاده کرد تا به وی قدرت تولید صداهای مصوت را بدهد (اما نه کلمات کامل). این کار با تأخیر ۵۰ میلیثانیهای همراه بود که قابل قبول است.
گونتر میگوید ایده پشت سیستم حلقه بسته این بود که به آنها توانایی ایجاد اکوستیک (صوتشناسی) را بدهیم که بتواند برای تولید هر صدایی استفاده شود. از سوی دیگر، سیستم ۵۰ کلمهای درصورتی که بسیار قابل اطمینان کار کند، بسیار بهتر از وضعیت فعلی خواهد بود.
مرحلهی آخر، احتمالا نیم دههی دیگر، تلفیق دقت و قابلیتفهم با صدا در زمان واقعی خواهد بود. آنومانچیپالی میگوید: «انجام این کار در زمان واقعی، مسیر مشترکی است که همهی گروههایی که روی این حوزه کار میکنند، به سمت آن میروند».
آرایههای الکترود بزرگتر و بهتر ممکن است کمک کند. این همان چیزی است که متا (فیسبوک سابق) به آن علاقه دارد و شرکت نورالینک ایلان ماسک نیز به دنبال آن است.
دادههای بیشتر از مناطق ایجاد گفتار در مغز ممکن است به قابل درک ساختن صداهای مصنوعی در زمان واقعی کمک کند و نیز مشخص کند که آیا مغز همهی افراد این کار را به روش مشابهی انجام میدهد. اگر چنین باشد، روند آموزش روی BCIهای فردی آسانتر میشود، زیرا تمام سیستمها با خط مبنای یکسانی شروع میشوند. اما اگر این کار ممکن نباشد، الگوریتمهای بهتر برای درک و پیشبینی آنچه مغز در تلاش است که انجام دهد، اهمیت بیشتری پیدا خواهد کرد. هرف میگوید:
آرایههای الکترودی که بهطور هدفمند ساخته شدهاند و ازطریق عمل جراحی در مکان دقیق گفتار قرار داده میشوند، عالی خواهد بود، اما طبق قوانین اخلاقی کنونی، انجام این کار در اروپا بسیار دشوار است. بنابراین، تمرکز کنونی ما روی استفاده از الگوریتمهای پیچیدهتری است که قادر به تولید گفتار با کیفیت بالاتر هستند و بر جنبهی آموزش تمرکز میکنند.
گروه آنومانچیپالی درحال نزدیک شدن به آن هدف است. رابطهای مغز و کامپیوتر امروزی که برای استفاده انسانی تأیید شدهاند، الکترودهای کافی را برای دریافت تمام دادههای موردنیاز دانشمندان ندارند. اگرچه بسیاری امیدوار هستند شرکتهای فناوری مانند نورالینک در این زمینه پیشرفت کنند. او میگوید:
میتوان با اطمینان گفت که درزمینه نمونهبرداری از مغز همیشه پراکنده عمل خواهیم کرد. بنابراین، کمبود باقیمانده را باید با روش الگوریتمی جبران کرد. این بهمعنای یافتن بهترین روش برای ایجاد پروتکلی است که در آن آزمودنی درحال یادگیری از سیستم و سیستم درحال یادگیری از آزمونی است.
آنومانچیپالی میگوید سیستم تولیدکننده گفتار آینده، علاوهبر الکترودهای مغز، از جریانهای بیومتریک دیگر ورودی دریافت خواهد کرد (دادههایی مانند حرکات یا حتی ضربان قلب). همچنین، هر سیستم جدید باید برای یادگیری و استفاده به اندازه کافی راحت باشد که کاربر به دلیل خستگی یا ناامیدی از آن دست نکشد. آنومانچیپالی میگوید:
فکر میکنم بسیار نزدیک این هدف هستیم و این اثبات مفهوم را داریم. پیشرفت کند بوده است، اما فکر میکنم روی رویکرد مناسب و صحیح تمرکز کردهایم. گفتار تجسمشده ممکن است دیگر در حد تجسم باقی نماند.