جستجوی طولانی دانشمندان برای کامپیوتری که حرف‌های ذهن شما را بیان کند

سیستم‌های جدید رابط مغز و کامپیوتر درحال استفاده از داده‌های مغز برای تولید گفتار در زمان واقعی هستند تا به افراد فاقد قدرت تکلم، توانایی صحبت کردن بدهند.

ساختار پژوهش جدیدی درزمینه‌ی استفاده از رابط مغز و کامپیوتر برای ایجاد گفتار، به این شکل است که زنی با استفاده از میکروفون به زبان هلندی صحبت می‌کند، درحالی‌که ۱۱ سوزن ریز ساخته‌شده از پلاتین و ایریدیوم امواج مغزی او را ثبت می‌کنند. این داوطلب ۲۰ ساله مبتلا به صرع است و پزشکانش آن قطعات فلزی را که طول آن‌ها دو میلی‌متر است (که هریک با حداکثر ۱۸ الکترود پوشانده شده است) را به قسمت جلو و سمت چپ مغز او متصل کرده‌اند، با این امید که منشا تشنج‌های او را پیدا کنند. اما آن بخش کوچک طب سوزنی عصبی همچنین برای تیم جداگانه‌ای از پژوهشگران فرصت خوبی فراهم کرده است، زیرا الکترودها با بخش‌هایی از مغز او در تماس هستند که مسئول تولید و تلفظ کلمات هستند.

این قسمت جالب کار است. پس از اینکه زن صحبت می‌کند (این بخش «گفتار آشکار» نامیده می‌شود) و پس از اینکه کامپیوتری به صورت الگوریتمی صداهای او را با فعالیت درون مغز او متناظر می‌کند، پژوهشگران از او می‌خواهند تا این کار را دوباره انجام دهد. این بار او بسیار به آهستگی نجوا می‌کند و کلمات را با دهان، زبان و فک خود با حالت بدون صدا اجرا می‌کند. این بخش «گفتار موردنظر» است. سپس او همه‌ی این کارها را یک بار دیگر انجام می‌دهد، اما بدون هیچ حرکتی. در این‌جا، پژوهشگران از او خواسته‌اند که صرفا گفتن آن کلمات را تصور کند.

این نسخه‌ای از نحوه‌ی صحبت کردن مردم بود، اما به شکل معکوس. در زندگی واقعی، ما ایده‌های بی‌صدا را در بخشی از مغز خود آماده می‌کنیم، بخش دیگر آن‌ها را به کلمات تبدیل می‌کند و سپس بخش‌های دیگر حرکت دهان، زبان، لب‌ها و حنجره را کنترل می‌کنند که حاصل آن ایجاد صداهای قابل‌شنیدن در فرکانس‌های مناسب برای تولید گفتار است.

در این‌جا، کامپیوترها به ذهن زن اجازه می‌دهند تا این توالی را رعایت نکند. آن‌ها فعالیت مغز وی را زمانی که درمورد کلمات فکر می‌کرد (گفتار تجسم‌شده)، ثبت کردند و توانستند در زمان واقعی، سیگنالی شنیداری را مبتنی‌بر سیگنال‌هایی که از مغز او دریافت کرده بودند، اجرا کنند. صداها به‌عنوان کلمه قابل درک نبودند و این پژوهش که در پایان سپتامبر منتشر شد، تاحدودی مقدماتی است. اما این واقعیت که آن‌ها با سرعت میلی‌ثانیه‌ای از فکر و عمل اتفاق افتادند، نشان‌دهنده پیشرفت شگفت‌انگیزی در مسیر کاربرد تازه‌ای از رابط‌های مغز و کامیپوتر است: بخشیدن صدا به افرادی که نمی‌توانند صحبت کنند.

ناتوانی مذکور «انارتریا» نامیده می‌شود و ناشی از اختلال عصبی یا آسیب مغزی است. این وضعیت، ناتوان‌کننده و وحشتناک است، اما مبتلایان چندین راه‌ برای مقابله با آن دارند. افراد مبتلا به انارتریا، به‌جای گفتار مستقیم، ممکن است از ابزارهایی استفاده کنند که حرکت قسمت‌های دیگر بدن آن‌ها را به حروف یا کلمات ترجمه می‌کند؛ حتی یک چشمک نیز کارساز است.

اخیر رابط مغز و کامپیوتری درون قشر مغز فرد مبتلا به سندرم قفل‌شدگی کاشته شد که به وی اجازه داد تا دست‌نوشته‌های تجسم‌شده را به خروجی ۹۰ کاراکتر در دقیقه ترجمه کند. این دستاورد خوب است، اما عالی نیست. مکالمه‌ی گفتاری معمول در زبان انگلیسی شامل حدود ۱۵۰ کلمه در دقیقه می‌شود.

مشکل این است که فرمول‌بندی و تولید گفتار واقعا پیچیده است و به بازخورد بستگی دارد: یک چرخه‌ی ۵۰ میلی‌ثانیه‌ای بین زمانی که چیزی می‌گوییم و زمانی که خودمان آن را می‌شنویم، وجود دارد.

چرخه‌ی مذکور همان چیزی است که به افراد امکان می‌دهد تا کیفیت گفتار خود را در زمان واقعی کنترل کنند و نیز همان چیزی است که به انسان اجازه می‌دهد تا در وهله‌ی اول صحبت کردن را یاد بگیرد: شنیدن زبان، تولید صدا، شنیدن اینکه خودمان آن صداها را تولید می‌کنیم (ازطریق گوش و قشر شنوایی) و مقایسه‌ی آنچه انجام می‌گوییم با چیزی که در تلاش برای گفتن آن هستیم.

رابط مغز و کامپیوتر / BCI

مشکل این است که برای بهترین رابط‌های مغز و کامپیوتر (BCI) و کامپیوترها زمان بسیار بیشتری طول می‌کشد تا از داده‌های مغز به تولید صدا برسند. اما پژوهشگرانی که با این زن هلندی‌زبان کار می‌کنند، این کار را تنها در ۳۰ میلی‌ثانیه انجام دادند.

البته، صداهایی که سیستم آن‌ها تولید می‌کرد، نامفهوم بود و شبیه کلمات به‌نظر نمی‌رسید. اگر این موضوع بهبود پیدا کند، ازنظر تئوری، آن چرخه باید به اندازه کافی سریع باشد که بازخوردی را ایجاد کند که به کاربر امکان دهد روی چنین دستگاهی تمرین کند و به مرور زمان استفاده‌ی بهتر از سیستم را یاد بگیرد؛ حتی اگر خودش نتواند صداهای قابل‌شنیدنی تولید کند.

کریستین هرف، دانشمند کامپیوتر در دانشگاه ماستریخت هلند و یکی از نویسندگان اصلی مقاله جدید می‌گوید به‌علت مجموعه داده محدود و زمان آزمایشی بسیار کوتاه، نتوانستیم زمان کافی برای تمرین در اختیار فرد مورد مطالعه قرار دهیم و فقط می‌خواستیم نشان دهیم چنین کاری امکان‌پذیر است.

دانشمندان علوم اعصاب حداقل ۲۰ سال است که روی دریافت سیگنال‌های گفتاری از مغز افراد کار می‌کنند. آن‌ها با کسب دانش بیشتر درمورد نحوه‌ی ایجاد گفتار در مغز، از الکترودها و تصویربرداری برای اسکن فعالیت مغز حین صحبت کردن شخص، استفاده کرده‌اند. دانشمندان به‌تدریج پیشرفت کرده‌اند و داده‌هایی به دست آورده‌اند که می‌تواند به صداهای مصوت‌ها و صامت‌ها تبدیل شود. اما این کار آسان نیست.

سیاران کونی، پژوهشگر BCI در دانشگاه اولستر که روی تولید گفتار کار می‌کند، می‌گوید:

مطالعه و درک دقیق گفتار تجسم‌شده دشوار است. بحث جالبی در این زمینه وجود دارد، زیرا اگر بخواهیم از گفتار آشکار برای تأیید آن استفاده کنیم، باید متوجه شویم که رابطه‌ی میان گفتار تجسم‌شده و گفتار آشکار چقدر نزدیک است.

درون‌یابی سیگنال‌های بخش‌هایی از مغز که گفتار را فرمول‌بندی می‌کنند، دشوار است (خصوصا، شکنج پیشانی تحتانی که دسترسی به آن دشوار است).

گفتار تجسم‌شده فقط سرگردانی ذهن یا تک‌گویی درونی شما نیست و احتمالا بیشتر شبیه چیزی است که وقتی می‌خواهید درمورد آنچه باید بگویید، فکر ‌‌کنید، در گوش ذهن خود می‌شنوید.

مقاله‌ی مرتبط:تبدیل امواج مغزی به جملات به کمک هوش مصنوعیدانشمندان سیگنال‌های مغز را به گفتار تبدیل کردندمغز چگونه به رمزگشایی از گفتار می‌پردازد

روشی که مغز برای انجام این کار دارد، ممکن است از چیزی که از دهان شما خارج می‌شود، متفاوت باشد (ازنظر نحوی، آواشناسی و سرعت). افراد مختلف ممکن است اطلاعات را به شکل منحصر‌به‌فردی در آن بخش‌های مغز رمزگذاری کنند. همچنین، قبل از اینکه دهان کاری انجام دهد، هرآنچه بخش‌های زبانی مغز انجام می‌دهند، باید به قشر پیش‌حرکتی و حرکتی برود که حرکات فیزیکی را کنترل می‌کنند.

اگر می‌خواهید سیستمی بسازید که توسط افرادی که نمی‌توانند صحبت کنند، استفاده شود، باید به این موضوع توجه کنید که آن‌ها کلمات خود را ندارند تا بتوانید از آن‌ها برای اعتبارسنجی و تأیید سیستمی که گفتار را تولید می‌کند، استفاده کنید. هر پروتزی که به کمک BCI کار می‌کند، به آن نوع اعتبارسنجی و آموزش نیاز دارد. به‌گفته‌ی هرف، مشکل گفتار تجسم‌شده این است که نتیجه‌ی قابل‌مشاهده‌ای نداریم.

در سال ۲۰۱۹، گروهی از پژوهشگران دانشگاه کالیفرنیا در سان‌فرانسیسکو راه‌حل ظریفی ارائه کردند. آن‌ها از افراد مورد مطالعه خواستند تا صحبت کنند و سیگنال‌های نه‌تنها بخش‌هایی از مغز را که مسئول تولید کلمات بودند (قشر پیشانی تحتانی) ثبت کردند، بلکه همچنین سیگنال‌های مناطق کنترل‌کننده حرکت دهان، زبان، فک و موارد دیگر را ثبت کردند.

پژوهشگران سپس سیستم یادگیری ماشینی را ساختند که می‌توانست آن سیگنال‌ها را به نسخه مجازی از حرکات مکانیکی گفتار تبدیل کند. سیستم آن‌ها می‌توانست کلمات قابل درک را تولید کند اما نه در زمان واقعی. این رویکرد «سیستم حلقه‌باز» نامیده می‌شود. آن تیم تحت هدایت ادی چانگ، عصب‌شناس دانشگاه کالیفرنیا (رقبای علمی تیمی که با زن هلندی زبان کار می‌کنند و تحت حمایت مالی شرکتی که قبلا فیسبوک نام داشت، قرار دارند) از آن زمان موفقیت چشمگیری دیگری را منتشر کرده‌اند.

آن‌ها الکترودهایی را درون و اطراف مراکز قشری گفتار فردی جاسازی کردند که پس از سکته مغزی قدرت تکلم خود را از دست داده بود. پس از یک سال و نیم آموزش، آن‌ها سیستمی داشتند که می‌توانست از میان ۵۰ کلمه، کلمه موردنظر فرد را بگوید.

با کمک الگوریتمی که می‌توانست پیش‌بینی کند کدام‌ کلمه به احتمال زیاد به دنبال دیگری می‌آید، این سیستم به فرد کمک کرد تا ازطریق تولیدکننده‌ی گفتار، جملات هشت کلمه‌ای را با سرعت حدود ۱۲ کلمه در دقیقه، صحبت کند. این اولین آزمایش واقعی در این زمینه است که یک فرد مبتلا به انارتریا چقدر کارآمد می‌تواند از چنین سیستمی استفاده کند. گفتار مصنوعی، هنوز در زمان واقعی ایجاد نشده بود، اما وجود کامپیوترهای بهتر به‌معنای افزایش سرعت و بهبود نتیجه است. گوپالا آنومانچیپالی، مهندس کامپیوتر و عصب در دانشگاه کالیفرنیا که روی این پژوهش کار می‌کرد، می‌گوید: «ما توانستیم از سیگنال‌های نجواشده و نمایش بی‌کلام او برای تولید و رمزگشایی خروجی زبان استفاده کنیم. ما در مسیر تولید گفتار در زمان واقعی برای آن فرد قرار داریم».

آن رویکرد، با تمرکز روی واژه‌نامه ۵۰ کلمه، به کار تیم چانگ دقت و قابلیت فهم بهتری داد، اما محدودیت‌هایی نیز دارد. بدون حلقه‌ی بازخورد، اگر کامپیوتر کلمه‌ای را اشتباه متوجه شود، کاربر نمی‌تواند آن را تصحیح کند. علاوه‌بر‌این، ۸۱ هفته طول می‌کشد تا فرد یاد بگیرد آن ۵۰ کلمه را تولید کند. تصور کنید دستیابی به هزار کلمه چقدر طول خواهد کشید. فرانک گونت، عصب‌شناس گفتار در دانشگاه بوستون که روی پروژه کار نکرده است، می‌گوید:

هرچه کلمات بیشتری به این سیستم اضافه کنید، مسئله بغرنج‌تر می‌شود. اگر ۱۰۰ کلمه داشته باشید، رمزگشایی هر کلمه بسیار سخت‌تر می‌شود و تعداد ترکیب‌ها بسیار بیشتر می‌شود، بنابراین پیش‌بینی دشوارتر می‌شود. بیشتر مردم از هزاران کلمه استفاده می‌کنند و نه ۵۰ کلمه.

هدف از تلاش برای ساخت سیستم زمان واقعی مانند سیستمی که گروه هرف تلاش می‌کند آن را بسازد (سیستم حلقه بسته)، این است که درنهایت به کاربران اجازه دهد که نه کلمات بلکه صداها را تولید کنند. آواهایی مانند oh یا hh یا حتی هجاها یا صداهای صدادار واحدهای بنیادین گفتار هستند. با جمع‌آوری مجموعه‌ای از همبستگی‌های عصبی برای صداها به‌طوری‌که ماشین بتواند آن را درک کند، کاربر باید بتواند هر تعداد کلمه‌ای را که می‌خواهد، بسازد.

ایجاد گفتار توسط مغز

گوتنر از اعضای تیمی بود که در سال ۲۰۰۹، از BCI کاشته‌شده در قشر حرکتی فرد مبتلا به سندرم قفل‌شدگی استفاده کرد تا به وی قدرت تولید صداهای مصوت را بدهد (اما نه کلمات کامل). این کار با تأخیر ۵۰ میلی‌ثانیه‌ای همراه بود که قابل قبول است.

گونتر می‌گوید ایده پشت سیستم حلقه بسته این بود که به آن‌ها توانایی ایجاد اکوستیک (صوت‌شناسی) را بدهیم که بتواند برای تولید هر صدایی استفاده شود. از سوی دیگر، سیستم ۵۰ کلمه‌ای درصورتی که بسیار قابل اطمینان کار کند، بسیار بهتر از وضعیت فعلی خواهد بود.

مرحله‌ی آخر، احتمالا نیم دهه‌ی دیگر، تلفیق دقت و قابلیت‌فهم با صدا در زمان واقعی خواهد بود. آنومانچیپالی می‌گوید: «انجام این کار در زمان واقعی، مسیر مشترکی است که همه‌ی گروه‌هایی که روی این حوزه کار می‌کنند، به سمت آن می‌روند».

آرایه‌های الکترود بزرگ‌تر و بهتر ممکن است کمک کند. این همان چیزی است که متا (فیسبوک سابق) به آن علاقه دارد و شرکت نورالینک ایلان ماسک نیز به دنبال آن است.

داده‌های بیشتر از مناطق ایجاد گفتار در مغز ممکن است به قابل درک ساختن صداهای مصنوعی در زمان واقعی کمک کند و نیز مشخص کند که آیا مغز همه‌ی افراد این کار را به روش مشابهی انجام می‌دهد. اگر چنین باشد، روند آموزش روی BCIهای فردی آسان‌تر می‌شود، زیرا تمام سیستم‌ها با خط مبنای یکسانی شروع می‌شوند. اما اگر این کار ممکن نباشد، الگوریتم‌های بهتر برای درک و پیش‌بینی آنچه مغز در تلاش است که انجام دهد، اهمیت بیشتری پیدا خواهد کرد. هرف می‌گوید:

آرایه‌های الکترودی که به‌طور هدفمند ساخته شده‌اند و ازطریق عمل جراحی در مکان دقیق گفتار قرار داده می‌شوند، عالی خواهد بود، اما طبق قوانین اخلاقی کنونی، انجام این کار در اروپا بسیار دشوار است. بنابراین، تمرکز کنونی ما روی استفاده از الگوریتم‌های پیچیده‌تری است که قادر به تولید گفتار با کیفیت بالاتر هستند و بر جنبه‌ی آموزش تمرکز می‌کنند.

گروه آنومانچیپالی درحال نزدیک شدن به آن هدف است. رابط‌های مغز و کامپیوتر امروزی که برای استفاده انسانی تأیید شده‌اند، الکترودهای کافی را برای دریافت تمام داده‌های موردنیاز دانشمندان ندارند. اگرچه بسیاری امیدوار هستند شرکت‌های فناوری مانند نورالینک در این زمینه پیشرفت کنند. او می‌گوید:

می‌توان با اطمینان گفت که درزمینه نمونه‌برداری از مغز همیشه پراکنده عمل خواهیم کرد. بنابراین، کمبود باقیمانده را باید با روش الگوریتمی جبران کرد. این به‌معنای یافتن بهترین روش برای ایجاد پروتکلی است که در آن آزمودنی درحال یادگیری از سیستم و سیستم درحال یادگیری از آزمونی است.

آنومانچیپالی می‌گوید سیستم تولیدکننده گفتار آینده، علاوه‌بر الکترودهای مغز، از جریان‌های بیومتریک دیگر ورودی دریافت خواهد کرد (داده‌هایی مانند حرکات یا حتی ضربان قلب). همچنین، هر سیستم جدید باید برای یادگیری و استفاده به اندازه کافی راحت باشد که کاربر به دلیل خستگی یا ناامیدی از آن دست نکشد. آنومانچیپالی می‌گوید:

فکر می‌کنم بسیار نزدیک این هدف هستیم و این اثبات مفهوم را داریم. پیشرفت کند بوده است، اما فکر می‌کنم روی رویکرد مناسب و صحیح تمرکز کرده‌ایم. گفتار تجسم‌شده ممکن است دیگر در حد تجسم باقی نماند.