Парализованной вернули речь и мимику. Пока — в компьютере
Ученые объединили две технологии: интерфейс мозг-компьютер и искусственный интеллект, используемый для генерации мимики в компьютерных играх. Результатом стал компьютерный аватар, воспроизводящий речь и мимику по мозговым сигналам парализованной женщины. Спустя много лет после инсульта она впервые снова общается обычным человеческим способом.
«Не бойтесь задавать вопросы», — произносит трехмерное женское лицо на мониторе, весьма похожее на Энн. Сама Энн сидит напротив, и это она решила, что, как и с каким выражением говорит аватар. Женщине 48 лет, и последние 18 из них она провела в инвалидном кресле. Подвижность сохранили глаза, поэтому Энн общалась с миром через умные очки. Меняя направления взгляда, она медленно, букву за букой, набирала слова. И вот теперь к ней вернулась речь.
Десятилетиями ученые работают над созданием технологии «мозг-компьютер», чтобы позволить вновь коммуницировать и двигаться людям, которые утратили эту возможность. Суть подхода в том, чтобы использовать мозговую активность для управления внешними устройствами, облегчая парализованным пациентам взаимодействие с окружающей средой. Чаще всего это люди после инсульта или с боковым амиотрофическим склерозом – заболеванием моторных нейронов, которое приводит к постепенному и полному параличу мышц. Такая болезнь была у известного британского физика и космолога Стивена Хокинга.
Китайские ученые уже научили обезьяну управлять роботизированной рукой с помощью силы разума, расположив микрочип на внутренней стенке кровеносного сосуда. Компании Илона Маска Neuralink, специализирующаяся на разработке нейрочипов, для этой же цели имплантировали до 1500 электродов обезьяне прямо в мозг. В мае этого года Neuralink получила разрешение FDA для клинических испытаний нейрочипов на людях.
- Читайте также:
- На одной мозговой волне: как наши разумы способны синхронизироваться друг с другом
- Искусственный интеллект научился читать мысли
- Где в нашем мозге «лежит» язык и как мы его учим?
Еще в 1929 году изобретатель электроэнцефалографии Ханс Бергер допустил возможность чтения мыслей с помощью созданного им метода. В начале 1980-х годов Стивен Хокинг начал взаимодействовать с разработчиками программного обеспечения, чтобы найти способ общения через компьютер. Он использовал специально созданный программный интерфейс, который позволял ему выбирать слова и фразы, используя движения мышц или моргание глаз. Выбранные слова и фразы затем передавались компьютеру, который генерировал и воспроизводил искусственный голос. С течением времени технологии синтеза речи становились более продвинутыми, и Хокинг использовал разные версии голосовых синтезаторов. Его «голос» стал узнаваемым по всему миру. Но бум исследований интерфейса «мозг-компьютер» начался уже в начале 21 века с появлением новых методов исследования мозга.
Прорыва достиг в 2017 году нейробиолог Нильс Бирбаумер из Центра био и нейроинженерии имени Висса в Женеве. Он измерял изменения в электрических волнах, исходящих от мозга. А также в притоке крови к разным его зонам – для чего использовал технику так называемой ближней инфракрасной спектроскопии, потому что кровь поглощает инфракрасное излучение не так, как клетки мозга. При этом он задавал своим пациентам простые вопросы, например, «Вы родились в Берлине?», ответ на который мог быть только «да» или «нет». И по мозговой активности отслеживал реакцию.
Нейрохирургу Эдварду Чангу и его команде из Калифорнийского университета в Сан-Франциско впервые удалось преобразовать мозговые сигналы в полноценные слова. Ученый использовал алгоритм глубокого обучения для интерпретации закономерностей активности мозга в сенсомоторной коре – области, которая участвует в производстве речи. Для этого пациенту после инсульта вживили в эту часть мозга чип. С его помощью ученые в течение нескольких месяцев регистрировали мозговую активность в ней, когда парализованный человек собирался произнести слово. Всего слов было 50.
На этом материале нейронную сеть научили распознавать мозговые сигналы в режиме реального времени и соотносить каждый с соответствующим ему словом. Тесты показали, что испытуемый может с помощью мысли, распознанной чипом, отвечать на вопросы исследователей законченными предложениями. К примеру, его спрашивали «Не хотите ли воды?», а человек он отвечал: «Нет, я не хочу пить». При таком подходе парализованный смог составлять предложения со скоростью 18 слов в минуту.
Но Чанг и его коллеги не остановились на достигнутом и вскоре провели новое исследование совместно с учеными из компании Speech Graphics из Эдинбурга и исследователями из университета в Беркли. Сообща они разработали первый в мире интерфейс, который электронным способом генерирует речь и выражение лица. То есть впервые в мире, лицевая анимация была синхронизирована на основании сигналов мозга. В разработке использовалось то же программное обеспечение, что и для управления лицевой анимацией в играх, таких как The Last Of Us Part II и Hogwarts Legacy, разрабатываемое как раз Speech Graphics. Но вместо мимики и речи актера они использовало данные прямо из мозга человека.
«Наша цель — восстановить полноценный способ общения лицом к лицу, который является для нас наиболее естественным», — объяснил в беседе с журналистом Independent Эдвард Чанг.
Тут-то на сцену и вышла Энн. В ходе исследования ученым удалось расшифровать сигналы ее мозга в трех различных вариантах: текст, синтетический голос и лицевая цифровая анимация на цифровом аватаре, включая синхронизацию губ и эмоциональную мимику. Для этого ученые имплантировали на поверхность мозга все в ту же область сенсомоторной коры прямоугольный чип толщиной с бумагу из 253 электродов.
Данные передавались по кабелю в компьютер, где искусственный интеллект, работающий по тому же принципу, что и Chat GPT, несколько недель подряд учился распознавать активность мозга, связанную со словарным запасом в более чем в тысячу слов.
Результат превзошел все ожидания – пациентка смогла «писать» текст и даже говорить синтезированным голосом, который удалось воспроизвести на основе записи речи женщины с ее свадебного видео.
Еще больше времени понадобилось искусственному интеллекту, чтобы научиться расшифровывать мимику Энн. Команда экспериментировала двумя способами. Первый заключался в использовании синтезированного голоса женщины в качестве входных данных для системы вместо ее реального голоса, чтобы управлять мышцами. А во втором варианте, сигналы мозга были связаны непосредственно с моделируемыми на аватаре мышцам. Энн могла заставить трехмерное лицо выражать нужные эмоции и двигать конкретными мышцами. В результате получился реалистичный аватар, который точно произносил слова синхронно с синтезированным голосом.
«Создание цифрового аватара, который может говорить, выражать эмоции и выражать мысли в режиме реального времени и напрямую связан с мозгом субъекта, демонстрирует потенциал, выходящий далеко за пределы видеоигр, — говорит технический директор и соучредитель Speech Graphics Майкл Бергер. — Когда мы говорим, то создаем сложную комбинацию звуковых и визуальных сигналов, которая помогает нам выразить то, что мы чувствуем и что хотим сказать. Восстановление голоса само по себе впечатляет, но общение с помощью мимики настолько присуще человеку, что оно возвращает пациенту потерянно ощущение контроля».
Следует уточнить, что результат пока далек от идеала. Нейроинтерфейс говорит медленнее и с ошибками. Пока что искусственный интеллект неправильно расшифровывает слова в 28% случаев. А скорость преобразования из мозга в текст составляла 78 слов в минуту против 110-150 слов в минуту в обычной речи.
Следующий важный шаг ученых — создание беспроводной версии компьютер-мозг, которую можно будет имплантировать под череп. И это уже путь к практическому применению разработки.
Анастасия Адаховская, «Детали». Фото: Depositphotos.com
Будьте всегда в курсе главных событий:
Подписывайтесь на ТГ-канал "Детали: Новости Израиля"