Среда 28.10.2020|

    Партнёры

    Партнёры

    Партнёры

    Загрузка...
    AP Photo/Emilio Morenatti
    AP Photo/Emilio Morenatti

    Ваш компьютер понимает иврит?

    Новая программа, о запуске которой объявили на прошлой неделе Управление инноваций Израиля и Национальное министерство дигитальных технологий, будет направлена на устранение одного из самых серьезных препятствий для израильтян, стремящихся войти в новый дигитальный мир: компьютеры в целом и аппликации, в частности, плохо понимают иврит.

    Было решено создать Ассоциацию компаний, занимающихся технологиями обработки естественной речи, которая будет способствовать расширению понимания компьютерными системами иврита и арабского языка. На первые три года бюджет программы составит 7,5 млн шекелей.

    Цель состоит в том, чтобы создать базу данных, которая позволит правительственным учреждениям и коммерческим компаниям как в Израиле, так и за рубежом разрабатывать аппликации, программы и дигитальные сервисы, которые смогут понимать речь и текст на иврите.

    Эта проблема знакома каждому израильтянину: сегодня практически не существует аппликаций и программ, способных хорошо понимать иврит. Это очень усложняет задачу тех, кто хочет анализировать и извлекать информацию из множества данных и документов на иврите, например, в юридической и медицинской областях. Также не хватает программ и аппликаций, способных понимать естественную речь на арабском языке.

    Популярные «умные помощники» с голосовым управлением, такие как Amazon Alexa, Google Assistant, Microsoft Cortana и Apple Siri, теперь интегрированы в смартфоны и компьютеры. Но они либо вообще не поддерживают иврит, либо поддерживают его в очень ограниченной степени.

    Конечно, компьютеры все лучше распознают ивритскую речь и преобразовывают ее в текст. Но расшифровать значение этих текстов из-за определенных свойств иврита – более сложная задача.

    Уже сейчас неспособность компьютеров понимать речь на иврите не позволяет многим израильтянам пользоваться передовыми цифровыми услугами. И все соглашаются, что проблема будет только усугубляться.

    В ближайшем будущем основные платформы, которые мы будем использовать для управления технологическими устройствами, будут основаны на голосе и речи. Если эти устройства не понимают иврит, это существенно ограничит возможности многих израильтян пользоваться этими технологиями. Представьте, например, что клавиатуры продавались бы без букв на иврите или что в мобильных телефонах не было бы меню и пользовательского интерфейса на иврите.

    Получится ли у нас на этот раз?

    Поскольку в мире очень мало людей, говорящих на иврите, на сегодняшний день компании не стали инвестировать силы и деньги в поиски какого-либо решения. Таким образом, государство пытается решить эту проблему рыночного сбоя.

    «Семитские языки сложно анализировать, – сказал Авив Зеэви, глава отдела технологической инфраструктуры Управления по инновациям. – Весь мир на всех парах несется вперед, разрабатывая технологии, связанные с восприятием и обработкой естественной речи, и сопутствующие им интеллектуальные инструменты. Но когда вы хотите применить их к ивриту, ничего не выходит. Таким образом, возникла ситуация, при которой области, связанные с обработкой естественной речи на иврите, игнорировались, и с точки зрения рынка это серьезный провал».

    «Например, невозможно проанализировать истории болезней или судебные протоколы, потому что это непонятные тексты на иврите, – продолжил он.- Если вы хотите сделать выводы на основе этих данных, вам понадобится инструмент искусственного интеллекта, способный выполнять обработку естественной речи на иврите».

    Ассоциация компаний, занимающихся технологиями обработки естественной речи, создаст необходимую инфраструктуру – базу данных текстов, которые будут разбиты на составные части и помечены лингвистами в соответствии с их синтаксическими, семантическими и морфологическими характеристиками, чтобы сделать смысл предложения понятным. С помощью этой базы данных можно будет обучать программы лучше понимать контекст и значение текстов на иврите.

    Ассоциация также изучит возможности адаптации или разработки инструментов с открытым исходным кодом для улучшения понимания иврита и арабского языка в различных компьютеризированных системах.

    Руководить проектом будет Авнер Алгом, предприниматель и председатель израильской ассоциации компаний IGTCloud. Работа по маркировке элементов и созданию базы данных будет выполняться субподрядчиками.

    Цель проекта – получить возможность с помощью базы данных разрабатывать услуги как для промышленности, так и для госсектора. В их числе могут быть аппликации для различных государственных служб (например, подача заявки на получение паспорта через голосовой чат с ботом на правительственном веб-сайте), для банков, которые хотят предложить своим клиентам услугу голосовой идентификации, и промышленных компаний, которые заинтересованы в разработке аппликаций и интеллектуальных сервисов, позволяющих людям общаться с компьютером, будь они в своей машине или дома – или давать указания своему смартфону.

    Теоретически такую базу данных также могут использовать Google, Amazon и Apple для существенного улучшения функционирования своих дигитальных голосовых помощников, поскольку они смогут лучше понимать иврит.

    Компании-члены ассоциации внесут свой вклад в развитие проекта и получат право использовать его продукты. Речь идет о компаниях Intel, Ginger Software, Rafael, AudioCodes, банк «Хапоалим», Melingo, Ynet, Walla и многих других.

    Проект финансируется самими участвующими компаниями, каждая из которых внесет по 500 тысяч шекелей. Предложения были также направлены таким крупным технологическим гигантам, как Google и Microsoft, которые рассматривают возможность присоединения к ассоциации.

    Кроме того, проекту будут помогать ряд исследователей из академического мира, в том числе профессор Реут Царфати из университета Бар-Илан. Источниками содержания базы данных будут газеты, архив кнессета, больничная касса «Маккаби», банк «Хапоалим» другие.

    Управление по инновациям не захотело ждать финансирования программы от министерства финансов, поэтому решило запустить ее, опираясь на финансирование Ассоциации компаний.

    «Государственный сектор в настоящее время имеет дело с информацией на иврите и арабском, львиная доля которой неструктурирована, – сказал Ашер Битон, гендиректор Национального дигитального министерства. - Одна из серьезных проблем при оцифровке государственных услуг – обеспечить эффективность работы, доступность для общественности, а также высокую производительность».

    Это - серьезная долгосрочная задача, которая находится в тени предыдущих неудачных попыток создания баз данных и инструментов для лингвистического анализа иврита. Подобные проекты были запущены в различных вариантах, в том числе коммерческими компаниями, которые намеревались использовать их для собственных нужд, но ни один из них не был по-настоящему успешным.

    Всего несколько месяцев назад государственное Управление дистанционной обработки данных объявило о проекте по созданию базы данных, которая поможет компьютерам понимать иврит. Поставленные им задачи очень близки тем, что ставит перед собой новая ассоциация. Но этот проект имел статус пилотного и, очевидно, далеко не продвинулся.

    Новый проект представляется намного более масштабным и амбициозным. Он также лучше финансируется и включает крупные промышленные компании.

    «Мы хотим создать нечто достаточно широкое, достаточно общее и с достаточным количеством данных, и именно поэтому мы хотели, чтобы промышленность также участвовала в формировании лингвистических баз данных», – сказал Зеэви.

    Саги Коэн, «ХаАрец». М.Р. На фото: "София" - робот, который умеет
    "говорить" с людьми. AP Photo/Emilio Morenatti˜

     

    ЧИТАЙТЕ ТАКЖЕ
    ЧИТАЙТЕ ТАКЖЕ
    МНЕНИЯ
    Размер шрифта
    Send this to a friend