Машина зрения: в России разработали робота-поводыря с ChatGPT

Гаджет может читать надписи на упаковках и выбирать наиболее свежие продукты, а также ориентироваться в пространстве

Российские специалисты создали уникального робота-поводыря, рассказали «Известиям» авторы проекта. Кроме машинного зрения устройство использует языковую модель для чтения указателей, надписей на упаковках в магазинах. По словам разработчиков, уже собран прототип и протестированы все основные механики. Целевая аудитория — люди с нарушениями зрения. Эксперты полагают, что задумка выглядит интересной, но для ее реализации понадобится гораздо больше средств, чем планируют создатели.

Невиномысский технологический институт
Источник: Невиномысский технологический институт

Устройство для сопровождения человека

Специалисты Невиномысского технологического института (филиал Северо-Кавказского федерального университета), разработали уникального робота-поводыря. Об этом «Известиям» рассказали авторы проекта.

— Робот предназначен для помощи людям с ограниченными возможностями — с нарушениями зрения. Он представляет собой решение, способное анализировать визуальные данные, полученные от машинного зрения, и использовать языковые модели GPT для интерпретации и генерации соответствующих команд или предупреждений, — сообщил «Известиям» автор проекта Богдан Колесник.

Робот представляет собой подвижную платформу высотой около 1 м на шести колесах. Сверху расположено несколько камер, благодаря которым он может «видеть» мир вокруг себя, и динамик, предназначенный для коммуникации с человеком. Незрячий человек ведет робота на специальном «поводке».

Невиномысский технологический институт
Источник: Невиномысский технологический институт

Устройство способно выполнять сразу несколько задач. Одна из них — навигация. Благодаря машинному зрению и языковым моделям GPT подвижная платформа может оптимально выбирать маршруты и избегать препятствий на своем пути, обеспечивая безопасность и эффективность передвижения, утверждают разработчики. Оно также способно определять и идентифицировать различные объекты в окружающей среде. Кроме того, аппарат может читать и распознавать тексты, подчеркнули авторы проекта.

— Например, можно попросить робота прочитать информацию с упаковки продукта, посмотреть дату, когда он произведен, и выбрать наиболее свежий, — отметил Богдан Колесник.

По словам авторов проекта, сейчас уже собрана первая версия робота, в которой реализованы все заявленные механики. Управление гаджетом осуществляется на основе встроенного мини-ПК.

робот поводырь
Источник: iz.ru

В качестве целевой аудитории продукта разработчики рассматривают государственные учреждения, социальные службы и некоммерческие организации. Стоимость сборки первой модели робота составила около 70 тыс. рублей. В дальнейшем авторы планируют расширять функционал. Для запуска улучшенной версии планируется привлечь инвестиции в размере 1 млн рублей.

Будет ли робот востребованным

Проект определенно выглядит очень интересным и актуальным с точки зрения пользы для общества. Несмотря на то что прототип находится на ранней стадии разработки, его потенциальные преимущества для повседневной жизни людей с ограниченными возможностями уже очевидны, сказал директор по Digital-коммуникациям агентства КРОС Иван Минаев.

— Разработчикам следует тщательно продумать концепцию устройства. Основная функция робота-поводыря — «ведение» человека. А для этого решения должны быть хорошо продуманы компоненты, система ориентации в пространстве, очень точное позиционирование, — отметил заместитель директора по инновациям компании «Меркатор Холдинг» Александр Жмурко.

Высокоточная ориентация в пространстве без компьютерного зрения, с использованием только лидаров, практически невозможна. И стоимость такого решения будет выше, чем заявляют авторы, — более 1 млн рублей, подчеркнул специалист.

Невиномысский технологический институт
Источник: Невиномысский технологический институт

— На данный момент использование языковых моделей GPT и машинного зрения — совершенно точно перспективное решение, поскольку это очевидный тренд развития IT-сферы и микроэлектроники. Единственное, если говорить конкретно про такого робота-поводыря, то здесь нужно понимать, что это должна быть система, работающая в режиме реального времени, которая тут же реагирует на события, препятствия и объекты, — сообщил эксперт рынка НТИ Нейронет, директор Лаборатории «Сенсор-Тех» Денис Кулешов.

Языковые модели GPT работают с существенной задержкой — 5−10 секунд, которые требуются для формирования ответа или интерпретации ситуации, добавил он. Поэтому основная сложность сейчас заключается в том, что подобный подход достаточно сложно будет применить в роботе-поводыре, поскольку это должна быть система реального времени, и все реакции должны работать незамедлительно, сказал Денис Кулешов.

В целом этот проект представляет собой важный шаг в разработке технологий для инклюзивного общества и имеет потенциал значительно улучшить жизнь людей с ограниченными возможностями зрения. Однако его успешная реализация требует тщательного исследования, разработки и партнерства с заинтересованными сторонами, резюмировал Иван Минаев.