06.11.2023 11:39

Останнє механічне диво від Boston Dynamics тепер може говорити у відповідь

Boston Dynamics, відома інженерна компанія, досягла революційної інтеграції передової мовної моделі OpenAI, ChatGPT, у свого чудового робота Spot. Ця трансформація наділила Spot, робота, схожого на собаку, здатністю проводити екскурсії по офісу, пропонуючи глибокі коментарі до кожного експонату.

Переосмислений Spot тепер може похвалитися цілою низкою різних індивідуальностей, з голосом, інтонацією та персоналізованими коментарями, що адаптуються до обраного персонажа. Щоб зрозуміти навколишній світ, Spot використовує моделі візуальних відповідей на запитання (Visual Question Answering, VQA), здатні генерувати підписи до зображень і надавати лаконічні відповіді на запитання про них. Ці візуальні дані оновлюються приблизно щосекунди і передаються системі за допомогою текстової підказки.

Комунікаційні можливості Spot були ще більше розширені за рахунок інтеграції вібростійкого кріплення для динаміка Respeaker V2, кільцевого мікрофона, прикрашеного світлодіодами. Це інноваційне обладнання легко підключається до корисного навантаження Spot EAP 2 через USB.

Керування роботом здійснюється за допомогою бортового комп’ютера, наприклад, настільного ПК або ноутбука, який зв’язується зі Spot за допомогою набору для розробки програмного забезпечення (Software Development Kit, SDK). Інтуїтивно зрозумілий сервіс Spot SDK був розгорнутий для полегшення аудіозв’язку з EAP 2.

Для вербальних відповідей Spot покладається на службу перетворення тексту в мову ElevenLabs. Інженери розробили ефективну систему, в якій текст паралельно передається на інструмент у вигляді “фраз”, а отриманий звук відтворюється послідовно, щоб оптимізувати час відповіді.

Додаючи відтінку індивідуальності, Spot тепер може розпізнавати мову тіла. Він може ідентифікувати та відстежувати рухомі об’єкти, що дозволяє йому знаходити найближчу людину і спрямовувати руку до неї. Щоб додати грайливого дотику, до мови застосовано низькочастотний фільтр, що імітує рухи рота ляльки. Цей вигадливий ефект ще більше посилюється, якщо оснастити маніпулятор кумедними костюмами та прикріпити гуглі-очі.

Одним з найбільш інтригуючих аспектів цього проекту є закладена в ШІ логіка, яка потребувала мінімального доопрацювання. В одному примітному випадку, коли Spot запитали про його “батьків”, він вражаюче зорієнтувався, де знаходяться його попередники, і з гумором назвав їх своїми “предками”. Це підкреслює здатність моделі встановлювати статистичні зв’язки між поняттями без участі свідомості.

Однак важливо визнати, що проект має певні обмеження. Спот, як і багато інших мовних моделей, може час від часу відчувати галюцинації, що призводить до генерації вигаданої інформації. Крім того, існує невелика затримка у відповідях, коли користувачі іноді чекають близько шести секунд.

Незважаючи на ці незначні обмеження, цей проект є значним досягненням на перетині робототехніки та досліджень у галузі ШІ. Boston Dynamics продовжує досліджувати це злиття технологій з метою покращення роботизації роботів у середовищі, орієнтованому на людину. Це багатообіцяюче починання має потенціал революціонізувати нашу взаємодію з машинами, відкриваючи нову еру інтелектуального спілкування.