12.07.2024 14:57
Робот на базі чат-бота від Google DeepMind є частиною великої революції
Завдяки оновленню від Google DeepMind високий стрункий робот виконує роль екскурсовода і неформального офісного помічника в галасливому офісі відкритого типу в Маунтін-В’ю, штат Каліфорнія. Цей робот використовує останню версію великої мовної моделі Google Gemini, що дозволяє йому розбирати команди та ефективно орієнтуватися в офісному середовищі. Наприклад, за командою людини «Знайди мені місце, де я зможу написати», робот веде її до незайманої дошки в приміщенні.
Здатність Gemini працювати як з відео, так і з текстом, а також здатність засвоювати великі обсяги інформації з попередньо записаних відеоекскурсій, дозволяє роботу розуміти навколишнє середовище і точно орієнтуватися, коли йому дають команди, що вимагають міркувань, заснованих на принципах здорового глузду. Робот поєднує Gemini з алгоритмом, який перетворює команди на конкретні дії, такі як здійснення рухів залежно від того, що він бачить.
За словами Деміса Хассабіса, генерального директора Google DeepMind, мультимодальні можливості Gemini для роботи з текстом, відео та іншими даними обіцяють нові робототехнічні функції. Дослідники активно тестують ці можливості, щоб розширити потенціал робототехніки.
Нещодавно дослідники проєкту повідомили, що їхній робот показав до 90 відсотків надійності в навігації, навіть при виконанні складних команд на кшталт «Де я залишив свою підставку?». Ця система значно підвищує природність взаємодії між людиною і роботом і збільшує зручність використання робота.
На прикладі цього робота демонструється потенціал великих мовних моделей, що дозволяє розширити сферу застосування за межі цифрового простору. Хоча Gemini та інші чат-боти традиційно працюють у веббраузерах або додатках, тепер вони більш ефективно обробляють візуальну та аудіальну інформацію. У травні Хассабіс продемонстрував оновлену версію Gemini, здатну інтерпретувати офісні макети за допомогою камери смартфона.
Як академічні, так і промислові дослідницькі лабораторії вивчають можливості використання мовних моделей для покращення здібностей роботів. Наприклад, на Міжнародній конференції з робототехніки та автоматизації було представлено майже два десятки доповідей, присвячених моделям візуального моделювання. Цей сплеск інтересу супроводжується значними інвестиціями в стартапи, які прагнуть інтегрувати досягнення штучного інтелекту в робототехніку. Зокрема, дослідники з проєкту Google заснували компанію Physical Intelligence, залучивши 70 мільйонів доларів для поєднання мовних моделей з реальним навчанням роботів для розв’язання загальних проблем. Схожим чином, компанія Skild AI, заснована робототехніками з Університету Карнегі-Меллона, нещодавно оголосила про виділення 300 мільйонів доларів на фінансування аналогічних проєктів.
Зазвичай для успішної навігації роботам потрібні детальні карти та спеціальні команди. Однак великі мовні моделі, зокрема ті, що навчаються на тексті, зображеннях і відео, містять значну інформацію про фізичний світ. Завдяки цим моделям, відомим як моделі мови зору, можна відповісти на питання сприйняття. Gemini дозволяє роботу виконувати як візуальні, так і усні інструкції, наприклад, обводити ескіз на дошці, щоб знайти нове місце призначення.
Дослідники планують протестувати Gemini на різних типах роботів, щоб отримати відповіді на складніші питання, зокрема, «Чи є у нас сьогодні мій улюблений напій?» від користувача, оточеного порожніми бляшанками з-під коли. Цей прогрес підкреслює складність і практичне застосування великих мовних моделей в робототехніці.