21.08.2023 17:49
MIT та Гарвард представили ШІ-рішення для об’єднання комп’ютерного зору та роботизованих систем
Спільна група дослідників з Массачусетського технологічного інституту та Гарвардського університету представила інноваційну систему під назвою “Follow Anything” (FAn) у своєму останньому дослідженні в галузі штучного інтелекту. Ця новаторська система усуває обмеження, притаманні сучасним роботизованим системам стеження за об’єктами, і представляє нове рішення для відстеження і супроводу об’єктів у реальному часі з відкритою структурою.
Існуючі недоліки роботизованих систем стеження за об’єктами включають в себе обмежену здатність пристосовуватися до нових об’єктів через заздалегідь визначені категорії розпізнавання і відсутність зручних методів для визначення цільових об’єктів. Фреймворк FAn вирішує ці проблеми, застосовуючи підхід з відкритою множиною. Він виявляє, сегментує, відстежує і супроводжує різноманітні об’єкти, а також адаптується до нових об’єктів за допомогою тексту, зображень або клікових запитів.
Основні особливості запропонованої системи FAn можна підсумувати наступним чином:
- Інноваційний мультимодальний підхід з відкритою структурою: FAn пропонує нову методологію, яка дозволяє в режимі реального часу виявляти, сегментувати, відстежувати і супроводжувати об’єкти в будь-якому середовищі, незалежно від їхньої категорії.
- Безшовна інтеграція: Ця система ретельно розроблена для безперешкодного розгортання на роботизованих платформах, з особливим акцентом на мікро-літальних апаратах, що забезпечує легку інтеграцію в реальні додатки.
- Підвищена стійкість: FAn включає в себе надійні механізми повторного виявлення, щоб впоратися з ситуаціями, коли об’єкти, що відстежуються, на мить втрачаються або затушовуються під час процедури відстеження.
Основна мета системи FAn — надати робототехнічним системам з бортовими камерами можливість виявляти і відстежувати важливі об’єкти, гарантуючи, що вони залишатимуться в полі зору камери під час руху робота.
FAn використовує передові моделі Vision Transformer (ViT), оптимізовані для обробки в реальному часі, інтегровані в цілісну систему. Використовуються різні сильні сторони моделей, включаючи Segment Anything Model (SAM) для сегментації, DINO та CLIP для вивчення візуальних концепцій з природної мови, а також полегшений підхід до виявлення та семантичної сегментації. Крім того, відстеження в реальному часі полегшується завдяки моделям (Seg)AOT та SiamMask. Для керування процесом стеження за об’єктом впроваджено полегшений візуальний контролер обслуговування.
Були проведені масштабні експерименти для оцінки продуктивності FAn на різних об’єктах у сценаріях виявлення, відстеження та супроводу. Результати продемонстрували безперебійну та ефективну здатність системи відстежувати об’єкти інтересу в реальному часі.
Таким чином, фреймворк FAn представляє комплексне рішення для відстеження і супроводу об’єктів у реальному часі, долаючи обмеження систем із закритими параметрами. Його відкритий підхід, сумісність з декількома режимами, обробка в реальному часі та адаптивність до нових умов роблять його значним досягненням в робототехніці. Крім того, прихильність команди до відкритого кодування системи підкреслює її потенціал для впливу на різні реальні сфери застосування.