BTC$29880

ETH$3666

Шукати

Прогресивне машинне навчання для ефективної сегментації зображень на периферійних пристроях

Модель сегментування будь-яких об’єктів (SAM) відома як інструмент для сегментування зображень на основі штучного інтелекту в задачах виявлення та розпізнавання об’єктів, але її ефективність знижується при розгортанні на периферійних пристроях, що призводить до уповільнення продуктивності та збільшення споживання ресурсів. У відповідь на цю проблему дослідники з S-Lab Наньянського технологічного університету та Шанхайської лабораторії штучного інтелекту представили EdgeSAM — доопрацьовану версію SAM, створену для оптимізованої взаємодії на периферійних пристроях з обмеженими ресурсами.

Дослідження в першу чергу зосереджене на розробці ефективних згорткових нейронних мереж (CNN) і трансформерів для навчання на основі візуального представлення, що узгоджується з попередніми дослідженнями в цьому напрямку. Вони визнають цінність дистиляції даних в задачах прогнозування, черпаючи натхнення в попередніх роботах, таких як Mobile-SAM і Fast-SAM. Помітні зусилля в цій галузі включають попіксельну дистиляцію ознак і навчання моделі сегментації екземплярів на основі YOLACT.

Основна мета дослідження — задовольнити обчислювальні вимоги SAM на периферійних пристроях, забезпечуючи інтерактивну сегментацію в реальному часі, зокрема на смартфонах. EdgeSAM, як оптимізований варіант, успішно забезпечує роботу в режимі реального часу на периферійних пристроях без втрати точності. Використовуючи підхід до дистиляції знань з урахуванням підказок, EdgeSAM узгоджується з вихідними масками SAM і вводить індивідуальні підказки для декодера масок. Завдяки основі на базі CNN, придатній для вбудованих прискорювачів штучного інтелекту, EdgeSAM перевершує Mobile-SAM, демонструючи значний приріст швидкості порівняно з оригінальним SAM для ефективного розгортання в режимі реального часу на периферійних пристроях.

Якісні результати EdgeSAM та SAM. Джерело

EdgeSAM була розроблена для ефективного виконання на периферійних пристроях без значного зниження продуктивності. Модель перетворює оригінальний кодер зображень SAM на основі ViT в архітектуру на основі CNN, придатну для периферійних пристроїв. Для повного охоплення знань SAM дослідження включає в себе дистиляцію кодера підказок і декодера масок з підказками у вигляді квадратиків і точок. Полегшений модуль введений для вирішення проблем зсуву набору даних, з оцінками, що включають дослідження дистиляції знань за допомогою підказок в циклі і вплив полегшеної мережі регіональних пропозицій за допомогою досліджень абляції.

Продуктивність EdgeSAM вражає, досягаючи вражаючого 40-кратного збільшення швидкості в порівнянні з оригінальним SAM, перевершуючи Mobile-SAM в 14 разів на периферійних пристроях. Він стабільно демонструє чудову продуктивність у різних комбінаціях підказок і наборів даних, що робить його високоефективним для реальних додатків. Оптимізований для розгортання на периферії, EdgeSAM демонструє більш ніж 40-кратне прискорення роботи на NVIDIA 2080 Ti і приблизно 14-кратне прискорення на iPhone 14 порівняно з SAM і MobileSAM відповідно. Впроваджена оперативна дистиляція знань у циклі та полегшена мережа регіональних пропозицій суттєво сприяють підвищенню його продуктивності.

Підсумовуючи, ключові висновки дослідження можна узагальнити наступним чином:

  • EdgeSAM — це вдосконалена версія SAM, оптимізована для розгортання на периферійних пристроях.
  • Розроблена для роботи в режимі реального часу на смартфонах, EdgeSAM досягає 40-кратного збільшення швидкості в порівнянні з оригінальною версією SAM.
  • Перевершуючи Mobile-SAM у 14 разів на периферійних пристроях, EdgeSAM демонструє чудову ефективність.
  • Помітні покращення в mIoU на наборах даних COCO і LVIS підкреслюють підвищену продуктивність EdgeSAM.
  • EdgeSAM інтегрує динамічну стратегію підказки в циклі і легкий модуль для ефективного усунення зсуву наборів даних.
  • Впровадження полегшеної мережі Region Proposal Network, що використовує пріоритети гранулярності, значно сприяє підвищенню продуктивності.