
15.12.2023 13:32
Прогресивне машинне навчання для ефективної сегментації зображень на периферійних пристроях
Модель сегментування будь-яких об’єктів (SAM) відома як інструмент для сегментування зображень на основі штучного інтелекту в задачах виявлення та розпізнавання об’єктів, але її ефективність знижується при розгортанні на периферійних пристроях, що призводить до уповільнення продуктивності та збільшення споживання ресурсів. У відповідь на цю проблему дослідники з S-Lab Наньянського технологічного університету та Шанхайської лабораторії штучного інтелекту представили EdgeSAM — доопрацьовану версію SAM, створену для оптимізованої взаємодії на периферійних пристроях з обмеженими ресурсами.
Дослідження в першу чергу зосереджене на розробці ефективних згорткових нейронних мереж (CNN) і трансформерів для навчання на основі візуального представлення, що узгоджується з попередніми дослідженнями в цьому напрямку. Вони визнають цінність дистиляції даних в задачах прогнозування, черпаючи натхнення в попередніх роботах, таких як Mobile-SAM і Fast-SAM. Помітні зусилля в цій галузі включають попіксельну дистиляцію ознак і навчання моделі сегментації екземплярів на основі YOLACT.
Основна мета дослідження — задовольнити обчислювальні вимоги SAM на периферійних пристроях, забезпечуючи інтерактивну сегментацію в реальному часі, зокрема на смартфонах. EdgeSAM, як оптимізований варіант, успішно забезпечує роботу в режимі реального часу на периферійних пристроях без втрати точності. Використовуючи підхід до дистиляції знань з урахуванням підказок, EdgeSAM узгоджується з вихідними масками SAM і вводить індивідуальні підказки для декодера масок. Завдяки основі на базі CNN, придатній для вбудованих прискорювачів штучного інтелекту, EdgeSAM перевершує Mobile-SAM, демонструючи значний приріст швидкості порівняно з оригінальним SAM для ефективного розгортання в режимі реального часу на периферійних пристроях.

EdgeSAM була розроблена для ефективного виконання на периферійних пристроях без значного зниження продуктивності. Модель перетворює оригінальний кодер зображень SAM на основі ViT в архітектуру на основі CNN, придатну для периферійних пристроїв. Для повного охоплення знань SAM дослідження включає в себе дистиляцію кодера підказок і декодера масок з підказками у вигляді квадратиків і точок. Полегшений модуль введений для вирішення проблем зсуву набору даних, з оцінками, що включають дослідження дистиляції знань за допомогою підказок в циклі і вплив полегшеної мережі регіональних пропозицій за допомогою досліджень абляції.
Продуктивність EdgeSAM вражає, досягаючи вражаючого 40-кратного збільшення швидкості в порівнянні з оригінальним SAM, перевершуючи Mobile-SAM в 14 разів на периферійних пристроях. Він стабільно демонструє чудову продуктивність у різних комбінаціях підказок і наборів даних, що робить його високоефективним для реальних додатків. Оптимізований для розгортання на периферії, EdgeSAM демонструє більш ніж 40-кратне прискорення роботи на NVIDIA 2080 Ti і приблизно 14-кратне прискорення на iPhone 14 порівняно з SAM і MobileSAM відповідно. Впроваджена оперативна дистиляція знань у циклі та полегшена мережа регіональних пропозицій суттєво сприяють підвищенню його продуктивності.
Підсумовуючи, ключові висновки дослідження можна узагальнити наступним чином:
- EdgeSAM — це вдосконалена версія SAM, оптимізована для розгортання на периферійних пристроях.
- Розроблена для роботи в режимі реального часу на смартфонах, EdgeSAM досягає 40-кратного збільшення швидкості в порівнянні з оригінальною версією SAM.
- Перевершуючи Mobile-SAM у 14 разів на периферійних пристроях, EdgeSAM демонструє чудову ефективність.
- Помітні покращення в mIoU на наборах даних COCO і LVIS підкреслюють підвищену продуктивність EdgeSAM.
- EdgeSAM інтегрує динамічну стратегію підказки в циклі і легкий модуль для ефективного усунення зсуву наборів даних.
- Впровадження полегшеної мережі Region Proposal Network, що використовує пріоритети гранулярності, значно сприяє підвищенню продуктивності.