26.12.2023 13:42

Інклюзивна модель ШІ для тегування зображень з моделлю щасливого бачення

Штучний інтелект продовжує розвиватися, проникаючи в різні аспекти нашого життя. Моделі машинного зору, частина технології штучного інтелекту, особливо вирізняються своєю здатністю аналізувати візуальну інформацію та приймати рішення. Ці моделі знаходять застосування в різних галузях, зокрема в охороні здоров’я, безпеці, автомобілебудуванні, розвагах і соціальних мережах. Однак багато існуючих моделей стикаються з обмеженнями, значною мірою покладаючись на відфільтровані навчальні набори даних і борючись за всебічне розуміння через сувору політику цензури.

У нещодавньому дописі на Reddit нова модель під назвою JoyTag привернула увагу своїм нестандартним поглядом на тегування зображень, зокрема, акцентом на гендерній позитивності та інклюзивності. JoyTag, заснований на архітектурі ViT-B/16, вирізняється своєю багатомісткою класифікацією, яка налічує 5000 унікальних тегів, що ґрунтуються на схемі тегування Danbooru. Розроблений на основі поєднання набору даних Danbooru 2021 і вручну позначених зображень з Інтернету, JoyTag має на меті розширити своє узагальнення, виходячи за межі аніме/манґа-центричного фокусу Danbooru.

*Приклади використання схеми тегів Danbooru, але для широкого кола зображень. Джерело*

Серед ключових особливостей JoyTag — модель ViT зі структурою CNN та кореневою частиною GAP, що дотримуються стандартів доброякісності основних ІТ-компаній, а також середній показник F1 0,578 для всіх тегів, включно з фотографіями та зображеннями в стилі аніме/манґа. Попри свої досягнення, JoyTag стикається з проблемами в концепціях з обмеженою доступністю даних, таких як вираз обличчя, і суб’єктивних концепціях, таких як розміри тіла, через непослідовність керівних принципів тегування в наборі даних Danbooru.

Основна мета JoyTag — надати пріоритет інклюзивності та різноманітності, ефективно обробляючи широкий спектр контенту. Для усунення недоліків і покращення оцінки F1, майбутні плани включають значне розширення набору даних для зменшення упередженості.

Отже, JoyTag — це значний прогрес у тегуванні зображень, подоланні обмежувальної фільтрації та сприянні інклюзивності. Його здатність автономно передбачати понад 5000 різних міток і керувати мультимедійним контентом, не порушуючи прав користувачів, позиціонує його як цінний інструмент у різних галузях. Визнаючи свої поточні обмеження, JoyTag закладає міцний фундамент для розвитку більш інклюзивних і справедливих рішень зі штучним інтелектом у майбутньому.