04.03.2024 15:56
Дослідники з Каліфорнійського університету в Берклі представили набір даних «Дотик-Зір-Мова»
Інтеграція різних модальностей, таких як зір, мова, а відтепер і дотик, у дослідженнях штучного інтелекту досягла значних успіхів. У той час як зір і мова були широко досліджені, тактильна модальність залишається в значній мірі недослідженою в мультимодальному сприйнятті. Наш дотик надає багату інформацію про текстури поверхонь, матеріали та силу контакту, проте бракує наборів даних та методологій для інтеграції тактильного сприйняття з мовою.
Щоб заповнити цю прогалину, дослідники розробили набір даних «Дотик-Зір-Мова» (TVL), що складається з 44 000 парних зорово-тактильних спостережень. Цей набір даних включає людські коментарі до частини даних, тоді як решта даних позначена комерційно доступною великою мовною моделлю (LLM) GPT-4V. Дослідники використовують цей набір даних для навчання тактильного кодера за допомогою попарного контрастного навчання між зоровою, тактильною та мовною модальностями.
Використовуючи навчений тактильний кодер, дослідники допрацьовують модель LLMA 27B для надання текстових описів тактильних відображень, заснованих на візуальних і тактильних спостереженнях. Запропонований сенсорно-візуально-мовний бенчмарк оцінює продуктивність мультимодальних моделей у створенні тактильних описів і порівнює їх з людськими коментарями. Модель «Дотик-Зір-Мова» перевершує як моделі з відкритим вихідним кодом, так і модель GPT-4V, що генерує мітки, в тесті TVL Benchmark, навіть попри навчання на відносно скромній кількості даних, маркованих людиною.
Це дослідження має значення для методів навчання на основі псевдоміток і може сприяти розробці великих генеративних систем, які враховують сенсорне сприйняття. Крім того, методологія, представлена в цій роботі, може сприяти оцифровуванню дотиків і застосуванню в робототехніці. Загалом, інтеграція сенсорного сприйняття із зором і мовою відкриває нові шляхи для досліджень і застосувань мультимодального штучного інтелекту.