BTC$29880

ETH$3666

Шукати

Дослідники з Каліфорнійського університету в Берклі представили набір даних «Дотик-Зір-Мова»

Інтеграція різних модальностей, таких як зір, мова, а відтепер і дотик, у дослідженнях штучного інтелекту досягла значних успіхів. У той час як зір і мова були широко досліджені, тактильна модальність залишається в значній мірі недослідженою в мультимодальному сприйнятті. Наш дотик надає багату інформацію про текстури поверхонь, матеріали та силу контакту, проте бракує наборів даних та методологій для інтеграції тактильного сприйняття з мовою.

Щоб заповнити цю прогалину, дослідники розробили набір даних «Дотик-Зір-Мова» (TVL), що складається з 44 000 парних зорово-тактильних спостережень. Цей набір даних включає людські коментарі до частини даних, тоді як решта даних позначена комерційно доступною великою мовною моделлю (LLM) GPT-4V. Дослідники використовують цей набір даних для навчання тактильного кодера за допомогою попарного контрастного навчання між зоровою, тактильною та мовною модальностями.

Мультимодальне вирівнювання спрощується за допомогою псевдоміток GPT-4V. Джерело

Використовуючи навчений тактильний кодер, дослідники допрацьовують модель LLMA 27B для надання текстових описів тактильних відображень, заснованих на візуальних і тактильних спостереженнях. Запропонований сенсорно-візуально-мовний бенчмарк оцінює продуктивність мультимодальних моделей у створенні тактильних описів і порівнює їх з людськими коментарями. Модель «Дотик-Зір-Мова» перевершує як моделі з відкритим вихідним кодом, так і модель GPT-4V, що генерує мітки, в тесті TVL Benchmark, навіть попри навчання на відносно скромній кількості даних, маркованих людиною.

Це дослідження має значення для методів навчання на основі псевдоміток і може сприяти розробці великих генеративних систем, які враховують сенсорне сприйняття. Крім того, методологія, представлена в цій роботі, може сприяти оцифровуванню дотиків і застосуванню в робототехніці. Загалом, інтеграція сенсорного сприйняття із зором і мовою відкриває нові шляхи для досліджень і застосувань мультимодального штучного інтелекту.