BTC$29880

ETH$3666

Шукати

#VLM

Google AI запропонував модель, здатну до точної локалізації та адаптації до мови зору

PixelLLM досягає щільного поєднання кожного виведеного слова з розташуванням пікселів за допомогою невеликого багатошарового персептрона (MLP), розміщеного поверх ознак слова, що дозволяє регресувати до розташування пікселів кожного слова.

Потужна модель з відкритим вихідним кодом з 10 мільярдами параметрів зору та 7 мільярдами параметрів мови.

Передбачення токенів тепер виходить за рамки зображень і охоплює цілий спектр завдань зорового сприйняття та крос-модальності, від підпису до зображень до візуальних відповідей на запитання.

Революція в робототехнічному навчанні з мінімальною участю людини від дослідників зі Стенфорда

Однією з головних проблем є різниця між готовими наборами даних для роботів і локальною робототехнічною платформою. Готові набори даних часто включають інші об'єкти, розташування кріплень, ракурси камер і умови освітлення порівняно з локальною платформою.