Google AI запропонував модель, здатну до точної локалізації та адаптації до мови зору
PixelLLM досягає щільного поєднання кожного виведеного слова з розташуванням пікселів за допомогою невеликого багатошарового персептрона (MLP), розміщеного поверх ознак слова, що дозволяє регресувати до розташування пікселів кожного слова.
19.12.2023 15:58