14.07.2023 14:28

Штучний інтелект може змінити те, як сліпі люди бачать світ

Передові досягнення в сфері штучного інтелекту мають потенціал революціонізувати спосіб сприйняття навколишнього світу сліпими людьми. За допомогою впровадження передових технологій штучного інтелекту, люди з вадами зору тепер можуть отримувати доступ до візуальної інформації та відчувати більш інклюзивний та незалежний спосіб життя.

На 38-річчя Чела Роблес та її сім’я вирушили до “One House”, улюбленої пекарні в місті Бенісія, Каліфорнія, на бризолевий сендвіч та брауні. Під час їзди додому в автомобілі вона торкнулася невеликого сенсорного екрану на свій високий лоб та запитала про опис світу зовні. “Хмарне небо”, відповідь надійшла через її Google Glass.

Роблес втратила зір у лівому оці у віці 28 років, а рік пізніше у правому оці. Вона каже, що сліпота позбавляє тебе малих деталей, які допомагають людям з’єднуватися один з одним, таких як мімічні жести та вирази обличчя. Наприклад, її батько часто розповідає сухі жарти, і вона не завжди може бути впевненою, коли він серйозний.

“Якщо картинка може розповісти 1000 слів, уявіть, скільки слів може розповісти вираз”, – каже вона.

Раніше Роблес спробувала послуги, які забезпечують їй допомогу від людей з нормальним зором. Але в квітні вона підписалася на пробний період з Ask Envision, штучним інтелектом, що використовує модель GPT-4 від OpenAI, мультимодальну модель, яка може обробляти зображення і текст та надавати розмовні відповіді. Ця система є однією з кількох асистентських продуктів для людей з вадами зору, які починають інтегрувати мовні моделі, обіцяючи надати користувачам набагато більше візуальних деталей про світ навколо них та більше незалежності.

Ask Envision був випущений як мобільний додаток, який працює на смартфонах і надає людям з вадами зору можливість отримувати аудіальні описи зображень та отримувати відповіді на запитання про світ навколо них. Завдяки моделі GPT-4, Ask Envision може розпізнавати зображення та текст, що дозволяє користувачам отримувати більше контексту та інформації про своє оточення.

Впровадження AI в допоміжні технології вже принесло обіцяні результати. Популярний додаток Be My Eyes, який допомагає користувачам ідентифікувати об’єкти, використовує GPT-4, тоді як SeeingAI від Microsoft, підтримуваний OpenAI, розпочав інтеграційне тестування. Ці розробки підкреслюють перетворюючий потенціал мов моделей штучного інтелекту в наданні сліпим людям більш повного розуміння їх оточення.

Нова версія Ask Envision виходить за рамки простого читання тексту на зображеннях. Тепер вона може підсумовувати текст на фотографії та відповідати на додаткові запитання, наприклад, надавати інформацію про елементи меню, ціни, обмеження в раціоні та варіанти десертів. Ця розширена функціональність значно збільшує самостійність та зручність для користувачів, таких як Чела Роблес, які тепер можуть легко отримувати конкретну інформацію, тримаючи повідомлення для керування собаки-поводиря або тростини.

Роблес зазначає, що використання Ask Envision дало їй більшу незалежність та можливість самостійно вирішувати певні ситуації. Вона може отримувати детальні описи зображень, розпізнавати обличчя та інші об’єкти, а також задавати запитання та отримувати розмовні відповіді. Це допомагає їй відчувати більшу зв’язаність з оточуючим світом і відкриває нові можливості для комунікації та взаємодії з людьми.

За словами Роблес, ця нова технологія є великим кроком уперед у полі підтримки людей з вадами зору і може відкрити багато нових можливостей для покращення якості життя цих осіб.

Інтеграція штучного інтелекту в візуальні допоміжні продукти має потенціал глибоко вплинути на життя користувачів. Сіна Бахрам, сліпий комп’ютерний вчений та консультант з доступності, підкреслює значні досягнення, здійснені GPT-4 та подібними технологіями. Завдяки можливості штучного інтелекту надавати детальну інформацію в реальних сценаріях, сліпі люди можуть отримати рівень візуального сприйняття, який раніше був неможливим за межами наукових лабораторій.

Проте, існують певні проблеми, пов’язані з надійністю та точністю великих мовних моделей, таких як GPT-4. Данна Ґурарі, доцентка комп’ютерних наук, наголошує на потенціалі систем штучного інтелекту генерувати неточну або вводити в оману інформацію, що створює ризики для сліпих користувачів при прийнятті рішень на основі ненадійних вихідних даних. Проблеми, такі як неправильна ідентифікація лікарських засобів або неправильне відображення візуальних атрибутів, таких як вік, раса або стать, викликають обурення щодо надійності описів візуальних зображень, згенерованих за допомогою ШІ.

Для вирішення цих проблем Бахрам пропонує впроваджувати оцінки впевненості, які інформують користувачів про надійність інформації, згенерованої штучним інтелектом. При визнанні ризиків Бахрам стверджує, що сліпі люди мають право на доступ до тієї самої візуальної інформації, що і особи з нормальним зором. Відмова у такому доступі через побоювання щодо прихованих упереджень даних або недосконалостей технологій є несправедливою і сприяє нерівності.

Важливо відмітити, що технологія штучного інтелекту не може замінити основні навички мобільності, необхідні для незалежності сліпих людей. Проте ранні випробування Ask Envision та подібних ШІ-асистентів вражають користувачів їхніми можливостями, незважаючи на обмеження. Користувачі цінують нові можливості доступу, і люди, як от Чела Роблес, тромбоністка, висловлюють бажання подальших розробок, таких як читання музики та надання більш просторового контексту.

Злиття штучного інтелекту та допоміжних технологій має величезний потенціал для сліпих людей. Незважаючи на існуючі виклики та ризики, пов’язані з технологіями на базі ШІ, продовжується пошук інноваційних рішень для поліпшення якості життя людей з вадами зору. За допомогою продовження досліджень, вдосконалення точності моделей штучного інтелекту, а також впровадження механізмів перевірки надійності та оцінки впевненості, можна створити більшість доступних та надійних допоміжних продуктів для сліпих людей.

Важливо також забезпечувати широкий доступ до таких технологій та гарантувати їхню використання в інклюзивних середовищах. Це означає, що розробники та виробники повинні враховувати потреби та думки сліпих користувачів у процесі розробки та вдосконалення продуктів. Такий колективний підхід допоможе створити більш адаптовані та відповідні рішення.

Всередині цього швидкозмінного простору технологій майбутнє допоміжних продуктів для сліпих людей здається більш яскравим та обіцяним. З постійним розвитком штучного інтелекту та його можливостей, можна очікувати подальшого зростання інклюзивності та самостійності для сліпих користувачів.