Можете ли да се справите по-добре от AI модели на високо ниво на тези основни тестове за зрение?

Увеличавам / Каквото и да правите, не питайте AI колко хоризонтални линии има в това изображение.

Getty Images

През последните две години видяхме невероятен напредък в системите с изкуствен интелект, когато става въпрос за разпознаване и анализиране на сложно съдържание на изображения. Но нов документ подчертава колко много модерни „модели за визуално обучение“ не успяват да изпълнят прости задачи за визуален анализ на ниско ниво, които са лесни за изпълнение от хората.

В провокативно озаглавения предпечат „Визуалните езикови модели са сляп„ (Което той има PDF версия Това включва емотикони с тъмни слънчеви очила В заглавието), изследователи от Auburn University и University of Alberta създадоха осем прости теста за зрителна острота с обективно верни отговори. Тези тестове варират от определяне на броя пресичания на две цветни линии до идентифициране на оградената буква в дълга дума до преброяване на броя на припокриващите се форми в изображение (може да се предоставят примери и представителни резултати). Разгледан на уеб страницата на изследователския екип).

Ако можете да решавате тези видове пъзели, може да имате по-добри визуални разсъждения от сложния изкуствен интелект.
Пъзелите вдясно изглеждат като нещо от списание Highlights.
Представителна извадка показва модели на ИИ, които не успяват да изпълнят задача, която повечето човешки деца биха намерили за тривиална.

Важното е, че тези тестове са Генерирано от потребителски код Той не разчита на вече съществуващи изображения или тестове, които могат да бъдат намерени в публичния интернет, като по този начин „намалява[ing] „Възможно е VLM да го разрешат чрез консервация“, според изследователите. Тестовете също така изискват „малко или никакви познания за света“ извън основните 2D форми, което затруднява извеждането на отговора само от „текстовия въпрос и избора“ (което беше демонстрирано в няколко предишни проучвания). Беше идентифициран като проблем за някои други визуални AI показатели).

Вие ли сте най-умният човек в пети клас?

След провеждане на множество тестове на четири различни оптични модела – GPT-4o, Gemini-1.5 Pro, Sonnet-3 и Sonnet-3.5 – изследователите откриха, че и четирите модела не достигат 100-процентната точност, която може да очаквате за такъв визуален анализ прости (които повечето зрящи хора не биха имали много трудности да постигнат). Но степента на увреждане на производителността на AI варира значително в зависимост от конкретната задача. Например, когато беше помолен да преброи броя на редовете и колоните в празна решетка, най-добре представящият се модел даде точен отговор само в по-малко от 60 процента от времето. От друга страна, Gemini-1.5 Pro постигна близо 93 процента точност при идентифициране на кръгли букви, което е близко до човешкото представяне.

По някаква причина моделите са склонни да предполагат, че буквата „o“ е оградена неправилно много повече от всички останали букви в този тест.
Моделите успешно преброиха пет съвършено преплитащи се кръга, модел, с който може да са запознати от обичайните изображения на олимпийските кръгове.
Смятате ли, че преброяването на колони в мрежа е по-лесно от преброяването на редове? Ако е така, вероятно не сте AI.

Дори малки промени в задачите също могат да доведат до огромни промени в резултатите. Докато четирите тествани модела успяха правилно да идентифицират пет припокриващи се кухи кръга, точността във всички модели спадна до по-малко от 50 процента, когато бяха включени шест до девет кръга. Изследователите предполагат, че това „подсказва, че VLM са предубедени към известното лого на Олимпийските игри, което съдържа пет кръга“. В други случаи моделите понякога отгатваха нелогични отговори, като отгатване на „9“, „n“ или „©“ като буква в кръг в думата „Subdermatoglyphic“.

Като цяло, резултатите подчертават как AI моделите, които могат да се представят добре при визуални разсъждения на високо ниво, имат някои значителни „слепи петна“ (съжалявам), когато става въпрос за абстрактни изображения на ниско ниво. Всичко това донякъде напомня на подобни пропуски в способностите, които често виждаме в съвременните големи езикови модели, които могат да генерират много убедителни резюмета на дълги текстове, като в същото време се провалят в много елементарна математика и… Правопис Въпроси.

Тези пропуски във възможностите на VLM може да се дължат на неспособността на тези системи да обобщават извън типовете съдържание, за които са изрично обучени. Въпреки това, когато изследователите се опитаха да настроят фино модел, използвайки конкретни изображения, взети от една от техните задачи (тестът „Докосват ли се два кръга?“), моделът показа само скромно подобрение, от 17% точност до около 37%. „Стойностите на загубите за всички тези експерименти бяха много близки до нула, което показва, че моделът се вписва повече в набора за обучение, но не успява да обобщи“, пишат изследователите.

Изследователите предполагат, че разликата в способностите на VLM може да е свързана с т.нар „Късно сливане“ на визуални енкодери върху големи предварително обучени езикови модели. а Подход на обучение „Ранна интеграция”. Изследователите предполагат, че система, която интегрира визуално кодиране заедно с езиковото обучение, може да даде по-добри резултати при тези задачи на ниско ниво (без да предлага какъвто и да е вид анализ на този проблем).

Можете ли да се справите по-добре от AI модели на високо ниво на тези основни тестове за зрение?

Вие ли сте най-умният човек в пети клас?

Съобщава се, че Apple работи върху 90Hz Studio Display, iMac и iPad Air

Новото музикално приложение на Nintendo е клонинг на YouTube Music

2027 Pixel Tablet ‘3’ може да има втори USB-C порт

Списък на стартъпите Unicorn в България (ноември 2024)

Българката Ева: „Да връщаш е най-важното нещо“

Фотоархивът предлага рядък поглед към ежедневието в комунистическа България

Изследователите са открили начин да огъват светлината около ъглите и е лудост да го видим в действие

Вие ли сте най-умният човек в пети клас?

Вашият коментар Отказ

More Stories

Съобщава се, че Apple работи върху 90Hz Studio Display, iMac и iPad Air

Новото музикално приложение на Nintendo е клонинг на YouTube Music

2027 Pixel Tablet ‘3’ може да има втори USB-C порт

You may have missed

Списък на стартъпите Unicorn в България (ноември 2024)

Българката Ева: „Да връщаш е най-важното нещо“

Фотоархивът предлага рядък поглед към ежедневието в комунистическа България

Изследователите са открили начин да огъват светлината около ъглите и е лудост да го видим в действие