Можете ли да се справите по-добре от AI модели на високо ниво на тези основни тестове за зрение?

Увеличавам / Каквото и да правите, не питайте AI колко хоризонтални линии има в това изображение.

Getty Images

През последните две години видяхме невероятен напредък в системите с изкуствен интелект, когато става въпрос за разпознаване и анализиране на сложно съдържание на изображения. Но нов документ подчертава колко много модерни „модели за визуално обучение“ не успяват да изпълнят прости задачи за визуален анализ на ниско ниво, които са лесни за изпълнение от хората.

В провокативно озаглавения предпечат „Визуалните езикови модели са сляп„ (Което той има PDF версия Това включва емотикони с тъмни слънчеви очила В заглавието), изследователи от Auburn University и University of Alberta създадоха осем прости теста за зрителна острота с обективно верни отговори. Тези тестове варират от определяне на броя пресичания на две цветни линии до идентифициране на оградената буква в дълга дума до преброяване на броя на припокриващите се форми в изображение (може да се предоставят примери и представителни резултати). Разгледан на уеб страницата на изследователския екип).

Ако можете да решавате тези видове пъзели, може да имате по-добри визуални разсъждения от сложния изкуствен интелект.
Пъзелите вдясно изглеждат като нещо от списание Highlights.
Представителна извадка показва модели на ИИ, които не успяват да изпълнят задача, която повечето човешки деца биха намерили за тривиална.

Важното е, че тези тестове са Генерирано от потребителски код Той не разчита на вече съществуващи изображения или тестове, които могат да бъдат намерени в публичния интернет, като по този начин „намалява[ing] „Възможно е VLM да го разрешат чрез консервация“, според изследователите. Тестовете също така изискват „малко или никакви познания за света“ извън основните 2D форми, което затруднява извеждането на отговора само от „текстовия въпрос и избора“ (което беше демонстрирано в няколко предишни проучвания). Беше идентифициран като проблем за някои други визуални AI показатели).

READ Пръстенът на Елдън: белезниците на Маргит имат тайна алтернативна употреба

Вие ли сте най-умният човек в пети клас?

След провеждане на множество тестове на четири различни оптични модела – GPT-4o, Gemini-1.5 Pro, Sonnet-3 и Sonnet-3.5 – изследователите откриха, че и четирите модела не достигат 100-процентната точност, която може да очаквате за такъв визуален анализ прости (които повечето зрящи хора не биха имали много трудности да постигнат). Но степента на увреждане на производителността на AI варира значително в зависимост от конкретната задача. Например, когато беше помолен да преброи броя на редовете и колоните в празна решетка, най-добре представящият се модел даде точен отговор само в по-малко от 60 процента от времето. От друга страна, Gemini-1.5 Pro постигна близо 93 процента точност при идентифициране на кръгли букви, което е близко до човешкото представяне.

По някаква причина моделите са склонни да предполагат, че буквата „o“ е оградена неправилно много повече от всички останали букви в този тест.
Моделите успешно преброиха пет съвършено преплитащи се кръга, модел, с който може да са запознати от обичайните изображения на олимпийските кръгове.
Смятате ли, че преброяването на колони в мрежа е по-лесно от преброяването на редове? Ако е така, вероятно не сте AI.

Дори малки промени в задачите също могат да доведат до огромни промени в резултатите. Докато четирите тествани модела успяха правилно да идентифицират пет припокриващи се кухи кръга, точността във всички модели спадна до по-малко от 50 процента, когато бяха включени шест до девет кръга. Изследователите предполагат, че това „подсказва, че VLM са предубедени към известното лого на Олимпийските игри, което съдържа пет кръга“. В други случаи моделите понякога отгатваха нелогични отговори, като отгатване на „9“, „n“ или „©“ като буква в кръг в думата „Subdermatoglyphic“.

READ Google ще унищожи приложенията за запис на разговори на Android от 11 май

Като цяло, резултатите подчертават как AI моделите, които могат да се представят добре при визуални разсъждения на високо ниво, имат някои значителни „слепи петна“ (съжалявам), когато става въпрос за абстрактни изображения на ниско ниво. Всичко това донякъде напомня на подобни пропуски в способностите, които често виждаме в съвременните големи езикови модели, които могат да генерират много убедителни резюмета на дълги текстове, като в същото време се провалят в много елементарна математика и… Правопис Въпроси.

Тези пропуски във възможностите на VLM може да се дължат на неспособността на тези системи да обобщават извън типовете съдържание, за които са изрично обучени. Въпреки това, когато изследователите се опитаха да настроят фино модел, използвайки конкретни изображения, взети от една от техните задачи (тестът „Докосват ли се два кръга?“), моделът показа само скромно подобрение, от 17% точност до около 37%. „Стойностите на загубите за всички тези експерименти бяха много близки до нула, което показва, че моделът се вписва повече в набора за обучение, но не успява да обобщи“, пишат изследователите.

Изследователите предполагат, че разликата в способностите на VLM може да е свързана с т.нар „Късно сливане“ на визуални енкодери върху големи предварително обучени езикови модели. а Подход на обучение „Ранна интеграция”. Изследователите предполагат, че система, която интегрира визуално кодиране заедно с езиковото обучение, може да даде по-добри резултати при тези задачи на ниско ниво (без да предлага какъвто и да е вид анализ на този проблем).

Eardwulf Froste

„Internet trailblazer. Travelaholic. Страстен евангелист в социалните медии. Защитник на телевизията.“

Можете ли да се справите по-добре от AI модели на високо ниво на тези основни тестове за зрение?

Вие ли сте най-умният човек в пети клас?

Bethesda държи най-добрата независима игра за $100

Dragon Quest Monsters: The Dark Prince идва за PC, iOS и Android на 11 септември

Нови надежди за български спортове през олимпийската година 2020 г.

FNE в Кан 2024: Българско кино на фестивала в Кан

Nasdaq и S&P 500 водят до спад пред разочароващите печалби на Nvidia

„Треска на ленивец“ или Оровирус навлезе в Съединените щати от Куба – ето какво трябва да знаете

Вие ли сте най-умният човек в пети клас?

Вашият коментар Отказ

More Stories

Bethesda държи най-добрата независима игра за $100

Dragon Quest Monsters: The Dark Prince идва за PC, iOS и Android на 11 септември

You may have missed

Нови надежди за български спортове през олимпийската година 2020 г.

FNE в Кан 2024: Българско кино на фестивала в Кан

Nasdaq и S&P 500 водят до спад пред разочароващите печалби на Nvidia

„Треска на ленивец“ или Оровирус навлезе в Съединените щати от Куба – ето какво трябва да знаете