Незабавните видеоклипове може да са следващият скок в AI технологията

Иън Сансавера, софтуерен инженер в стартираща компания в Ню Йорк, наречена Runway AI, написа кратко описание на това, което иска да види във видеоклип. Книги „Тиха река в гората“.

По-малко от две минути по-късно тестова интернет услуга създаде кратък видеоклип на спокойна река в гора. Течащата речна вода блестеше на слънцето, докато прорязваше дърветата и папратите, завиваше зад ъгъла и нежно се плискаше в скалите.

Runway, която планира да отвори услугата си за малка група тестери тази седмица, е една от няколкото компании, които изграждат технология за изкуствен интелект, която скоро ще позволи на хората да създават видеоклипове, просто като напишат няколко думи в поле на екрана на компютъра.

Те представляват следващия етап в надпреварата в индустрията – надпревара, която включва гиганти като Microsoft и Google, както и много по-малки стартиращи фирми – за създаване на нови видове AI системи, които някои смятат, че могат да бъдат следващото голямо нещо в технологиите, толкова важно, колкото уеб браузърите или iPhone.

Новите системи за създаване на видео могат да ускорят работата на създателите на филми и други дигитални художници, като същевременно се превърнат в нов, бърз начин за създаване на трудно откриваема дезинформация онлайн, което затруднява разпознаването какво е истинско онлайн.

Системите са примери за това, което е известно като генеративен изкуствен интелект, който може незабавно да генерира текст, изображения и звуци. Друг пример е ChatGPT, онлайн чатботът, създаден от стартъпа OpenAI от Сан Франциско, който смая технологичната индустрия с възможностите си в края на миналата година.

Google и Meta, компанията майка на Facebook, Компанията представи първите си системи за видеогенериране миналата годинано те не го споделиха с обществеността, защото се опасяваха, че системите в крайна сметка могат да бъдат използвани за разпространение на дезинформация с новооткритата си скорост и ефективност.

Главният изпълнителен директор на Runway Крис Валенсуела обаче каза, че смята, че технологията е твърде важна, за да бъде съхранявана в изследователска лаборатория, въпреки рисковете. „Това е една от най-впечатляващите технологии, които сме създавали през последните 100 години“, каза той. „Имате нужда от хора, които наистина да го използват.“

Възможността за редактиране и манипулиране на филми и видео не е нищо ново, разбира се. Режисьорите правят това повече от век. През последните години изследователи и дигитални художници са използвали различни AI технологии и програми за създаване и редактиране на видеоклипове, които често се наричат фалшиви видеоклипове.

READ Новите актуализации на iOS 14.7, tvOS 14.7 и watchOS 7.6 разширяват поддръжката на ЕКГ и други

Но системи като създадената от Runway биха могли след време да заменят уменията за редактиране с натискането на един бутон.

Технологията на Runway произвежда видеоклипове с всяко кратко описание. За да започнете, просто напишете описание, подобно на бърза бележка.

Това работи най-добре, ако сцената съдържа някакво действие – но не много действие – нещо като „Дъждовен ден в голям град“ или „Куче с мобилен телефон в парка“. Натиснете Enter и системата ще създаде видеоклип след минута или две.

Тази технология може да възпроизвежда обичайни изображения, като котка, спяща на килим. Или може да комбинира различни концепции, за да създаде странно забавни видеоклипове, като крава на рожден ден.

Видеоклиповете са дълги само четири секунди и видеото е накъсано и размазано, ако се вгледате внимателно. Понякога изображенията са странни, изкривени и смущаващи. Системата има начин да слива животни като кучета и котки с неодушевени предмети като топки и мобилни телефони. Но при правилната посока той произвежда видеоклипове, показващи накъде се е запътила технологията.

READ watchOS 10 разширява разширения лимит за зареждане до повече модели на Apple Watch

„В този момент, ако видя HD видео, вероятно ще му се доверя. Но това ще се промени много бързо“, каза Филип Изола, професор в Масачузетския технологичен институт, който специализира в областта на изкуствения интелект.

Подобно на други генеративни AI технологии, системата на Runaway се учи чрез анализиране на числови данни – в този случай изображения, видеоклипове и надписи, описващи съдържанието на тези изображения. Чрез обучението на този тип технология върху все по-големи количества данни, изследователите са уверени, че могат бързо да подобрят и разширят своите умения. Много скоро, смятат експертите, те ще създадат професионално изглеждащи мини-филми, пълни с музика и диалози.

Трудно е да се каже какво създава системата в момента. Това не е картина. Това не е анимационен филм. Това е колекция от много пиксели, смесени заедно, за да се създаде реалистично видео. Компанията планира да представи своята технология с други инструменти, които смята, че ще ускорят работата на професионалните художници.

През последния месец социалните медии гъмжаха от снимки на папа Франциск в бяло пухено палто Balenciaga – изненадващо модерно облекло за 86-годишния папа. Но снимките не бяха истински. 31-годишен строителен работник от Чикаго направи сензация Използване на популярен AI инструмент, наречен Midjourney.

Д-р Изола е прекарал години в изграждането и тестването на този тип технология, първо като изследовател в Калифорнийския университет, Бъркли и в OpenAI, а след това като професор в MIT. Напълно фалшиви снимки на папа Франциск.

„Имаше време, когато хората публикуваха дълбоки фалшификати и не ме заблуждаваха, защото беше твърде странно или твърде нереалистично“, каза той. „Сега не можем да приемем никое от изображенията, които виждаме онлайн, за номинална стойност.“

Midjourney е една от многото услуги, които могат да създават реалистични неподвижни изображения от кратка подкана. Други приложения включват Stable Diffusion и DALL-E, технологията OpenAI, която започна тази вълна от генератори на изображения, когато беше представена преди година.

Midjourney разчита на невронна мрежа, която научава своите умения чрез анализиране на огромни количества данни. Той търси модели, докато разресва милиони цифрови изображения, както и текстови надписи, описващи изображенията, които се фотографират.

READ Кой стои зад зората на съвременното движение за изкуствен интелект?

Когато някой описва изображение на система, той създава списък с функции, които изображението може да има. Една особеност може да бъде извивката в горната част на ухото на кучето. Друг може да бъде ръбът на мобилния телефон. След това втора невронна мрежа, наречена дифузионен модел, генерира изображението и генерира пикселите, необходими за атрибутите. Накрая преобразува пикселите в кохерентно изображение.

Компании като Runway, която има около 40 служители и е събрала 95,5 милиона долара, използват тази технология за създаване на движещи се изображения. Чрез анализиране на хиляди видео клипове, тяхната технология може да се научи да съчетава много неподвижни изображения по подобен съгласуван начин.

„Видеото е просто поредица от кадри – неподвижни изображения – които са комбинирани по начин, който създава илюзията за движение“, каза г-н Валенсуела. „Номерът е да се обучи модел, който разбира връзката и последователността между всяка рамка.“

Подобно на ранните версии на инструменти като DALL-E и Midjourney, техниката понякога съчетава концепции и изображения по странен начин. Ако поръчате мече, което играе баскетбол, той може да подари нещо като трансформиращо се плюшено животно с ледена баскетболна топка. Ако попитате куче с мобилен телефон в парка, то може да ви даде кученце с мобилен телефон с извънземно човешко тяло.

Но експертите вярват, че могат да коригират недостатъците, докато обучават системите си на все повече и повече данни. Те вярват, че технологията в крайна сметка ще направи създаването на видеоклип толкова лесно, колкото писането на изречение.

„В старите времена, за да направите нещо подобно от разстояние, трябваше да имате камера. Трябваше да имате реквизит. Трябваше да имате местоположение. Трябваше да имате разрешение“, каза Сюзън Бонзър, автор и издател в Penn Щат, който беше Изживейте ранното въплъщение на генеративната видео технология, „Трябваше да имате парите.“ „Не е нужно да имате нищо от това сега. Можете просто да седнете и да си го представите.“

Eardwulf Froste

„Internet trailblazer. Travelaholic. Страстен евангелист в социалните медии. Защитник на телевизията.“

Незабавните видеоклипове може да са следващият скок в AI технологията

Ново поколение чатботове

Bethesda държи най-добрата независима игра за $100

Dragon Quest Monsters: The Dark Prince идва за PC, iOS и Android на 11 септември

Нови надежди за български спортове през олимпийската година 2020 г.

FNE в Кан 2024: Българско кино на фестивала в Кан

Nasdaq и S&P 500 водят до спад пред разочароващите печалби на Nvidia

„Треска на ленивец“ или Оровирус навлезе в Съединените щати от Куба – ето какво трябва да знаете