Миналия април стартираща компания в Ню Йорк, наречена Runway AI, представи технология, която позволява на хората да създават видеоклипове, като например крава на парти за рожден ден или куче, което говори на смартфон, просто като напишат изречение в поле на екрана на компютъра.
Четирисекундните видеоклипове бяха замъглени, накъсани, изкривени и досадни. Но това беше ясен знак, че AI технологиите ще генерират все по-завладяващи видеоклипове през следващите месеци и години.
Само десет месеца по-късно стартъпът от Сан Франциско OpenAI представи подобна система, която създава видеоклипове, които изглеждат като взети от холивудски филм. Демонстрацията включваше кратки видеоклипове – заснети за минути – на вълнести мамути, които тичат през заснежена поляна, чудовище, което се взира в топяща се свещ, и сцена на улица в Токио, очевидно заснета от камера, прелитаща из града.
OpenAI, компанията зад chatbot ChatGPT и генератора на неподвижни изображения DALL-E, е сред много компании, които се надпреварват да подобрят този тип незабавен видео генератор, включително стартиращи компании като Runway и технологични гиганти като Google и Meta, собственик на Facebook и Instagram. Тази технология може да ускори работата на опитни режисьори, като същевременно напълно замени по-малко опитните дигитални артисти.
Освен това може да се превърне в бърз и евтин начин за създаване на дезинформация онлайн, което прави по-трудно да разберете какво е истинско онлайн.
„Напълно съм ужасен, че подобно нещо ще повлияе на избори с тясна конкуренция“, каза Орен Ециони, професор от Университета на Вашингтон, който специализира в областта на изкуствения интелект. Той също така е основател на True Media, организация с нестопанска цел, която работи за идентифициране на онлайн дезинформация в политически кампании.
OpenAI нарича новата си система Sora, след японската дума за небе. Екипът, който стои зад технологията, включително изследователите Тим Брукс и Бил Пийбълс, избра името, защото то „създава идеята за неограничен творчески потенциал“.
В интервю те също казаха, че компанията все още не е пуснала Sora на обществеността, защото все още работи, за да разбере рисковете на системата. Вместо това, OpenAI споделя технологията с малка група академици и други външни изследователи, които ще „червен екип“, термин, който се отнася до търсене на начини, по които може да се злоупотребява.
„Намерението тук е да се даде поглед върху това, което е на хоризонта, така че хората да могат да видят възможностите на тази технология и ние да получим обратна връзка“, каза д-р Брукс.
OpenAI вече поставя водни знаци върху произведени от системата видеоклипове, които ги идентифицират като генерирани от AI, но компанията признава, че те могат да бъдат премахнати. Може също да е трудно да се открие. (Ню Йорк Таймс добави водни знаци „Генерирано от AI“ към видеоклипове, съдържащи тази история.)
Системата е пример за генериращ AI, който може да генерира текст, изображения и звуци на място. Подобно на други генеративни AI технологии, системата OpenAI учи чрез анализиране на цифрови данни – в този случай видеоклипове и надписи, описващи какво съдържат тези видеоклипове.
OpenAI отказа да каже колко видеоклипа е научила системата или откъде идва, освен да каже, че обучението включва публично достъпни видеоклипове и видеоклипове, лицензирани от притежатели на авторски права. Компанията казва малко за данните, използвани за обучение на нейната технология, вероятно защото иска да поддържа предимство пред конкурентите – и е била съдена няколко пъти за използване на защитен с авторски права материал.
(Ню Йорк Таймс съди OpenAI и неговия партньор, Microsoft, през декември, твърдейки за нарушаване на авторски права върху новинарско съдържание, свързано с AI системи.)
Sora създава видеоклипове в отговор на кратки описания, като например „прекрасен свят на коралови рифове, направен от хартия, пълен с цветни риби и морски създания“. Въпреки че видеоклиповете могат да бъдат впечатляващи, те не винаги са перфектни и могат да включват странни и нелогични изображения. Например, системата наскоро генерира видеоклип на някой, който яде бисквитка – но бисквитката никога не е ставала по-малка.
DALL-E, Midjourney и други генератори на неподвижни изображения се подобриха толкова бързо през последните няколко години, че сега създават изображения, които са почти неразличими от снимките. Това направи по-трудно идентифицирането на дезинформация онлайн и много дигитални артисти се оплакват, че им е трудно да намерят работа.
„Всички се смяхме през 2022 г., когато Midjourney за първи път излезе и каза: „О, това е сладко“, каза Рийд Саутин, базиран в Мичиган концептуален художник на филма. „Сега хората губят работата си заради Midjourney.“
More Stories
Съобщава се, че Apple работи върху 90Hz Studio Display, iMac и iPad Air
Новото музикално приложение на Nintendo е клонинг на YouTube Music
2027 Pixel Tablet ‘3’ може да има втори USB-C порт