Във вторник AI се стабилизира Освободен Stable Video Diffusion, нов безплатен инструмент за търсене, базиран на AI, който може да превърне всяко неподвижно изображение в кратко видео със смесени резултати. Това е отворен преглед на два модела AI, които използват технология, наречена изображение към видео, и могат да работят локално на машина с Nvidia GPU.
Миналата година Stability AI направи вълни с пускането на Stable Diffusion, модел за синтез на изображения с „отворено тегло“, който стартира вълна от отворен синтез на изображения и вдъхнови голяма общност от любители, които изградиха технологията със свои собствени персонализирани подобрения. Настройка. Стабилността сега иска да направи същото с AI видео композирането, въпреки че технологията все още е в начален стадий.
Понастоящем Stable Video Diffusion се състои от два модела: единият, който може да произвежда синтез на изображение към видео при 14 кадъра (наречен „SVD“), и другият, който генерира 25 кадъра (наречен „SVD-XT“). Може да работи с различни скорости от 3 до 30 кадъра в секунда и извежда кратки MP4 видеоклипове (обикновено с дължина от 2 до 4 секунди) с разделителна способност 576 x 1024.
В нашите локални тестове създаването на генериране на 14 кадъра отне около 30 минути на Nvidia RTX 3060 графична карта, но потребителите могат да изпитат модели, работещи много по-бързо в облака чрез услуги като Прегръщане на лицето И клониране (За някои от тях може да се наложи да платите). В нашите експерименти генерираната анимация обикновено запазва част от сцената неподвижна и добавя ефекти на панорамиране и мащабиране или анимиран дим или огън. Хората на снимките често не се движат, въпреки че получихме снимка на Getty на Стив Возняк, за да оживим малко.
(Забележка: Освен изображението на Стив Возняк от Getty Images, другите анимации в тази статия са създадени с помощта на DALL-E 3 и са анимирани с помощта на Stable Video Diffusion.)
Като се имат предвид тези ограничения, стабилността подчертава, че моделът е все още ранен и е предназначен само за изследване. „Въпреки че с нетърпение актуализираме нашите модели с най-новите разработки и работим, за да включим вашите отзиви, този модел не е предназначен за реални или търговски приложения на този етап. Вашите прозрения и обратна връзка относно безопасността и качеството са важни за подобряването на този модел за окончателното му издание“, пише компанията на своя уебсайт.
Струва си да се отбележи, но може би не е изненадващо, разпространението на стабилизирано видео Изследователска работа Той не разкрива източника на обучителните набори от данни за моделите, а само казва, че изследователският екип е използвал „голям набор от видео данни от приблизително 600 милиона проби“, които са организирали в Големия набор от видео данни (LVD), който се състои от 580 милиони анотирани видеоклипове. Обхваща 212 години съдържание.
Stable Video Diffusion не е първият AI модел, който предлага този тип функционалност. По-рано сме разглеждали други методи за синтез на AI видео, включително тези от Meta, Google и Adobe. Също така разгледахме ModelScope с отворен код и това, което мнозина смятат за най-добрия AI видео модел в момента, моделът Gen-2 на Runway (Лаборатории Бека е друг доставчик на видео, задвижван от AI.) Изкуственият интелект за стабилност казва, че работи и върху модел за текст към видео, който ще позволи създаването на кратки видеоклипове с помощта на писмени подкани вместо изображения.
Тегла на източника и разпространението на стабилно видео На разположение В GitHub друг лесен начин да го тествате локално е да го стартирате чрез файл Пинокио платформакойто лесно се справя с инсталационните зависимости и изпълнява модела в собствена среда.
More Stories
Съобщава се, че Apple работи върху 90Hz Studio Display, iMac и iPad Air
Новото музикално приложение на Nintendo е клонинг на YouTube Music
2027 Pixel Tablet ‘3’ може да има втори USB-C порт