Нов AI модел за „стабилна видео дифузия“ може да анимира всяко неподвижно изображение

Във вторник AI се стабилизира Освободен Stable Video Diffusion, нов безплатен инструмент за търсене, базиран на AI, който може да превърне всяко неподвижно изображение в кратко видео със смесени резултати. Това е отворен преглед на два модела AI, които използват технология, наречена изображение към видео, и могат да работят локално на машина с Nvidia GPU.

Миналата година Stability AI направи вълни с пускането на Stable Diffusion, модел за синтез на изображения с „отворено тегло“, който стартира вълна от отворен синтез на изображения и вдъхнови голяма общност от любители, които изградиха технологията със свои собствени персонализирани подобрения. Настройка. Стабилността сега иска да направи същото с AI видео композирането, въпреки че технологията все още е в начален стадий.

Понастоящем Stable Video Diffusion се състои от два модела: единият, който може да произвежда синтез на изображение към видео при 14 кадъра (наречен „SVD“), и другият, който генерира 25 кадъра (наречен „SVD-XT“). Може да работи с различни скорости от 3 до 30 кадъра в секунда и извежда кратки MP4 видеоклипове (обикновено с дължина от 2 до 4 секунди) с разделителна способност 576 x 1024.

В нашите локални тестове създаването на генериране на 14 кадъра отне около 30 минути на Nvidia RTX 3060 графична карта, но потребителите могат да изпитат модели, работещи много по-бързо в облака чрез услуги като Прегръщане на лицето И клониране (За някои от тях може да се наложи да платите). В нашите експерименти генерираната анимация обикновено запазва част от сцената неподвижна и добавя ефекти на панорамиране и мащабиране или анимиран дим или огън. Хората на снимките често не се движат, въпреки че получихме снимка на Getty на Стив Возняк, за да оживим малко.

READ Разработчиците изграждат начини да избегнат Apple да приспада покупките в приложението

(Забележка: Освен изображението на Стив Возняк от Getty Images, другите анимации в тази статия са създадени с помощта на DALL-E 3 и са анимирани с помощта на Stable Video Diffusion.)

Като се имат предвид тези ограничения, стабилността подчертава, че моделът е все още ранен и е предназначен само за изследване. „Въпреки че с нетърпение актуализираме нашите модели с най-новите разработки и работим, за да включим вашите отзиви, този модел не е предназначен за реални или търговски приложения на този етап. Вашите прозрения и обратна връзка относно безопасността и качеството са важни за подобряването на този модел за окончателното му издание“, пише компанията на своя уебсайт.

Струва си да се отбележи, но може би не е изненадващо, разпространението на стабилизирано видео Изследователска работа Той не разкрива източника на обучителните набори от данни за моделите, а само казва, че изследователският екип е използвал „голям набор от видео данни от приблизително 600 милиона проби“, които са организирали в Големия набор от видео данни (LVD), който се състои от 580 милиони анотирани видеоклипове. Обхваща 212 години съдържание.

Stable Video Diffusion не е първият AI модел, който предлага този тип функционалност. По-рано сме разглеждали други методи за синтез на AI видео, включително тези от Meta, Google и Adobe. Също така разгледахме ModelScope с отворен код и това, което мнозина смятат за най-добрия AI видео модел в момента, моделът Gen-2 на Runway (Лаборатории Бека е друг доставчик на видео, задвижван от AI.) Изкуственият интелект за стабилност казва, че работи и върху модел за текст към видео, който ще позволи създаването на кратки видеоклипове с помощта на писмени подкани вместо изображения.

READ Спрете издухването на изпарения от вентилационните отвори

Тегла на източника и разпространението на стабилно видео На разположение В GitHub друг лесен начин да го тествате локално е да го стартирате чрез файл Пинокио платформакойто лесно се справя с инсталационните зависимости и изпълнява модела в собствена среда.

Eardwulf Froste

„Internet trailblazer. Travelaholic. Страстен евангелист в социалните медии. Защитник на телевизията.“

Нов AI модел за „стабилна видео дифузия“ може да анимира всяко неподвижно изображение – Ars Technica

Bethesda държи най-добрата независима игра за $100

Dragon Quest Monsters: The Dark Prince идва за PC, iOS и Android на 11 септември

Нови надежди за български спортове през олимпийската година 2020 г.

FNE в Кан 2024: Българско кино на фестивала в Кан

Nasdaq и S&P 500 водят до спад пред разочароващите печалби на Nvidia

„Треска на ленивец“ или Оровирус навлезе в Съединените щати от Куба – ето какво трябва да знаете

Вашият коментар Отказ

More Stories