VGGT-Edit: Пекинският университет, CUHK и Shanghai AI Lab съвместно дебютират рамка за редактиране на 3D сцени със скорост 120x

Изследователи от Пекинския университет, Китайския университет в Хонконг, Шанхайската лаборатория за изкуствен интелект и Технологичния университет Нанянг (NTU) съвместно разработиха VGGT-Edit, естествена рамка за 3D редактиране, която извършва модификации на сцената за приблизително 5 секунди – до 120 пъти по-бързо от съществуващите методи.

Основната иновация е насочена към фундаментално ограничение в настоящите модели за 3D реконструкция. От NeRF до 3D Gaussian Splatting и по-нови рамки като VGGT и pi-cubed, индустрията постигна забележителен напредък в реконструкцията – трансформира шепа снимки в пълни 3D сцени за секунди. Но тези модели могат да реконструират света; все още не могат да го редактират. Разказване на реконструирана стая на “преместете стола до прозореца, изтрийте средния и сменете сивия кожен диван с бял кожен диван” последователно прекъсва съществуващите тръбопроводи: столовете изчезват от определени ъгли, докато се появяват отново в други, а немодифицираните фонове се деформират заедно с планираните промени.

Подходът на VGGT-Edit е да заобиколи изцяло 2D и да извърши редактиране директно в 3D пространство. Вместо да редактира отделни 2D изгледи и да разпространява промени, рамката работи естествено върху 3D представянето, като поддържа геометрична последователност във всички гледни точки едновременно. Това означава, че стол, преместен под един ъгъл на камерата, остава преместен във всеки друг ъгъл – свойство, което съществуващите методи, базирани на 2D разпространение, трудно могат да гарантират.

В тестовия бенчмарк DeltaScene VGGT-Edit превъзхожда съществуващите методи в три измерения едновременно: семантична последователност, стабилност на много изгледи и скорост на извод. Закъснението от 5 секунди на редактиране представлява до 120 пъти ускорение в сравнение с предишни подходи, които обикновено изискват минути за сравними модификации на сцена.

Изследователският екип очаква рамката да намали бариерата за създаване на 3D съдържание, задвижвано от AI, с приложения, обхващащи редактиране на игрови активи, архитектурна визуализация, предварителна визуализация на филмови VFX и изграждане на среда за виртуална реалност. Разчитането на подхода на директни 3D операции, а не на многоетапно разпространение от 2D към 3D също го прави по-податлив на сценарии за редактиране в реално време, където забавянето е критично – свойство, което ще има значение, когато създаването на 3D съдържание се премества от офлайн конвейери към интерактивни инструменти.

Работата представлява забележителна стъпка към затваряне на празнината между 3D реконструкция и 3D редактиране, две възможности, които са напреднали паралелно, но рядко в тандем. Правенето на редактиране толкова бързо и последователно, колкото реконструкцията, може значително да ускори работните потоци във всяка индустрия, която разчита на 3D съдържание – от игри и филми до електронна търговия и виртуално пробване.

Source link

Like this:

Like Loading…

Нашия източник е Българо-Китайска Търговско-промишлена палaта

By admin