Vaizdų generavimo perversmas naudojant AI: teksto pavertimas vaizdais

Tik saviems

2022-09-11 18:30

Vaizdas sukurtas iš teksto „Laimingos daržovės laukia vakarienės“. Kreditas: Ludwig Maximilian University of Miunchen kurti vaizdus iš teksto per kelias sekundes – ir tai daryti naudojant įprastą vaizdo plokštę ir be superkompiuterių? Kad ir kaip išgalvotai tai skambėtų, tai tapo įmanoma dėl naujojo „Stable Diffusion AI“ modelio.

Pagrindinis algoritmas buvo sukurtas Machine Vision & Learning Group, vadovaujamos prof. Björno Ommero (LMU Miunchenas).

„Netgi pasauliečiams, neturintiems meninio talento ir neturintiems specialių kompiuterinių žinių bei kompiuterinės įrangos, naujasis modelis yra efektyvus įrankis, leidžiantis kompiuteriams generuoti vaizdus pagal komandą. Taigi modelis pašalina kliūtis paprastiems žmonėms išreikšti savo kūrybiškumą“, – sako Ommeris.

Tačiau privalumų yra ir patyrusiems menininkams, kurie gali naudoti „Stable Diffusion“ greitai paversti naujas idėjas įvairiais grafiniais juodraščiais. Tyrėjai įsitikinę, kad tokie dirbtiniu intelektu pagrįsti įrankiai galės išplėsti kūrybinio vaizdo generavimo galimybes naudojant teptuką ir „Photoshop“ taip pat iš esmės, kaip kompiuterinis tekstų apdorojimas padarė revoliuciją rašant rašikliu ir rašomąja mašinėle.

LMU mokslininkai savo projekte palaikė startuolį Stabilumas.Ai, kurio serveriuose buvo mokomas dirbtinio intelekto modelis. „Ši papildoma skaičiavimo galia ir papildomi mokymo pavyzdžiai pavertė mūsų AI modelį vienu galingiausių vaizdo sintezės algoritmų“, – sako informatikas. Milijardų treniruočių vaizdų esmė

Ypatingas šio požiūrio aspektas yra tai, kad nepaisant visų treniruoto modelio galių, jis vis dėlto yra toks kompaktiškas, kad veikia naudojant įprastą vaizdo plokštę ir jam nereikia superkompiuteris, koks anksčiau buvo vaizdų sintezei. Šiuo tikslu dirbtinis intelektas distiliuoja milijardų mokomųjų vaizdų esmę į vos kelių gigabaitų AI modelį.

„Kai toks AI iš tikrųjų supras, kas yra automobilis arba kokios savybės būdingos meniniam stiliui, jis supras būtent šias ryškiausias savybes ir idealiu atveju turėtų galėti kurti tolesnius pavyzdžius, kaip ir senojo meistro dirbtuvės studentai gali sukurti tokio paties stiliaus darbus“, – aiškina Ommeris.

Siekiant LMU mokslininkų tikslo, kad kompiuteriai išmoktų matyti, t. y. suprasti vaizdų turinį, tai dar vienas didelis žingsnis į priekį, kuris toliau skatina pagrindinius mašininio mokymosi ir kompiuterinio matymo tyrimus.

Apmokytas modelis neseniai buvo išleistas nemokamai pagal „CreativeML Open RAIL-M“ licenciją, siekiant palengvinti tolesnius tyrimus ir pritaikymą. šią technologiją plačiau.

„Džiaugiamės galėdami pamatyti, kas bus pastatyta naudojant dabartinius modelius, taip pat pamatyti, kokie tolesni darbai bus atliekami atvirų, bendradarbiavimo tyrimų dėka“, – sako doktorantas Robinas Rombachas.

Daugiau informacijos: Robinas Rombachas ir kt., Didelės skiriamosios gebos vaizdo sintezė naudojant latentinės difuzijos modelius, IEEE konferencijos dėl kompiuterinės vizijos ir modelių atpažinimo (CVPR) medžiaga )2022 (09) Citata2022 :

Revoliucinis vaizdo generavimas naudojant AI: teksto pavertimas vaizdais (2022, rugsėjo 2 d.) gauta rugsėjo 3 d. 2022 iš https://techxplore.com/news/2022-09-revolutionizing-image-ai-text-images…

Šis dokumentas yra saugomas autorių teisių. Išskyrus bet kokius sąžiningus sandorius privačių studijų ar mokslinių tyrimų tikslais, jokia dalis negali būti atkuriama be raštiško leidimo. Turinys pateikiamas tik informaciniais tikslais.