Компанія Stability AI представила безкоштовну модель для створення зображень - Stable Diffusion 3.5 Large
Ключовою зміною став перехід на архітектуру MMDiT (Multimodal Diffusion Transformer) з трьома спеціалізованими текстовими енкодерами:
■ OpenCLIP-ViT/G для розуміння загального контексту і стилів;
■ CLIP-ViT/L для детального аналізу візуальних елементів;
■ T5-XXL для обробки складних текстових описів і просторових відносин.
Stable Diffusion 3.5 Large стане флагманом компанії з 8 мільярдами параметрів, здатний працювати з роздільною здатністю до 1 мегапікселя. Крім нього є також версія Large Turbo, для тих, для кого критична швидкість створення зображення, і версія Stable Diffusion 3.5 Medium, реліз якої очікують наприкінці жовтня, вона запропонує більш полегшену версію з 2.5 мільярдами параметрів, оптимізованими для роботи на звичайних комп'ютерах.
Ключовою зміною став перехід на архітектуру MMDiT (Multimodal Diffusion Transformer) з трьома спеціалізованими текстовими енкодерами:
■ OpenCLIP-ViT/G для розуміння загального контексту і стилів;
■ CLIP-ViT/L для детального аналізу візуальних елементів;
■ T5-XXL для обробки складних текстових описів і просторових відносин.
Stable Diffusion 3.5 Large стане флагманом компанії з 8 мільярдами параметрів, здатний працювати з роздільною здатністю до 1 мегапікселя. Крім нього є також версія Large Turbo, для тих, для кого критична швидкість створення зображення, і версія Stable Diffusion 3.5 Medium, реліз якої очікують наприкінці жовтня, вона запропонує більш полегшену версію з 2.5 мільярдами параметрів, оптимізованими для роботи на звичайних комп'ютерах.