Как «Кандинский» от Сбера меняет правила игры в цифровом искусстве

#Блог

12 марта 2025

Представьте, что у вас есть персональный художник, который рисует всё, что вы только можете описать словами — и делает это за считанные секунды. Именно так работает «Кандинский» — отечественная нейросеть для генерации изображений от «Сбера», названная в честь великого русского художника и теоретика искусства.

нейросети

В мире, где визуальный контент правит бал, «Кандинский» становится настоящей находкой для маркетологов, дизайнеров, блогеров и просто творческих людей. Не нужно часами копаться в фотостоках или нанимать иллюстратора — достаточно описать желаемую картинку, и нейросеть сгенерирует её для вас.

Если вы слышали о западных аналогах вроде Midjourney или Stable Diffusion, то «Кандинский» — это примерно то же самое, только с рядом приятных отличий: он отлично понимает русский язык (и ещё 99 других), доступен без VPN и абсолютно бесплатен. К тому же, в последних версиях он научился генерировать не только статичные изображения, но и анимацию, и даже короткие видеоролики.

Неважно, хотите ли вы создать фотореалистичный пейзаж, стилизованную иллюстрацию или абстрактное искусство — «Кандинский» справится с задачей. А как именно им пользоваться — сейчас разберёмся.

Содержание

Что такое нейросеть «Кандинский» и как она работает
Отличия «Кандинского» от других нейросетей
Плюсы «Кандинского»:
Минусы «Кандинского»:
Где можно воспользоваться «Кандинским»
Официальный сайт Fusion Brain
Сайт ruDALL-E
Telegram-бот для изображений
Telegram-бот для видео
VK-бот
Приложение «Салют»
API для разработчиков
Как создать изображение в «Кандинском» — пошаговая инструкция
Шаг 1: Выбираем формат и качество
Шаг 2: Формулируем запрос (промпт)
Шаг 3: Выбираем стиль
Шаг 4: Уточняем, чего НЕ хотим видеть
Шаг 5: Нажимаем «Создать» и ждём
Шаг 6: Оцениваем результат и корректируем
Шаг 7: Сохраняем результат
Примеры удачных и неудачных промптов:
Как изменить или улучшить уже созданное изображение
Функциональные возможности «Кандинского»
Генерация изображений по тексту
Смешивание изображений и текста
Дорисовка и редактирование изображений
Создание анимаций и видео
Как правильно составлять промпты для генерации качественных изображений
Анатомия идеального промпта
Удачные и неудачные формулировки
Примеры до/после исправления промпта
Секретные ингредиенты
Ограничения и недостатки «Кандинского»
Основные ограничения, которые стоит учитывать:
Итог: стоит ли использовать «Кандинский»?

Свернуть Развернуть

Что такое нейросеть «Кандинский» и как она работает

История «Кандинского» берёт своё начало в далёком по меркам AI-технологий 2021 году, когда «Сбер» выпустил свою первую модель для генерации изображений под названием ruDALL-E. Технология не возникла на пустом месте — её обучали на впечатляющем массиве из миллиарда связок «текст — изображение» (да-да, миллиарда — я не ошибся в подсчётах).

В 2022 году ruDALL-E получил апгрейд и был переименован в «Кандинский». Разработчики не остановились на достигнутом и продолжили совершенствовать свой виртуальный мольберт: модель прошла дополнительное обучение на новом датасете из 170 млн пар «текст — изображение» (скромнее, но всё равно впечатляюще).

С тех пор вышло несколько значимых обновлений. В версии 2.1 (апрель 2023) количество параметров модели выросло с 2 до 3,3 миллиардов, что существенно улучшило качество генерации, особенно в плане передачи теней, отражений и текстур. Версия 2.2 (июль 2023) сделала акцент на фотореализме, а через несколько месяцев добавила возможность генерировать короткие 4-секундные видеоролики.

Но настоящий прорыв случился в ноябре 2023 года, когда на конференции AI Journey «Сбер» представил версию Kandinsky 3.0 и специализированный Kandinsky Video. Изюминкой обновления стало знакомство нейросети с русской культурой и фольклором — теперь «Кандинский» легко генерирует узнаваемых персонажей отечественной культуры, от Бабы Яги до героев советского кинематографа, и даже имитирует народные промыслы вроде гжели или жостовской росписи.

На момент написания этой статьи актуальной версией является Kandinsky 3.1, выпущенная в начале 2024 года, которая продолжила улучшать качество генерации изображений и видео.

Версия	Дата выпуска	Ключевые особенности
ruDALL-E	2021	Первая модель, обучена на 1 млрд пар «текст — изображение»
Kandinsky 2.1	Апрель 2023	3,3 млрд параметров, улучшенная детализация и текстуры
Kandinsky 2.2	Июль 2023	Фотореалистичная генерация, функция создания видео
Kandinsky 3.0	Ноябрь 2023	Глубокое знание русской культуры и фольклора
Kandinsky 3.1	2024	Улучшенное качество генерации, расширенный функционал

По технической сути «Кандинский» — это диффузионная модель, первая такого рода, созданная в России. Для тех, кто не погружён в трясину ML-терминологии: диффузионная модель сначала добавляет случайный шум к изображению, а затем постепенно удаляет его, генерируя осмысленную картинку. Примерно так же работают Midjourney, Stable Diffusion и DALL-E 2.

Отличия «Кандинского» от других нейросетей

Когда дело доходит до генеративных AI-моделей, «Кандинский» — это что-то вроде местного героя на фоне голливудских блокбастеров вроде Midjourney и Stable Diffusion. И хотя он стартовал немного позже своих западных коллег, в некоторых аспектах он их даже превосходит.

Главное отличие, которое сразу бросается в глаза — блестящее понимание русскоязычных запросов. Если вы когда-нибудь пытались описать на английском нюансы российской культуры или быта для той же Midjourney, то знаете, насколько это может быть… скажем так, интересным опытом. «Кандинский» же с первых версий был заточен под работу с русским языком, а к версии 3.0 обзавёлся серьёзными познаниями в области отечественной культуры и фольклора. Попробуйте написать в промпте «Баба Яга» — и вы получите именно то, что представляете, без необходимости долго описывать все детали этого персонажа.

Ещё один важный момент — доступность. Пока Midjourney требует подписки от 10 долларов в месяц (и работает только в Discord), а Stable Diffusion нужно настраивать или использовать через сторонние интерфейсы, «Кандинский» доступен бесплатно через множество платформ: от веб-интерфейса до удобных ботов в Telegram и VK.

Плюсы «Кандинского»:

Полностью бесплатный доступ без ограничений по количеству генераций
Отличное понимание русского языка и локального культурного контекста
Не требует VPN для доступа из России
Поддержка более 100 языков
Интуитивно понятный интерфейс на русском языке
Генерация анимаций и коротких видео
Приватность генераций (никто не увидит ваши эксперименты)

Минусы «Кандинского»:

Качество генерации всё же немного уступает платным западным аналогам
Нет ленты пользовательских работ для вдохновения
Только некоммерческая лицензия на сгенерированные изображения
Бывают проблемы с изображением людей (особенно рук и лиц)
Низкое качество генерируемых видеороликов

В целом, если вам нужно быстро и бесплатно создавать качественные изображения на русском языке — «Кандинский» будет отличным выбором. А для коммерческих проектов или когда требуется максимальное качество, возможно, стоит рассмотреть и платные западные альтернативы.

Где можно воспользоваться «Кандинским»

Одно из главных достоинств «Кандинского» — это обилие способов доступа к нему. Разработчики щедро разбросали свою нейросеть по всем платформам, которые только можно было придумать. Буквально куда ни плюнь — везде можно генерировать изображения (ну, может быть, кроме стиральной машины, хотя я бы не удивился, если они и туда пытались запихнуть API).

Официальный сайт Fusion Brain

Самый полнофункциональный интерфейс для «Кандинского» находится на портале Fusion Brain. Это детище команды исследовательского института искусственного интеллекта AIRI, где выкладывают всякие интересные модели нейросетей. «Кандинский» был первопроходцем на этой платформе, и здесь доступен весь возможный функционал:

Генерация по текстовому запросу
Редактирование загруженных изображений
Инструмент «Ластик» для стирания ненужных деталей
Смешивание двух изображений
Создание анимации и видео
Множество настроек стилей и параметров

Интерфейс интуитивно понятный, с подсказками и горячими клавишами. Начинать работу с «Кандинским» я бы рекомендовал именно отсюда.

Сайт ruDALL-E

Это, так сказать, облегчённая версия интерфейса с урезанным функционалом. Здесь можно только генерировать изображения по текстовому описанию. Зато есть возможность переключаться между разными версиями модели, включая архивные: 2.2, 2.1, ruDALL-E Kandinsky, ruDALL-E Malevich и даже забавный ruDALL-E Emojich. Правда, как это часто бывает с бесплатными сервисами, работает он не всегда стабильно.

Telegram-бот для изображений

Если вы любите всё делать, не выходя из Telegram (как я, например), то вам понравится официальный бот Kandinsky by Sber AI. Поддерживает актуальную версию 3.1 и архивные 2.2 и 2.1. Функционал включает:

Генерацию по текстовому запросу на всех версиях
Смешивание image (на версии 2.1 и 2.2)
Перенос стиля (на версии 2.2)
Создание вариаций существующих изображений
Генерацию стикеров

Telegram-бот для видео

Отдельный бот Kandinsky Video by Sber AI существует специально для создания видеороликов. Правда, для доступа к нему нужно оставить заявку и дождаться одобрения — технология пока экспериментальная и не масштабируется на всех желающих.

VK-бот

В социальной сети ВКонтакте тоже есть официальный бот «Кандинского». Возможности скромнее, чем у Telegram-версии — только генерация изображений по запросу в трёх возможных ориентациях (1:1, 3:2, 2:3). Но для быстрой визуализации идей или создания картинки для поста этого вполне достаточно.

Приложение «Салют»

Если вы предпочитаете голосовое общение, можно активировать «Кандинского» через виртуального ассистента в мобильном приложении «Салют» или на умных устройствах под управлением Салют ТВ. Просто скажите: «Включи художника» — и вперёд.

API для разработчиков

Для продвинутых пользователей с навыками программирования «Сбер» предоставляет API Fusion Brain, который можно интегрировать в собственный сайт или приложение.

Платформа	Генерация по тексту	Редактирование	Смешивание	Анимация	Видео	Русский язык
Fusion Brain	✅	✅	✅	✅	✅	✅
ruDALL-E	✅	❌	❌	❌	❌	✅
Telegram-бот	✅	✅	✅	❌	❌	✅
VK-бот	✅	❌	❌	❌	❌	✅
«Салют»	✅	❌	❌	❌	❌	✅
Telegram Видео-бот	❌	❌	❌	❌	✅	✅

Выбирайте то, что больше подходит вашим потребностям и привычкам работы. А если хотите получить максимум от «Кандинского» — рекомендую начать с Fusion Brain и уже потом экспериментировать с другими платформами.

Как создать изображение в «Кандинском» — пошаговая инструкция

Итак, вы решили-таки впечатлить коллег/клиентов/подписчиков (нужное подчеркнуть) своими дизайнерскими способностями, но не хотите тратить годы на освоение Photoshop или тысячи рублей на фрилансеров. Что ж, давайте разберёмся, как заставить «Кандинского» делать всю тяжёлую работу за вас. Я расскажу на примере интерфейса Fusion Brain, как самого полнофункционального.

Шаг 1: Выбираем формат и качество

Первое, с чем нужно определиться — это размер и ориентация будущего шедевра. В отличие от большинства нейросетей, «Кандинский» не предлагает вручную указать разрешение картинки, но вместо этого даёт выбрать из стандартных форматов:

Квадрат 1:1 (1024×1024 px)
Горизонтальный 3:2 (1536×1024 px)
Вертикальный 2:3 (1024×1536 px)

Выбирайте формат, исходя из назначения картинки: для постов в Instagram подойдёт квадрат, для обложки статьи — горизонтальный, а для сторис — вертикальный.

Шаг 2: Формулируем запрос (промпт)

Теперь самое интересное — описание того, что вы хотите увидеть. Вводим запрос в текстовое поле под областью генерации. Тут важно быть конкретным:

«Красивая девушка в поле» — слишком размыто.

«Молодая девушка с русыми волосами в белом платье стоит посреди лавандового поля, закат, тёплый летний вечер, фотореалистичный стиль» — гораздо лучше.

Шаг 3: Выбираем стиль

Под полем ввода текста можно выбрать один из предустановленных стилей:

Anime (аниме)
Comic (комикс)
Digital Art (цифровое искусство)
Fantasy Art (фэнтези)
Photographic (фотореалистичный) И множество других

Не забудьте также выбрать «Модель» — обычно лучше использовать самую последнюю версию.

Шаг 4: Уточняем, чего НЕ хотим видеть

Одна из мощных функций «Кандинского» — негативный промпт. Нажмите на кнопку «Отклонение» под текстовым полем, и откроется дополнительное поле, куда можно вписать то, чего быть НЕ должно.

Например, если вы заметили, что нейросеть постоянно рисует людей с шестью пальцами (а такое случается), впишите в негативный промпт «6 fingers, bad anatomy» — и шансы получить нормальную анатомию возрастут.

Шаг 5: Нажимаем «Создать» и ждём

Нажмите на кнопку «Создать» и подождите несколько секунд (обычно не более 10-15). Магия нейросети начнёт творить чудеса, и перед вами появится первая версия изображения.

Шаг 6: Оцениваем результат и корректируем

Внимательно изучите полученное image. Если оно не соответствует ожиданиям, можно:

Уточнить запрос, добавив больше деталей
Изменить стиль
Добавить негативные ключевые слова для элементов, которые выглядят неестественно
Просто нажать «Создать» ещё раз для генерации новой версии

Шаг 7: Сохраняем результат

Когда вы довольны результатом, нажмите на значок скачивания в верхнем правом углу, чтобы сохранить image на ваше устройство.

Примеры удачных и неудачных промптов:

Неудачные промпты:

«Кот» (слишком размыто)
«Красивый пейзаж с горами» (недостаточно деталей)
«Человек в космосе» (слишком обобщённо)

Удачные промпты:

«Рыжий полосатый кот играет с клубком шерсти на деревянном полу, солнечный свет из окна, домашняя атмосфера, фотореалистичный стиль, высокая детализация»
«Величественные горы со снежными вершинами на рассвете, горное озеро с кристально чистой водой на переднем плане, несколько сосен по берегам, стиль фотография National Geographic»
«Космонавт в белом скафандре парит в открытом космосе, Земля видна на фоне, звёзды, космический корабль вдалеке, научно-реалистичный стиль, высокая детализация»

Совет: чем больше конкретных деталей — тем лучше результат. Но не переусердствуйте — слишком длинные и противоречивые запросы могут запутать нейросеть.

Как изменить или улучшить уже созданное изображение

«Кандинский» предлагает несколько способов доработки сгенерированных изображений:

Ластик

Если какая-то часть image вам не нравится, можно выбрать инструмент «Ластик» (иконка ластика в левой панели), выделить проблемную область и написать новый запрос для этой конкретной части. Нейросеть перерисует только выделенную область, сохранив остальную композицию.

Дорисовка

Часто случается, что нейросеть генерирует замечательный объект, но он обрезан краем изображения. Можно расширить холст, перетащив рамку изображения, и дать нейросети запрос дорисовать недостающую часть. Например, если у вас есть портрет, обрезанный на уровне плеч, можно расширить холст вниз и попросить дорисовать тело.

Смешивание изображений

Ещё один интересный способ — загрузить два изображения и смешать их, указав, что именно должно получиться. Например, можно взять портрет человека и фото космоса, чтобы получить космический портрет.

Помните, что работа с «Кандинским» — это вопрос практики. Чем больше вы экспериментируете с разными промптами и инструментами, тем лучше понимаете, как управлять творческим процессом нейросети.

Функциональные возможности «Кандинского»

Генерация изображений по тексту

Генерация image по текстовому описанию — это, безусловно, главный козырь «Кандинского» и основная функция, ради которой большинство пользователей вообще обращаются к нейросетям. И тут наш российский алгоритм демонстрирует впечатляющие возможности.

Что касается стилей, то «Кандинский» предлагает просто шведский стол визуальных направлений. Среди предустановленных стилей вы найдёте:

Anime (аниме)
Comic (комикс)
Digital Art (цифровое искусство)
Fantasy Art (фэнтези)
Photographic (фотореалистичность)
Cinematic (кинематографический)
Oil Painting (масляная живопись)
Watercolor (акварель)
3D Model (3D-модель)
Pixel Art (пиксельная графика)
Vector (векторная графика)
Pop Art (поп-арт)

А для любителей русской культуры есть целый набор национальных стилей: гжель, хохлома, палех и другие народные промыслы. И это не говоря о том, что вы можете описать любой другой стиль в тексте запроса — например, «в стиле Айвазовского» или «как советский плакат 60-х годов».

Особенно хорошо «Кандинский» справляется с российской спецификой. Попробуйте генерировать персонажей русских сказок, советскую архитектуру или традиционные русские блюда — и вы увидите, насколько точно нейросеть понимает эти концепты, в отличие от западных аналогов, где понадобятся сложные и подробные описания.

Смешивание изображений и текста

Одна из самых интересных функций «Кандинского» — это возможность комбинировать различные элементы и image. Тут есть несколько вариаций:

Смешивание двух изображений

Загрузите две разные картинки, и нейросеть создаст на их основе что-то совершенно новое. Эффекты бывают непредсказуемыми и порой сюрреалистичными. Например, можно смешать портрет человека и фотографию космоса, чтобы получить космический портрет.

Добавление элементов к изображению

Вы можете загрузить существующую картинку и с помощью текстового запроса добавить к ней новые элементы. Допустим, у вас есть фото пустой комнаты, и вы хотите добавить туда кота. Загружаете картинку, пишете «кот на диване», и «Кандинский» интегрирует нового персонажа, сохраняя при этом общий стиль и освещение оригинала.

Изменение стиля существующего изображения

Загрузите фотографию и попросите преобразовать её, например, «в стиле аниме» или «как картину Ван Гога». Нейросеть сохранит основную композицию, но полностью изменит визуальный стиль.

Примеры удачных комбинаций:

Портрет + абстрактный фон = сюрреалистический портрет
Городской пейзаж + природа = футуристический эко-город
Фото продукта + художественный стиль = стилизованная реклама
Обычное фото + текстовый запрос «в стиле киберпанк» = футуристическая версия

Эта функция особенно полезна для дизайнеров и маркетологов, которым нужно создавать уникальный визуальный контент на основе существующих материалов.

Дорисовка и редактирование изображений

Если вы когда-нибудь пытались найти идеальное стоковое фото, но каждый раз что-то не устраивало — лишний элемент на заднем плане, неподходящий цвет или просто нужно дорисовать отсутствующую часть — «Кандинский» может стать вашим персональным цифровым реставратором.

В арсенале нейросети есть несколько мощных инструментов для редактирования:

Инструмент «Ластик»

Это настоящий волшебный ластик — но в отличие от обычного, он не просто стирает, а перерисовывает выбранную область. Работает так: вы выделяете часть изображения, которая вам не нравится (например, неудачно сгенерированные руки персонажа — классическая проблема всех нейросетей), пишете текстовый запрос с описанием, как должна выглядеть эта область, и «Кандинский» перерисовывает только эту часть, при этом сохраняя стилистическое единство со всем image.

Inpainting (заполнение внутри)

Эта техника позволяет заменить конкретные объекты внутри изображения. Например, у вас есть человек в красной футболке, но вы хотите сделать футболку синей. Выделяете область футболки, пишете «синяя футболка» и получаете результат без необходимости генерировать всё image заново.

Outpainting (расширение холста)

Функция особенно полезна, когда вы хотите расширить существующее изображение за его пределы. Скажем, у вас есть портрет, обрезанный на уровне плеч, а вам нужна версия в полный рост. Вы расширяете холст вниз и даёте нейросети запрос дорисовать тело, сохраняя стиль и пропорции оригинала.

Особенно впечатляет то, как «Кандинский» учитывает контекст при редактировании. Например, если вы стираете объект на столе и просите нарисовать на его месте чашку, нейросеть понимает, что чашка должна стоять на поверхности стола, а не парить в воздухе, и правильно учитывает перспективу и освещение.

Конечно, как и с любой нейросетью, результаты не всегда идеальны с первой попытки, особенно если вы редактируете сложные элементы вроде человеческих конечностей или лиц, но с каждой версией «Кандинский» совершенствуется и всё лучше справляется с такими задачами.

Создание анимаций и видео

В мире, где статичные изображения уже не так привлекают внимание, возможность создавать движущиеся картинки без специальных навыков — настоящий подарок для контент-мейкеров. «Кандинский» идёт в ногу со временем и предлагает две интересные функции: генерацию анимации и создание коротких видеороликов.

Генерация анимации

В сервисе Fusion Brain есть специальный режим создания анимационных роликов. Процесс работы выглядит так: вы пишете текстовый запрос для нескольких сцен (каждая длительностью около 4 секунд), указываете направление движения камеры для каждой сцены, и нейросеть генерирует последовательность кадров, создавая иллюзию движения.

Важный момент: чем больше сцен вы описываете, тем дольше придётся ждать результат. Поэтому для начала лучше экспериментировать с 1-2 сценами, чтобы понять, соответствует ли результат вашим ожиданиям.

Создание видео

Режим генерации видео имеет меньше настроек по сравнению с анимацией — нет разбивки на сцены и настроек направления камеры. Вы просто вводите один запрос, описывающий весь ролик, и ждёте результата (обычно около 4 минут). Получившееся видео имеет продолжительность примерно 8 секунд.

Справедливости ради стоит отметить, что качество видеороликов в текущей версии «Кандинского» оставляет желать лучшего — они часто выходят смазанными, с низким разрешением и напоминают видео с первых мобильных телефонов начала 2000-х. Но технология развивается стремительно, и есть все основания полагать, что в следующих версиях качество существенно улучшится.

Тем не менее, даже в текущем состоянии эта функция может быть полезна для создания концептуальных видеороликов, черновых версий анимации или просто для творческих экспериментов.

Как правильно составлять промпты для генерации качественных изображений

Искусство составления промптов (или, если хотите, «промптинг») — это что-то вроде современной алхимии. Только вместо превращения свинца в золото мы превращаем текстовые описания в визуальные шедевры. И как в алхимии, тут есть свои формулы и ритуалы, которые существенно повышают шансы на успех.

Анатомия идеального промпта

Правильно составленный запрос для «Кандинского» (как и для других нейросетей) обычно состоит из нескольких ключевых компонентов:

Основной объект или сцена — чётко укажите, что именно должно быть в центре внимания.
Детали объекта — добавьте 2-3 прилагательных, описывающих ключевые характеристики: цвет, материал, возраст, эмоцию.
Окружение и контекст — где находится объект, какое время суток, какая погода, какие дополнительные элементы присутствуют.
Техническое качество — упомяните желаемое качество и реалистичность: «высокая детализация», «фотореалистично», «4K разрешение».
Художественный стиль — укажите стиль, если стандартного фотореализма недостаточно: «акварель», «масло», «в стиле японской гравюры» и т.д.

Внимательно наблюдая за работой «Кандинского», я заметил, что порядок слов имеет значение — нейросеть уделяет больше внимания элементам, упомянутым в начале запроса. Если вы хотите акцентировать детали фона, лучше начать с описания основной сцены, а потом добавить главный объект.

Удачные и неудачные формулировки

Неудачные промпты:

«Красивая девушка» — слишком общо, нет деталей.
«Человек идёт по улице в дождливую погоду» — недостаточно конкретики.
«Космический робот» — минимум информации, результат будет непредсказуемым.

Удачные промпты:

«Молодая рыжеволосая девушка в зелёном платье смотрит на закат, стоя на скале у моря, золотистое освещение, лёгкий морской бриз развевает волосы, фотореалистичный стиль, высокая детализация»
«Мужчина средних лет в сером деловом костюме идёт по мокрой улице Петербурга под прозрачным зонтом, вечер, освещение от уличных фонарей отражается в лужах, дождь, атмосфера меланхолии, кинематографический стиль»
«Гуманоидный робот с элементами в стиле ар-деко исследует заброшенную космическую станцию, внутреннее помещение с высокими потолками, световые лучи проникают через иллюминаторы, частицы пыли в воздухе, атмосфера таинственности, научно-фантастический стиль, высокая детализация»

Примеры до/после исправления промпта

Было: «Кот на диване»

Стало: «Серая полосатая кошка с зелёными глазами лежит на бежевом кожаном диване в стиле минимализм, мягкий дневной свет из окна, домашний уют, фотореалистичный стиль»

Результат: Вместо стандартного рыжего кота в неопределённой позе на генерическом диване — детализированное image конкретной кошки с чётко обозначенным окружением и атмосферой.

Было: «Замок в горах»

Стало: «Средневековый каменный замок с высокими башнями на вершине скалистой горы, окружённый хвойным лесом, раннее утро, туман стелется в долине, лучи восходящего солнца подсвечивают стены замка, в стиле романтизма, высокая детализация»

Результат: Вместо шаблонного замка Disney — атмосферное изображение с продуманной композицией и освещением.

Секретные ингредиенты

Несколько хитростей, которые я обнаружил на практике:

Использование имён известных фотографов или художников — упоминание «в стиле Ван Гога» или «как фотография Анни Лейбовиц» даёт нейросети дополнительный контекст и стилистическое направление.
Технические термины из фотографии — добавление фраз вроде «боке», «глубина резкости», «контровый свет», «золотой час» существенно влияет на визуальный стиль генерации.
Негативные промпты — не менее важно указать, чего вы НЕ хотите видеть. Классический набор для избегания типичных ошибок: «искажённая анатомия, лишние пальцы, непропорциональное тело, размытость, низкое качество».

Помните, что работа с промптами — это процесс итерации. Редко когда первый запрос даёт именно то, что вы представляли. Анализируйте результат, корректируйте описание и пробуйте снова. С опытом вы научитесь «разговаривать» с нейросетью на её языке и получать именно те image, которые хотите.

Ограничения и недостатки «Кандинского»

Как бы я ни восхищался возможностями отечественной нейросети, честность — мой профессиональный долг. А она требует признать: у «Кандинского», как и у любой современной технологии, есть свои ограничения и недостатки. Некоторые из них связаны с общими проблемами генеративных моделей, другие — специфичны именно для нашего российского алгоритма.

Первое, с чем вы неизбежно столкнётесь — это печально известная «проблема рук». Почему-то именно человеческие конечности становятся настоящим испытанием для нейросетей. «Кандинский» в этом плане не исключение: шестипалые руки, деформированные кисти, странно изогнутые пальцы — всё это регулярно появляется на сгенерированных image. Забавно, что эту проблему не могут решить даже разработчики Midjourney с их миллиардными бюджетами, так что не стоит слишком строго судить наших соотечественников.

Другая распространённая проблема — сложности с перспективой. Изображения зданий часто имеют нарушения архитектурной логики: двери могут быть непропорционально маленькими, окна — располагаться хаотично, а лестницы — вести в никуда (буквально, в стену). Особенно явно это проявляется при генерации интерьеров, где «Кандинский» порой создаёт комнаты, способные посрамить работы Эшера своей невозможной геометрией.

Текст — ещё одна ахиллесова пята. Если вам нужно image с читаемыми надписями, то «Кандинский» вас, скорее всего, разочарует. Нейросеть часто генерирует нечитаемые псевдобуквы, которые лишь отдалённо напоминают настоящий шрифт. Это общая проблема для большинства генеративных моделей, но всё же стоит иметь её в виду.

Что касается специфических проблем «Кандинского» — это иногда проявляющаяся «склонность к абстракции». Даже при достаточно конкретных запросах нейросеть может выдать весьма абстрактный результат, хотя вы просили фотореалистичное изображение. Особенно это заметно при работе с портретами знаменитостей или попытках сгенерировать конкретные архитектурные памятники — тут «Кандинский» часто уходит в декоративность вместо достоверности.

Видеогенерация, как я уже упоминал ранее, пока находится в зачаточном состоянии. Результаты выглядят скорее как демонстрация концепта, чем как готовый продукт: низкое разрешение, размытость, проблемы с согласованностью между кадрами. Впрочем, эта функциональность появилась относительно недавно, и есть все основания ожидать её улучшения в будущих версиях.

Основные ограничения, которые стоит учитывать:

Анатомические искажения: особенно с руками, лицами в профиль и сложными позами
Проблемы с перспективой и архитектурной логикой при генерации зданий и интерьеров
Нечитаемый текст на сгенерированных image
Непредсказуемость результата: даже с подробными промптами возможны неожиданные интерпретации
Склонность уходить в абстракцию вместо фотореализма
Низкое качество видеогенерации
Ограничения по разрешению: максимум 1536×1536 пикселей
Только некоммерческая лицензия на сгенерированные изображения

Гистограмма сравнения «Кандинского», Midjourney и Stable Diffusion по ключевым параметрам (качество генерации, русскоязычность, цена, доступность)

Впрочем, справедливости ради отмечу, что многие из этих проблем типичны для всех современных генеративных моделей. И с учётом того, что «Кандинский» развивается стремительными темпами (от первой версии до текущей прошло менее двух лет), можно с оптимизмом смотреть на перспективы этой технологии.

Итог: стоит ли использовать «Кандинский»?

После всего вышесказанного возникает закономерный вопрос: стоит ли вообще связываться с «Кандинским», учитывая все его ограничения и наличие более продвинутых западных аналогов? Мой ответ: определённо да, но с оговорками и в зависимости от конкретных задач.

«Кандинский» — идеальный инструмент для русскоязычных пользователей, которым нужно быстро и бесплатно создавать визуальный контент с локальной спецификой. Если вы ведёте блог, наполняете соцсети контентом или просто хотите визуализировать свои идеи без глубоких познаний в графических редакторах — эта нейросеть справится с задачей на «твёрдую четвёрку».

Особенно впечатляет «Кандинский» при работе с отечественной культурой и реалиями. Попробуйте сгенерировать в Midjourney «мужика в ушанке с балалайкой на фоне хрущёвки» — и вы получите что угодно, только не то, что представляли. «Кандинский» же с такими запросами справляется на удивление хорошо, потому что обучен на соответствующем культурном контексте.

При этом, если вы профессиональный дизайнер или иллюстратор, работающий над коммерческими проектами с высокими требованиями к качеству — Midjourney или Stable Diffusion XL всё ещё будут предпочтительнее. Они выдают более стабильное качество, лучше справляются со сложными композициями и имеют возможность получения коммерческой лицензии (в случае Midjourney).

Существенный плюс «Кандинского» — его доступность. Он полностью бесплатен, не требует VPN для доступа из России и предлагает множество способов взаимодействия: от полнофункциональных веб-интерфейсов до ботов в популярных мессенджерах. Это делает его отличным инструментом для обучения и экспериментов с генеративным AI.

В каком-то смысле «Кандинский» — это история успеха отечественной разработки, которая всего за пару лет прошла путь от «забавного эксперимента» до полноценного конкурента мировых лидеров. И хотя ему есть куда расти (особенно в плане видеогенерации и исправления типичных ошибок), уже сейчас это мощный инструмент, который стоит иметь в своём арсенале.

Итак, мой вердикт: «Кандинский» однозначно стоит использовать, если вам нужны качественные image с русским контекстом, вы цените простоту и доступность, а идеальная анатомия рук на сгенерированных картинках — не критичный для вас фактор. А с учётом темпов его развития, вполне возможно, что через год-другой разрыв с западными аналогами и вовсе сойдёт на нет.