Помощь - Поиск - Пользователи - Календарь
Полная версия этой страницы: Midjourney
DF2 :: ФОРУМЫ > Основные форумы > Свободное Общение
Axolotl


Извиняюсь, если где-то есть уже такая тема, но навскидку не нашел.
Думаю, большинство уже знает о Midjourney и других схожих нейросетях, которые рисуют картинки по текстовому запросу и которые буквально с каждым новым апдейтом делают это всё лучше и лучше не только в плане техничности, но и художественности.
У меня очень много есть чего сказать по этому поводу, но не стану начинать сразу катать гигантские простыни монологов, буду вливаться в темы по мере их возникновения. Кто что думает?

P.S. Прикреплённая картинка сгенерирована мной по простому запросу: "Mona Lisa by Giger, Realistic".
hippocamus
Пробовал Сбербанковское приложение Салют.
Вроде как является продвинутой версией вот этого бота https://t.me/sber_rudalle_xl_bot
Не впечатлён.
Западные, действительно, интереснее! Судя по тому, что выложил ты.
Axolotl
Цитата(hippocamus @ 07 Jan 2023, 04:57) *
Западные, действительно, интереснее! Судя по тому, что выложил ты.


Из того, что я знаю из платных: Dall-E 2 – лучше всего справляется со сложными языковыми конструкциями запросов и картинками с множеством персонажей.
Midjourney – самая художественная. Особенно после выхода четвертой версии в ноябре, прям огромный скачок в качестве.

Из бесплатных: Stable Diffusion, но он сильно отстает. Еще есть форк Unstable Diffusion (без цензуры), его не пробовал, хотя видел картинки неплохие с него. Но сейчас, как я понял, генерирующий бот не работает. Впрочем, если железо позволяет,
их можно и у себя поднять (они с открытым кодом).

P.S. В Midjourney есть, кажется, 25 бесплатных попыток, но советую сперва немного поизучать, как правильно делать запросы, прежде чем тратить попытки.


Вот еще один из моих экспериментов, уже в более стилизованном плане. Да, с пальцами пока всё еще беда у нейросеток.


И вот еще
Чёрный Ветер
Axolotl, а можно так сделать, что вот берёшь иконку Силы Магии из третьих "Героев", засовываешь её куда-нибудь и там вылазит она же в большем разрешении, но чтобы это хорошо выглядело? А то у меня сейчас в группе стоит такая вот ава:



А я хочу, чтобы Сила Магии, а не Знание. Но чтобы норм качество было при этом.
Axolotl
Цитата(Чёрный Ветер @ 07 Jan 2023, 05:27) *
Axolotl, а можно так сделать, что вот берёшь иконку Силы Магии из третьих "Героев", засовываешь её куда-нибудь и там вылазит она же в большем разрешении, но чтобы это хорошо выглядело? А то у меня сейчас в группе стоит такая вот ава:


Midjourney умеет работать с форматом картинка + текст, но работает иначе, она не просто увеличивает, а лишь отталкивается от картинки и рисует что-то похожее в соответствии с текстовым запросом. Да и в принципе с форматом картинка + текст она пока работает не то чтобы плохо, но очень непредсказуемо. Есть другие сетки, работающие именно по апскейлу, пробовал их, давали приемлемый результат, но далеко не идеальный. Впрочем, пробовал довольно давно, с тех пор, учитывая какими семимильными шагами развиваются нейросети, могли произойти очень большие изменения. Погугли что-нибудь типа Upscale AI или Deep Learning Upscale. Их довольно много.
hippocamus
Цитата(Axolotl @ 07 Jan 2023, 01:08) *
P.S. В Midjourney есть, кажется, 25 бесплатных попыток, но советую сперва немного поизучать, как правильно делать запросы, прежде чем тратить попытки.
Как я понял, 25 запросов. То есть, если я попрошу после уже сгенерированного результата увеличить вес одного из параметров или изменить разрешение - будет списан ещё запрос.
Axolotl
Цитата(hippocamus @ 07 Jan 2023, 05:55) *
Цитата(Axolotl @ 07 Jan 2023, 01:08) *
P.S. В Midjourney есть, кажется, 25 бесплатных попыток, но советую сперва немного поизучать, как правильно делать запросы, прежде чем тратить попытки.
Как я понял, 25 запросов. То есть, если я попрошу после уже сгенерированного результата увеличить вес одного из параметров или изменить разрешение - будет списан ещё запрос.


Да. Дело в том, что при изменении параметра сетка всё равно будет рисовать заново, при этом, вероятно, даст совсем другой результат. Там есть возможность работы с фиксированными сидами (seed), чтобы получать более предсказуемый результат при изменении параметров, но тем не менее генерация будет производиться заново.
Чёрный Ветер
Axolotl, там что, надо ещё какой-то текст вводить?
Axolotl
Чтобы как-то подбросить говн на вентилятор дров к уютному костерку обсуждению, примерно накидаю основные вопросы, которые навскидку интересно было бы обсудить.

1 - Философский аспект. До недавнего времени эстетика и творчество считались исключительным эксклюзивом мясных мешков Человека, а творческая машина оставалась, простите за каламбур, фантазиями фантастов. Но внезапно всё изменилось. Сперва были гугловские глаза и собачки, что было просто экспериментом. Потом начали появляться Style Transfer сетки, которые могли просто стилизовать рисунок или фотографию. На это смотрели с интересом, но все-таки серьёзной конкуренции для Человека это не вызывало. Потом появились первые версии собственно TextToImage сеток, которые давали результаты удивляющие, но всё же далёкие от "человеческого гения". И вот каждая новая версия Midjourney показывала, что сеть, хоть и все еще имеет массу ограничений и слабых мест, но вполне может не только в техничность, но и в художественность, понимание стилей, атмосферы и даже умеет "креативить". Сейчас повсюду мелькают высказывания различных artist'ов о том, что, мол, сетка всё равно не сможет как человек. Размышления эти, конечно, сводятся к таланту, гениальности, душе и прочей метафизике и абстракциям.

Сразу выскажу некоторые мысли по первому вопросу. По поводу души, хз, возможно, нити моей души не столь нежны, тонки и звонки, но все-таки считаю, что какой-то художественный вкус у меня есть. И я вижу, что нейросеть иногда (а сейчас уже нередко) создаёт не просто красивые картинки, но картинки атмосферные, "глубокие", необычные и лично мои эстетические струнки души они вполне себе дёргают. И это удивительно! Тот самый загадочный феномен "эстетического восприятия", который мы всё еще не можем ни формализовать толком; ни разложить по полочкам, написав инструкцию того, "как создать гениальное произведение"; ни понять что это и зачем оно нам – нейросеть же всё это успешно разобрала на паттерны.
Что еще интересней, нейросеть не просто/не только нагло копирует. Она стала чем-то вроде творческого подсознания всей человеческой изобразительной культуры (ну пока еще не всей, но это лишь технический момент), впитав в себя все мировые художества. Она умеет смешивать стили самым непредсказуемым образом, что в общем-то принципиально не отличается от того, как художник создаёт свой уникальный стиль, воспитываясь на множестве чужих. Даёт порой очень необычные и очень "дизайнерские" решения. А уж в различном сюрреализме порой и даже более интересна человеческого в том плане, что её именно непредсказуемые результаты, глюки и глитчи – это именно "честный" сюр. Художник-человек, рисуя сюрреализм, предвзят, он заведомо стремится к необычному результату. Нейросеть же работает ближе к чистому подсознанию, словно бы мы научились фотографировать сны. Я имею в виду не когда её просят нарисовать сюрреализм, тогда она действительно просто подражает художникам сюрреалистам, а когда она, не понимая сложных запросов, начинает мешать образы. Забавно еще наблюдать за её "наивностью", т.е. тем, что она не понимает того, что рисует. Как художник, который совершенно не знаком с автомеханикой пытается по памяти нарисовать двигатель или еще какие-то сложные технические элементы, или то, как в детстве многие из нас пытаются подражать рисованию иероглифов, изображая что-то примерно похожее, но не несущее никакого смысла.

2 – Морально-этические вопросы. Например, генерация изображений с известными реальными людьми.
Также сейчас появляются заявления художников что-то типа: "а какого морского буя вы взяли и практически скопировали мою творческую, мля, индивидуальность и теперь рисуете за меня?! Полагаю, тут еще немало моральных аспектов можно придумать.

2.1 – Судьба художников. Пока что у художников всё еще осталась ниша, хоть и очень сильно притесненная и, вероятно, останется, но явно притесниться придётся еще довольно сильно.

3 – Любые чисто технические моменты. Текущие ограничения, возможности, искусство правильно задать запрос, технические параметры запросов и т.п.

4 - Визионерство. Фантазии на тему того, как оно будет и может развиваться.

-----------------------------
Чёрный Ветер В обычных апскейл сетях не нужно, а если ты про Midjourney, то делать картинку из описания – это и есть её основной функционал. Возможность в ней как-то брать за основу картинку, это пока еще просто прикрученная экспериментальная фича.
Vade Parvis
Пока не буду полноценно вступать в дискуссию, только отмечу ряд моментов (потом, вероятно, отпишусь более развёрнуто):
- "Художественные" нейросети — хороший, интересный потенциал в помощь художнику с кучей применений в различных областях, способный оказать значительное подспорье в "промышленных" задачах. Инструмент, а не заменитель специалиста (как 3д-принтеры — не заменители промышленного комплекса и т. д. с технологиями последних лет, вызывавшими всплески энтузиазма и "похорон" тех или иных областей в последние годы).
- Хайп вокруг темы совершенно нездоровый, направления его неадекватны, искусственное раздувание нездорового хайпа крупными компаниями удручает, уровень исступлённой агрессии сетевых "хоронителей художников" и их нездоровая активность зачастую просто зашкаливает (и более всего напоминает недавнюю активность "антиваксеров").
- Интернет завален непониманием того, что нейросети собою представляют, как они работают, какие возможности они дают, а какие нет. Они повсеместно возвеличены в глазах обывателя до фантастических высот там, где реально ничего собою не представляют (и, местами, в принципе не способны представлять), и при этом всем в массе своей плевать на то, в чём они реально сильны и полезны.

Помимо развёртывания вышенаписанного — есть ещё кое-какие интересные нюансы, на которых мне хотелось бы всё-таки остановиться подробнее, и которые в двух словах не описать.
Axolotl
С 3Д принтерами, на мой взгляд, ситуация несколько иная, там вся аргументация строится не на текущей технологии, а на том, "когда/если" эти принтеры дойдут до определённого технического уровня и массовой доступности. А они развиваются не так быстро, как в некоторых оптимистичных предположениях.
Тут же у нас уже имеется рабочая технология, которая уже вполне успешно может конкурировать пока не с любым, но с множеством художников. Да, всё еще есть проблемы, часть из которых пока непонятно как, как хорошо и когда решится. Часть же проблем – лишь вопрос времени и они уже сейчас технически решаемы, например, базовое (а не итоговое) разрешение генерируемой картинки или увеличение базы данных.

Да, я тоже сильно сомневаюсь, что эта технология полностью вытеснит необходимость платить художникам, но то, что уменьшит их востребованность и кол-во их работы – уверен на 100%, т.к. это уже происходит. Кстати, не знаю на сколько ты следишь за темой, но если вдруг представление о текущих возможностях идёт из третьей версии Midjourney, то советую ознакомиться с результатами четвертой (вышла в ноябре), т.к. разница огромная. А вскоре еще и обещают поднять базовое разрешение. Серьёзные специалисты в комплексных задачах, понятно, будут нужны еще долго, а, скорее всего, всегда, а вот в массовом масштабе по востребованности ударит точно.
feanor
Цитата
С 3Д принтерами, на мой взгляд, ситуация несколько иная, там вся аргументация строится не на текущей технологии, а на том, "когда/если" эти принтеры дойдут до определённого технического уровня и массовой доступности.

Проблема хайпа вокруг 3D-принтеров в том, что хайп вокруг них раздувался в неправильную сторону и подогревались принципиально невыполнимые ожидания.
Т.е. по какой-то причине считалось, что они не только впишутся в нишу мелкосерийного производства для удовлетворения нишевого спроса, но станут альтернативой производству крупносерийному. При этом, в принципе, если подумать, то было сразу очевидно, что никогда на 3D-принтерах не будут печатать кружки, шлепанцы и дверные ручки. Наука такого не позволяет.

Сейчас мы видим примерно тоже самое по поводу нейросетей: в достаточно очевидных целях лето ИИ разогревается до венерианских температур практически, и вот эту одну конкретную технологию пытаются продать как "полдороги до Сильного ИИ Общего Назначения".

=======================================

И еще позволю себе обратить внимание на один важный аспект. А то все ударяются в подсчет пальцев или в советы художникам по поводу ста лучших рецептов приготовления Роллтона.
Нейросети (не только художественные, а в общем) это смерть либертарианского IT-мифа о одиноком программисте, "безумном ученом" или "гениальном промышленнике" наших дней.

То есть, смотрите, как он выглядел раньше. Мол, можно купить компьютер, купить какой-то софт, и, если ты умный и хваткий, сделать что-то нужное людям, продать, разбогатеть, профит, волшебная история про преимущества капитализма и частной инициативы, олицетворенная в калифорнийском гараже Билла Джобса, визионерских книгах типа Техногнозиса и распиаренная посткиберпанком. Там, потом, правда жахнул какой-то крах доткомов, но это было давно, недолго и вообще неправда.

Вообще блекнуть эта калифорнийская мечта стала еще во времена SaaS'a. Распространение софта как сервиса, с ежемесячными и ежегодными платежами заставило особо умных задуматься о том, что вообще-то теперь речь идет не о разовой покупке средства производства, а о постоянных платежах. Впрочем, цены были умеренные, визионеры уверили, что это новый тренд, и вообще скоро цены упадут настолько, что у каждого человека будет по своему личному облаку. Опять же, для самых параноиков были старые решения, которые, в общем-то, умели все тоже, пусть сложнее и дороже.
Параллельно с этим стало ясно, что в словосочетании "корпорации добра" слово корпорации стоит на первом месте, а добра на последнем, но это тоже как-то заигралось, просто стартапы переориентировались с историй индивидуального успеха на истории или прямой самопродажи, или IPO.


Теперь смотрите, что мы получили после бигдата-революции и после конкретно нейросетей.

В первую очередь, с фигуры программиста фокус сместился на датасеты, доступ к ним и к средствам обработки. При этом, что самое важное, у них нет локализуемых аналогов. Даже если ты сможешь на локалхосте запустить нейросетку (что само по себе уже достаточно дорого, и дальше будет становиться все дороже и дороже), обучить её - задача совсем другой величины, а получить доступ к датасетам, на которых её можно будет обучить - третья, причем, опять же, со временем (и с распространением осознания их ценности) все более сложная.
То есть, датасеты становятся капиталом сами по себе, причем заметно более важным, чем человеческий, и капиталом, эквивалентным серьезным средствам производства в других отраслях промышленности.

Более того, распространение ИИ-арта отравляет потенциальные датасеты, заставляя ИИ цитировать самого себя (представьте себе творчество душевнобольных, основанное на творчестве душевнобольных). Поэтому кто успел к первоначальному накоплению капитала тот и молодец.
Axolotl
Цитата(feanor @ 08 Jan 2023, 07:55) *
Более того, распространение ИИ-арта отравляет потенциальные датасеты, заставляя ИИ цитировать самого себя (представьте себе творчество душевнобольных, основанное на творчестве душевнобольных). Поэтому кто успел к первоначальному накоплению капитала тот и молодец.


О, вот буквально несколько месяцев назад в одном чатике поднимал этот вопрос. Меня уверяли, что процент будет не сильно большой, а новый не ИИ арт тоже будет появляться и разбавлять всё до незначительных аберраций, но я тоже не был уверен в этом.

Я же больше склоняюсь к мысли о том, что кол-во (объём) датасета должно начать переходить качество. Т.е. ручной отбор материала в базе. В принципе это уже происходит. В последней версии Midjouney её обучили куче разных жанров, техник, художников. Т.е. она и до этого их знала, но знала, видимо, по полученным случайным образом картинкам "из гугла", нередко сомнительного качества, а тут её именно обучили определённым узким паттернам запросов типа "by Akihiko Yoshida" или "Chromolithography style" на качественном материале. И результаты генераций на качественном материале прям значительно лучше, чем просто из большой базы картинок.
Axolotl
Вопрос, видимо, к Феанору.

Я понимаю, что обучение сети (даже чисто технически) – это процесс на кучу порядков более дорогой, чем последующая генерация результатов.
Интересно, возможны какие-то гибридные, блочные методы, где нейросеть "дообучают" уже локальным "паттернам" без необходимости заново прогонять всю базу?. Ну вот как в новой версии Midjourney её обучили стилю многих более узких художников. Это возможно только при полном "пересборе" и обновлении датасета или есть пути с дообучением?
Axolotl
Я вот тут подумал про проблему итераций, т.е. того, что в нейросетевую базу будут неизбежно попадать картинки, сгенерированные ей же. Типа да, я понимаю проблему, сам давно еще проводил мысленный эксперимент, что если нейросетку заставить сгенерировать 10000 пусть даже самых удачных её паттернов, а потом обучить на этой тысяче, и снова сгенерировать 10000 и так далее, то мы в итоге придём к какой-нибудь дичи.

Но я подумал про некоторые потенциальные сглаживающие возможности (помимо "ручной" модерации датасетов). Обучение на ошибках и удачных результатах. Возможно, кто-то вспомнит старый проект "электро овцы".
Но если тупо на тех же лайках/дизлайках это даст посредственный результат, то большой потенциал вижу в том, что можно обучать на результатах "реконструкции локальных участков". В Midjourney пока этого нет, но, кажется, реализовывали в Stable Diffusion. Т.е. когда ты в сгенерированной картинке можешь рамочкой или кистью выбрать неудачную зону, скажем, криво получившийся глаз, и "перерисовать" именно этот участок. И если всю эту инфу складировать и тегать как удачные/неудачные кусочки, а потом обучить на этих результатах, то качество, полагаю может улучшиться. Ну а пользователи очень быстро нагенерят базу для обучения, только дай им такую возможность, т.к. опция очень востребованная.

P.S. Ну и, конечно, потом это процедуру можно провести второй, третий и т.д. раз.
hippocamus
Цитата(Axolotl @ 12 Jan 2023, 08:57) *
Я вот тут подумал про проблему итераций, т.е. того, что в нейросетевую базу будут неизбежно попадать картинки, сгенерированные ей же. Типа да, я понимаю проблему, сам давно еще проводил мысленный эксперимент, что если нейросетку заставить сгенерировать 10000 пусть даже самых удачных её паттернов, а потом обучить на этой тысяче, и снова сгенерировать 10000 и так далее, то мы в итоге придём к какой-нибудь дичи.
Мне кажется, дичи тут не будет - будут повторяющиеся паттерны, то есть, так скажем, характерные творческие приёмы, формирующие индивидуальный художественный стиль нейросети с этим датасетом.
Axolotl
Цитата(hippocamus @ 12 Jan 2023, 19:42) *
Цитата(Axolotl @ 12 Jan 2023, 08:57) *
Я вот тут подумал про проблему итераций, т.е. того, что в нейросетевую базу будут неизбежно попадать картинки, сгенерированные ей же. Типа да, я понимаю проблему, сам давно еще проводил мысленный эксперимент, что если нейросетку заставить сгенерировать 10000 пусть даже самых удачных её паттернов, а потом обучить на этой тысяче, и снова сгенерировать 10000 и так далее, то мы в итоге придём к какой-нибудь дичи.
Мне кажется, дичи тут не будет - будут повторяющиеся паттерны, то есть, так скажем, характерные творческие приёмы, формирующие индивидуальный художественный стиль нейросети с этим датасетом.

Не совсем. Нейросеть делает ошибки. Если её учить на этих ошибочных результатах, то она эти ошибки будет делать не случайно, а уже они пролезут в паттерны, затем поверх этих ошибок будут также возникать ошибки, и далее уже будет заучен материал с ошибками поверх ошибок и так далее, до полной деградации. Поэтому лучше сразу бороться с этой проблемой.
Арысь-Поле
К разговору о датасетах - интересно, как в среднем будут обстоять дела с авторским правом дальше? Ведь из-за него нет аналогичных нейросетей для музыки. Легко ли будет художникам закопирайтить своё от скармливания нейросеткам?

А так Stable diffusion прокрадывается в пайплайны точно, видели уже и курсы по ней для казуальных художников, и людей, которые ставили её себе, кормили своими же работами и активно используют.

Лично у меня нейросетки чуток убили интерес к достижению технических высот (до этого 3d тоже охлаждало пыл, ибо реализма с помощью него достичь легче) и в какой-то степени геймдеву, сейчас пытаюсь искать иные ниши.
feanor
Кстати, о порче датасетов)0

https://www.cnews.ru/news/top/2023-01-12_ii...h_programmistov
Цитата
Эксперты Microsoft и двух крупных университетов представили методику компрометации моделей для обучения ИИ, которые ассистируют в написании программного кода. Такие системы можно заставить генерировать подсказки для человека, содержащие вредоносный код или уязвимости.


Впрочем, на самом деле пост был не совсем об этом (в пять утра я пишу путано, кто бы мог подумать), попробую tl;dr

нейроинструменты (и в целом инструменты, основанные на бигдате) переводят программиста из разряда вольных кустарей (типа слесаря с чемоданчиком инструмента) в индустриальные рабочие (типа мастера-станочника: это все еще квалифицированная работа, но, тем не менее, способность зарабатывать деньги сильно зависит от доступа к не принадлежащему ему оборудованию. С соответствующими последствиями для рынка труда, да.
Axolotl
Цитата(Арысь-Поле @ 13 Jan 2023, 17:38) *
Лично у меня нейросетки чуток убили интерес к достижению технических высот (до этого 3d тоже охлаждало пыл, ибо реализма с помощью него достичь легче) и в какой-то степени геймдеву, сейчас пытаюсь искать иные ниши.


Черт знает. возможно, у меня никогда не было творческих амбиций (честно затрудняюсь сказать – хорошо это или плохо). Ну т.е. у меня никогда не было проблем с форматом "работать в стол". К тому же мотивация "хочу стать профессиональным художником, потому что они дофига зарабатывают" – это точно не про художников)) Поэтому творчество остается такой же нишей, какой и была, для меня это примерно также, как если появится робот, который умеет купаться в море или гулять по лесу лучше меня. Ну и что? Мне теперь по лесу не гулять?!)))

P.S. Пример, конечно, кривоватый, т.к. гуляние и купание в море не имеет итогового оцениваемого извне результата, а лишь для моего собственного удовольствия, но в том и была параллель.
hippocamus
Цитата(Axolotl @ 14 Jan 2023, 00:35) *
Черт знает. возможно, у меня никогда не было творческих амбиций (честно затрудняюсь сказать – хорошо это или плохо). Ну т.е. у меня никогда не было проблем с форматом "работать в стол". К тому же мотивация "хочу стать профессиональным художником, потому что они дофига зарабатывают" – это точно не про художников)) Поэтому творчество остается такой же нишей, какой и была, для меня это примерно также, как если появится робот, который умеет купаться в море или гулять по лесу лучше меня. Ну и что? Мне теперь по лесу не гулять?!)))
А если прогресс достигнет такой стадии, что скормив роботу 2-5 твоих оригинальных работ, он начнёт выдавать "то, что ты подумал, но решил, что это невозможно"?
То есть, будет более ты, чем ты сам?
Axolotl
Цитата(hippocamus @ 14 Jan 2023, 04:48) *
А если прогресс достигнет такой стадии, что скормив роботу 2-5 твоих оригинальных работ, он начнёт выдавать "то, что ты подумал, но решил, что это невозможно"?
То есть, будет более ты, чем ты сам?


"Вы что, и конфеты есть за меня будете?"(с)
Я к чему это все описывал?)) Удовольствия от процесса робот за меня не получит.
Axolotl
Размышлял по поводу датасетов. Пришел пока к такому, возможно, наивному видению предпочтительного развития ситуации.
Да, помимо количества базы должно быть и качество, т.е. ручная корректировка. Плюс, база должна быть общедоступной. Как этого достичь?
База должна собираться вручную массовыми усилиями людей. Чтобы всё не скатилось в хаос, должна быть "параноидально-бюрократическая" система на манер википедии или Rateyourmusic. Чистить ошибочные результаты, грохать картинки в плохом качестве. Если это работы художника, менять плохое качество на хорошее. Работа титаническая, но и людей дофига. C миру по нитке, как говорица. Увы, копирасты будут неизбежно вставлять палки в колёса, но тут я не знаю что делать.

В идеале к сохранению художественного наследия, даже без контекста обучения нейросетей, уже давно должна бы была подключиться какая-то международная культурная организация, которая бы поддерживала и наполняла виртуальную библиотеку мировых художеств в высоком качестве и занималась оцифровкой всех этих художеств современным оборудованием, сотрудничая с музеями и частными коллекциями (но это я губозакаточную машинку где-то обронил). Это вообще печалит, что многие замечательные художники и иллюстраторы (даже классические с мировым именем) вообще присутствуют в сети только в виде каких-то картинок "500x300", ужасно отснятых и жутко пожеванных многократным джпегом.

Я понимаю, что обучение сети подобного масштаба - процесс жутко затратный. Полагаю, что несколько сот тыщ долларов или даже ближе к миллиону (буду рад боле точной инфе), это дофига, но на том же краудфандинге и не такие суммы поднимались и на меньшие проекты.
Gong Zigoton
Axolotl, а что, собственно, мешает художникам добавлять, что они против использования своих работ в датасетах?

Берём работу, указываем художника, источник (как на каком-нибудь Данбоору). В случае чего, можно перепроверить, точно ли работа принадлежит этому художнику и дал ли он на это своё согласие. И, как минимум, собрать среди тех, которые не против поделиться своим стилем.

Ну и добавлять ватермарку, что, мол, сделано в стиле такого-то такого.

Если будут нарушающие правила на данном этапе - делать их нежелательными лицами у обоих сторон - и создателей нейросетей-художников, и простых художников. К тому же, подобный "общий враг" позволит сгладить углы между уже сотрудничающими художниками и теми, кто использует их работы для "высшей цели".
Vade Parvis
Собственно, проблему "отравления" датасетов нейросеток результатами их собственной работы уже подняли. Хочется добавить немного своих соображений.

• Та самая проблема, о которой со злорадным восторгом пишет каждый второй в интернетах, переключившись с обличения ковидного заговора ("ха, говнохудожники, готовьтесь к тому, что через пару лет вы никому не будете нужны, и вообще уже сейчас нейросети удовлетворяют потребности простых людей намного дучше вас, убогих, и не требуют таких затрат") — она, к сожалению, вполне реальна.
Нездоровый ажиотаж вокруг "художественных" нейросеток сознательно раздувается, очевидно что их чем дальше, тем более уверенно будут использовать для давления на иллюстраторов и принуждения их к худшим условиям труда. Плюс эффективные манагеры — зачастую катастрофически некомпетентные кадры, к тому же очень падкие на "новые уникальные технологии, позволяющие снизить издержки". В общем, "низкоранговых" художников будут "мочить" в ближайшие годы. Мне видится так, что в пессимистичном сценарии будет задрана планка вхождения в индустрию, при этом вопросами доведения квалификации кадров до необходимого уровня и их поддержкой на этом этапе заниматься никто не будет и вкладываться в это не станет, а существовавшие компетенции этого плана будут утеряны, и преемственность подготовки специалистов разорвётся. Будет предполагаться, что начинающие художники должны будут сами проходить через "мясорубку" скукожившегося рынка труда начинающих спецов в значительно ухудшившихся со всех сторон условиях и успешно "победить в конкурентной борьбе", а компании, палец о палец не ударяя, будут ждать уже состоявшихся профессионалов со стажем и портфолио, готовых работать за "новичковые" деньги. Собственно, такая картина уже наблюдается во многих айтишных областях, безо всяких ИИ, к примеру, и дальше тоже будет только хуже.

• Уже сейчас Артсейшн, Девиантарт и прочие популярные площадки массово засоряются результатами работы нейросетей, публикуемых без атрибуции в кач-ве ИИ-арта. Как минимум администрация Артстейшена уже прямо сказала, что не собирается ничего с этим делать (иронично, ведь по концепции это площадка для публикации портфолио для демонстрации нанимателям — и теперь они сами профанируют собственный концепт, идут вразрез с позиционированием своей площадки и отваживают ядро своей аудитории; ну, видимо, посчитали, что поддержать ИИ-истерию — более "денежный" ход). При этом в сети большое количество "активистов", которые массово вбрасывают на площадки хреновенькие результаты работы нейросетей, не помечая их как ИИ-арт, сознательно — для них это выражение политической позиции, как и поливание помоями художников в комментариях.
Я лично сам недавно сталкивался с тем, что в каких-то случаях при банальной гуглёжке стимпанковых картинок большая часть начальных результатов выдачи поисковика (в привате) была представлена результатами работы нейросеток, залитыми на крупные площадки. В данном случае это совершенно пустяковый курьёз — но в то же время тревожный звоночек.
Ну и вспомнился мелкий пример из схожей области, но до нейросетевого бума: Пинтерест, будучи сам по себе отличным агрегатором референсов и способом сохранить их от потери при удалении на страницах-источниках, в какой-то момент сильно осложнил поиск с помощью обычных поисковиков, засоряя картинковыдачу многократно дублирующимися и далеко не всегда подходящими результатами. В какой-то момент это было прямо бедой. Правда, в итоге алгоритмы, видимо, подкорректировали, и пару лет как такое стало наблюдаться намного меньше.


• Крупные компании, конечно, утверждают, что в свои датасеты они не заливают работы современных художников, не разрешивших их использование в таком качестве, однако есть все основания считать, что это банальное враньё. Это хрен проверишь, и точечный damage control в случае палева будет более дешёвым, чем необходимость заранее организовывать комплексные мероприятия по дополнительной фильтрации работ и по покупке лицензий (одно дело, когда они покупаются через стоки и т. п. — но для датасетов, чтобы сделать дорого-богато, нужно очень много работ современных прикладных художников приличного уровня, и с ними бы пришлось бы договариваться индивидуально или через не очень крупные — по крайней мере, по сравнению со стоками — агентства). Ну и как бы очевидно, что для работы использовали в т. ч. Пинтерест. Это что касается крупных компаний. Для обучения же локальных мелких stand-alone нейросеток просто льют все подряд работы по тегам с danbooru и подобных ресурсов. Либо не задумываясь о каких-то там авторских правах, либо плевав, так как имеют "бизнес-план" поживиться на чужих работах, продавая результат их переработки на Патреоне и т. п. (тот самый тип персонажей, который недавно занимался "мамкиным майнерством"), либо задумываясь о них в том самом ключе "политического манифеста против ненавистных художников".

• Процесс выдавливания "низов" прикладных художников с рынка, если он развернётся, ещё больше ускорит процесс засорения интернетов результатами работы нейросеток, усугубляя проблему "отравления" датасетов. Кроме того, это, как и возможный разрыв в процессах подготовки, чревато значительным оскуднением (по крайней мере, относительным) притока новых "здоровых" работ для обучения сетей.

• Основным способом борьбы с "отравлением" датасетов, который может быть использован на практике в ближайшее время, мне пока видится тот же, что используется для текстовых ИИ и некоторых других — а именно нанимать кучу аутсорсеров в странах с низкой оплатой труда. Но тут, правда, возникает проблема с тем, что уровень квалификации "переворачивателей пингвинов" должен быть значительно более высоким, чем в случае с текстами, при этом объёмы обрабатываемой ими информации должны быть больше, организована она менее тривиально и намного хуже поддаётся поиску и обработке простыми алгоритмами.
Axolotl
Цитата(Vade Parvis @ 19 Jan 2023, 14:16) *
• Основным способом борьбы с "отравлением" датасетов, который может быть использован на практике в ближайшее время, мне пока видится тот же, что используется для текстовых ИИ и некоторых других — а именно нанимать кучу аутсорсеров в странах с низкой оплатой труда. Но тут, правда, возникает проблема с тем, что уровень квалификации "переворачивателей пингвинов" должен быть значительно более высоким, чем в случае с текстами, при этом объёмы обрабатываемой ими информации должны быть больше, организована она менее тривиально и намного хуже поддаётся поиску и обработке простыми алгоритмами.


А предложенный мной выше "народный" вариант чем кажется плохим? Ну помимо проблемы с копирастами((
Твой же вариант больше под коммерческие базы типа той же Midjourney.

Цитата
Axolotl, а что, собственно, мешает художникам добавлять, что они против использования своих работ в датасетах?


Да можно, но там еще есть такой момент, что использование "чистых" стилей художников на самом деле штука довольно базовая и далеко не самая интересная. Нейросеть отлично справляется со смешением разных стилей. И это не просто "смешать стиль одного скетч-художника с другим скетч-художником", сетка отлично справляется и со смешением, скажем, графических стилей и фотографии, причем с тонко настраиваемыми пропорциями смешения, и результаты порой очень удивительные. Т.е. в итоге можно намешать такого, что стиль одного художника если и будет присутствовать, то в виде скорее того, что про художников людей обычно говорят "чувствуется влияние", "вдохновлялся")))
И это еще не все возможности.









feanor
Цитата
а именно нанимать кучу аутсорсеров в странах с низкой оплатой труда.


https://www.aljazeera.com/opinions/2023/1/2...igital-age-work

broke: этические установки ИИ как культурное осмысление работ лучших интеллектуалов запада от трех законов робототехники до всяких там юдковских за 300к/нсек
woke: этические установки ИИ как культуррегерство от неистребимого пуританизма американских акционеров, пересказанное кенийцам за 2 бакса/час
Axolotl


Кстати, пятая версия Midjourney не за горами. Правда, как я понял, там будет не такой существенный разрыв, как между 3-й и 4-й.
Axolotl
Кстати, если что, то я довольно активно слежу за происходящим в Midjourney. Поэтому если интересна какая-то информация – спрашивайте. Дело в том, что сейчас очень много новостей о MJ иногда просто из разряда "слышал звон", а иногда и намеренные спекуляции, выдирания из контекста и прочее.
Ну и пользовался ей уже немало, поэтому если смогу, то буду рад помочь и в техническом плане.
Axolotl
Немного новостей, как чуть более старых, так и новых про MJ.

То, что вышла пятая версия, думаю, уже не новость, это было почти полтора месяца назад. Пятая версия всё еще находится в положении "бета", и дефолтной является четвертая.
Дефолтной пятёрка станет после того, как к ней прикрутят дефолтную "эстетику". Что это за зверь такой в тех. плане понятно не до конца. Авторы называют текущую версию "unopininonated", как бы это теоретически даёт большую гибкость для достижения разных результатов, но и усложняет работу с ней. Т.е. версия с эстетикой как бы немного додумывает за вас запрос, потенциально делая его более художественным, а версия без – требует этого от вас.
"Теоретически" потому, что реально сравнить и проанализировать пока не с чем, т.к. четвертая версия была сразу с "эстетикой", и сравнивать можно лишь "opininonated" четвертую с "unopininonated" пятой, и, понятно, тут слишком много лишних факторов, т.к. это в принципе разные модели. Авторы обещают, что "unopininonated" версия останется в виде специального параметра. Так что можно будет пользоваться и той, и другой, ну и сравнить в итоге.
Про разницу между четвертой и пятой я расписывать не буду, но если вдруг интересно, то могу.

Также не так давно была добавлена фича "Describe", т.е. Image to Text режим, где вы скармливаете картинку, а сетка делает вам её описание. Подобные инструменты были давно для Stable Diffusion, но тут, понятно, результат более заточен именно под Midjourney. Зато, благодаря этому, появилась возможность чуть-чуть заглянуть под капот MJ. Из даваемых описаний видно, что разрабы MJ научили сетку понимать всякие узкие термины с Aesthetics Wiki, большинство которых я лично даже не знал до этого. Огромное кол-во всевозможных ~core и ~punk терминов. Скажем, "Mommy's on the phonecore" или "Avocadopunk"))). Это уже мои домыслы, но я полагаю, что все эти термины больше не затем, чтобы ими пользовались люди, а скорее, чтобы добавить этакие пулы внутренних эстетических ассоциаций и тем самым разнообразить получаемые результаты, при этом не выбиваясь из темы.

Параллельно идёт работа сразу и над шестой, и над седьмой версией. Дело в том, что там независимые друг от друга улучшения. Шестая будет иметь новый обученный датасет с дополненной и почищенной от грязи базой.
А в седьмой идёт работа над лучшим пониманием языка.

Также авторы интригуют некими секретными фичами, над которыми сейчас активно идёт работа. Но что это такое – неизвестно.

Буквально на днях прошел тест новой системы модерации контента. Возможно, вы знаете, что MJ позиционируется как PG13+, поэтому там запрещено делать NSFW контент, и поэтому там забанены многие слова, связанные с сексом и всякой брутальщиной. Из-за этого случаются проблемы там, где система блокирует невинные в определённом контексте слова.
Новая система будет использовать, хехе, другой AI, который будет в свою очередь судить вас понимать контекст и допускать многие ранее забаненные слова там, где контекст не имеет цели сделать какую-нибудь жесть и блокировать в обратном случае. Заодно это, видимо, коснётся и спорной темы по поводу использования известных личностей в запросах. Авторы придерживаются балансной позиции: они хотят избежать того, чтобы полностью запретить celebrity names в запросах, но при этом не допускать откровенной жести и мудачества.

На правах слухов, хоть и из первых рук. Есть и еще ряд штук, над которыми идёт работа и эксперименты. Над некоторыми работа идёт уже давно, но неизвестно в какой версии они появятся если появятся вообще.
Из известного это, скажем, outpainting, а также эксперименты с рисовальными инструментами, где можно будет прямо рисовать условные скетчи, а сетка это интерпретировать. Были разговоры и про потенциальный интерактивный режим, где сетка будет вам давать десяток мелких превьюшек того, в какую сторону может развиваться картинка, выбрав одну, вы вступаете на новую развилку с еще десятком вариантов, пока не добьётесь того, чего вам хочется. Были и разговоры про новые способы взаимодействия с тем, как описать сетке нужные эстетические параметры, скажем, настраивать эстетику при помощи других картинок или используя более абстрактные "вайбовые" слова, описывающие некие настроения, эмоции. Как я понял, часть этого просто пока обдумывается, часть уже имела практические эксперименты, и то, появятся ли эти инструменты, зависит от того, как они себя покажут в закрытых тестах.
Axolotl
Снова немного новостей.

В Midjourney прикрутили инструменты Outpainting и Pan, про который я писал в прошлый раз. Кто не знает, это такая функция, когда уже сгенерированную картинку можно как бы расширить, дорисовать со всех сторон, словно увести назад виртуальную камеру. Pan – то же самое, но дорисовывает не со всех сторон, а только с одной, т.е. создание панорамы.

Ну вот простой пример Outpainting:


Вот первая сгенерированная картинка



Одна итерация отдаления




Несколько итераций отдаления



При этом, отдаляя, можно добавить что-то в описание или даже полностью его изменить.

Скажем, здесь было просто к уже существующему запросу было добавлено слово "огонь"



В качестве огня сетка "решила" использовать свечки)) Что-ж, интересное решение.


На подходе Inpainting. Это когда ты выбираешь какую-то область уже сгенерированной картинки и хочешь либо просто её "перерисовать", либо самому вписать, что нужно добавить именно в это место.
Точнее, они уже его сделали, но не могут добавить, т.к. это не позволяет текущий API дискорда. Как я понял, Дискорд уже пообещал добавить поддержку нужных функций, но пока еще этого не случилось.
Свой сайт, где можно будет генерировать картинки без дискорда они потихоньку пилят.

Вообще, Дэвид Хольц очень неохотно решался на введение этих инструментов, которые уже давно были в Stable Disffuion, объясняя это тем, что разработка нейросети всё еще пока похожа на блуждание в потьмах на ощупь, и чем больше всяких прикрученных инструментов, тем более тяжеловесной становится система и меньше гибкости для разработчиков в плане изменения основного кода, либо же им придётся дорабатывать каждый прикрученный инструмент под каждое изменение алгоритма. В общем-то, здравая позиция, но и с инструментами побаловаться хочется.

Шестая версия MJ, видимо, немного задержится. Как я понял, новая модель с дотренированным датасетом у них уже есть и работает, но они хотят, чтобы качественный разрыв между версиями был более существенным, поэтому дорабатывают.
Axolotl
Добавили наконец-то Inpainting. В Midjourneyеё назвали "Vary Region". Это фича, с помощью которой можно выделить определённый участок сгенерированной картинки и перерисовать его либо просто, либо с пояснением того, что в нем нужно добавить.

Просто перерисовка, чтобы пофиксить неудавшиеся места типа неудавшихся пальцев, глаз или просто перерисовать лицо если не нравится выражение – это работает на ура.
Перерисовка с пояснением работает уже менее предсказуемо, иногда выдает странные результаты или выбивается из стиля, создавая близкое к коллажу, но нередко вполне себе адекватно выходит.
Полагаю, что будут еще допиливать как-то.

Вот, например, добавил зверюху рядом с девочкой.








Inpainting поверх просто загруженной картинки они сознательно решили пока не вводить, т.к. у этого большой потенциал для использования в не очень хорошем контексте, а вокруг нейросетей и без того много негативной шумихи.
hippocamus
Цитата(Axolotl @ 22 Aug 2023, 15:52) *
Вот, например, добавил зверюху рядом с девочкой.
Просто здорово!
Axolotl
Цитата(海马 @ 23 Aug 2023, 06:56) *
Цитата(Axolotl @ 22 Aug 2023, 15:52) *
Вот, например, добавил зверюху рядом с девочкой.
Просто здорово!


Кстати, это пример, когда нейросеть использовалась в том числе и для практических нужд. Для цифровой афиши мероприятия. У нас просто есть небольшое некоммерческое волонтёрское арт-пространство, где происходит всякое разное: концерты любых жанров от бардов до диджеев, еженедельные дни настольных игр (которые жестко захватил маджонг), просмотры кино, лекции/мастерклассы, литературные/поэтические встречи и т.п. Вот эта картинка собственно для афиши на будущее (на зиму) для регулярного формата "Гитарный круг", когда приглашаются просто все желающие любого технического уровня и жанра и по кругу поют что-то под гитару (хоть своё, хоть чужое) или просто слушают.

И вот нейросеть очень помогла нам в создании афиш для всяких таких ивентов, т.к. взять просто чужую картинку с инета можно, но это и противозаконно без согласия автора, и в целом менее прикольно. Делать коллаж или тем более рисовать под каждый такой ивент – это здорово, раньше мы так иногда делали, но мы и так сколько можем личного свободного времени отдаём ради того, чтобы место жило, и далеко не всё успеваем. Позволить себе художника за зарплату тоже не можем (у нас вообще никого нет за зарплату), т.к. аренда помещения – это собственно то, куда уходят все донаты, и даже не всегда их хватает. Применение, конечно, узкое, но локально очень спасает.



Первые две еще в четвертой версии Midjourney делались.








laViper
А кто может подсказать нормальную нейросеть, которая умеет рисовать средневековое оружие? А то чаще всего кроме меча, лучка и копья нейросеть толком ничего не знает.
Лучше без регистрации, качество и скорость вторично наверное.
Я как понимаю есть вариант искать нейросеть куда можно закидывать референсы, что будет хоть каким-то подспорьем для генерации.
Axolotl
Да, с некоторыми категориями объектов пока сложно. Проблема простая: нет достаточной базы данных с описанием. В базе много картинок всякого оружия, но не всё оно описано, и когда дело доходит до всяких тонкостей, то пока что проблема. Скажем, бабочек или грибы сетка делает хорошо, но если ты захочешь какой-то конкретный вид бабочек из энциклопедии или конкретный редкий вид грибов, то результат не всегда правильный. Технической загвоздки нет, просто расширять датасет, снабжая информацией. Но это должен кто-то сделать: собрать сотни картинок по каждому виду бабочек, грибов, пород собак, оружия и т.п.
Есть всякие дообученные модельки для Stable Duiffusion, но, насколько я знаю, дополнительной текстовой инфы они не содержат, это просто стилистический вектор. Максимум, что пока видится, что можно сделать, это обучать модельки под каждый вид объекта. Скажем, сделать отдельную модельку, которая хорошо генерит один определённый вид бабочек. Но это уже надо ставить SD и обучать, т.е. довольно геморное и ресурсоёмкое занятие.

MJ обещают, что будут в дальнейшем расширять базу знаний сетки о нашем мире.
Axolotl
Недавно писал в теме нейросетей про новую версию Dall-E и про то, как круто они продвинули точность понимания запросов, и как плохо у них все стало с настройкой стиля.

Тут подоспела Midjourney и сделал прорыв как раз по второму аспекту – настройки стиля.
Они выкатили новую фичу: Style Tuner
Как это примерно работает: можно задать запрос с параметром /tune, и сетка сгенерирует от 16 до 128 пар сетов изображений. Но не просто, а внутренне случайным образом переставляя параметры, как раз касающиеся эстетики (черт знает как оно там работает на уровне математики). При этом намеренно интерпретируя стилистически запрос в самых разных стилистических изгибах.
Вот можно посмотреть примеры именно самого тюнера:
https://tuner.midjourney.com/zBZpm3s
https://tuner.midjourney.com/ZBuN1IF

После этого можно выбирать одно или несколько изображений, стиль которых тебе нравится, близок, или наоборот ты хочешь скрестить "бульдога с носорогом", и на основе выбора тебе выдается итоговый идентификатор стиля, который потом уже можно применять к любому запросу.
Более того, можно потом плавно управлять силой влияния этого стиля или смешивать разные.
У меня просто мозг взорвался от этого! ecstatic.gif

Сам я еще на практике не применял, т.к. каждый месяц оформлять подписку для меня все-таки дороговато. Подозреваю, там, как и все с нейросеткой, имеет множество непредсказуемостей. Они сами написали, что стили будут по-разному вести себя в зависимости от комбинации с запросом, но в теории выглядит очень круто.

Что я еще вижу в этом помимо огромного потенциала для настройки стиля картинок. Я вижу огромный стог сена, подложенный на случай если копирасты таки добьются своего.
Dall-E, я уже писал, в новой версии запретила использовать имена современных художников, подменяя их примерным усредненным текстовым описанием стиля. Midjourney же создала просто какой-то алхимический котёл-конструктор, в котором можно попросту создавать уникальные стили, не привязанные к конкретному художнику. Найденное решение Dall-E по сравнению с этим выглядит как откровенный детский сад.

Если разорюсь на подписку в ближайшее время (а попробовать новый инструмент дико хочется), то еще напишу про результаты собственных экспериментов.
Axolotl
Давно ничего не писал, хотя новости имеются.
V6
Во-первых, вышла шестая версия Midjourney. Правда, пока все еще находится в статусе альфа-версии. В целом шестёрка мне нравится, хотя ожидал (ну, скорее мечтал) о большем прорыве. Основные достижения – это улучшение понимания сложных детальных запросов . Да, оно действительно сильно улучшилось по сравнению с пятой версией, хотя третью Dall-E именно в этом аспекте они не догнали. Второе – возможность генерировать картинки с текстом. Работает оно, как и Dall-E 3, далеко не идеально, тоже постоянно пропускает, переставляет буквы, но немного терпения и удачи, и вполне можно добиться адекватных результатов. Возможно, делает ошибки в тексте чаще, чем Dall-E, но не сильно чаще, а возможность перегенерировать именно выбранный участок картинки с лихвой восполняет отставание.
Увы, в шестерке вновь увеличилось кол-во проблем с анатомией по сравнению с 5.2, но еще рано судить, т.к. альфа-версия.

Style Reference
Также вскоре после выхода шестерки выкатили новую киллер-фичу под названием Style-Reference. И вот об этом хотелось бы подробнее. Для меня лично, это одна из самых весомых фич, появившихся в MJ.
Что делает фича? Вы даете ей картинку, дополняете самим текстовым запросом, а сетка пытается сымитировать именно стиль. Возможность загрузить референсную картинку была давно, но там сетка брала с картинки всё: композицию, позу, черты лица, объекты, сюжет, и всё, что касается стиля. Тут же сетка игнорирует сам сюжет, пытаясь подражать только стилю и атмосфере.
Да, задача противоречивая в самой своей концепции, т.к. где в том или ином случае заканчивается стиль (форма), а начинается сюжет (содержание) – вопрос спорный и для человека. Но как-то работает.
Работает далеко не идеально, но гораздо лучше, чем я лично смел надеяться.

Про неидеальность. С какими-то референсами подражает стилю более точно, с какими-то хуже, где-то совсем мимо.

Но! Это не главная крутость фичи. Первое главное – это устойчивость стиля. При обычном текстовом запросе стиль от картинки к картинке может сильно вилять в разные стороны, тут же он гораздо более устойчив. В этом смысле не так важно, что стиль скопировался неточно, если он хорош сам по себе, зато весьма устойчив.

Второе главное – это еще большие возможности для чисто стилистических экспериментов и исследования эстетики как таковой. Дело в том, что референсов можно дать сразу несколько, да еще и указать вес каждого, и сетка будет пытаться их смешать. А ведь дать ей можно не только близкие стили, но и наоборот, что-то предельно далекое. Более того, можно указывать общий вес этого самого стиля, смешивать с текстовым описанием стиля (скажем подсунуть картинку с акварельным рисунком, а в описании сказать "фотография" или наоборот) или использовать стили художников из описания, можно использовать референсы из картинок в обычном режиме, про который я писал, также их смешивая. Рулить прочими параметрами. В общем, получился очень мощный алхимический котел по синтезу уникального стиля, порой дающий удивительные и непредсказуемые результаты.

Увы, чем больше веса задается стилю, тем больше сетка игнорирует ваш запрос и своевольничает, но тем не менее потенциал огромный.

Наверное, интересно будет глянуть на практические примеры фичи.







Как видим, передача стиля не совсем точная, хотя и довольно близкая. Но также видим, что стиль стабилен и мне лично он очень нравится.

Теперь посмотрим на пример смешения.












А вот пример, где смешаны две картинки в виде стилистического референса + обычный референс + стиль художника из текстового описания + аниме режим MJ (называется Niji)


P.S. Авторы говорят, что хотят пересмотреть функционал этой фичи, расширив её возможности, сделав выбор того, чему именно будет подражать сетка. Скажем, чтобы она подражала только цветовой гамме или, наоборот, игнорировала цвета с картинки.

Также обещают вот уже совсем скоро добавить похожую фичу, Character Reference, где с референсной картинки сетка будет пытаться повторить именно черты лица персонажа. Что важно для тех, кто хочет использовать сеть для создания историй, комиксов, иллюстраций к своей книге/игре и т.п.
Для просмотра полной версии этой страницы, пожалуйста, пройдите по ссылке.
Форум IP.Board © 2001-2024 IPS, Inc.