Медиапроизводство и обучение с ИИ | Музыка, речь, текст, код, игры, изображения, видео, веб, фото и многое другое.
Генеративный искусственный интеллект - ИИ в теории и на практике
Здравствуйте, меня зовут Иоганн Диршль, управляющий директор компании DIRSCHL.com GmbH, специализирующейся на ИИ, аудиовизуальных медиа и обучении. На nuonu.com мы тестируем генеративный ИИ, то есть модели, способные создавать новый контент. Мы выделяем следующие области генеративного ИИ:
Веб, игры
Знакомство с искусственным интеллектом на практических примерах и живых лекциях
Генеративный искусственный интеллект проник практически повсюду. Моя задача — тестировать его, создавать собственные рабочие процессы, а также практические примеры и конечные продукты.
Многие знают меня как программиста, преподавателя или фотографа. Я экспериментирую, я технический фанат и всегда ищу новые, лучшие альтернативы для ускорения рабочих процессов. Рабочий процесс — это козырь, и он изменился во многих областях настолько, что в сфере ИИ широкие массы могут справиться с ним даже без специальных знаний.
Вначале многие ненавидят каждую технологию ИИ, потому что не все готовы принять новые реалии. Затем наступает период, когда использование и отказ сближаются, и вскоре после этого ее используют все. В конечном итоге знания ИИ и любая автоматизация будут намного превосходить человеческие. Момент AGI, то есть точка, когда появится общий искусственный интеллект, уже наступил во многих областях, но никто этого не заметил.
Не упусти этот момент, потому что вся твоя жизнь и то, как ты будешь работать, зависят от него.
Рад, что вы здесь.
Иоганн Диршль, DIRSCHL.com GmbH

ИИ-музыка и речь: Революция благодаря искусственному интеллекту
Искусственный интеллект за последние годы добился огромных успехов в области генерации музыки и аудио. Инструменты на базе ИИ позволяют генерировать высококачественные музыкальные произведения или реалистичный синтез речи за считанные секунды. Три наиболее значимые платформы в этой области на данный момент — это Suno, Udio и ElevenLabs.
Suno
Suno — это ИИ-музыкальная платформа, которая позволяет пользователям генерировать полноценные песни с текстом, мелодией и инструментарием. Она основана на мощных языковых моделях и особенно подходит для творческих приложений, таких как написание песен и звуковой дизайн. Suno отличается:
- Простотой использования: Музыка генерируется простым вводом текста.
- Полными треками: ИИ создает не только инструментальные композиции, но и вокал.
- Гибкостью: Пользователи могут влиять на стили и жанры.
Udio
Udio — еще одна передовая ИИ-платформа для музыкального производства. В отличие от Suno, Udio уделяет особое внимание профессиональному качеству звука и художественной свободе. Некоторые из основных особенностей:
- Точный контроль: Пользователи могут более детально работать над аранжировками и миксом.
- Высококачественный аудиовыход: Профессиональное производство без студийного оборудования.
- Разнообразие стилей: От электронной музыки до оркестровых произведений.
ElevenLabs
ElevenLabs — это платформа для синтеза речи на базе ИИ, которая может генерировать естественно звучащие голоса. Она особенно интересна для озвучивания видео, подкастов и интерактивных медиа. Основные функции:
- Реалистичные ИИ-голоса: Голоса звучат по-человечески и эмоционально.
- Многоязычная поддержка: Идеально подходит для международных проектов.
- Индивидуальные голоса: Пользователи могут создавать собственные голосовые профили.
Вывод и примеры
Я в основном создаю музыку всех видов и как музыкант могу сказать, что Suno по состоянию на октябрь 2025 года является лучшей платформой для музыки в области искусственного интеллекта. Она распознает защищенные произведения, позволяет использовать свободные названия и может работать со всеми языками, диалектами, ритмами, инструментарием и т.д. Теперь можно также обмениваться фрагментами, создавать обложки, определять персоны, чтобы присвоить узнаваемый стиль, певца... Она реагирует на указания BPM и тональности.
Таким образом, она работает лучше, чем 90% всех музыкантов. Они могут использовать Suno для завершения своих идей или даже полностью передать композицию Suno.
Я использую Suno с версии 2.5 и уже создал много альбомов и музыкальных произведений с ее помощью. В качестве хорошего практического примера, помимо немецких и английских авторских композиций, есть также инструментальные, короткие и рождественские песни. Моя идея заключалась в том, чтобы заново создать старые, уже свободные от GEMA рождественские песни с помощью искусственного интеллекта. Для сравнения я также попытался сгенерировать свои собственные рождественские песни. В основном с текстами из ChatGPT, которые были индивидуально адаптированы и основаны на моих идеях. Это «Новые рождественские песни» с собственной композицией (тональность, скорость, инструментарий, настроение, вокальные указания...), то есть не украденные тексты и мелодии. Для рождественских ярмарок и т.д. достаточно и просто рождественской фоновой музыки, которую я также создал сам или на основе старой рождественской музыки, свободной от GEMA.
Это не всегда приносит друзей, но ясно, что ИИ способен создавать музыку идеально.
Юридически правообладатели пытаются регулировать эти платформы, поскольку они также использовали известные музыкальные произведения для обучения. Этому противостоит принцип, что музыканты также учатся у других музыкантов, и музыка не изобретается заново. Независимо от того, как на это смотреть, мы не сможем обойти тему искусственного интеллекта в музыке, и, вероятно, уже сейчас многие музыкальные произведения в чартах созданы музыкантами с помощью этих инструментов.
В настоящее время мне требуется около 3 часов для создания собственной песни с собственным текстом, мастерингом, обложкой и публикацией. Главным образом, я стремлюсь своевременно выявлять текущие изменения в искусственном интеллекте и постоянно адаптировать свой рабочий процесс. Таким образом, создается аудиофонд, который я могу без опасений использовать для фотошоу, рождественских вечеринок и т.д. Помимо 140 рукотворных музыкальных произведений, которые мы предлагаем на https://www.vladimirsterzer.com вместе с нотами, теперь доступно более 150 треков с более чем 5 часами ИИ-музыки. Это прекрасное дополнение, так как они универсальны и могут быть индивидуально адаптированы к видео и т.д. или сгенерированы заново.
nuonu — это название нашей старой группы, в которой я играл на гитаре, басу, синтезаторе, а также занимался записью. Поэтому я с удовольствием называю себя музыкантом, хотя сегодня инструменты другие. По привычке все ИИ-треки у меня также проходят через Logic. Но на самом деле с новыми версиями ничего делать с треками уже не нужно. Тем не менее, экспорт стемов (отдельных дорожек), старое игровое сведение и мастеринг снова оживают. Как минимум, я всегда загружаю WAV в Logic и увеличиваю громкость до нуля. Но я больше не делаю ручных изменений. Однако я позволяю определять точную скорость и такт, затухание/появление, громкость, конвертацию в MP3 и WAV. Некоторые треки также получили звук кассового аппарата (Какакакакакуфен), и если вокал для меня слишком тихий, я иногда работаю со стемами.
Рабочий процесс музыкального производства все еще в силе и лишь изредка требует адаптации к новым возможностям. Небольшая страница о маркетинге ИИ-музыки показывает возможности, которые, однако, для меня менее актуальны. ИИ-музыка должна прежде всего приносить удовольствие, экономить время, стимулировать собственное творчество, помогать музыкантам в композиции, выводить на рынок больше безлицензионной музыки.
Генеративный ИИ для текста и кода
Искусственный интеллект революционизирует не только музыку и аудио, но и создание текстов и кода. Современные ИИ-модели могут генерировать тексты, создавать резюме, писать код и даже решать сложные проблемы. Вот некоторые из наиболее важных ИИ-моделей для этой области:
ChatGPT
ChatGPT от OpenAI — одна из самых известных языковых моделей, используемая как для общих текстов, так и для программных приложений. Основные характеристики:
- Способность к диалогу: Идеально подходит для диалогов, творческих текстов и поиска информации.
- Генерация кода: Поддерживает программирование приложений, веб-сайтов и плагинов.
Я являюсь пользователем с самого начала и ежедневно использую его для текстов, вопросов любого рода и для программирования. В частности, для решения сложных анализов, например, веб-исходного кода, SEO и т.д., он для меня до сих пор незаменим. С помощью Chat я часто создаю первую базовую версию плагина, а затем для более крупных приложений перехожу к Cursor, который может просматривать и управлять целыми проектами. Мог бы я обойтись без платного аккаунта? Да, потому что одного Cursor было бы достаточно для поддержки моей разработки. Второе мнение я также получаю от других LLM. Для большинства приложений достаточно бесплатной версии ChatGPT.
Google Gemini
Gemini от Google — это мультимодальная модель, которая может обрабатывать текст, изображения и даже аудио. Она отличается:
- Мультимодальными возможностями: Обработка различных типов данных.
- Оптимизацией для исследований: Помогает в поиске информации.
- Хорошей обработкой контекста: Предоставляет продуманные ответы с логической структурой.
- бесплатным использованием API для разработчиков: позволяет создавать собственные программы с искусственным интеллектом.
Таким образом, для меня она в настоящее время важнее, чем ChatGPT.
Grok
X.ai великолепен, когда речь идет о получении более честного контента. Он использует X в качестве дополнительной базы данных, что позволяет быть особенно близким к актуальной информации и мнениям компаний и пользователей. Генерация изображений и кода также очень хороша.
Он был довольно хорош уже в первой версии и до сих пор может использоваться в бесплатном варианте. В любом случае, стоит взглянуть.
Claude
Claude от Anthropic уделяет особое внимание аспектам безопасности и этики в использовании ИИ. Его основные характеристики:
- Высокое качество текста: Ориентирован на естественные и последовательные тексты.
- Безопасность: Снижает риски дезинформации.
- Хорошая область контекстной памяти: Может охватывать и обрабатывать длинные беседы.
Это мой предпочтительный ИИ в области кода, Sonnet — это, по сути, стандарт в Cursor. Claude Sonnet очень быстр и качественно очень хорош.
DeepSeek
DeepSeek стал известен тем, что использовал другое ИИ-оборудование, и скорость обработки, а также стоимость оборудования были более эффективными. Это также была первая версия, которую я установил локально на свой компьютер. Это также вызвало дискуссии, поскольку критические для Китая материалы в онлайн-версии отличались от тех, что были в локально установленных средах.
Сегодня я больше не использую DeepSeek, но это показывает, что и в Китае происходят великие разработки ИИ, и практически все крупные игроки, такие как Baidu, Alibaba и т.д., уже используют свои собственные LLM.
Mistral
Mistral — это модель с открытым исходным кодом, которая особенно подходит для программных приложений. Ее сильные стороны:
- Высокая эффективность: Оптимизирована для ресурсосберегающих вычислений.
- Специально для разработчиков: Хорошая генерация и дополнение кода.
- Подход с открытым исходным кодом: Свободно доступна и настраиваема.
Perplexity
Perplexity AI — это модель для исследований и информации на базе ИИ, специализирующаяся на эффективном предоставлении знаний. Она предлагает:
- Быстрый поиск информации: Идеально подходит для целенаправленных исследований.
- Компактные ответы: Понятно суммирует сложные темы.
- Хорошая веб-интеграция: Получает доступ к актуальной информации.
Perplexity — моя замена Википедии и для всех вопросов, связанных со знаниями. Она предоставляет подробные политические контексты и для меня также является заменой прессы. Perplexity при этом обращается к бесчисленным источникам и LLM и за секунды предоставляет все, что пользователь пожелает.
На самом деле Perplexity может все, то есть также генерировать код, выполнять домашние задания и многое другое. Особенно интересно то, что ответы актуальны и источники связаны.
Генеративный ИИ для изображений и искусства
Искусственный интеллект также трансформировал мир изображений и искусства. ИИ-модели могут создавать реалистичные фотографии, абстрактные произведения искусства, векторную графику, 3D-рендеры, логотипы и многое другое. Технология используется в различных областях, включая:
-
Генерация изображений: Создание изображений из текстовых описаний.
-
Обработка фотографий: Улучшения и корректировки на базе ИИ.
-
Векторная графика: Автоматическое создание и редактирование векторных изображений.
-
3D-моделирование: Поддержка в создании сложных 3D-объектов.
-
Дизайн логотипов: Генерация уникальных логотипов на основе заданных параметров.
-
Поиск идей: Поддержка творческих процессов с помощью ИИ-генерируемых вдохновений.
-
Анализ изображений: Распознавание и классификация содержимого изображений.
Midjourney
Midjourney — это ИИ-платформа, которая генерирует впечатляющие, художественные изображения на основе текстовых запросов. Она отличается:
- Высококачественными, креативными изображениями: Особенно подходит для концепт-арта и дизайна.
- Простотой использования: Создает изображения с помощью команд Discord.
- Художественной свободой: Сильный акцент на разнообразие стилей.
DALL·E
https://openai.com/de-DE/index/dall-e-3/
DALL·E от OpenAI — это ИИ для генерации изображений, который создает детализированные и реалистичные изображения на основе текстовых описаний. Основные характеристики:
- Высокая детализация: Реалистичная и креативная генерация изображений.
- Связывание объектов: Логично комбинирует различные элементы в одном изображении.
- Редактирование изображений: Позволяет создавать вариации и дополнения к существующим изображениям.
В настоящее время я сам больше не использую DALL-E. Функции интегрированы в LLM или не отличаются по результату от Midjourney. Но в мире ИИ нельзя списывать со счетов крупных игроков, и следующее обновление обязательно будет.
Firefly
Firefly от Adobe — это платформа для редактирования и создания изображений на базе ИИ с акцентом на творческий контроль. Преимущества:
- Интеграция с продуктами Adobe: Идеально подходит для Photoshop и Illustrator.
- Недеструктивное редактирование: Инструменты на базе ИИ для творческих корректировок.
- Простая генерация текста в изображение: Создает изображения из текстовых запросов.
Незаменим, потому что интегрирован в продукты Adobe. Генерация видео кажется мне слишком дорогой, но и это может быстро измениться. Те, кто работает с Premiere, могут удлинять видео, а пользователи Photoshop могут создавать изображения или выполнять InPainting с генеративным контентом. Супер просто и качественно.
Stable Diffusion
https://stability.ai/news/stable-diffusion-public-release
Stable Diffusion — это модель с открытым исходным кодом для генерации изображений, которая особенно подходит для индивидуальных настроек. Особенности:
- Полностью настраиваемая: Работает локально и может быть изменена.
- Сложные стили изображений: Позволяет создавать детализированную и реалистичную графику.
- Свобода открытого исходного кода: Бесплатна в использовании и расширяема.
Flux
https://flux-ai.io/de/flux-ai-image-generator/
Flux — это инновационная ИИ-платформа для изобразительного искусства, которая отличается экспериментальным подходом и креативными алгоритмами. Ее сильные стороны:
- Открытие новых стилей: Генерирует нетрадиционные и экспериментальные изображения.
- Мощные алгоритмы: Использует нейронные сети для художественных эффектов.
- Креативные рабочие процессы: Способствует новым подходам к цифровому искусству.
Генеративные ИИ-видео и 3D
Новейшие ИИ-модели позволяют создавать не только статические изображения, но и реалистичные видео и 3D-анимации. Они используются в различных областях, включая кинопроизводство, визуальные эффекты, игровой дизайн и виртуальную реальность. Области применения включают:
- ИИ-генерируемые видеопоследовательности: Создание реалистичных или стилизованных видео из текстовых описаний.
- Редактирование видео: Автоматическая оптимизация клипов, цветокоррекция и эффекты.
- 3D-анимация: Генерация и управление сложными 3D-моделями и анимациями.
- Создание сцен: Создание полных окружений для игр, VR или симуляций.
VEO 3
Лучшая на данный момент генерация видео, включая речь и музыку, создает абсолютно реалистичные видео, которые, вероятно, определят следующий кинорынок. По крайней мере, частично спецэффекты и т.д. можно создавать очень дешево и профессионально.
Runway Gen-2
Runway Gen-2 — это мощный ИИ-инструмент для создания и редактирования видео. Основные характеристики:
- Генерация текста в видео: Создает видео на основе текстовых инструкций.
- Генерация изображения в видео: Создает видео на основе загруженных изображений.
- Редактирование на базе ИИ: Инструменты для цветокоррекции, ротоскопирования и эффектов.
- Простое применение: Интуитивно понятный пользовательский интерфейс для творческих проектов.
Runway после регистрации предлагает возможность бесплатно создать около 20 видеопоследовательностей. Затем можно выбрать из различных моделей подписки.
Adobe Firefly Video
С середины февраля 2025 года возможности генерации изображений в Adobe Firefly были дополнены генеративным ИИ для видео. Сервис работает аналогично Runway и предоставляет видео на основе загруженных изображений или промпта. Firefly Video — это мощный ИИ-инструмент для генерации видео. Основные характеристики:
- Генерация текста в видео: Создает видео на основе текстовых инструкций.
- Генерация изображения в видео: Создает видео на основе загруженных изображений.
- Редактирование на базе ИИ: Инструменты для цветокоррекции, ротоскопирования и эффектов.
- Простое применение: Интуитивно понятный пользовательский интерфейс для творческих проектов.
Как подписчик Adobe CC, у меня была возможность создать 2 видео, прежде чем появилось требование об оплате (подписка на ИИ-сервисы). Adobe впервые пытается дополнительно монетизировать свои ИИ-сервисы. Согласно предложению, это, вероятно, включает и другие генеративные ИИ для аудио, видео и фото от Adobe.
Sora
Sora от OpenAI — это передовой ИИ для реалистичной генерации видео. Он предлагает:
- Детализированные движения: Генерирует видео со сложной физикой и реалистичным движением.
- Создание сцен: Создает окружения, которые выглядят кинематографично и иммерсивно.
- Автоматические настройки: Оптимизирует свет, тени и текстуры для лучших результатов.
Sora по состоянию на середину февраля 2025 года еще не доступна в Германии. Однако многочисленные видео уже показывают, насколько мощно работает ИИ.
Pika Labs
Pika Labs — это инновационная платформа для редактирования видео и анимации на базе ИИ. Ее сильные стороны:
- Автоматизированные эффекты: Генерация визуальных эффектов из текстовых описаний.
- Управление анимацией: Управление движением и динамикой персонажей и объектов.
- Интуитивное управление: Упрощает творческий процесс за счет автоматизации.
Flux
Flux — это универсальная ИИ-платформа для художественных и экспериментальных видеопроектов, а также 3D-дизайна. Особенности:
- Художественные свободы: Генерирует нетрадиционные видеоэффекты и анимации.
- 3D-моделирование: Создает визуально впечатляющие и детализированные объекты.
- Инновационные алгоритмы: Использует передовые нейронные сети для динамических эффектов
Midjourney
Как подписчик Midjourney, я с удовольствием использую новую возможность создавать видео для демонстрационных целей. Качество здесь пока не так хорошо, как у других, но зато это не стоит дополнительно. Midjourney в своем развитии немного медленнее, чем другие поставщики ИИ. Поэтому я больше не рекомендую его, но мой годовой абонемент еще действует. Все обложки музыкальных альбомов и многое другое я создал с его помощью, и он делает свою работу качественно. Но для веб-сайтов и т.д. мне нужно больше: фотореалистичные, настоящие изображения с высоким разрешением.
Генеративный ИИ для веб, SEO, плагинов и веб-приложений
Искусственный интеллект меняет способ разработки, оптимизации и управления веб-сайтами. От автоматизированного создания контента до SEO-оптимизации, интеллектуальных плагинов и веб-приложений — ИИ предлагает веб-разработчикам и создателям контента огромные преимущества.
WordPress и темы на базе ИИ
WordPress по-прежнему является самой используемой системой управления контентом (CMS) в мире. С растущей интеграцией ИИ в темы и плагины веб-разработка становится более эффективной и креативной. Особо следует отметить DIVI 5, который устанавливает новые стандарты благодаря ИИ-предложениям по дизайну, автоматической настройке макета и интеллектуальному анализу контента.
Автоматизированная SEO-оптимизация с ИИ
SEO остается решающим фактором для видимости веб-сайтов. ИИ-плагины для SEO, такие как RankMath, автоматически анализируют контент, предлагают релевантные ключевые слова и помогают улучшить оптимизацию на странице в реальном времени. Google также использует ИИ-алгоритмы, такие как RankBrain, для оценки релевантности результатов поиска.
Плагины и веб-приложения на базе ИИ
Помимо SEO и дизайна, существует множество плагинов на базе ИИ, которые оптимизируют рабочий процесс:
-
WordLift: Использует ИИ для семантического анализа и улучшает позиции в поисковых системах с помощью структурированных данных.
-
Чат-боты с ИИ: Плагины, такие как Tidio AI или интеграции ChatGPT, обеспечивают интеллектуальное взаимодействие с клиентами.
-
ИИ-генерируемый контент: Инструменты, такие как ContentBot или Copymatic, автоматически создают привлекательные записи в блогах и целевые страницы.
-
Оптимизация изображений и медиа: Плагины, такие как Imagify AI или Adobe Firefly для веб, автоматически улучшают изображения.
Будущее веб-разработки с ИИ
Будущее принадлежит автоматизации: ИИ может не только предлагать веб-разработчикам фрагменты кода, но даже генерировать полноценные веб-сайты. Веб-приложения выигрывают от персонализированного пользовательского опыта, автоматического обнаружения ошибок и оптимизированной производительности.
С растущей интеграцией ИИ в WordPress, SEO и веб-приложения открываются новые возможности для вывода эффективности и качества веб-разработки на новый уровень.
ИИ в фотографии и обработке изображений
Искусственный интеллект оказывает огромное влияние на фотографию и обработку изображений. От интеллектуальных функций в современных камерах до автоматизированной обработки RAW с помощью специализированных программ — ИИ экономит время и оптимизирует результаты.
ИИ в современных камерах
Многие современные камеры интегрируют технологии на базе ИИ, которые помогают фотографам:
- Автоматическое распознавание сюжета: Камеры анализируют сцены в реальном времени и выбирают оптимальные настройки для портретов, пейзажей или динамичных снимков.
- Системы автофокусировки на базе ИИ: Распознавание лиц, глаз и даже определенных объектов для получения идеально резких изображений.
- Шумоподавление и HDR-техники: ИИ улучшает качество изображения уже во время съемки.
ИИ в RAW-обработке и отборе (Culling)
Постобработка фотографий часто занимает много времени. Программное обеспечение на базе ИИ революционизирует этот процесс:
- Aftershoot: Автоматизирует отбор (предварительную сортировку изображений), распознает дублирующиеся или нечеткие фотографии и предлагает быстрые функции редактирования.
- Adobe Lightroom: Пресеты на базе ИИ, автоматические улучшения изображений и выборочное редактирование одним щелчком мыши.
- Topaz Labs (Gigapixel, Sharpen, DeNoise): Расширяет возможности оптимизации изображений с помощью высококачественного шумоподавления, повышения резкости и масштабирования.
Расширенная обработка изображений с ИИ
Помимо RAW-обработки и сортировки, существует множество других функций ИИ:
- Adobe Photoshop: Инструменты ИИ, такие как генеративное заполнение, автоматическое выделение и ретушь на основе содержимого.
- Luminar Neo: ИИ-фильтры для замены неба, улучшения кожи и оптимизации сцен.
- Neurapix: Автоматическая цветокоррекция на основе индивидуальных стилей обработки.
Будущее ИИ в фотографии
ИИ продолжит революционизировать фотографию, развивая:
- Интеллектуальные функции камеры.
- Процессы отбора и обработки, делая их еще более эффективными.
- Новые творческие возможности благодаря расширенным манипуляциям с изображениями на базе ИИ.
С помощью решений на базе ИИ можно оптимизировать рабочие процессы, чтобы фотографы тратили больше времени на творчество и меньше на ручную обработку.




