AI媒体制作与培训 | 音乐、语音、文本、代码、游戏、图像、视频、网页、照片等

生成式人工智能 - AI的理论与实践

大家好，我叫Johann Dirschl，是DIRSCHL.com GmbH的总经理，公司专注于AI、视听媒体和培训。在nuonu.com上，我们测试生成式AI，即能够创造新内容的模型。我们区分以下生成式AI领域：

音乐与语音

KI Musik und Audioproduktion Johann Dirschl, nuonu.com, DIRSCHL.com GmbH

Suno, Frescobaldi, LiliPond, Udio, ElevenLabs

文本、代码

ChatGPT, Gemini, Meta.AI, Grok DeepSeek, Mistral, Perplexity, Cursor

图像与视频

KI Text und Code, Johann Dirschl, DIRSCHL.com GmbH, generative AI, ChatGPT

Midjourney, DALL·E, Firefly, Stable Diffusion, Runway Gen-2, Pika Labs, Flux

网页、游戏

KI Plugin- und Webentwicklung mit WordPress und DIVI, Webapps, DIRSCHL.com GmbH, generative AI

网站, SEO, 无障碍性, 插件, WebApps, 页面速度等。

照片与编辑

KI Fotografie und RAW Entwicklung, Johann Dirschl, DIRSCHL.com GmbH, Aftershoot, generative AI, Photoshop

Aftershoot, Topaz, Adobe Photoshop, Lightroom, Bridge

通过实践案例和现场讲座了解人工智能

生成式人工智能已无处不在。我的任务是测试它，创建自己的工作流程，并制作实践案例和最终产品。

许多人认识我是一名程序员、讲师或摄影师。我喜欢尝试新事物，是一个技术迷，总是在寻找新的、更好的替代方案来加速工作流程。工作流程至关重要，并且在许多领域发生了变化，尤其是在AI领域，大众即使没有专业知识也能轻松应对。

每项AI技术在初期都会被许多人厌恶，因为并非每个人都愿意接受新事实。然后会有一段时间，使用和拒绝逐渐接近，不久之后每个人都会使用它。最终，AI的知识和每一次自动化都将远远超越人类。AGI（通用人工智能）的时刻，即通用人工智能出现的时刻，在许多领域已经到来，只是没有人注意到。

不要错过这个时刻，因为你的整个生活和工作方式都将取决于它。

很高兴你们在这里。

Johann Dirschl, DIRSCHL.com GmbH

AI音乐与语音：人工智能带来的革命

人工智能近年来在音乐和音频生成领域取得了巨大进步。AI驱动的工具能够在几秒钟内生成高质量的音乐作品或逼真的语音合成。目前该领域最重要的三个平台是Suno、Udio和ElevenLabs。

Suno

Suno是一个AI音乐平台，允许用户生成包含歌词、旋律和配器的完整歌曲。它基于强大的语言模型，特别适用于歌曲创作和声音设计等创意应用。Suno的特点包括：

操作简单：通过简单的文本输入即可生成音乐。
完整曲目：AI不仅生成器乐，还生成人声。
灵活性：用户可以影响风格和流派。

Udio

Udio是另一个先进的AI音乐制作平台。与Suno不同，Udio特别注重专业的音质和艺术自由。其主要特点包括：

精确控制：用户可以更详细地处理编曲和混音。
高质量音频输出：无需录音室设置即可进行专业制作。
多样化风格：从电子音乐到管弦乐作品。

ElevenLabs

ElevenLabs是一个AI驱动的语音合成平台，可以生成自然发音的声音。它特别适用于视频配音、播客和互动媒体。主要功能：

逼真的AI声音：声音听起来像人类，富有情感。
多语言支持：非常适合国际制作。
个性化声音：用户可以创建自己的声音配置文件。

结论与示例

我主要创作各种音乐，作为一名音乐家，我可以肯定地说，截至2025年10月，Suno是人工智能音乐领域最好的平台。它能识别受保护的作品，允许自由创作标题，并且支持所有语言、方言、节奏、乐器等……现在还可以交换片段、创建封面、设定角色，从而分配可识别的风格、歌手……它能响应BPM指示和调性预设。

因此，它的工作效率比90%的音乐家都要好。音乐家可以利用Suno来完善他们的想法，甚至将整个作品交给Suno完成。

我从Suno V 2.5版本就开始使用，并用它创作了许多专辑和音乐作品。作为一个很好的实践案例，除了德语和英语原创作品外，还有器乐、短片和圣诞歌曲。我的想法是利用人工智能重新创作那些旧的、已免GEMA版权的圣诞歌曲。我还尝试创作自己的圣诞歌曲，大部分使用ChatGPT生成的文本，并根据我的想法进行个性化调整。这些是“新圣诞歌曲”，拥有自己的作曲（调性、速度、乐器、情绪、人声预设等），而不是抄袭的歌词和旋律。对于圣诞市场等场合，纯粹的圣诞背景音乐也足够了，这些也是我自己创作的，或者基于旧的免GEMA版权圣诞音乐创作的。

这并非能让所有人满意，但很明显，AI能够完美地创作音乐。

目前，我创作一首包含原创歌词、母带处理、封面和发布的歌曲大约需要3小时。我主要关注的是及早识别人工智能的最新变化，并不断调整我的工作流程。同时，这也创建了一个音频库，我可以放心地用于照片展示、圣诞派对等。除了我们在https://www.vladimirsterzer.com上提供140首手工制作的音乐作品及其乐谱外，现在还有超过150首、总时长超过5小时的AI音乐可供使用。这些是一个很好的补充，因为它们用途广泛，可以根据视频等进行个性化调整或重新生成。

nuonu是我们旧乐队的名字，我在其中演奏吉他、贝斯、合成器，并负责录音。因此，我乐于称自己为音乐家，即使今天的工具不同了。出于习惯，所有AI歌曲在我这里也会经过Logic处理。但自新版本以来，实际上已经不需要对歌曲进行任何修改了。然而，导出音轨（独立音轨）、旧的趣味混音和母带处理又重新焕发了生机。我至少总是将WAV文件加载到Logic中，并将音量提高到零。但我不再进行手动更改。不过，我会让它确定精确的速度和节拍，淡入淡出、音量、MP3和WAV的跳动。有些音轨还加入了收银机声音（Kakakakakaufen），如果人声太轻，我也会使用音轨。

音乐制作工作流程仍然完好无损，只需很少地适应新功能。一个关于AI音乐营销的小页面展示了一些可能性，但对我自己来说不太重要。AI音乐主要应该带来乐趣、节省时间、促进个人创造力、帮助音乐家作曲，并为市场带来更多免版税音乐。

用于文本和代码的生成式AI

人工智能不仅彻底改变了音乐和音频，也改变了文本和代码的创建方式。现代AI模型能够生成文本、创建摘要、编写代码，甚至解决复杂问题。以下是该领域一些最重要的AI模型：

ChatGPT

https://chatgpt.com/

OpenAI的ChatGPT是最著名的语言模型之一，既可用于通用文本，也可用于编程应用。主要特点是：

对话能力：非常适合对话、创意文本和信息获取。
代码生成：支持应用程序、网站和插件的编程。

我是最早的用户之一，每天都用它来处理文本、各种问题和编程。特别是解决复杂的分析，例如网页源代码、SEO等，对我来说至今仍不可或缺。我经常用ChatGPT创建插件的第一个基本版本，然后对于大型应用程序，我会转向Cursor，它可以查看和管理整个项目。我是否可以放弃Plus账户？是的，因为仅Cursor就能很好地支持我的开发工作。我也可以从其他LLM那里获得第二意见。对于大多数应用来说，ChatGPT的免费版本就足够了。

Google Gemini

https://gemini.google.com/

Google的Gemini是一个多模态模型，可以处理文本、图像甚至音频。其特点是：

多模态能力：处理不同类型的数据。
针对研究优化：有助于信息获取。
良好的上下文处理：提供结构合理、深思熟虑的答案。
开发者免费API使用：允许创建自己的人工智能程序。

因此，对我来说，它目前比ChatGPT更重要。

Grok

https://grok.com/

X.ai在获取更真实的内容方面非常出色。它利用X作为额外的数据基础，因此可以非常接近最新信息以及公司和用户的意见。图像和代码生成也非常好。

它在第一个版本中就已经相当不错，并且至今仍可免费使用。无论如何，都值得一看。

Claude

https://claude.ai/

Anthropic的Claude特别重视AI使用中的安全和伦理方面。其主要特点是：

高文本质量：专注于自然和一致的文本。
安全导向：降低错误信息的风险。
良好的上下文记忆区域：能够捕捉和处理长时间的对话。

它是我在代码领域首选的AI，Sonnet在Cursor中几乎是标准配置。Claude Sonnet速度超快，质量非常好。

DeepSeek

https://www.deepseek.com/

DeepSeek因使用不同的AI硬件而闻名，其处理速度和硬件成本效率更高。它也是我首次在本地计算机上安装的版本。它还引发了讨论，因为在线版本中的中文敏感内容与本地安装环境中的表现不同。

今天我不再使用DeepSeek，但这表明即使在中国，也有出色的AI发展，几乎所有大型参与者如百度、阿里巴巴等都已经运营自己的LLM。

Mistral

https://mistral.ai/

Mistral是一个开源模型，特别适用于编程应用。其优势在于：

高效率：针对资源节约型计算进行了优化。
专为开发者设计：良好的代码生成和补全。
开源方法：免费可用且可定制。

Perplexity

https://www.perplexity.ai/

Perplexity AI是一个AI驱动的搜索和信息模型，专注于高效提供知识。它提供：

快速信息获取：非常适合有针对性的研究。
简洁答案：以易于理解的方式总结复杂主题。
良好的网络集成：访问最新信息。

Perplexity是我替代维基百科和所有知识问题的工具。它提供详细的政治背景，对我来说也是新闻替代品。Perplexity利用无数来源和LLM，在几秒钟内提供用户所需的一切。

实际上，Perplexity无所不能，包括生成代码、完成家庭作业等等。最有趣的是，答案是最新且与来源链接的。

用于图像和艺术的生成式AI

人工智能也改变了图像和艺术的世界。AI模型可以创建逼真的照片、抽象艺术作品、矢量图形、3D渲染、标志等等。该技术应用于各个领域，包括：

图像生成：根据文本描述创建图像。
照片编辑：AI驱动的改进和调整。
矢量图形：自动创建和编辑矢量图像。
3D建模：支持创建复杂的3D对象。
标志设计：根据要求生成独特的标志。
创意构思：通过AI生成的灵感支持创意过程。
图像分析：识别和分类图像中的内容。

Midjourney

https://www.midjourney.com/

Midjourney是一个AI平台，根据文本输入生成令人印象深刻的艺术图像。其特点是：

高质量、创意图像：特别适用于概念艺术和设计。
操作简单：通过Discord命令生成图像。
艺术自由：强调风格多样性。

DALL·E

https://openai.com/de-DE/index/dall-e-3/

OpenAI的DALL·E是一个AI图像生成器，根据文本描述创建详细逼真的图像。主要特点：

高细节精度：逼真且富有创意的图像生成。
对象关联：在图像中逻辑地组合不同元素。
图像编辑：允许对现有图像进行变体和补充。

目前我自己不再使用DALL-E。其功能已集成到LLM中，或者结果与Midjourney没有区别。但在AI世界中，永远不能小看大玩家，下一次更新肯定会到来。

Firefly

https://firefly.adobe.com/

Adobe的Firefly是一个AI驱动的图像编辑和生成平台，专注于创意控制。优点：

与Adobe产品集成：完美适用于Photoshop和Illustrator。
非破坏性编辑：AI驱动的工具用于创意调整。
简单的文本到图像生成：根据文本指令创建图像。

不可或缺，因为它集成在Adobe产品中。视频生成对我来说似乎太贵，但这也可能很快改变。使用Premiere的用户可以延长视频，Photoshop用户也可以用它创建图像或通过生成内容实现InPainting。超级简单且质量好。

Stable Diffusion

https://stability.ai/news/stable-diffusion-public-release

Stable Diffusion是一个开源图像生成模型，特别适用于个性化定制。特点：

完全可定制：可在本地运行并可修改。
复杂图像风格：实现详细逼真的图形。
开源自由：免费使用和扩展。

Flux

https://flux-ai.io/de/flux-ai-image-generator/

Flux是一个创新的AI图像艺术平台，以其实验精神和创意算法而著称。其优势在于：

发现新风格：生成非传统和实验性图像。
强大算法：利用神经网络实现艺术效果。
创意工作流程：促进数字艺术的新方法。

生成式AI视频和3D

最新的AI模型不仅能够创建静态图像，还能创建逼真的视频和3D动画。它们被应用于电影制作、视觉效果、游戏设计和虚拟现实等多个领域。应用范围包括：

AI生成视频序列：根据文本描述创建逼真或风格化的视频。
视频编辑：自动优化剪辑、色彩校正和效果。
3D动画：生成和控制复杂的3D模型和动画。
场景创建：为游戏、VR或模拟创建完整的环境。

VEO 3

目前最好的视频生成技术，包括语音和音乐，能够生成绝对逼真的视频，这些视频很可能会主导未来的电影市场。至少在某些方面，特殊效果等可以通过它以极低的成本和专业水准制作。

Runway Gen-2

Runway Gen-2是一款强大的AI视频生成和编辑工具。主要特点：

文本到视频生成：根据文本指令生成视频。
图像到视频生成：根据上传的图像数据生成视频。
AI辅助编辑：用于色彩校正、抠像和效果的工具。
操作简单：为创意项目提供直观的用户界面。

Runway在注册后提供免费创建约20个视频序列的机会。之后可以选择不同的订阅模式。

Adobe Firefly Video

自2025年2月中旬以来，Adobe Firefly的图像生成功能已通过生成式AI视频得到补充。该服务与Runway类似，根据上传的图像或提示生成视频。Firefly Video是一款强大的AI视频生成工具。主要特点：

文本到视频生成：根据文本指令生成视频。
图像到视频生成：根据上传的图像数据生成视频。
AI辅助编辑：用于色彩校正、抠像和效果的工具。
操作简单：为创意项目提供直观的用户界面。

作为Adobe CC订阅者，我有机会创建2个视频，之后就显示了付款请求（AI服务订阅）。Adobe首次尝试将其AI服务额外货币化。根据报价，这可能也包括Adobe的其他生成式音频、视频和照片AI。

Sora

OpenAI的Sora是一款用于逼真视频生成的高级AI。它提供：

细节丰富的动作：生成具有复杂物理和逼真运动的视频。
场景创建：创建具有电影感和沉浸感的环境。
自动调整：优化光线、阴影和纹理以获得更好的结果。

截至2025年2月中旬，Sora尚未在德国上市。但许多视频已经展示了AI的强大功能。

Pika Labs

Pika Labs是一个创新的AI驱动视频编辑和动画平台。其优势在于：

自动化效果：根据文本描述生成视觉效果。
动画控制：控制角色和物体的运动和动态。
直观操作：通过自动化简化创意过程。

Flux

Flux是一个多功能的AI平台，适用于艺术和实验性视频项目以及3D设计。特殊特点：

艺术自由：生成非传统视频效果和动画。
3D建模：创建视觉震撼和细节丰富的对象。
创新算法：利用先进的神经网络实现动态效果

Midjourney

作为Midjourney的订阅者，我乐于利用其生成视频的新功能进行演示。虽然其质量目前不如其他平台，但它不额外收费。Midjourney在发展速度上比其他AI提供商稍慢。因此我不再推荐它，但我的年度订阅还会继续。我用它制作了所有音乐专辑封面和许多其他内容，它表现稳定。但对于网站等，我需要更多。具有高分辨率的逼真、真实的图像。

用于网页、SEO、插件和WebApps的生成式AI

人工智能正在改变网站的开发、优化和管理方式。从自动化内容创建到SEO优化，再到智能插件和WebApps——AI为Web开发者和内容创作者带来了巨大的优势。

WordPress和AI驱动的主题

WordPress仍然是全球使用最广泛的内容管理系统（CMS）。随着AI在主题和插件中日益集成，Web开发变得更加高效和富有创意。特别值得一提的是DIVI 5，它通过AI驱动的设计建议、自动布局调整和智能内容分析树立了新标杆。

AI驱动的自动化SEO优化

SEO仍然是网站可见性的决定性因素。AI驱动的SEO插件，如RankMath，会自动分析内容，推荐相关关键词，并帮助实时改进页面优化。Google也使用RankBrain等AI算法来评估搜索结果的相关性。

AI驱动的插件和WebApps

除了SEO和设计，还有许多AI驱动的插件可以优化工作流程：

WordLift：利用AI进行语义分析，并通过结构化数据改善搜索引擎排名。
AI聊天机器人：像Tidio AI或ChatGPT集成这样的插件可以实现智能客户互动。
AI生成内容：像ContentBot或Copymatic这样的工具可以自动创建引人入胜的博客文章和着陆页。
图像和媒体优化：像Imagify AI或Adobe Firefly for Web这样的插件可以自动优化图像。

AI在Web开发中的未来

未来属于自动化：AI不仅可以为Web开发者提供代码建议，甚至可以生成完整的网站。WebApps通过个性化的用户体验、自动错误检测和优化的性能而受益。

随着AI在WordPress、SEO和WebApps中日益集成，新的可能性正在出现，将Web开发的效率和质量提升到一个新的水平。

AI在摄影和图像编辑中的应用

人工智能对摄影和图像编辑产生了巨大影响。从现代相机中的智能功能到使用专业软件进行自动RAW处理——AI节省时间并优化结果。

AI在现代相机中的应用

许多当前相机集成了AI驱动的技术，为摄影师提供支持：

自动场景识别：相机实时分析场景，为肖像、风景或动作拍摄选择最佳设置。
AI辅助自动对焦系统：识别面部、眼睛甚至特定物体，以获得清晰锐利的图像。
降噪和HDR技术：AI在拍摄过程中就改善图像质量。

AI在RAW开发和筛选中的应用

照片后期处理通常需要大量时间。AI驱动的软件彻底改变了这一过程：

Aftershoot：自动化筛选（图像预分类），识别重复或模糊的照片，并提供快速编辑功能。
Adobe Lightroom：AI驱动的预设、自动图像增强和一键式选择性编辑。
Topaz Labs (Gigapixel, Sharpen, DeNoise)：通过高端降噪、锐化和放大功能扩展图像优化可能性。

AI增强图像编辑

除了RAW开发和排序，还有许多其他AI功能：

Adobe Photoshop：生成式填充、自动抠图和基于内容的修饰等AI工具。
Luminar Neo：用于天空替换、皮肤增强和场景优化的AI滤镜。
Neurapix：基于个性化编辑风格的自动化色彩校正。

AI在摄影中的未来

AI将继续通过以下方式彻底改变摄影：

进一步发展智能相机功能。
使筛选和编辑过程更加高效。
通过增强的AI辅助图像处理开启新的创意可能性。

借助基于AI的解决方案，可以优化工作流程，使摄影师有更多时间进行创作，减少手动编辑的时间。

开发和培训咨询