人工智能媒体制作与培训 | 音乐、语音、文本、代码、图像、视频、网页、照片等
生成式人工智能 - 人工智能的理论与实践
大家好,我叫Johann Dirschl,是DIRSCHL.com GmbH的总经理,公司专注于人工智能、视听媒体和培训。在nuonu.com上,我们测试生成式人工智能,即能够创造新内容的模型。我们区分以下生成式人工智能领域:
通过实践案例和现场讲座了解人工智能
生成式人工智能已无处不在。我的任务是测试它们,创建自己的工作流程,并制作实践案例和最终产品。
许多人认识我是一名程序员、讲师或摄影师。我喜欢尝试新事物,是一个技术迷,总是在寻找新的、更好的替代方案来加速工作流程。工作流程至关重要,并且在许多领域发生了变化,尤其是在人工智能领域,大众即使没有专业知识也能轻松应对。
每项人工智能技术最初都会被许多人厌恶,因为并非每个人都愿意接受新的事实。然后,在使用和拒绝之间会有一个过渡期,不久之后每个人都会使用它。最终,人工智能的知识和所有自动化都将远远超越人类。AGI(通用人工智能)的时刻在许多领域已经到来,只是没有人注意到。
不要错过这个时刻,因为你的整个生活和工作方式都将取决于它。
很高兴你们在这里。
Johann Dirschl, DIRSCHL.com GmbH

AI音乐与语音:人工智能带来的革命
近年来,人工智能在音乐和音频生成领域取得了巨大进步。AI驱动的工具能够在几秒钟内生成高质量的音乐作品或逼真的语音合成。目前该领域最重要的三个平台是Suno、Udio和ElevenLabs。
Suno
Suno是一个AI音乐平台,允许用户生成包含歌词、旋律和配器的完整歌曲。它基于强大的语言模型,特别适用于歌曲创作和声音设计等创意应用。Suno的特点是:
- 操作简单:通过简单的文本输入即可生成音乐。
- 完整曲目:AI不仅生成器乐,还生成人声。
- 灵活性:用户可以影响风格和流派。
Udio
Udio是另一个先进的AI音乐制作平台。与Suno不同,Udio特别注重专业的音质和艺术自由。其主要特点包括:
- 精确控制:用户可以更详细地处理编曲和混音。
- 高质量音频输出:无需录音室设置即可进行专业制作。
- 多样化风格:从电子音乐到管弦乐作品。
ElevenLabs
ElevenLabs是一个AI驱动的语音合成平台,可以生成自然发音的声音。它对于视频配音、播客和互动媒体特别有吸引力。主要功能:
- 逼真AI声音:声音听起来像人类一样富有情感。
- 多语言支持:非常适合国际制作。
- 个性化声音:用户可以创建自己的声音配置文件。
结论与示例
我主要创作各种类型的音乐,作为一名音乐家,我可以说,截至2025年10月,Suno是人工智能音乐领域最好的平台。它能识别受保护的作品,允许自由创作标题,并且可以处理所有语言、方言、节奏、乐器等……现在还可以交换片段、创建封面、设置角色,从而分配可识别的风格、歌手……它能响应BPM指示和调性预设。
它的工作效率比90%的音乐家都要好。音乐家可以利用Suno来完善他们的想法,甚至将整个作曲任务交给Suno。
我从Suno V 2.5版本就开始使用,并用它创作了许多专辑和音乐作品。除了德语和英语原创作品外,还有器乐、短片和圣诞歌曲作为很好的实践案例。我的想法是利用人工智能重新创作那些旧的、已经免GEMA版权的圣诞歌曲。我还尝试创作自己的圣诞歌曲,大部分使用ChatGPT的歌词,并根据我的想法进行个性化调整。这些是带有原创作曲(调性、速度、配器、情绪、人声设定等)的“新圣诞歌曲”,而不是抄袭的歌词和旋律。对于圣诞市场等场合,纯粹的圣诞背景音乐也足够了,这些也是我自己创作的,或者基于旧的免GEMA版权圣诞音乐创作的。
这样做不一定会赢得所有人的喜爱,但很明显,人工智能能够完美地创作音乐。
从法律上讲,版权所有者试图规范这些平台,因为它们也使用了知名音乐作品进行训练。然而,与之相对的原则是,音乐家也会向其他音乐家学习,音乐并非凭空创造。无论如何看待,我们都无法回避音乐中的人工智能主题,而且现在许多排行榜上的音乐作品可能都是音乐家借助这些工具创作的。
目前,我创作一首包含歌词、母带处理、封面和发布的原创歌曲大约需要3小时。我主要关注的是及早识别人工智能的最新变化,并不断调整我的工作流程。同时,这也创建了一个音频库,我可以放心地用于照片展示、圣诞派对等。除了我们在https://www.vladimirsterzer.com上提供140首手工制作的音乐作品及其乐谱外,现在还有超过150首、超过5小时的AI音乐可供使用。这些是一个很好的补充,因为它们用途广泛,可以根据视频等进行个性化调整或重新生成。
nuonu是我们老乐队的名字,我在其中演奏吉他、贝斯、合成器,并负责录音。因此,我喜欢称自己为音乐家,即使今天的工具不同。出于习惯,所有AI歌曲在我这里也会经过Logic处理。但实际上,自新版本以来,歌曲本身已经不需要做任何修改了。然而,导出音轨(单独音轨)、旧的趣味混音和母带处理又重新焕发了生机。至少我总是将WAV文件加载到Logic中,并将音量调到零。但我不再进行手动更改。我只是让它确定精确的速度和节拍,淡入淡出,音量,以及MP3和WAV的跳动。有些音轨还加入了收银机声音(Kakakakakaufen),如果我觉得人声太轻,我也会使用音轨。
音乐制作工作流程仍然完好无损,只需很少调整以适应新的可能性。一个关于AI音乐营销的小页面展示了一些可能性,但对我自己来说不太相关。AI音乐主要应该带来乐趣,节省时间,促进个人创造力,帮助音乐家作曲,并带来更多免版税音乐进入市场。
生成式人工智能用于文本和代码
人工智能不仅彻底改变了音乐和音频,也改变了文本和代码的创建方式。现代AI模型可以生成文本、创建摘要、编写代码,甚至解决复杂问题。以下是该领域一些最重要的AI模型:
ChatGPT
OpenAI的ChatGPT是最著名的语言模型之一,用于通用文本和编程应用。主要特点是:
- 对话能力:非常适合对话、创意文本和信息获取。
- 代码生成:支持应用程序、网站和插件的编程。
我从一开始就是用户,每天都用它来处理文本、各种问题和编程。特别是解决复杂的分析,例如网页源代码、SEO等,对我来说至今仍不可或缺。我经常用ChatGPT创建插件的第一个基本版本,然后对于更大的应用程序,我会切换到Cursor,它可以查看和管理整个项目。我能放弃Plus账户吗?是的,因为仅Cursor就能很好地支持我的开发工作。我也可以从其他LLM那里获得第二意见。对于大多数应用来说,ChatGPT的免费版本就足够了。
Google Gemini
Google的Gemini是一个多模态模型,可以处理文本、图像甚至音频。其特点是:
- 多模态能力:处理不同类型的数据。
- 优化研究:帮助获取信息。
- 良好的上下文处理:提供逻辑清晰、深思熟虑的答案。
- 开发者免费API使用:允许使用人工智能创建自己的程序。
因此,它目前对我来说比ChatGPT更重要。
Grok
X.ai在获取更真实的内容方面表现出色。它利用X作为额外的数据基础,因此可以非常接近最新的信息以及公司和用户的意见。图像和代码生成也非常出色。
它在第一个版本中就已经相当不错,并且至今仍可免费使用。无论如何,都值得一试。
Claude
Anthropic的Claude特别注重AI使用中的安全和伦理方面。其主要特点是:
- 高文本质量:专注于自然和一致的文本。
- 安全导向:降低错误信息的风险。
- 良好的上下文记忆区域:可以理解和处理长时间的对话。
它是我在代码领域首选的AI,Sonnet几乎是Cursor中的标准。Claude Sonnet速度超快,质量非常好。
DeepSeek
DeepSeek因其使用不同的AI硬件而闻名,其处理速度和硬件成本效率更高。它也是我首次在本地计算机上安装的版本。它还引发了讨论,因为在线版本中的中文敏感内容与本地安装环境中的表现不同。
今天我不再使用DeepSeek,但这表明中国也在进行出色的人工智能开发,几乎所有大型参与者如百度、阿里巴巴等都已经运营自己的LLM。
Mistral
Mistral是一个开源模型,特别适用于编程应用。其优势在于:
- 高效率:优化资源节约型计算。
- 专为开发者设计:良好的代码生成和补全功能。
- 开源方法:免费可用且可定制。
Perplexity
Perplexity AI是一个AI驱动的研究和信息模型,专注于高效地提供知识。它提供:
- 快速信息获取:非常适合有针对性的研究。
- 简洁答案:以易于理解的方式总结复杂主题。
- 良好的网络集成:访问最新信息。
Perplexity是我替代维基百科和所有知识问题的工具。它提供详细的政治背景,对我来说也是新闻替代品。Perplexity利用无数来源和LLM,在几秒钟内提供用户所需的一切。
实际上,Perplexity无所不能,包括生成代码、完成家庭作业等等。最有趣的是,它的答案是实时的,并且链接了来源。
生成式人工智能用于图像和艺术
人工智能也改变了图像和艺术的世界。AI模型可以创建逼真的照片、抽象艺术作品、矢量图形、3D渲染、标志等等。该技术应用于各个领域,包括:
-
图像生成:根据文本描述创建图像。
-
照片编辑:AI驱动的改进和调整。
-
矢量图形:自动创建和编辑矢量图像。
-
3D建模:支持创建复杂的3D对象。
-
标志设计:根据要求生成独特的标志。
-
创意构思:通过AI生成的灵感支持创意过程。
-
图像分析:识别和分类图像中的内容。
Midjourney
Midjourney是一个AI平台,根据文本输入生成令人印象深刻的艺术图像。其特点是:
- 高质量、创意图像:特别适用于概念艺术和设计。
- 操作简单:通过Discord命令生成图像。
- 艺术自由:强调风格多样性。
DALL·E
https://openai.com/de-DE/index/dall-e-3/
OpenAI的DALL·E是一个AI图像生成器,根据文本描述创建详细逼真的图像。主要特点:
- 高细节精度:逼真和创意的图像生成。
- 对象关联:在图像中逻辑地组合不同元素。
- 图像编辑:允许对现有图像进行变体和补充。
目前我自己不再使用DALL-E。其功能已集成到LLM中,或者结果与Midjourney没有区别。但在AI世界中,永远不能低估大玩家,下一次更新肯定会到来。
Firefly
Adobe的Firefly是一个AI驱动的图像编辑和生成平台,专注于创意控制。优点:
- 与Adobe产品集成:完美适用于Photoshop和Illustrator。
- 非破坏性编辑:AI驱动的工具用于创意调整。
- 简单的文本到图像生成:根据文本指令创建图像。
不可或缺,因为它集成在Adobe产品中。视频生成对我来说似乎太贵了,但这很快也可能改变。使用Premiere的人可以延长视频,Photoshop用户也可以用它创建图像或通过生成内容实现InPainting。超级简单,质量也很好。
Stable Diffusion
https://stability.ai/news/stable-diffusion-public-release
Stable Diffusion是一个开源图像生成模型,特别适用于个性化定制。特点:
- 完全可定制:本地运行且可修改。
- 复杂图像风格:实现详细逼真的图形。
- 开源自由:免费使用和扩展。
Flux
https://flux-ai.io/de/flux-ai-image-generator/
Flux是一个创新的AI图像艺术平台,以其实验精神和创意算法而闻名。其优势在于:
- 发现新风格:生成非传统和实验性图像。
- 强大算法:利用神经网络实现艺术效果。
- 创意工作流程:促进数字艺术的新方法。
生成式人工智能视频和3D
最新的AI模型不仅能够创建静态图像,还能创建逼真的视频和3D动画。它们被应用于电影制作、视觉效果、游戏设计和虚拟现实等多个领域。应用范围包括:
- AI生成视频序列:根据文本描述创建逼真或风格化的视频。
- 视频编辑:自动优化剪辑、色彩校正和效果。
- 3D动画:生成和控制复杂的3D模型和动画。
- 场景创建:为游戏、VR或模拟创建完整环境。
VEO 3
目前最好的视频生成技术,包括语音和音乐,能够生成绝对逼真的视频,这很可能会决定未来的电影市场。至少在某些方面,特殊效果等可以以极低的成本和专业水准制作。
Runway Gen-2
Runway Gen-2是一款功能强大的AI视频生成和编辑工具。主要特点:
- 文本到视频生成:根据文本指令生成视频。
- 图像到视频生成:根据上传的图像数据生成视频。
- AI辅助编辑:用于色彩校正、抠像和效果的工具。
- 操作简单:直观的用户界面,适用于创意项目。
注册后,Runway提供免费创建约20个视频序列的机会。之后,您可以选择不同的订阅模式。
Adobe Firefly Video
自2025年2月中旬以来,Adobe Firefly的图像生成功能已通过生成式AI视频得到补充。该服务与Runway类似,根据上传的图像或提示生成视频。Firefly Video是一款功能强大的AI视频生成工具。主要特点:
- 文本到视频生成:根据文本指令生成视频。
- 图像到视频生成:根据上传的图像数据生成视频。
- AI辅助编辑:用于色彩校正、抠像和效果的工具。
- 操作简单:直观的用户界面,适用于创意项目。
作为Adobe CC订阅者,我有机会创建2个视频,之后就显示了付款请求(AI服务订阅)。Adobe首次尝试对其AI服务进行额外收费。根据报价,这可能还包括Adobe的其他生成式音频、视频和照片AI。
Sora
OpenAI的Sora是一款用于逼真视频生成的高级AI。它提供:
- 细节丰富的动作:生成具有复杂物理和逼真动作的视频。
- 场景创建:创建具有电影感和沉浸感的环境。
- 自动调整:优化光线、阴影和纹理以获得更好的结果。
截至2025年2月中旬,Sora尚未在德国上市。但许多视频已经展示了AI的强大性能。
Pika Labs
Pika Labs是一个创新的AI驱动视频编辑和动画平台。其优势在于:
- 自动化效果:根据文本描述生成视觉效果。
- 动画控制:控制角色和物体的运动和动态。
- 直观操作:通过自动化简化创意过程。
Flux
Flux是一个多功能AI平台,适用于艺术和实验性视频项目以及3D设计。主要特点:
- 艺术自由:生成非传统视频效果和动画。
- 3D建模:创建视觉上令人印象深刻的详细对象。
- 创新算法:利用先进的神经网络实现动态效果
Midjourney
作为Midjourney的订阅者,我乐于利用其生成视频的新功能进行演示。虽然质量不如其他平台,但它不额外收费。Midjourney在发展速度上比其他AI提供商慢一些。因此,我不再推荐它,但我的年度订阅还会继续。我用它制作了所有音乐专辑封面和许多其他内容,它表现稳定。但对于网站等,我需要更多逼真、真实的、高分辨率的图像。
生成式人工智能用于网页、SEO、插件和WebApps
人工智能正在改变网站的开发、优化和管理方式。从自动化内容创建到SEO优化,再到智能插件和WebApps——AI为网页开发者和内容创作者带来了巨大的优势。
WordPress和AI驱动的主题
WordPress仍然是全球使用最广泛的内容管理系统(CMS)。随着AI在主题和插件中日益集成,网页开发变得更加高效和富有创意。特别值得一提的是DIVI 5,它通过AI驱动的设计建议、自动布局调整和智能内容分析树立了新标准。
AI自动化SEO优化
SEO仍然是网站可见性的关键因素。AI驱动的SEO插件,如RankMath,自动分析内容,建议相关关键词,并帮助实时改进页面优化。Google也使用RankBrain等AI算法来评估搜索结果的相关性。
AI驱动的插件和WebApps
除了SEO和设计,还有许多其他AI驱动的插件可以优化工作流程:
-
WordLift:利用AI进行语义分析,并通过结构化数据提高搜索引擎排名。
-
AI聊天机器人:如Tidio AI或ChatGPT集成等插件可实现智能客户互动。
-
AI生成内容:ContentBot或Copymatic等工具自动创建引人入胜的博客文章和着陆页。
-
图像和媒体优化:Imagify AI或Adobe Firefly for Web等插件自动优化图像。
AI在网页开发中的未来
未来属于自动化:AI不仅可以为网页开发者提供代码建议,甚至可以生成完整的网站。WebApps通过个性化用户体验、自动错误检测和优化性能而受益。
随着AI在WordPress、SEO和WebApps中日益集成,新的可能性正在出现,将网页开发的效率和质量提升到新的水平。
人工智能在摄影和图像处理中的应用
人工智能对摄影和图像处理产生了巨大影响。从现代相机中的智能功能到专业软件的自动化RAW处理——AI节省了时间并优化了结果。
现代相机中的AI
许多当前相机集成了基于AI的技术,以支持摄影师:
- 自动场景识别:相机实时分析场景,并为肖像、风景或动作拍摄选择最佳设置。
- AI辅助自动对焦系统:识别面部、眼睛甚至特定物体,以获得清晰锐利的图像。
- 降噪和HDR技术:AI在拍摄过程中就提高了图像质量。
AI在RAW开发和筛选中的应用
照片后期处理通常需要大量时间。AI驱动的软件正在彻底改变这一过程:
- Aftershoot:自动化筛选(图片预分类),识别重复或模糊的照片,并提供快速编辑功能。
- Adobe Lightroom:AI驱动的预设、自动图像增强和通过点击鼠标进行选择性编辑。
- Topaz Labs (Gigapixel, Sharpen, DeNoise):通过高端降噪、锐化和放大功能扩展了图像优化的可能性。
AI增强图像处理
除了RAW开发和排序,还有许多其他AI功能:
- Adobe Photoshop:生成式填充、自动抠图和基于内容的修饰等AI工具。
- Luminar Neo:用于天空替换、皮肤改善和场景优化的AI滤镜。
- Neurapix:基于个性化编辑风格的自动化色彩校正。
AI在摄影中的未来
AI将继续通过以下方式彻底改变摄影:
- 进一步发展智能相机功能。
- 使筛选和编辑过程更加高效。
- 通过扩展的AI辅助图像处理开启新的创意可能性。
借助基于AI的解决方案,可以优化工作流程,使摄影师有更多时间进行创作,减少手动编辑的时间。





