AI媒体制作与培训 | 音乐、语音、文本、代码、图像、视频、网络、照片等
生成式人工智能 - AI的理论与实践
您好,我叫Johann Dirschl,公司总经理DIRSCHL.com GmbH,专注于AI、视听媒体和培训。在nuonu.com我们测试生成式AI,即能够创造新内容的模型。我们区分以下生成式AI领域:
通过实践案例和现场讲座了解人工智能
生成式人工智能已无处不在。我的任务是测试这些技术,创建自己的工作流程,并制作实践案例和最终产品。由于我们使用各种AI系统创建所有插件和内容本身,页面内容的范围肯定会继续增长。许多人通过培训或专业摄影项目认识我。AI在那里也已成为大约两年的常伴,这为客户和我带来了优势。例如,Aftershoot提供了基于现有项目进行自动选择和编辑的功能。摄影项目已经非常具体,但这里也将对其进行展示。目前,其他AI领域有待记录,因此一些链接指向我们的公司网站。
首先,我们将更详细地介绍以下各个领域:
AI音乐与语音:人工智能带来的革命
人工智能在过去几年中在音乐和音频生成领域取得了巨大进步。AI驱动的工具能够在几秒钟内生成高质量的音乐作品或逼真的语音合成。目前该领域最重要的三个平台是Suno, Udio和ElevenLabs。
Suno
Suno是一个AI音乐平台,允许用户生成包含歌词、旋律和配器的完整歌曲。它基于强大的语言模型,特别适用于歌曲创作和声音设计等创意应用。Suno的特点包括:
- 操作简单: 通过简单的文本输入生成音乐。
- 完整曲目: AI不仅生成器乐,还生成人声。
- 灵活性: 用户可以影响风格和流派。
Udio
Udio是另一个先进的AI音乐制作平台。与Suno不同,Udio特别注重专业的音质和艺术自由。其主要特点包括:
- 精确控制: 用户可以更详细地处理编曲和混音。
- 高质量音频输出: 无需录音室设置即可进行专业制作。
- 多样化的风格: 从电子音乐到管弦乐作品。
ElevenLabs
ElevenLabs是一个AI驱动的语音合成平台,可以生成听起来自然的语音。它特别适用于视频、播客和互动媒体的配音。主要特点:
- 逼真的AI语音: 语音听起来像人类且富有情感。
- 多语言支持: 非常适合国际制作。
- 个性化语音: 用户可以创建自己的语音配置文件。
结论与示例
我主要创作各种音乐,作为一名音乐家,我可以肯定地说,截至2025年10月,Suno是人工智能音乐领域最好的平台。它能识别受保护的作品,允许自由创作标题,并且可以处理所有语言、方言、节奏、乐器等……现在还可以交换片段、创建封面、设定角色,从而分配可识别的风格、歌手……它能响应BPM(每分钟节拍数)和调性设置。
因此,它的表现优于90%的音乐家。他们可以利用Suno完善自己的想法,甚至将整个作品交给Suno完成。
我从Suno V 2.5版本开始使用,并已用它创作了许多专辑和音乐作品。作为一个很好的实践案例,除了德语和英语原创作品,还有器乐, 短片和圣诞歌曲。我的想法是,利用人工智能重新创作那些古老的、已经免GEMA版权的圣诞歌曲。相比之下,我也尝试生成自己的圣诞歌曲。大部分是使用ChatGPT生成的歌词,这些歌词经过个性化调整,并以我的想法为基础。它们是"新圣诞歌曲",拥有自己的作曲(调性、速度、配器、情绪、人声设定等),因此没有抄袭的歌词和旋律。对于圣诞市场等场合,纯粹的圣诞背景音乐也足够了,这些也是我自己或基于旧的免GEMA版权圣诞音乐创作的。
这可能不会让所有人都喜欢,但很明显,AI能够完美地创作音乐。
从法律上讲,内容使用者试图规范这些平台。因为它们也使用了知名音乐作品进行训练。与此相对的是,音乐家也会向其他音乐家学习,音乐并非凭空创造的原则。无论如何看待,我们都无法回避音乐中的人工智能话题,而且现在排行榜上的许多音乐作品可能都是音乐家借助这些工具创作的。
目前,我创作一首包含原创歌词、母带处理、封面和发布的歌曲大约需要3小时。我的主要目标是及早识别人工智能领域的最新变化,并不断调整我的工作流程。同时,这也创建了一个音频库,我可以放心地用于照片展示、圣诞庆祝等场合。除了我们在https://www.vladimirsterzer.com上提供的140首手工制作的音乐作品及其乐谱外,现在还有超过150首、超过5小时的AI音乐可供使用。这些是一个很好的补充,因为它们用途广泛,可以根据视频等进行个性化调整或重新生成。
nuonu是我们老乐队的名字,我在其中演奏吉他、贝斯、合成器,并负责录音。因此,我乐于称自己为音乐家,尽管今天的工具已有所不同。出于习惯,所有AI歌曲在我这里都会经过Logic处理。但自新版本以来,歌曲本身实际上无需再做任何改动。然而,导出分轨(独立音轨)、旧有的趣味混音和母带处理又重新焕发了生机。至少我总是将WAV文件导入Logic并将音量调至零。但我不再进行手动更改。但我会确定精确的速度和节拍,进行淡入淡出、音量调整以及MP3和WAV的导出。有些曲目还加入了收银机音效(Kakakakakaufen),如果我觉得人声太轻,我也会使用分轨进行处理。
然而,音乐制作流程仍然完好无损,只需很少调整以适应新功能。一个关于AI音乐营销的小页面,展示了一些可能性,但对我个人而言相关性较低。AI音乐主要旨在带来乐趣、节省时间、激发个人创造力、帮助音乐家作曲,并带来更多免版税音乐进入市场。
用于文本和代码的生成式AI
人工智能不仅革新了音乐和音频领域,也彻底改变了文本和代码的创作方式。现代AI模型能够生成文本、创建摘要、编写代码,甚至解决复杂问题。以下是该领域一些最重要的AI模型:
ChatGPT
OpenAI的ChatGPT是最著名的语言模型之一,既可用于通用文本,也可用于编程应用。主要特点是:
- 对话能力: 非常适合对话、创意文本和信息获取。
- 代码生成: 支持应用程序、网站和插件的编程。
我从一开始就是用户,每天都用它来处理文本、各种问题和编程。特别是解决复杂的分析,例如网页源代码、SEO等,对我来说至今仍不可或缺。我经常用ChatGPT创建插件的第一个基本版本,然后在更大的应用中转向Cursor,后者可以查看和管理整个项目。我能放弃Plus账户吗?是的,因为仅Cursor就能很好地支持我的开发工作。我也会从其他LLM那里获得第二意见。对于大多数应用,ChatGPT的免费版本就足够了。
Google Gemini
Google的Gemini是一个多模态模型,可以处理文本、图像甚至音频。其特点是:
- 多模态能力: 处理不同数据类型。
- 为研究优化: 有助于信息获取。
- 良好的上下文处理: 提供逻辑清晰、深思熟虑的答案。
- 开发者免费API使用: 允许使用人工智能创建自己的程序。
因此,它目前对我来说比ChatGPT更重要。
Grok
X.ai在获取更真实的内容方面非常出色。它利用X作为额外的数据基础,因此可以非常接近最新的信息以及公司和用户的观点。图像和代码生成也非常出色。
它在第一个版本中就已经相当不错,并且至今仍可免费使用。无论如何,都值得一看。
Claude
Anthropic的Claude特别重视AI使用中的安全和伦理方面。其主要特点是:
- 高文本质量: 专注于自然和连贯的文本。
- 安全导向: 减少错误信息的风险。
- 良好的上下文记忆能力: 能够理解和处理长时间的对话。
它是我在代码领域首选的AI,Sonnet几乎是Cursor中的标准。Claude Sonnet速度超快,质量非常好。
DeepSeek
DeepSeek因其使用了不同的AI硬件,并且处理速度和硬件成本更高效而闻名。它也是我第一次在本地计算机上安装的版本。它也引发了争议,因为在线版本中的中文敏感内容与本地安装环境中的内容有所不同。
今天我不再使用DeepSeek,但这表明中国也在进行着伟大的AI开发,几乎所有大型参与者如百度、阿里巴巴等都已经运营着自己的LLM。
Mistral
Mistral是一个开源模型,特别适用于编程技术应用。其优势在于:
- 高效率: 优化资源节约型计算。
- 专为开发者设计: 良好的代码生成和补全。
- 开源方法: 免费使用和扩展。
Perplexity
Perplexity AI是一个AI驱动的研究和信息模型,专注于高效提供知识。它提供:
- 快速获取信息: 非常适合有针对性的研究。
- 简洁的答案: 清晰地总结复杂主题。
- 良好的网络集成: 获取最新信息。
Perplexity是我替代维基百科和解决所有知识问题的工具。它提供详细的政治背景,对我来说也是新闻替代品。Perplexity利用无数来源和LLM,在几秒钟内提供用户所需的一切。
实际上,Perplexity可以做任何事情,包括生成代码、完成家庭作业等等。最有趣的是,它的答案是实时的并且与来源链接。
用于图像和艺术的生成式AI
人工智能也改变了图像和艺术的世界。AI模型可以创建逼真的照片、抽象艺术作品、矢量图形、3D渲染、标志等等。该技术应用于各个领域,包括:
-
图像生成: 根据文本描述创建图像。
-
照片编辑: AI驱动的改进和调整。
-
矢量图形: 自动创建和编辑矢量图像。
-
3D建模: 协助创建复杂的3D对象。
-
标志设计: 根据要求生成独特的标志。
-
创意构思: 通过AI生成的灵感支持创意过程。
-
图像分析: 识别和分类图像中的内容。
Midjourney
Midjourney是一个AI平台,可根据文本输入生成令人印象深刻的艺术图像。其特点是:
- 高质量、创意图像: 特别适用于概念艺术和设计。
- 操作简单: 通过Discord命令生成图像。
- 艺术自由: 强调风格多样性。
DALL·E
https://openai.com/de-DE/index/dall-e-3/
OpenAI的DALL·E是一个AI图像生成器,可根据文本描述创建详细逼真的图像。主要特点:
- 高细节精度: 逼真且富有创意的图像生成。
- 对象关联: 在一个图像中逻辑地组合不同元素。
- 图像编辑: 允许对现有图像进行变体和补充。
目前我已不再使用DALL-E。其功能已集成到LLM中,或与Midjourney的结果没有区别。但在AI世界中,永远不能低估大玩家,下一次更新肯定会到来。
Firefly
Adobe的Firefly是一个AI驱动的图像编辑和生成平台,专注于创意控制。优点:
- 与Adobe产品集成: 非常适合Photoshop和Illustrator。
- 非破坏性编辑: AI驱动的工具,用于创意调整。
- 简单的文本到图像生成: 根据文本指令创建图像。
不可或缺,因为它集成在Adobe产品中。视频生成对我来说似乎太贵了,但这可能很快就会改变。使用Premiere的用户可以延长视频,Photoshop用户也可以用它创建图像或通过生成内容实现InPainting。超级简单,质量很好。
Stable Diffusion
https://stability.ai/news/stable-diffusion-public-release
Stable Diffusion是一个开源图像生成模型,特别适用于个性化定制。特点:
- 完全可定制: 可在本地运行并可修改。
- 复杂图像风格: 实现详细逼真的图形。
- 开源自由: 免费使用和扩展。
Flux
https://flux-ai.io/de/flux-ai-image-generator/
Flux是一个创新的AI图像艺术平台,以其实验精神和创意算法而著称。其优势在于:
- 发现新风格: 生成非传统和实验性图像。
- 强大算法: 利用神经网络实现艺术效果。
- 创意工作流程: 促进数字艺术的新方法。
生成式AI视频和3D
最新的AI模型不仅能够创建静态图像,还能生成逼真的视频和3D动画。它们被用于电影制作、视觉效果、游戏设计和虚拟现实等多个领域。应用领域包括:
- AI生成视频序列: 根据文本描述创建逼真或风格化的视频。
- 视频编辑: 自动优化剪辑、色彩校正和效果。
- 3D动画: 生成和控制复杂的3D模型和动画。
- 场景创建: 为游戏、VR或模拟创建完整环境。
VEO 3
目前最好的视频生成技术,包括语音和音乐,能够生成绝对逼真的视频,这些视频很可能会主导未来的电影市场。至少在某些方面,可以以极低的成本和专业水准创建特效等。
Runway Gen-2
Runway Gen-2是一个强大的AI视频生成和编辑工具。主要特点:
- 文本到视频生成: 根据文本指令生成视频。
- 图像到视频生成: 根据上传的图像数据生成视频。
- AI驱动的编辑: 用于色彩校正、抠像和效果的工具。
- 操作简单: 为创意项目提供直观的用户界面。
注册后,Runway提供免费创建约20个视频序列的机会。之后可以选择不同的订阅模式。
Adobe Firefly 视频
自2025年2月中旬以来,Adobe Firefly的图像生成功能已扩展到包含生成式AI视频。该服务与Runway类似,根据上传的图像或提示生成视频。Firefly Video是一个强大的AI视频生成工具。主要特点:
- 文本到视频生成: 根据文本指令生成视频。
- 图像到视频生成: 根据上传的图像数据生成视频。
- AI驱动的编辑: 用于色彩校正、抠像和效果的工具。
- 操作简单: 为创意项目提供直观的用户界面。
作为Adobe CC订阅者,我在收到付款请求(AI服务订阅)之前有机会创建了2个视频。Adobe首次尝试对其AI服务进行额外 monetisierung。根据报价,这可能还包括Adobe的其他生成式音频、视频和照片AI。
Sora
OpenAI的Sora是一种先进的AI,用于逼真的视频生成。它提供:
- 细节丰富的动作: 生成具有复杂物理和逼真运动的视频。
- 场景创建: 创建具有电影感和沉浸感的环境。
- 自动调整: 优化光线、阴影和纹理以获得更好的效果。
截至2025年2月中旬,Sora尚未在德国上市。但许多视频已经展示了AI的强大功能。
Pika Labs
Pika Labs是一个创新的AI驱动视频编辑和动画平台。其优势在于:
- 自动化效果: 根据文本描述生成视觉效果。
- 动画控制: 控制角色和物体的运动和动态。
- 直观操作: 通过自动化简化创意过程。
Flux
Flux是一个多功能的AI平台,适用于艺术和实验性视频项目以及3D设计。主要特点:
- 艺术自由: 生成非传统视频效果和动画。
- 3D建模: 创建视觉上令人印象深刻且细节丰富的对象。
- 创新算法: 利用先进神经网络实现动态效果
Midjourney
作为Midjourney订阅者,我乐于利用其新功能生成视频用于演示目的。这里的质量不如其他平台,但它也不额外收费。Midjourney在发展速度上比其他AI提供商慢一些。因此我不再推荐它,但会等到我的年度订阅到期。我用它制作了所有音乐专辑封面和许多其他东西,它的表现很可靠。但对于网站等,我需要更多。具有高分辨率的逼真、真实图像。
用于网络、SEO、插件和Web应用的生成式AI
人工智能正在改变网站的开发、优化和管理方式。从自动化内容创建到SEO优化,再到智能插件和Web应用——AI为Web开发者和内容创作者带来了巨大优势。
WordPress和AI驱动的主题
WordPress仍然是全球使用最广泛的内容管理系统(CMS)。随着AI在主题和插件中的日益集成,Web开发变得更加高效和富有创意。特别值得一提的是DIVI 5,它通过AI驱动的设计建议、自动布局调整和智能内容分析树立了新标准。
AI驱动的自动化SEO优化
SEO仍然是网站可见性的关键因素。AI驱动的SEO插件,例如RankMath自动分析内容,建议相关关键词,并帮助实时改进页面优化。Google也使用RankBrain等AI算法来评估搜索结果的相关性。
AI驱动的插件和Web应用
除了SEO和设计,还有许多AI驱动的插件可以优化工作流程:
-
WordLift: 利用AI进行语义分析,并通过结构化数据改进搜索引擎排名。
-
AI聊天机器人: 插件如Tidio AI或ChatGPT集成实现智能客户互动。
-
AI生成内容: 工具如ContentBot或Copymatic自动创建引人入胜的博客文章和着陆页。
-
图像和媒体优化: 插件如Imagify AI或Adobe Firefly for Web自动优化图像。
AI驱动的Web开发未来
未来属于自动化:AI不仅可以为Web开发者提供代码建议,甚至可以生成完整的网站。Web应用通过个性化用户体验、自动错误检测和优化性能而受益。
随着AI在WordPress、SEO和Web应用中日益集成,新的可能性正在出现,将Web开发的效率和质量提升到新的水平。
AI在摄影和图像编辑中的应用
人工智能在摄影和图像编辑领域产生了巨大影响。从现代相机中的智能功能到使用专业程序进行自动化RAW处理——AI节省了时间并优化了结果。
AI在现代相机中的应用
许多当前相机集成了AI技术,为摄影师提供支持:
- 自动场景识别: 相机实时分析场景,并为肖像、风景或动作拍摄选择最佳设置。
- AI驱动的自动对焦系统: 识别面部、眼睛甚至特定物体,以获得清晰锐利的照片。
- 降噪和HDR技术: AI在拍摄过程中即可改善图像质量。
AI在RAW开发和筛选中的应用
照片的后期处理通常需要大量时间。AI驱动的软件正在彻底改变这一过程:
- Aftershoot: 自动化筛选(照片预分类),识别重复或模糊的照片,并提供快速编辑功能。
- Adobe Lightroom: AI驱动的预设、自动图像增强和一键式选择性编辑。
- Topaz Labs (Gigapixel, Sharpen, DeNoise): 通过高端降噪、锐化和超分辨率技术扩展了图像优化的可能性。
AI驱动的高级图像编辑
除了RAW开发和排序,还有许多其他AI功能:
- Adobe Photoshop: AI工具,如生成式填充、自动抠图和基于内容的修饰。
- Luminar Neo: 用于天空替换、皮肤改善和场景优化的AI滤镜。
- Neurapix: 基于个性化编辑风格的自动化色彩校正。
AI在摄影领域的未来
AI将继续通过以下方式革新摄影:
- 智能相机功能得到进一步发展。
- 筛选和编辑流程变得更加高效。
- 新的创意可能性通过扩展的AI图像处理而开启。
通过基于AI的解决方案,可以优化工作流程,使摄影师有更多时间进行创作,减少手动编辑的时间。




