AIメディア制作とトレーニング | 音楽、音声、テキスト、コード、画像、動画、ウェブ、写真など

生成AI - 理論と実践におけるAI

こんにちは、私の名前はヨハン・ディルシュルです。AI、オーディオビジュアルメディア、トレーニングを専門とするDIRSCHL.com GmbHのマネージングディレクターです。nuonu.comでは、新しいコンテンツを作成できるモデルである生成AIをテストしています。以下の生成AI分野を区別しています：

音楽＆音声

AI音楽およびオーディオ制作ヨハン・ディルシュル、nuonu.com、DIRSCHL.com GmbH

Suno, Frescobaldi, LiliPond, Udio, ElevenLabs

テキスト＆コード

AIテキストとコード、ヨハン・ディルシュル、DIRSCHL.com GmbH、生成AI、ChatGPT

ChatGPT, Gemini, Meta.AI, Grok DeepSeek, Mistral, Perplexity, Cursor

画像＆動画

AI画像とアート、ヨハン・ディルシュル、DIRSCHL.com GmbH、生成AI、Midjourney

Midjourney, DALL·E, Firefly, Stable Diffusion, Runway Gen-2, Pika Labs, Flux

ウェブ＆プラグイン

WordPressとDIVIによるAIプラグインおよびウェブ開発、Webアプリ、DIRSCHL.com GmbH、生成AI

ウェブサイト, SEO, アクセシビリティ, プラグイン, Webアプリ, ページ速度など

写真＆編集

AI写真とRAW現像、ヨハン・ディルシュル、DIRSCHL.com GmbH、Aftershoot、生成AI、Photoshop

Aftershoot, Topaz, Adobe Photoshop, Lightroom, Bridge

実践例とライブ講演でAIを学ぶ

生成AIは事実上あらゆる場所に浸透しています。私の仕事は、これをテストし、独自のワークフローを作成し、実践例と最終製品を作成することです。すべてのプラグインとコンテンツ自体をさまざまなAIシステムで作成しているため、サイトコンテンツの範囲は確実に拡大するでしょう。多くの方は、トレーニングやプロの写真プロジェクトで私をご存知でしょう。そこでもAIは過去約2年間、常にパートナーであり、顧客と私の両方にメリットをもたらしています。例えば、Aftershootは、これまでのプロジェクトに基づいて自動的に選択・編集する機能を提供します。写真のプロジェクトは非常に特殊ですが、ここでも取り上げられます。当面は他のAI分野を文書化する必要があるため、いくつかのリンクは当社の企業ウェブサイトを参照しています。

まず、ここで少し詳しく紹介したい各分野について説明します。

AI音楽と音声：AIによる革命

AIは近年、音楽およびオーディオ生成の分野で目覚ましい進歩を遂げています。AIを活用したツールにより、数秒で高品質な音楽作品やリアルな音声合成を生成できるようになりました。この分野で現在最も重要なプラットフォームは、Suno、Udio、ElevenLabsの3つです。

Suno

Sunoは、ユーザーが歌詞、メロディ、楽器編成を含む完全な楽曲を生成できるAI音楽プラットフォームです。強力な言語モデルに基づいており、ソングライティングやサウンドデザインなどのクリエイティブな用途に特に適しています。Sunoの特徴は次のとおりです。

簡単な操作: 簡単なテキスト入力で音楽が生成されます。
完全なトラック: AIはインストゥルメンタルだけでなく、ボーカルも生成します。
柔軟性: ユーザーはスタイルやジャンルに影響を与えることができます。

Udio

Udioは、音楽制作のためのもう一つの先進的なAIプラットフォームです。Sunoとは異なり、Udioはプロフェッショナルな音質と芸術的自由を特に重視しています。主な特徴は次のとおりです。

精密なコントロール: ユーザーはアレンジやミックスをより詳細に操作できます。
高品質なオーディオ出力: スタジオ設備なしでプロフェッショナルな制作が可能。
多様なスタイル: エレクトロニックミュージックからオーケストラ作品まで。

ElevenLabs

ElevenLabsは、自然な響きの音声を生成できるAIを活用した音声合成プラットフォームです。特に動画、ポッドキャスト、インタラクティブメディアのナレーションに適しています。主な機能は次のとおりです。

リアルなAI音声: 人間らしく感情豊かな音声。
多言語対応: 国際的な制作に最適。
個別音声: ユーザーは独自の音声プロファイルを作成できます。

結論と例

私は主にあらゆる種類の音楽を制作しており、ミュージシャンとして、Sunoは2025年10月現在、AI音楽分野で最高のプラットフォームであると言えます。著作権保護された作品を認識し、自由なタイトルを許可し、あらゆる言語、方言、リズム、楽器編成などに対応しています。現在では、断片の交換、カバーの作成、ペルソナの設定も可能で、認識可能なスタイルや歌手などを割り当てることができます。BPM指定や調の指定にも対応しています。

これにより、Sunoは90%以上のミュージシャンよりも優れた働きをします。ミュージシャンはSunoを使ってアイデアを完成させたり、作曲全体をSunoに任せたりすることができます。

私はSuno V 2.5から参加しており、すでに多くのアルバムや楽曲を作成してきました。良い実践例として、ドイツ語のや英語のオリジナル曲の他に、インストゥルメンタル、ショート、クリスマスソングもあります。私のアイデアは、古い、すでにGEMAフリーのクリスマスソングをAIの助けを借りて再作成することでした。比較のために、私自身のクリスマスソングも生成しようとしました。これらは主にChatGPTのテキストを使用し、私のアイデアに基づいて個別に調整されたものです。これらは独自の作曲（調、速度、楽器編成、雰囲気、ボーカル指定など）による「新しいクリスマスソング」であり、盗用された歌詞やメロディではありません。クリスマスマーケットなどには、純粋なクリスマスのBGMだけでも十分であり、これも私自身で、または古いGEMAフリーのクリスマス音楽に基づいて作成しました。

これで誰もが喜ぶわけではありませんが、AIが完璧な方法で音楽を作成できることは明らかです。

法的には、利用者はこれらのプラットフォームを規制しようとしています。これらが既知の音楽作品をトレーニングに使用しているためです。しかし、ミュージシャンも他のミュージシャンから学び、音楽は新たに発明されるものではないという原則があります。どのように見ても、音楽におけるAIの話題は避けられず、おそらくすでに多くのチャート曲が、ミュージシャンがこれらのツールを使って作成したものでしょう。

現在、私は独自の歌詞、マスタリング、カバー、リリースを含むオリジナル曲を1曲作成するのに約3時間かかります。私の主な目的は、AIにおける現在の変化を早期に認識し、常にワークフローを再調整することです。これにより、フォトショーやクリスマスパーティーなどで安心して使用できるオーディオプールも作成されます。楽譜付きでhttps://www.vladimirsterzer.comで提供している140の手作り音楽作品に加えて、現在では5時間以上のAI音楽を含む150以上のトラックも利用可能です。これらは多用途であり、動画などに個別に調整したり、新しく生成したりできるため、素晴らしい補完となります。

nuonuは、私がギター、ベース、シンセサイザーを演奏し、レコーディングも担当していた昔のバンドの名前です。そのため、今日のツールは異なりますが、私は自分をミュージシャンと呼ぶのが好きです。習慣として、すべてのAIタイトルもLogicを通しています。しかし、新しいバージョンになってからは、タイトルに実際に手を加える必要はなくなりました。それでも、ステム（個別トラック）のエクスポート、昔ながらの遊び心のあるミキシングとマスタリングは復活しています。少なくとも、私は常にWAVをLogicに読み込み、音量をゼロに設定します。しかし、手動での変更はもう行いません。正確な速度と拍子の検出、フェードイン・フェードアウト、音量、MP3とWAVのバウンスは行います。いくつかのトラックにはレジの音（Kakakakakaufen）も追加し、ボーカルが小さすぎる場合はステムを使用することもあります。

しかし、Music Production Workflowはまだ健在であり、新しい可能性に合わせて調整する必要があるのは稀です。AI音楽のマーケティングに関する小さなページでは、私自身にはあまり関係のない可能性が示されています。AI音楽は、何よりも楽しさをもたらし、時間を節約し、独自の創造性を育み、作曲におけるミュージシャンを助け、より多くのロイヤリティフリー音楽を市場に投入することを目的としています。

テキストとコードのための生成AI

AIは音楽やオーディオだけでなく、テキストやコードの作成も革新しています。現代のAIモデルは、テキストを生成し、要約を作成し、コードを書き、さらには複雑な問題を解決することができます。この分野の主要なAIモデルをいくつか紹介します。

ChatGPT

https://chatgpt.com/

OpenAIのChatGPTは、一般的なテキストとプログラミングの両方のアプリケーションで使用される最もよく知られた言語モデルの1つです。主な特徴は次のとおりです。

会話能力: 対話、クリエイティブなテキスト、情報収集に最適。
コード生成: アプリケーション、ウェブサイト、プラグインのプログラミングをサポート。

私は初期からのユーザーであり、テキスト、あらゆる種類の質問、プログラミングに毎日使用しています。特に、ウェブソースコードやSEOなどの複雑な分析を解決する上で、今日でも不可欠です。Chatを使ってプラグインの最初の基本バージョンを作成し、より大規模なアプリケーションでは、プロジェクト全体を表示・管理できるCursorに切り替えることが多いです。プラスアカウントなしで済ませられるか？はい、Cursorだけでも私の開発作業を十分にサポートしてくれるでしょう。他のLLMからもセカンドオピニオンを得ています。ほとんどのアプリケーションでは、ChatGPTの無料版で十分です。

Google Gemini

https://gemini.google.com/

GoogleのGeminiは、テキスト、画像、さらにはオーディオを処理できるマルチモーダルモデルです。その特徴は次のとおりです。

マルチモーダル機能: 異なるデータタイプの処理。
調査に最適化: 情報収集に役立ちます。
優れたコンテキスト処理: 論理的な構成で思慮深い回答を提供します。
開発者向けの無料API利用: AIを使った独自のプログラム作成を可能にします。

そのため、私にとっては現在ChatGPTよりも重要です。

Grok

https://grok.com/

X.aiは、より正直なコンテンツを得る上で素晴らしいです。Xを補足的なデータ基盤として利用するため、最新の情報や企業・ユーザーの意見に非常に近い形でアクセスできます。画像とコードの生成も非常に優れています。

最初のバージョンからかなり優れており、今日でも無料版で使用できます。試してみる価値は間違いなくあります。

Claude

https://claude.ai/

AnthropicのClaudeは、AI利用における安全性と倫理的側面を特に重視しています。その主な特徴は次のとおりです。

高いテキスト品質: 自然で一貫性のあるテキストに焦点を当てています。
安全性重視: 誤情報の危険性を低減します。
優れたコンテキスト記憶領域: 長い会話を把握し処理できます。

これは私のコード分野で最も好むAIであり、SonnetはCursorの事実上の標準です。Claude Sonnetは非常に高速で品質も非常に優れています。

DeepSeek

https://www.deepseek.com/

DeepSeekは、異なるAIハードウェアを使用し、処理速度とハードウェアコストがより効率的であったことで知られるようになりました。また、オンライン版では中国語の批判的なコンテンツがローカルインストール環境とは異なるため、議論を巻き起こしました。

今日、私はDeepSeekを使用していませんが、中国でも素晴らしいAI開発が行われており、Baidu、Alibabaなどのほぼすべての主要なプレーヤーがすでに独自のLLMを運用していることを示しています。

Mistral

https://mistral.ai/

Mistralは、プログラミング技術的なアプリケーションに特に適したオープンソースモデルです。その強みは次のとおりです。

高い効率性: リソースを節約する計算に最適化されています。
開発者向け: 優れたコード生成と補完。
オープンソースアプローチ: 自由に利用・カスタマイズ可能。

Perplexity

https://www.perplexity.ai/

Perplexity AIは、知識の効率的な提供に特化したAIを活用した調査・情報モデルです。次の機能を提供します。

迅速な情報取得: 的を絞った調査に最適。
簡潔な回答: 複雑なテーマを分かりやすく要約します。
優れたウェブ統合: 最新情報にアクセスします。

Perplexityは私にとってWikipediaの代わりであり、あらゆる知識に関する質問に答えてくれます。詳細な政治的背景を提供し、私にとっては報道の代わりでもあります。Perplexityは無数の情報源とLLMを利用し、ユーザーが望むすべてを数秒で提供します。

実際、Perplexityはコード生成、宿題など、あらゆることをこなせます。特に興味深いのは、回答が最新であり、情報源がリンクされていることです。

画像とアートのための生成AI

AIは画像とアートの世界も変革しました。AIモデルは、リアルな写真、抽象芸術作品、ベクターグラフィックス、3Dレンダリング、ロゴなど、さまざまなものを作成できます。このテクノロジーは、以下を含むさまざまな分野で使用されています。

画像生成: テキスト記述からの画像作成。
写真編集: AIを活用した改善と調整。
ベクターグラフィックス: ベクター画像の自動作成と編集。
3Dモデリング: 複雑な3Dオブジェクト作成のサポート。
ロゴデザイン: 指定に基づいてユニークなロゴを生成。
アイデア創出: AI生成のインスピレーションによる創造的プロセスのサポート。
画像分析: 画像内のコンテンツの認識と分類。

Midjourney

https://www.midjourney.com/

Midjourneyは、テキスト入力に基づいて印象的で芸術的な画像を生成するAIプラットフォームです。その特徴は次のとおりです。

高品質でクリエイティブな画像: 特にコンセプトアートやデザインに適しています。
簡単な操作: Discordコマンドで画像を生成します。
芸術的自由: スタイルの多様性を強く重視。

DALL·E

https://openai.com/de-DE/index/dall-e-3/

OpenAIのDALL·Eは、テキスト記述に基づいて詳細でリアルな画像を生成するAIです。主な特徴：

高い詳細度: リアルでクリエイティブな画像生成。
オブジェクト連携: 異なる要素を論理的に1つの画像に結合します。
画像編集: 既存の画像のバリエーションや追加を可能にします。

現在、私自身はDALL-Eを使用していません。その機能はLLMに統合されているか、結果がMidjourneyと変わりません。しかし、AIの世界では大手プレイヤーを決して見くびることはできず、次のアップデートは必ず来るでしょう。

Firefly

https://firefly.adobe.com/

AdobeのFireflyは、クリエイティブなコントロールに重点を置いたAIを活用した画像編集・生成プラットフォームです。利点：

Adobe製品との統合: PhotoshopやIllustratorに最適。
非破壊編集: AIを活用したクリエイティブな調整ツール。
簡単なテキストから画像生成: テキストの指示から画像を生成します。

Adobe製品に統合されているため不可欠です。動画生成は高価に思えますが、これもすぐに変わる可能性があります。Premiereを使用している人は動画を延長でき、Photoshopユーザーは生成コンテンツで画像を作成したり、インペインティングを実現したりできます。非常に簡単で高品質です。

Stable Diffusion

https://stability.ai/news/stable-diffusion-public-release

Stable Diffusionは、個別のカスタマイズに特に適したオープンソースの画像生成モデルです。特徴：

完全にカスタマイズ可能: ローカルで動作し、変更可能です。
複雑な画像スタイル: 詳細でリアルなグラフィックを可能にします。
オープンソースの自由: 無料で利用・拡張可能。

Flux

https://flux-ai.io/de/flux-ai-image-generator/

Fluxは、実験的な精神とクリエイティブなアルゴリズムを特徴とする、画像アートのための革新的なAIプラットフォームです。その強みは次のとおりです。

新しいスタイルを発見: 型破りで実験的な画像を生成します。
強力なアルゴリズム: 芸術的な効果のためにニューラルネットワークを利用します。
クリエイティブなワークフロー: デジタルアートへの新しいアプローチを促進します。

生成AI動画と3D

最新のAIモデルは、静止画の作成だけでなく、リアルな動画や3Dアニメーションの作成も可能にします。これらは映画制作、視覚効果、ゲームデザイン、バーチャルリアリティなど、さまざまな分野で利用されています。応用分野には以下が含まれます。

AI生成動画シーケンス: テキスト記述からのリアルまたは様式化された動画の作成。
動画編集: クリップの自動最適化、色補正、エフェクト。
3Dアニメーション: 複雑な3Dモデルとアニメーションの生成と制御。
シーン作成: ゲーム、VR、シミュレーションのための完全な環境の作成。

VEO 3

現在最高の動画生成は、音声と音楽を含め、次の映画市場を確実に支配するであろう、完全にリアルな動画を生成します。少なくとも部分的には、特殊効果などを非常に安価かつプロフェッショナルに作成できます。

Runway Gen-2

Runway Gen-2は、動画生成と編集のための強力なAIツールです。主な特徴：

テキストから動画生成: テキストの指示に基づいて動画を生成します。
画像から動画生成: アップロードされた画像データに基づいて動画を生成します。
AIを活用した編集: 色補正、ロトスコープ、エフェクトのためのツール。
簡単な操作: クリエイティブプロジェクトのための直感的なユーザーインターフェース。

Runwayは、登録後、約20本の動画シーケンスを無料で作成する機会を提供します。その後、さまざまなサブスクリプションモデルから選択できます。

Adobe Firefly Video

2025年2月中旬以降、Adobe Fireflyの画像生成機能に動画用の生成AIが追加されました。このサービスはRunwayと同様に機能し、アップロードされた画像またはプロンプトに基づいて動画を提供します。Firefly Videoは、動画生成のための強力なAIツールです。主な特徴：

テキストから動画生成: テキストの指示に基づいて動画を生成します。
画像から動画生成: アップロードされた画像データに基づいて動画を生成します。
AIを活用した編集: 色補正、ロトスコープ、エフェクトのためのツール。
簡単な操作: クリエイティブプロジェクトのための直感的なユーザーインターフェース。

Adobe CCのサブスクライバーとして、私は支払い要求（AIサービス用サブスクリプション）が表示される前に2本の動画を作成する機会がありました。Adobeは初めてAIサービスの追加収益化を試みています。このオファーには、Adobeの他の生成オーディオ、動画、写真AIも含まれるようです。

Sora

OpenAIのSoraは、リアルな動画生成のための先進的なAIです。次の機能を提供します。

詳細な動き: 複雑な物理とリアルな動きを持つ動画を生成します。
シーン作成: 映画的で没入感のある環境を生成します。
自動調整: より良い結果のために光、影、テクスチャを最適化します。

Soraは2025年2月中旬現在、ドイツではまだ利用できません。しかし、多くの動画がすでにAIの高性能ぶりを示しています。

Pika Labs

Pika Labsは、AIを活用した動画編集とアニメーションのための革新的なプラットフォームです。その強みは次のとおりです。

自動化されたエフェクト: テキスト記述からの視覚効果の生成。
アニメーション制御: キャラクターやオブジェクトの動きとダイナミクスの制御。
直感的な操作: 自動化によりクリエイティブなプロセスを簡素化します。

Flux

Fluxは、芸術的および実験的な動画プロジェクト、ならびに3Dデザインのための多用途なAIプラットフォームです。主な特徴：

芸術的自由: 型破りな動画エフェクトとアニメーションを生成します。
3Dモデリング: 視覚的に印象的で詳細なオブジェクトを作成します。
革新的なアルゴリズム: 動的なエフェクトのために高度なニューラルネットワークを利用します

Midjourney

Midjourneyの加入者として、デモ目的で動画を生成する新しい機能を喜んで利用しています。品質は他のものほどまだ良くありませんが、追加費用はかかりません。Midjourneyは他のAIプロバイダーよりも開発がやや遅いです。そのため、もうお勧めはしませんが、年間サブスクリプションは期限切れになるまで継続します。すべての音楽アルバムのカバーなどをこれで作成し、堅実な仕事をしています。しかし、ウェブサイトなどには、より高解像度の写真のようにリアルで本物の表現が必要です。

ウェブ、SEO、プラグイン、Webアプリのための生成AI

AIは、ウェブサイトの開発、最適化、管理の方法を変革しています。自動化されたコンテンツ作成からSEO最適化、インテリジェントなプラグインやWebアプリに至るまで、AIはウェブ開発者やコンテンツ作成者に計り知れないメリットを提供します。

WordPressとAIを活用したテーマ

WordPressは依然として世界で最も利用されているコンテンツ管理システム（CMS）です。テーマやプラグインへのAI統合が進むにつれて、ウェブ開発はより効率的かつ創造的になっています。特に注目すべきは、DIVI 5が、AIを活用したデザイン提案、自動レイアウト調整、スマートなコンテンツ分析によって新たな基準を打ち立てることです。

AIによる自動SEO最適化

SEOはウェブサイトの可視性にとって依然として決定的な要素です。RankMathのようなAIを活用したSEOプラグインは、コンテンツを自動的に分析し、関連キーワードを提案し、オンページ最適化をリアルタイムで改善するのに役立ちます。GoogleもRankBrainのようなAIアルゴリズムを使用して、検索結果の関連性を評価しています。

AIを活用したプラグインとWebアプリ

SEOとデザインの他にも、ワークフローを最適化するAIを活用したプラグインが多数あります。

WordLift: AIを利用してセマンティック分析を行い、構造化データによって検索エンジンのランキングを向上させます。
AIチャットボット: Tidio AIやChatGPT統合のようなプラグインは、インテリジェントな顧客インタラクションを可能にします。
AI生成コンテンツ: ContentBotやCopymaticのようなツールは、魅力的なブログ記事やランディングページを自動的に作成します。
画像とメディアの最適化: Imagify AIやウェブ用Adobe Fireflyのようなプラグインは、画像を自動的に改善します。

AIによるウェブ開発の未来

未来は自動化にあります。AIはウェブ開発者にコードの提案をするだけでなく、完全なウェブサイトを生成することもできます。Webアプリは、パーソナライズされたユーザーエクスペリエンス、自動エラー検出、最適化されたパフォーマンスによって恩恵を受けます。

WordPress、SEO、WebアプリへのAI統合が進むにつれて、ウェブ開発の効率と品質を新たなレベルに引き上げる新しい可能性が開かれています。

写真と画像編集におけるAI

AIは写真と画像編集に多大な影響を与えています。現代のカメラのインテリジェントな機能から、専門プログラムによるRAW処理の自動化まで、AIは時間を節約し、結果を最適化します。

現代のカメラにおけるAI

多くの最新カメラは、写真家をサポートするAIベースのテクノロジーを統合しています。

自動シーン認識: カメラはシーンをリアルタイムで分析し、ポートレート、風景、アクション撮影に最適な設定を選択します。
AIを活用したオートフォーカスシステム: 顔、目、さらには特定のオブジェクトを認識し、シャープな画像を生成します。
ノイズリダクションとHDR技術: AIは撮影中にすでに画質を向上させます。

RAW現像と選別におけるAI

写真の後処理には多くの時間がかかることがよくあります。AIを活用したソフトウェアはこのプロセスを革新します。

Aftershoot: 選別（画像の事前分類）を自動化し、重複または不鮮明な写真を認識し、迅速な編集機能を提供します。
Adobe Lightroom: AIを活用したプリセット、自動画像補正、クリックによる選択的編集。
Topaz Labs (Gigapixel, Sharpen, DeNoise): ハイエンドのノイズリダクション、シャープ化、アップスケーリングにより、画像最適化の可能性を広げます。

AIによる高度な画像編集

RAW現像と選別の他にも、多数のAI機能があります。

Adobe Photoshop: ジェネレーティブ塗りつぶし、自動切り抜き、コンテンツベースのレタッチなどのAIツール。
Luminar Neo: 空の置き換え、肌の改善、シーン最適化のためのAIフィルター。
Neurapix: 個別の編集スタイルに基づいた自動色補正。

写真におけるAIの未来

AIは今後も写真に革命を起こし続けます。

インテリジェントなカメラ機能をさらに発展させます。
選別と編集プロセスをさらに効率化します。
新たな創造的可能性を、拡張されたAIを活用した画像操作によって開拓します。

AIベースのソリューションにより、ワークフローを最適化できるため、写真家は手動での編集に費やす時間を減らし、創造性により多くの時間を割くことができます。