AIメディア制作とトレーニング | 音楽、音声、テキスト、コード、ゲーム、画像、ビデオ、ウェブ、写真など
生成AI - 理論と実践におけるAI
こんにちは、私の名前はヨハン・ディルシュルです。DIRSCHL.com GmbHのマネージングディレクターを務めており、AI、オーディオビジュアルメディア、トレーニングを専門としています。nuonu.comでは、新しいコンテンツを作成できるモデルである生成AIをテストしています。以下の生成AI分野を区別しています。
実践例とライブ講演でAIを学ぶ
生成AIは実質的にあらゆる場所に浸透しています。私の仕事は、これをテストし、独自のワークフローを作成し、実践例と最終製品を作成することです。
多くの人は私をプログラマー、講師、または写真家として知っています。私は物事を試し、テクノロジーオタクであり、常に作業プロセスを加速するための新しい、より良い代替手段を探しています。ワークフローは非常に重要であり、多くの分野で変化しており、特にAIにおいては、専門知識がなくても一般の人々がそれを使いこなせるようになっています。
すべてのAI技術は、新しい事実を受け入れる準備ができていない多くの人々に最初は嫌われます。その後、利用と拒否が近づく時期が続き、まもなく誰もがそれを使用するようになります。最終的に、AIの知識とすべての自動化は人間をはるかに凌駕するでしょう。AGIの時点、つまり汎用人工知能が存在する時点は、誰も気づかないうちに多くの分野ですでに到来していました。
この瞬間を見逃さないでください。なぜなら、あなたの人生全体と仕事の仕方はそれに依存しているからです。
ようこそお越しくださいました。
ヨハン・ディルシュル、DIRSCHL.com GmbH

AI音楽と音声:AIによる革命
人工知能は、近年、音楽とオーディオ生成の分野で目覚ましい進歩を遂げています。AIを活用したツールにより、数秒で高品質な音楽作品やリアルな音声合成を生成することが可能になりました。この分野で現在最も重要なプラットフォームは、Suno、Udio、ElevenLabsの3つです。
Suno
Sunoは、ユーザーが歌詞、メロディー、楽器編成を含む完全な楽曲を生成できるAI音楽プラットフォームです。強力な言語モデルに基づいており、ソングライティングやサウンドデザインなどのクリエイティブなアプリケーションに特に適しています。Sunoの特徴は以下の通りです。
- 簡単な操作:簡単なテキスト入力で音楽を生成します。
- 完全なトラック:AIはインストゥルメンタルだけでなく、ボーカルも生成します。
- 柔軟性:ユーザーはスタイルやジャンルに影響を与えることができます。
Udio
Udioは、音楽制作のためのもう一つの先進的なAIプラットフォームです。Sunoとは異なり、Udioはプロフェッショナルな音質と芸術的自由を特に重視しています。主な特徴は以下の通りです。
- 精密なコントロール:ユーザーはアレンジやミックスをより詳細に操作できます。
- 高品質なオーディオ出力:スタジオ設備なしでプロフェッショナルな制作が可能です。
- 多様なスタイル:エレクトロニックミュージックからオーケストラ作品まで。
ElevenLabs
ElevenLabsは、自然な響きの声を生成できるAIを活用した音声合成プラットフォームです。特にビデオ、ポッドキャスト、インタラクティブメディアのナレーションに適しています。主な機能は以下の通りです。
- リアルなAI音声:人間らしく感情豊かな声が特徴です。
- 多言語対応:国際的な制作に最適です。
- 個別音声:ユーザーは独自の音声プロファイルを作成できます。
結論と例
私は主にあらゆる種類の音楽を制作しており、ミュージシャンとして言えるのは、2025年10月現在、Sunoが人工知能分野で最高の音楽プラットフォームであるということです。著作権保護された作品を認識し、自由なタイトルを許可し、あらゆる言語、方言、リズム、楽器編成などに対応できます。現在では、断片の交換、カバーの作成、ペルソナの設定も可能で、認識可能なスタイルや歌手などを割り当てることができます。BPMの指定や調性の指定にも反応します。
これにより、Sunoは90%以上のミュージシャンよりも優れた働きをします。ミュージシャンはSunoにアイデアを完成させてもらったり、作曲全体をSunoに任せたりすることができます。
私はSuno V 2.5から利用しており、すでに多くのアルバムや楽曲を作成してきました。良い実践例として、ドイツ語と英語のオリジナル曲の他に、インストゥルメンタル、ショート、クリスマスソングもあります。私のアイデアは、古いGEMAフリーのクリスマスソングを人工知能の助けを借りて再作成することでした。比較のために、私自身のクリスマスソングも生成しようとしました。ほとんどはChatGPTからのテキストで、私のアイデアに基づいて個別に調整されました。これらは独自の作曲(調性、速度、楽器編成、雰囲気、ボーカル指定など)による「新しいクリスマスソング」であり、盗用された歌詞やメロディーではありません。クリスマスマーケットなどには、純粋なクリスマスBGMだけでも十分であり、これも私自身が作成したものか、古いGEMAフリーのクリスマス音楽に基づいて作成しました。
これで誰もが喜ぶわけではありませんが、AIが完璧な方法で音楽を作成できることは明らかです。
法的には、著作権管理団体はこれらのプラットフォームを規制しようとしています。これは、これらのプラットフォームが既知の音楽作品を学習に使用しているためです。これに対し、ミュージシャンも他のミュージシャンから学び、音楽は新しく発明されるものではないという原則があります。どのように見ても、音楽における人工知能というテーマから逃れることはできず、おそらくすでに多くの楽曲が、これらの補助ツールを使ってミュージシャンによって作成され、チャート入りしていることでしょう。
現在、私は独自の歌詞、マスタリング、カバー、公開を含むオリジナル曲を1曲作成するのに約3時間かかります。私の主な目的は、人工知能における現在の変化を早期に認識し、ワークフローを常に再調整することです。同様に、写真ショーやクリスマスパーティーなどで安心して使用できるオーディオプールも作成されます。https://www.vladimirsterzer.comで楽譜とともに提供している140の手作り音楽作品に加えて、現在では5時間以上のAI音楽を含む150以上のトラックも利用可能です。これらは多用途であり、ビデオなどに合わせて個別に調整したり、新しく生成したりできるため、素晴らしい補完となります。
nuonuは私たちの古いバンドの名前で、私はギター、ベース、シンセサイザーを演奏し、レコーディングも担当していました。そのため、今日の補助ツールが異なっていても、私は喜んで自分をミュージシャンと呼びます。習慣として、すべてのAIタイトルもLogicを通過します。しかし、新しいバージョン以降、タイトルに実際に何かをする必要はなくなりました。それでも、ステム(個別トラック)のエクスポート、古い遊び心のあるミキシングとマスタリングは再び活気づきます。少なくとも私は常にWAVをLogicにロードし、音量をゼロに上げます。しかし、手動での変更はもう行いません。ただし、正確な速度と拍子を決定し、フェードイン、フェードアウト、音量、MP3とWAVのバウンスは行います。いくつかのトラックにはレジの音(カカカカカウフェン)も追加され、ボーカルが小さすぎる場合はステムを使用することもあります。
音楽制作ワークフローはまだ健在であり、新しい可能性に合わせて調整する必要はめったにありません。AI音楽のマーケティングに関する小さなページでは、私自身にはあまり関係のない可能性が示されています。AI音楽は、何よりも楽しませ、時間を節約し、独自の創造性を促進し、作曲においてミュージシャンを助け、より多くのロイヤリティフリー音楽を市場に投入することを目的としています。
テキストとコードのための生成AI
人工知能は、音楽やオーディオだけでなく、テキストやコードの作成方法も革新しています。現代のAIモデルは、テキストを生成し、要約を作成し、コードを書き、さらには複雑な問題を解決することができます。ここでは、この分野で最も重要なAIモデルをいくつか紹介します。
ChatGPT
OpenAIのChatGPTは、一般的なテキストとプログラミングの両方のアプリケーションに使用される最もよく知られた言語モデルの1つです。主な特徴は次のとおりです。
- 会話能力:対話、クリエイティブなテキスト、情報収集に最適です。
- コード生成:アプリケーション、ウェブサイト、プラグインのプログラミングをサポートします。
私は初期からのユーザーで、テキスト、あらゆる種類の質問、プログラミングに毎日使用しています。特に、ウェブソースコードやSEOなどの複雑な分析を解決する上で、今日でも不可欠です。チャットでプラグインの最初の基本バージョンを作成し、より大規模なアプリケーションでは、プロジェクト全体を表示および管理できるCursorに切り替えることがよくあります。プラスアカウントなしで済ませられるか?はい、Cursorだけでも私の開発作業を十分にサポートしてくれるでしょう。他のLLMからもセカンドオピニオンを得ています。ほとんどのアプリケーションでは、ChatGPTの無料版で十分です。
Google Gemini
GoogleのGeminiは、テキスト、画像、さらにはオーディオを処理できるマルチモーダルモデルです。その特徴は次のとおりです。
- マルチモーダル機能:異なるデータタイプの処理。
- 調査に最適化:情報収集を支援します。
- 優れたコンテキスト処理:論理的な構造を持つ思慮深い回答を提供します。
- 開発者向けの無料API利用:人工知能を使った独自のプログラム作成を可能にします。
そのため、私にとっては現在ChatGPTよりも重要です。
Grok
X.aiは、より正直なコンテンツを得るという点で素晴らしいです。Xを補足的なデータソースとして利用するため、最新の情報や企業やユーザーの意見に特に近い情報が得られます。画像とコードの生成も非常に優れています。
最初のバージョンからかなり優れており、今日でも無料版で使用できます。一見の価値は間違いなくあります。
Claude
AnthropicのClaudeは、AI利用におけるセキュリティと倫理的側面に特に重点を置いています。その主な特徴は次のとおりです。
- 高いテキスト品質:自然で一貫性のあるテキストに焦点を当てています。
- セキュリティ指向:誤情報の危険性を低減します。
- 優れたコンテキスト記憶領域:長い会話を把握し、処理できます。
コード分野では私のお気に入りのAIであり、SonnetはCursorの事実上の標準です。Claude Sonnetは非常に高速で、品質も非常に優れています。
DeepSeek
DeepSeekは、別のAIハードウェアを使用し、処理速度とハードウェアコストがより効率的であったことで知られるようになりました。私がローカルPCにインストールした最初のバージョンでもありました。オンライン版の中国語の批判的なコンテンツが、ローカルにインストールされた環境とは異なるため、議論も巻き起こしました。
今日、私はDeepSeekを使用していませんが、中国でも素晴らしいAI開発が行われており、Baidu、Alibabaなどの主要なプレーヤーはすべて独自のLLMをすでに運用していることを示しています。
Mistral
Mistralは、プログラミングアプリケーションに特に適したオープンソースモデルです。その強みは次のとおりです。
- 高い効率性:リソースを節約する計算に最適化されています。
- 開発者向け:優れたコード生成と補完機能。
- オープンソースアプローチ:自由に利用およびカスタマイズ可能です。
Perplexity
Perplexity AIは、知識の効率的な提供に特化したAIを活用した調査および情報モデルです。以下の機能を提供します。
- 迅速な情報収集:的を絞った調査に最適です。
- コンパクトな回答:複雑なトピックを分かりやすく要約します。
- 優れたウェブ統合:最新の情報にアクセスします。
Perplexityは、Wikipediaの代わりであり、あらゆる知識に関する質問に答えてくれます。詳細な政治的背景を提供し、私にとってはプレス代替でもあります。Perplexityは無数の情報源とLLMにアクセスし、ユーザーが望むすべてを数秒で提供します。
実際、Perplexityはコード生成、宿題など、あらゆることを行うことができます。特に興味深いのは、回答が最新であり、情報源がリンクされていることです。
画像とアートのための生成AI
人工知能は、画像とアートの世界も変革しました。AIモデルは、リアルな写真、抽象芸術作品、ベクターグラフィックス、3Dレンダリング、ロゴなど、さまざまなものを作成できます。このテクノロジーは、以下を含むさまざまな分野で使用されています。
-
画像生成:テキスト記述からの画像作成。
-
写真編集:AIを活用した改善と調整。
-
ベクターグラフィックス:ベクター画像の自動作成と編集。
-
3Dモデリング:複雑な3Dオブジェクトの作成をサポート。
-
ロゴデザイン:仕様に基づいたユニークなロゴの生成。
-
アイデア出し:AI生成のインスピレーションによるクリエイティブプロセスのサポート。
-
画像分析:画像内のコンテンツの認識と分類。
Midjourney
Midjourneyは、テキスト入力に基づいて印象的で芸術的な画像を生成するAIプラットフォームです。その特徴は次のとおりです。
- 高品質でクリエイティブな画像:特にコンセプトアートやデザインに適しています。
- 簡単な操作:Discordコマンドを介して画像を生成します。
- 芸術的自由:スタイルの多様性を強く重視しています。
DALL·E
https://openai.com/de-DE/index/dall-e-3/
OpenAIのDALL·Eは、テキスト記述に基づいて詳細でリアルな画像を生成するAIです。主な特徴は次のとおりです。
- 高い詳細度:リアルでクリエイティブな画像生成。
- オブジェクトの関連付け:さまざまな要素を論理的に1つの画像に結合します。
- 画像編集:既存の画像のバリエーションと追加を可能にします。
現在、私自身はDALL-Eを使用していません。機能はLLMに統合されているか、Midjourneyと結果に違いはありません。しかし、AIの世界では大手プレーヤーを軽視してはならず、次のアップデートは必ず来るでしょう。
Firefly
AdobeのFireflyは、クリエイティブなコントロールに重点を置いたAIを活用した画像編集および生成プラットフォームです。利点:
- Adobe製品との統合:PhotoshopやIllustratorに最適です。
- 非破壊編集:AIを活用したツールでクリエイティブな調整が可能です。
- 簡単なテキストから画像への生成:テキストの指示から画像を生成します。
Adobe製品に統合されているため不可欠です。ビデオ生成は高価に思えますが、それもすぐに変わる可能性があります。Premiereを使用している人はビデオを延長でき、Photoshopユーザーは生成コンテンツで画像を作成したり、インペインティングを実行したりできます。非常に簡単で高品質です。
Stable Diffusion
https://stability.ai/news/stable-diffusion-public-release
Stable Diffusionは、個別のカスタマイズに特に適したオープンソースの画像生成モデルです。特徴:
- 完全にカスタマイズ可能:ローカルで実行でき、変更可能です。
- 複雑な画像スタイル:詳細でリアルなグラフィックを可能にします。
- オープンソースの自由:無料で利用および拡張可能です。
Flux
https://flux-ai.io/de/flux-ai-image-generator/
Fluxは、実験的な精神とクリエイティブなアルゴリズムを特徴とする、画像アートのための革新的なAIプラットフォームです。その強みは次のとおりです。
- 新しいスタイルの発見:型破りで実験的な画像を生成します。
- 強力なアルゴリズム:芸術的な効果のためにニューラルネットワークを使用します。
- クリエイティブなワークフロー:デジタルアートへの新しいアプローチを促進します。
生成AIビデオと3D
最新のAIモデルは、静止画の作成だけでなく、リアルなビデオや3Dアニメーションの作成も可能にします。これらは、映画制作、視覚効果、ゲームデザイン、仮想現実など、さまざまな分野で利用されています。応用分野には以下が含まれます。
- AI生成ビデオシーケンス:テキスト記述からリアルな、または様式化されたビデオを作成します。
- ビデオ編集:クリップの自動最適化、色補正、エフェクト。
- 3Dアニメーション:複雑な3Dモデルとアニメーションの生成と制御。
- シーン作成:ゲーム、VR、またはシミュレーション用の完全な環境を作成します。
VEO 3
現在最高のビデオ生成は、音声と音楽を含め、次の映画市場を比較的確実に決定するであろう、完全にリアルなビデオを生成します。少なくとも部分的には、特殊効果などを非常に安価かつプロフェッショナルに作成できます。
Runway Gen-2
Runway Gen-2は、ビデオ生成と編集のための強力なAIツールです。主な特徴:
- テキストからビデオへの生成:テキスト指示に基づいてビデオを生成します。
- 画像からビデオへの生成:アップロードされた画像データに基づいてビデオを生成します。
- AIを活用した編集:色補正、ロトスコープ、エフェクトのためのツール。
- 簡単なアプリケーション:クリエイティブプロジェクトのための直感的なユーザーインターフェース。
Runwayは、登録後、約20のビデオシーケンスを無料で作成する機会を提供します。その後、さまざまなサブスクリプションモデルから選択できます。
Adobe Firefly Video
2025年2月中旬以降、Adobe Fireflyの画像生成機能にビデオ用の生成AIが追加されました。このサービスはRunwayと同様に機能し、アップロードされた画像またはプロンプトに基づいてビデオを提供します。Firefly Videoは、ビデオ生成のための強力なAIツールです。主な特徴:
- テキストからビデオへの生成:テキスト指示に基づいてビデオを生成します。
- 画像からビデオへの生成:アップロードされた画像データに基づいてビデオを生成します。
- AIを活用した編集:色補正、ロトスコープ、エフェクトのためのツール。
- 簡単なアプリケーション:クリエイティブプロジェクトのための直感的なユーザーインターフェース。
私はAdobe CCの加入者として、支払い要求(AIサービス用サブスクリプション)が表示される前に2つのビデオを作成する機会がありました。Adobeは初めてAIサービスを追加で収益化しようとしています。これには、提供されている情報によると、Adobeの他の生成オーディオ、ビデオ、および写真AIも含まれるようです。
Sora
OpenAIのSoraは、リアルなビデオ生成のための高度なAIです。以下の機能を提供します。
- 詳細な動き:複雑な物理学とリアルな動きを持つビデオを生成します。
- シーン作成:映画的で没入感のある環境を作成します。
- 自動調整:より良い結果のために光、影、テクスチャを最適化します。
Soraは2025年2月中旬現在、ドイツではまだ利用できません。しかし、多くのビデオがすでにAIの性能を示しています。
Pika Labs
Pika Labsは、AIを活用したビデオ編集とアニメーションのための革新的なプラットフォームです。その強みは次のとおりです。
- 自動化されたエフェクト:テキスト記述から視覚効果を生成します。
- アニメーションコントロール:キャラクターやオブジェクトの動きとダイナミクスを制御します。
- 直感的な操作:自動化によりクリエイティブプロセスを簡素化します。
Flux
Fluxは、芸術的および実験的なビデオプロジェクトや3Dデザインのための多用途AIプラットフォームです。特別な特徴:
- 芸術的自由:型破りなビデオエフェクトとアニメーションを生成します。
- 3Dモデリング:視覚的に印象的で詳細なオブジェクトを作成します。
- 革新的なアルゴリズム:動的なエフェクトのために高度なニューラルネットワークを使用します
Midjourney
Midjourneyの加入者として、私はデモ目的でビデオを生成する新しい機会を喜んで利用しています。品質はまだ他のものほど良くありませんが、追加費用はかかりません。Midjourneyは他のAIプロバイダーよりも開発がやや遅いです。そのため、もうお勧めしませんが、年間サブスクリプションは期限切れになるまで継続します。すべての音楽アルバムのカバーなど、多くのものをこれで作成しましたが、堅実な仕事をします。しかし、ウェブサイトなどには、より高解像度の写真のようにリアルで本物の表現が必要です。
ウェブ、SEO、プラグイン、ウェブアプリのための生成AI
人工知能は、ウェブサイトの開発、最適化、管理の方法を変革しています。自動化されたコンテンツ作成からSEO最適化、インテリジェントなプラグインやウェブアプリに至るまで、AIはウェブ開発者やコンテンツ作成者に計り知れないメリットをもたらします。
WordPressとAIを活用したテーマ
WordPressは、依然として世界で最も利用されているコンテンツ管理システム(CMS)です。テーマやプラグインへのAI統合が進むにつれて、ウェブ開発はより効率的かつ創造的になります。特に注目すべきはDIVI 5で、AIを活用したデザイン提案、自動レイアウト調整、スマートなコンテンツ分析により、新たな基準を打ち立てています。
AIによる自動SEO最適化
SEOは、ウェブサイトの可視性にとって依然として決定的な要素です。RankMathのようなAIを活用したSEOプラグインは、コンテンツを自動的に分析し、関連キーワードを提案し、オンページ最適化をリアルタイムで改善するのに役立ちます。GoogleもRankBrainのようなAIアルゴリズムを使用して、検索結果の関連性を評価しています。
AIを活用したプラグインとウェブアプリ
SEOとデザインに加えて、ワークフローを最適化するAIを活用した多数のプラグインがあります。
-
WordLift:AIを使用してセマンティック分析を行い、構造化データを通じて検索エンジンのランキングを向上させます。
-
AIチャットボット:Tidio AIやChatGPT統合などのプラグインは、インテリジェントな顧客インタラクションを可能にします。
-
AI生成コンテンツ:ContentBotやCopymaticなどのツールは、魅力的なブログ記事やランディングページを自動的に作成します。
-
画像とメディアの最適化:Imagify AIやAdobe Firefly for Webなどのプラグインは、画像を自動的に改善します。
AIによるウェブ開発の未来
未来は自動化にあります。AIはウェブ開発者にコードの提案をするだけでなく、完全なウェブサイトを生成することもできます。ウェブアプリは、パーソナライズされたユーザーエクスペリエンス、自動エラー検出、最適化されたパフォーマンスによって恩恵を受けます。
WordPress、SEO、ウェブアプリへのAI統合の拡大により、ウェブ開発の効率と品質を新たなレベルに引き上げる新しい機会が開かれます。
写真と画像編集におけるAI
人工知能は、写真と画像編集に多大な影響を与えています。最新のカメラのインテリジェントな機能から、専門プログラムによるRAW画像の自動処理まで、AIは時間を節約し、結果を最適化します。
最新カメラにおけるAI
多くの最新カメラには、写真家をサポートするAIベースのテクノロジーが統合されています。
- 自動シーン認識:カメラはシーンをリアルタイムで分析し、ポートレート、風景、アクションショットに最適な設定を選択します。
- AIを活用したオートフォーカスシステム:顔、目、さらには特定のオブジェクトを認識し、シャープな画像を生成します。
- ノイズリダクションとHDR技術:AIは撮影中にすでに画質を向上させます。
RAW現像と選別におけるAI
写真のレタッチには多くの時間がかかることがよくあります。AIを活用したソフトウェアは、このプロセスを革新します。
- Aftershoot:選別(画像の事前分類)を自動化し、重複または不鮮明な写真を認識し、迅速な編集機能を提供します。
- Adobe Lightroom:AIを活用したプリセット、自動画像補正、クリックによる選択的編集。
- Topaz Labs (Gigapixel, Sharpen, DeNoise):ハイエンドのノイズリダクション、シャープ化、アップスケーリングにより、画像最適化の可能性を広げます。
AIによる高度な画像編集
RAW現像と選別以外にも、多数のAI機能があります。
- Adobe Photoshop:生成塗りつぶし、自動切り抜き、コンテンツに応じたレタッチなどのAIツール。
- Luminar Neo:空の置き換え、肌の改善、シーン最適化のためのAIフィルター。
- Neurapix:個別の編集スタイルに基づいた自動色補正。
写真におけるAIの未来
AIは、以下の方法で写真に革命をもたらし続けるでしょう。
- インテリジェントなカメラ機能をさらに発展させる。
- 選別と編集プロセスをさらに効率化する。
- 拡張されたAIを活用した画像操作により、新しい創造的な可能性を開拓する。
AIベースのソリューションにより、ワークフローを最適化し、写真家は手動編集に費やす時間を減らし、創造性により多くの時間を費やすことができます。




