Produção e Treinamento de Mídia com IA | Música, Fala, Texto, Código, Imagem, Vídeo, Web, Foto e muito mais.
Inteligência Artificial Generativa - IA na Teoria e na Prática
Olá, meu nome é Johann Dirschl, diretor da empresa DIRSCHL.com GmbH, especializada em IA, mídias audiovisuais e treinamentos. Em nuonu.com testamos IA generativa, ou seja, modelos capazes de criar novos conteúdos. Distinguimos as seguintes áreas de IA generativa:
Conheça a Inteligência Artificial através de Exemplos Práticos e Palestras ao Vivo
A Inteligência Artificial Generativa chegou praticamente a todo lado. A minha tarefa é testá-la, criar os meus próprios fluxos de trabalho e desenvolver exemplos práticos, bem como produtos finais. Uma vez que criamos todos os plugins e o próprio conteúdo com diferentes sistemas de IA, o volume do conteúdo da página certamente continuará a crescer. Muitos conhecem-me de formações ou projetos fotográficos profissionais. Também aí a IA tem sido uma companheira constante há cerca de 2 anos, o que oferece vantagens tanto para os clientes como para mim. A seleção e edição automáticas com base em projetos anteriores são oferecidas, por exemplo, pelo Aftershoot. O projeto de fotografia já é muito específico, mas também será abordado aqui. Por enquanto, outras áreas de IA devem ser documentadas, por isso alguns links remetem para o site da nossa empresa.
Primeiro, vamos abordar as áreas individuais que quero apresentar aqui com mais detalhes:
Música e Fala com IA: Revolução pela Inteligência Artificial
A inteligência artificial fez enormes progressos nos últimos anos na área da geração de música e áudio. Ferramentas baseadas em IA permitem gerar peças musicais de alta qualidade ou sínteses de fala realistas em segundos. Três das plataformas mais significativas atualmente nesta área são Suno, Udio e ElevenLabs.
Suno
Suno é uma plataforma de música com IA que permite aos utilizadores gerar músicas completas com letra, melodia e instrumentação. Baseia-se em modelos de linguagem poderosos e é particularmente adequada para aplicações criativas como composição e design de som. Suno destaca-se por:
- Operação Simples: A música é gerada através de uma simples entrada de texto.
- Faixas Completas: A IA gera não apenas instrumentais, mas também vocais.
- Flexibilidade: Os utilizadores podem influenciar estilos e géneros.
Udio
Udio é outra plataforma avançada de IA para produção musical. Ao contrário de Suno, Udio foca-se especialmente na qualidade de som profissional e na liberdade artística. Algumas das principais características são:
- Controlo Preciso: Os utilizadores podem trabalhar em arranjos e mixagens com mais detalhes.
- Saída de Áudio de Alta Qualidade: Produção profissional sem configuração de estúdio.
- Estilos Diversificados: Da música eletrónica a peças orquestrais.
ElevenLabs
ElevenLabs é uma plataforma de síntese de fala baseada em IA que pode gerar vozes com som natural. É particularmente interessante para a narração de vídeos, podcasts e mídias interativas. As principais características:
- Vozes de IA Realistas: As vozes soam humanas e emocionais.
- Suporte Multilíngue: Ideal para produções internacionais.
- Vozes Individuais: Os utilizadores podem criar os seus próprios perfis de voz.
Conclusão e Exemplos
Eu produzo principalmente música de todos os tipos e, como músico, posso dizer que Suno, em outubro de 2025, é a melhor plataforma para música na área da inteligência artificial. Reconhece obras protegidas, permite títulos livres e pode lidar com todos os idiomas, dialetos, ritmos, instrumentação, etc... Atualmente, também é possível trocar fragmentos, criar capas, definir personas para atribuir um estilo, cantor... reconhecível. Reage a indicações de BPM e também a indicações de tom.
Com isso, funciona melhor do que 90% de todos os músicos. Estes podem completar as suas ideias com Suno ou até mesmo entregar toda a composição a Suno.
Estou com Suno desde a versão 2.5 e já criei muitos álbuns e músicas com ele. Como bom exemplo prático, além de composições originais alemãs e inglesas, também há instrumentais, shorts e canções de Natal. A minha ideia era recriar as antigas canções de Natal já livres de GEMA com a ajuda da inteligência artificial. Em comparação, também tentei gerar as minhas próprias canções de Natal. Principalmente com textos do ChatGPT, que foram adaptados individualmente e cujas ideias são a minha base. São "Novas Canções de Natal" com composições próprias (tom, velocidade, instrumentação, humor, especificações vocais...), ou seja, sem textos e melodias roubadas. Para mercados de Natal, etc., basta apenas música de fundo natalícia pura, que também criei eu mesmo ou com base em antigas músicas de Natal livres de GEMA.
Não se faz apenas amigos com isso, mas é claro que a IA é capaz de criar música de forma perfeita.
Legalmente, os exploradores tentam regulamentar estas plataformas. Uma vez que também utilizaram peças musicais conhecidas para treinar. Em contrapartida, está o princípio de que os músicos também aprendem com outros músicos e a música não é reinventada. Independentemente de como se veja, não conseguiremos evitar o tema da inteligência artificial na música e provavelmente já existem muitas músicas nas tabelas que os músicos criaram com a ajuda destas ferramentas.
Atualmente, preciso de cerca de 3 horas para uma música própria com texto próprio, masterização, capa e publicação. O meu principal objetivo é reconhecer as mudanças atuais na inteligência artificial precocemente e adaptar o meu fluxo de trabalho repetidamente. Da mesma forma, isso cria um pool de áudio que posso usar sem hesitação para shows de fotos, festas de Natal, etc. Além de 140 obras musicais feitas à mão, que oferecemos em https://www.vladimirsterzer.com, incluindo notações, agora também estão disponíveis mais de 150 faixas com mais de 5 horas de música de IA. Estas são um bom complemento, pois são versáteis e podem ser adaptadas individualmente a vídeos, etc., ou geradas novamente.
nuonu é o nome da nossa antiga banda, na qual eu tocava guitarra, baixo, sintetizador e também fazia a gravação. Por isso, gosto de me descrever como músico, mesmo que as ferramentas de hoje sejam diferentes. Por hábito, todos os títulos de IA também passam pelo Logic comigo. Mas, na verdade, não é preciso fazer mais nada nos títulos desde as versões mais recentes. No entanto, a exportação de stems (faixas individuais), a antiga mistura e masterização lúdicas voltam a ganhar vida. No mínimo, eu sempre carrego o WAV no Logic e aumento o volume para zero. Mas não faço mais alterações manuais. No entanto, deixo que a velocidade e o compasso exatos sejam determinados, fade in, fade out, volume, bounce de MP3 e WAV. Algumas faixas também receberam um som de caixa registradora (Kakakakakaufen) e, se o vocal estiver muito baixo, também trabalho com stems.
O Music Production Workflow ainda está intacto e raramente precisa ser adaptado a novas possibilidades. Uma pequena página sobre a comercialização de música de IA, mostra possibilidades que, no entanto, são menos relevantes para mim. A música de IA deve, acima de tudo, ser divertida, economizar tempo, promover a própria criatividade, ajudar músicos na composição, trazer mais música livre de direitos autorais para o mercado.
IA Generativa para Texto e Código
A inteligência artificial revoluciona não apenas a música e o áudio, mas também a criação de textos e código. Modelos modernos de IA podem gerar textos, criar resumos, escrever código e até resolver problemas complexos. Aqui estão alguns dos modelos de IA mais importantes para esta área:
ChatGPT
O ChatGPT da OpenAI é um dos modelos de linguagem mais conhecidos, utilizado tanto para textos gerais quanto para aplicações de programação. As principais características são:
- Capacidade de Conversação: Ideal para diálogos, textos criativos e obtenção de informações.
- Geração de Código: Suporta a programação de aplicações, websites e plugins.
Sou um utilizador desde o início e uso-o diariamente para textos, perguntas de todos os tipos e para programação. Em particular, a resolução de análises complexas, como código-fonte web, SEO, etc., ainda é indispensável para mim hoje. Com o Chat, muitas vezes crio a primeira versão básica de um plugin e depois, para aplicações maiores, mudo para o Cursor, que pode visualizar e gerir projetos inteiros. Poderia dispensar a conta Plus? Sim, porque o Cursor sozinho apoiaria bem o meu trabalho de desenvolvimento. Também obtenho uma segunda opinião de outros LLMs. Para a maioria das aplicações, a versão gratuita do ChatGPT é suficiente.
Google Gemini
O Gemini do Google é um modelo multimodal que pode processar texto, imagens e até áudio. Destaca-se por:
- Capacidades Multimodais: Processamento de diferentes tipos de dados.
- Otimizado para Pesquisa: Ajuda na obtenção de informações.
- Bom Processamento de Contexto: Fornece respostas ponderadas com estrutura lógica.
- Uso gratuito da API para Desenvolvedores: Permite a criação de programas próprios com inteligência artificial.
É, portanto, mais importante para mim do que o ChatGPT atualmente.
Grok
X.ai é grandioso quando se trata de obter conteúdo mais honesto. Utiliza o X como base de dados adicional, o que permite estar particularmente próximo das informações atuais e da opinião de empresas e utilizadores. A geração de imagens e código também é muito boa.
Já era bastante bom na primeira versão e pode ser usado até hoje numa variante gratuita. Vale a pena dar uma olhada em qualquer caso.
Claude
O Claude da Anthropic dá especial importância aos aspetos de segurança e ética na utilização da IA. As suas características mais importantes são:
- Alta Qualidade de Texto: Focado em textos naturais e consistentes.
- Orientado para a Segurança: Reduz os riscos de desinformação.
- Boa Área de Memória de Contexto: Pode captar e processar conversas longas.
É a minha IA preferida na área de código, Sonnet é praticamente o padrão no Cursor. Claude Sonnet é super rápido e de muito boa qualidade.
DeepSeek
O DeepSeek tornou-se conhecido por usar um hardware de IA diferente e por a velocidade de processamento e os custos do hardware serem mais eficientes. Foi também a primeira versão que instalei localmente no meu computador. Também gerou discussões, pois o conteúdo crítico chinês na versão online difere do que é encontrado em ambientes instalados localmente.
Hoje já não uso o DeepSeek, mas mostra que também na China estão a ocorrer grandes desenvolvimentos de IA e que praticamente todos os grandes players como Baidu, Alibaba, etc., já operam os seus próprios LLMs.
Mistral
Mistral é um modelo de código aberto que é particularmente adequado para aplicações de programação. Os seus pontos fortes são:
- Alta Eficiência: Otimizado para cálculos que economizam recursos.
- Especialmente para Desenvolvedores: Boa geração e complemento de código.
- Abordagem de Código Aberto: Livremente disponível e personalizável.
Perplexity
Perplexity AI é um modelo de pesquisa e informação baseado em IA, especializado na entrega eficiente de conhecimento. Oferece:
- Obtenção Rápida de Informações: Ideal para pesquisas direcionadas.
- Respostas Compactas: Resume tópicos complexos de forma compreensível.
- Boa Integração Web: Acede a informações atuais.
Perplexity é o meu substituto para a Wikipédia e para todas as questões de conhecimento. Fornece contextos políticos detalhados e é para mim também um substituto da imprensa. Perplexity recorre a inúmeras fontes e LLMs e entrega em segundos tudo o que o utilizador deseja.
Na verdade, Perplexity pode fazer tudo, ou seja, também gerar código, trabalhos de casa e muito mais. O mais interessante é que as respostas são atuais e as fontes estão ligadas.
IA Generativa para Imagem e Arte
A inteligência artificial também transformou o mundo das imagens e da arte. Modelos de IA podem criar fotos realistas, obras de arte abstratas, gráficos vetoriais, renderizações 3D, logotipos e muito mais. A tecnologia é usada em várias áreas, incluindo:
-
Geração de Imagens: Criação de imagens a partir de descrições de texto.
-
Edição de Fotos: Melhorias e ajustes assistidos por IA.
-
Gráficos Vetoriais: Criação e edição automática de imagens vetoriais.
-
Modelagem 3D: Suporte na criação de objetos 3D complexos.
-
Design de Logotipos: Geração de logotipos únicos com base em especificações.
-
Geração de Ideias: Apoio a processos criativos através de inspirações geradas por IA.
-
Análise de Imagens: Reconhecimento e classificação de conteúdo em imagens.
Midjourney
Midjourney é uma plataforma de IA que gera imagens artísticas impressionantes com base em entradas de texto. Destaca-se por:
- Imagens Criativas de Alta Qualidade: Especialmente adequado para arte conceitual e design.
- Operação Simples: Gera imagens através de comandos do Discord.
- Liberdade Artística: Forte ênfase na diversidade de estilos.
DALL·E
https://openai.com/de-DE/index/dall-e-3/
DALL·E da OpenAI é uma IA para geração de imagens que cria imagens detalhadas e realistas com base em descrições de texto. Principais características:
- Alta Precisão de Detalhes: Geração de imagens realistas e criativas.
- Associação de Objetos: Combina diferentes elementos logicamente numa imagem.
- Edição de Imagens: Permite variações e adições a imagens existentes.
Atualmente, eu mesmo não uso mais o DALL-E. As funções estão integradas em LLMs ou não diferem no resultado do Midjourney. Mas no mundo da IA, nunca se deve descartar grandes players e a próxima atualização certamente virá.
Firefly
Firefly da Adobe é uma plataforma de edição e geração de imagens assistida por IA com foco no controlo criativo. Vantagens:
- Integração com Produtos Adobe: Perfeito para Photoshop e Illustrator.
- Edição Não Destrutiva: Ferramentas assistidas por IA para ajustes criativos.
- Geração Simples de Texto para Imagem: Cria imagens a partir de especificações de texto.
Indispensável porque integrado nos produtos Adobe. A geração de vídeo parece-me muito cara, mas isso também pode mudar rapidamente. Quem trabalha com Premiere pode estender vídeos e os utilizadores de Photoshop podem também criar imagens ou realizar InPainting com conteúdo generativo. Super fácil e de boa qualidade.
Stable Diffusion
https://stability.ai/news/stable-diffusion-public-release
Stable Diffusion é um modelo de código aberto para geração de imagens, particularmente adequado para personalizações individuais. Propriedades:
- Totalmente Personalizável: Executa localmente e pode ser modificado.
- Estilos de Imagem Complexos: Permite gráficos detalhados e realistas.
- Liberdade de Código Aberto: Utilizável e extensível gratuitamente.
Flux
https://flux-ai.io/de/flux-ai-image-generator/
Flux é uma plataforma inovadora de IA para arte de imagem, que se destaca pela experimentação e algoritmos criativos. Os seus pontos fortes são:
- Descobrir Novos Estilos: Gera imagens não convencionais e experimentais.
- Algoritmos Poderosos: Utiliza redes neurais para efeitos artísticos.
- Fluxos de Trabalho Criativos: Promove novas abordagens para a arte digital.
Vídeos e 3D com IA Generativa
Os mais recentes modelos de IA permitem não só a criação de imagens estáticas, mas também de vídeos realistas e animações 3D. São utilizados em diversas áreas, incluindo produção cinematográfica, efeitos visuais, design de jogos e realidade virtual. As áreas de aplicação incluem:
- Sequências de Vídeo Geradas por IA: Criação de vídeos realistas ou estilizados a partir de descrições de texto.
- Edição de Vídeo: Otimização automatizada de clipes, correções de cor e efeitos.
- Animação 3D: Geração e controlo de modelos e animações 3D complexos.
- Criação de Cenas: Criação de ambientes completos para jogos, VR ou simulações.
VEO 3
A melhor geração de vídeo atual, incluindo fala e música, produz vídeos absolutamente realistas que, com relativa certeza, determinarão o próximo mercado cinematográfico. Pelo menos em parte, efeitos especiais, etc., podem ser criados de forma super económica e profissional com isso.
Runway Gen-2
Runway Gen-2 é uma poderosa ferramenta de IA para criação e edição de vídeo. Principais características:
- Geração de Texto para Vídeo: Cria vídeos com base em instruções de texto.
- Geração de Imagem para Vídeo: Cria vídeos com base em dados de imagem carregados.
- Edição Assistida por IA: Ferramentas para correção de cor, rotoscopia e efeitos.
- Aplicação Simples: Interface de utilizador intuitiva para projetos criativos.
Runway oferece, após um registo, a possibilidade de criar gratuitamente cerca de 20 sequências de vídeo. Posteriormente, pode-se escolher entre vários modelos de subscrição.
Adobe Firefly Video
Desde meados de fevereiro de 2025, as capacidades de geração de imagens no Adobe Firefly foram complementadas pela IA generativa para vídeo. O serviço funciona de forma semelhante ao Runway e fornece vídeos com base em imagens carregadas ou num prompt. Firefly Video é uma poderosa ferramenta de IA para geração de vídeo. Principais características:
- Geração de Texto para Vídeo: Cria vídeos com base em instruções de texto.
- Geração de Imagem para Vídeo: Cria vídeos com base em dados de imagem carregados.
- Edição Assistida por IA: Ferramentas para correção de cor, rotoscopia e efeitos.
- Aplicação Simples: Interface de utilizador intuitiva para projetos criativos.
Como assinante do Adobe CC, tive a oportunidade de criar 2 vídeos antes que uma solicitação de pagamento (assinatura para serviços de IA) fosse exibida. A Adobe está a tentar monetizar os seus serviços de IA pela primeira vez. De acordo com a oferta, isso provavelmente inclui outras IAs generativas de áudio, vídeo e também fotografia da Adobe.
Sora
Sora da OpenAI é uma IA avançada para geração de vídeo realista. Oferece:
- Movimentos Ricos em Detalhes: Gera vídeos com física complexa e movimento realista.
- Criação de Cenas: Cria ambientes que parecem cinematográficos e imersivos.
- Ajustes Automáticos: Otimiza luz, sombras e texturas para melhores resultados.
Sora ainda não está disponível na Alemanha a partir de meados de fevereiro de 2025. No entanto, vários vídeos já mostram o quão poderosa a IA funciona.
Pika Labs
Pika Labs é uma plataforma inovadora para edição e animação de vídeo assistida por IA. Os seus pontos fortes são:
- Efeitos Automatizados: Geração de efeitos visuais a partir de descrições de texto.
- Controlo de Animação: Controlo do movimento e dinâmica de personagens e objetos.
- Operação Intuitiva: Simplifica o processo criativo através da automação.
Flux
Flux é uma plataforma de IA versátil para projetos de vídeo artísticos e experimentais, bem como design 3D. Características especiais:
- Liberdades Artísticas: Gera efeitos de vídeo e animações não convencionais.
- Modelagem 3D: Cria objetos visualmente impressionantes e detalhados.
- Algoritmos Inovadores: Utiliza redes neurais avançadas para efeitos dinâmicos
Midjourney
Como assinante do Midjourney, gosto de usar a nova capacidade de gerar vídeos para fins de demonstração. A qualidade ainda não é tão boa quanto a de outros, mas também não custa extra. O Midjourney é um pouco mais lento no seu desenvolvimento do que outros fornecedores de IA. Por isso, já não o recomendo, mas deixarei a minha assinatura anual expirar. Todas as capas de álbuns de música e muito mais foram criadas com ele e faz um trabalho sólido. Para websites, etc., no entanto, preciso de mais. Representações fotorrealistas e verdadeiras com altas resoluções.
IA Generativa para Web, SEO, Plugins e WebApps
A inteligência artificial está a mudar a forma como os websites são desenvolvidos, otimizados e geridos. Desde a criação automatizada de conteúdo à otimização de SEO, passando por plugins inteligentes e WebApps – a IA oferece enormes vantagens aos desenvolvedores web e criadores de conteúdo.
WordPress e Temas Assistidos por IA
WordPress continua a ser o sistema de gestão de conteúdo (CMS) mais utilizado no mundo. Com a crescente integração da IA em temas e plugins, o desenvolvimento web torna-se mais eficiente e criativo. Destaca-se particularmente o DIVI 5, que estabelece novos padrões através de sugestões de design assistidas por IA, ajustes automáticos de layout e análise inteligente de conteúdo.
Otimização Automatizada de SEO com IA
O SEO continua a ser um fator decisivo para a visibilidade dos websites. Plugins de SEO assistidos por IA como o RankMath analisam automaticamente o conteúdo, sugerem palavras-chave relevantes e ajudam a melhorar a otimização on-page em tempo real. O Google também utiliza algoritmos de IA como o RankBrain para avaliar a relevância dos resultados de pesquisa.
Plugins e WebApps Assistidos por IA
Além de SEO e design, existem inúmeros plugins assistidos por IA que otimizam o fluxo de trabalho:
-
WordLift: Utiliza IA para análise semântica e melhora o posicionamento nos motores de busca através de dados estruturados.
-
Chatbots com IA: Plugins como Tidio AI ou integrações ChatGPT permitem interações inteligentes com os clientes.
-
Conteúdo Gerado por IA: Ferramentas como ContentBot ou Copymatic criam automaticamente artigos de blog e landing pages apelativos.
-
Otimização de Imagens e Mídia: Plugins como Imagify AI ou Adobe Firefly para Web melhoram as imagens automaticamente.
O Futuro do Desenvolvimento Web com IA
O futuro pertence à automação: a IA pode não só fazer sugestões de código aos desenvolvedores web, mas até gerar websites completos. As WebApps beneficiam de experiências de utilizador personalizadas, deteção automática de erros e desempenho otimizado.
Com a crescente integração da IA no WordPress, SEO e WebApps, abrem-se novas possibilidades para elevar a eficiência e a qualidade do desenvolvimento web a um novo nível.
IA em Fotografia e Edição de Imagem
A inteligência artificial tem uma enorme influência na fotografia e na edição de imagem. Desde funções inteligentes em câmaras modernas até ao processamento RAW automatizado com programas especializados – a IA poupa tempo e otimiza resultados.
IA em Câmaras Modernas
Muitas câmaras atuais integram tecnologias baseadas em IA que apoiam os fotógrafos:
- Reconhecimento Automático de Cena: As câmaras analisam cenas em tempo real e selecionam as configurações ideais para retratos, paisagens ou fotografias de ação.
- Sistemas de Autofoco Assistidos por IA: Deteção de rostos, olhos e até objetos específicos para imagens nítidas.
- Redução de Ruído e Técnicas HDR: A IA melhora a qualidade da imagem já durante a captura.
IA no Desenvolvimento RAW e Culling
O pós-processamento de fotos muitas vezes consome muito tempo. O software assistido por IA revoluciona este processo:
- Aftershoot: Automatiza o culling (pré-seleção de imagens), reconhece fotos duplicadas ou desfocadas e oferece funções de edição rápidas.
- Adobe Lightroom: Predefinições assistidas por IA, melhorias automáticas de imagem e edições seletivas com um clique.
- Topaz Labs (Gigapixel, Sharpen, DeNoise): Expande as possibilidades de otimização de imagem com redução de ruído de alta qualidade, nitidez e upscaling.
Edição de Imagem Avançada com IA
Além do desenvolvimento RAW e da classificação, existem inúmeras outras funções de IA:
- Adobe Photoshop: Ferramentas de IA como Preenchimento Generativo, recorte automático e retoque baseado em conteúdo.
- Luminar Neo: Filtros de IA para substituição de céu, melhoria da pele e otimização de cena.
- Neurapix: Correções de cor automatizadas com base em estilos de edição individuais.
O Futuro da IA na Fotografia
A IA continuará a revolucionar a fotografia, ao:
- Desenvolver ainda mais funções inteligentes de câmara.
- Tornar os processos de culling e edição ainda mais eficientes.
- Abrir novas possibilidades criativas através de manipulações de imagem assistidas por IA avançadas.
Com soluções baseadas em IA, os fluxos de trabalho podem ser otimizados, permitindo que os fotógrafos dediquem mais tempo à criatividade e menos à edição manual.





