Inteligência artificial e criação de imagens

A Arte deve se preocupar com imagens geradas por inteligência artificial?

Isaac Araujo Guimarães é membro do Academia de Curadoria. Graduado em Publicidade e graduando em História da Arte pela Universidade de Brasília. Trabalha como pesquisador de arte e é entusiasta de tecnologias.

Este texto é parte da Newsletter Caderno Elétrico #3

Prisma, eleito pela Apple como um dos melhores aplicativos de 2016.

Em 2016, a Prisma Labs, uma empresa de tecnologia móvel, lançou seu aplicativo de maior sucesso, o Prisma. O aplicativo se tornou viral por sua capacidade de transformar fotos em “pinturas de cores vivas”. Usando uma combinação de inteligência artificial e rede neural, os resultados simulavam, principalmente, estilos de pintores famosos: Edvard Munch, Picasso, Van Gogh, Mondrian, entre outros. Seis anos e vários avanços tecnológicos depois, o app perdeu seu encanto, e sua função foi incorporada a programas como o Photoshop e copiada por diversos outros aplicativos. Hoje, o viral da vez não é apenas aplicar estilos, mas criar imagens por completo usando inteligências artificiais, tais quais a Midjourney e a DALL·E.

Chegamos a 2022 com esses sistemas que permitem ao usuário produzir imagens a partir de comandos de texto – ou prompts. Eles, até o momento, precisam ser em inglês. Assim, se você solicita “A sea otter with a pearl earring by Johannes Vermeer”, a inteligência artificial cria. E vai além: combina estilos, conceitos e atributos. Ainda, ao submeter uma imagem, é possível inserir e retirar novos elementos, com cálculos que geram sombra, reflexo e textura bem precisos.

A sea otter with a pearl earring by Johannes Vermeer (Uma lontra marinha com brinco de pérola por Johannes Vermeer, o pintor de “*Moça com brinco de pérola*“). DALL-E.

Além do entusiasmo inicial que elas podem gerar, surgem também muitas dúvidas a respeito dessas ferramentas. A primeira delas é: de que modo isso é feito? A resposta, não tão simples, é que se segue uma linha parecida com o Prisma. Ou seja, criar imagens a partir de um estilo, uma referência, mas de forma bem mais avançada. Elas são geradas por um processo chamado Difusão, que é baseado em treinamento de máquinas, o Machine Learning. E em um nível mais profundo de aprendizado (deep learning) são estabelecidas redes neurais artificiais que se assemelham ao funcionamento do cérebro humano. Dessa forma, elas se adaptam e aprendem a partir de grandes quantidades de dados.

Então, se eu peço para você imaginar “Uma capivara usando um chapéu vermelho e óculos escuros, deitada na praia de Ipanema, tomando um drink, no estilo de pintura a óleo”, você consegue, a máquina também. A diferença é que essa última me mostra instantaneamente. Os resultados ainda têm aquela estética estranha dessas ferramentas, com suas distorções características. Às vezes, falta uma parte do corpo, sobram membros em outras, mistura-se um elemento ao outro…Nem sempre elas entendem os comandos de forma clara.

Seguidas de muito entusiasmo, dúvidas e desconfiança, essas ferramentas acabam por carregar também uma aura ameaçadora. Basta pensar na já mencionada possibilidade de inserir e editar elementos de uma imagem com um simples comando de texto. É a era das imagens editadas tendo alcançado um grau maior de sofisticação e verossimilhança.

Em outro aspecto, existem profissionais preocupados com seu futuro na área criativa de imagens. Muitos deles acreditam que agora todos poderão ser ilustradores e suas habilidades não terão mais serventia.

Foi em uma polêmica assim que se envolveu recentemente Charlie Warzel, colunista da revista The Atlantic. Em agosto deste ano, para ilustrar sua coluna, ele resolveu utilizar a ferramenta Midjourney e creditá-la na imagem. Ao perceberem isso, alguns usuários no Twitter rechaçaram a sua atitude, acusando-o de contribuir para acabar com a função de ilustrador nas redações e aumentar o desemprego, entre outras ameaças. Na realidade, tudo não passou de um mal-entendido. No entanto, o colunista se viu obrigado a vir à público pedir desculpas e prometer não fazer isso sem que houvesse uma necessidade explícita.

Na coluna publicada após o ocorrido, Warzel levanta alguns pontos que valem a pena ser destacados. O primeiro deles é que pouco se sabe a maneira que esses sistemas são aprimorados, mas que não se deixa uma IA mais inteligente apenas solicitando a ela novos comandos. É necessária a interferência humana em parte das suas atualizações.

O segundo, conforme apontado anteriormente, é que elas apresentam dificuldades em relacionar objetos. Isso fica mais evidente quando essas imagens mostram dificuldade em processar elementos de texto. Elas acabam por criar suas próprias palavras, e até mesmo um novo alfabeto.

Por fim, Warzel recomenda: “empresas como OpenAI ou Midjourney deveriam dar aos artistas informações mais claras e acessíveis sobre suas ferramentas e sobre o que elas são treinadas para fazer”.

Problemas que poucos estão interessados em enxergar

A fascinação por essa tecnologia pode desviar a atenção de problemas, tais quais a origem das imagens de referência, principalmente porque essas empresas se recusam a divulgar seus conjuntos de dados. É que toda IA precisa de um banco de imagens para aprender, ser treinada. O que alguns sites têm denunciado é que essas empresas, a exemplo da OpenAI, estão utilizando antigos bancos de imagens, daqueles usados para publicidade, para treinar suas máquinas. Em uma possibilidade ainda mais nebulosa, utilizando também imagens e informações das imagens postadas por usuários do Flickr, uma plataforma de fotos.

O mais problemático é que, em alguns casos, a IA pode oferecer, enquanto resultado, uma imagem quase idêntica às que ela tinha de referência para aprender. Portanto, mesmo que a DALL-E permita o uso comercial das imagens geradas, o usuário pode acabar se apropriando do trabalho de outra pessoa, sem saber.

Outra polêmica tem sido o uso pago dessas ferramentas. Após alguns créditos gratuitos, o usuário deve comprar uma nova quantia para continuar utilizando. Nesse sentido, além da possibilidade de estarem usando de forma indevida um conjunto de dados, essas empresas podem estar lucrando em cima disso. Indo além: elas não renunciam ao seu próprio direito de comercializar imagens que os usuários criam. Chegamos, assim, em um momento ainda mais delicado e dimensionado da questão de violação de direitos autorais.

Tornando a questão ainda mais complexa, outros aspectos a serem apontados são o enviesamento estereotipado que essas imagens geradas podem aparentar. Pensando que elas podem ter de referência um banco de imagens de 20 anos atrás, certamente faltará diversidade. E a máquina não consegue aprender novas possibilidades se as referências forem sempre as mesmas.

O site JumpStory recomenda cuidado com os estereótipos que uma IA pode oferecer como resultado. Nesta imagem, foi solicitada uma fotografia de uma aeromoça.

O outro ponto seria que, com a possibilidade de subir arquivos para a plataforma, ela poderia ser alimentada com imagens de ódio, nudez, violência, atividades ilegais ou assédio. Contudo, a OpenAI nesse sentido tem uma política de conteúdo e de uso bem rígida, incluindo palavras e expressões proibidas nos comandos e um canal para denúncias.

Dificuldades técnicas atuais e o futuro das AI’s

Embora a OpenAI encoraje o usuário a compartilhar os resultados obtidos por sua IA, alguns sites de artes digitais começaram a banir imagens feitas por esse processo. Um dos principais motivos é a quantidade de arquivos sendo submetidos aos servidores – são milhões por dia. Esse montante de pessoas aderindo às IA, por outro lado, despertou o interesse de investidores. É o que se pode ver no artigo “Por que o Vale do Silício está tão entusiasmado com desenhos estranhos feitos por inteligência artificial”. Escrito para a CNBC por Kif Leswing e publicado em outubro deste ano, o texto trata desse boom da inteligência artificial. São trilhões de dólares sendo investidos em produtos que ainda apresentam ser de alto risco, visto que o hype pode passar e usos mais eficazes não sejam estabelecidos.

Esse, contudo, não parece ser um problema para os conglomerados de tecnologia, que veem nessa oportunidade um modo de alavancar outras áreas, como a fabricação de chips e processadores mais avançados. Grandes empresas, como o Meta e o Google, estão com investimentos altíssimos nesse campo de inteligência artificial, agora explorando a criação de vídeos. Mark Zuckerberg, no final de setembro deste ano, postou em sua página no Facebook os primeiros resultados de vídeos feitos a partir de comandos de texto. O Google também anunciou estar trabalhando em uma ferramenta parecida, o Phenaki. Tudo até então em um campo muito experimental.

Imagens, vídeos, textos e até músicas estão sendo criadas a partir do processo de Difusão. Se até esse momento poderíamos pensar nos usuários dessas IA enquanto “criadores de narrativas”, a NovelAI, uma IA que simula escrita humana, já tem feito esse trabalho. Lançada também há poucos meses, ela se coloca na qualidade de uma tutora, que irá ajudar o usuário a produzir, em seus termos, uma literatura de qualidade.

E de que modo artistas visuais têm assimilado essas ferramentas?

Em vista desse artigo, conversei com o artista e professor Rafael Dolinski. Ele passou anos produzindo gravuras em metal e a partir de 2014 decidiu explorar a linguagem da pintura, sem muita pretensão de seguir a carreira nessa área. Esse processo, de pintar para manter vivo o exercício artístico, aliado à alta dedicação da docência, acabou impondo um hiato muito grande na sua prática artística. Ao decidir voltar a produzir, ele decidiu experimentar as ferramentas de inteligência artificial.

Colostro – Aquarela, nanquim e caneta Stabilo (2013) – coleção particular Graciane Martini

Rafael se considera um artista digital de primeira viagem. Sua bagagem traz de referências as linguagens mais tradicionais, sobretudo a gravura em metal. Hoje ele se vê mais preocupado com o processo do que com a linguagem. Isso fica mais evidente quando ele afirma que a obra de arte não é um objeto do artista – este é, em sua opinião, a mão de obra. “Ele experiencia o mundo de forma individual, mas através de um contextos coletivos”.

No sentido de pensar a experiência da arte, não caberia entendê-la de forma individual, quando ela é construída, desde sua concepção, de forma coletiva. Do ponto de vista de Dolinski, o artista não cria algo do nada. Todas essas experiências, individuais e coletivas, alimentam o artista, que, com seu olhar sensível, interpreta o mundo de diversos prismas.

“Ele deve muito ao mundo, aos lugares que ele frequentou, às pessoas com quem ele interagiu e, principalmente, às coisas que ele viu. E você agrega muitas coisas para tentar produzir algo que é do seu interesse. É quase como uma criação de uma colagem.”

Esses pontos são importantes para entender que, quando se leva para o virtual a sua produção poética, é preciso ter uma bagagem anterior. Afinal, ao lançar um comando à máquina, você também precisa direcionar uma estética. Ainda sobre esse processo, Rafael explica que: “Quando você entende o funcionamento da máquina, é infinitamente mais fácil do que desenhar, pintar, esculpir”.

Quanto à autoria, Dolinski crê que esse uso da inteligência artificial entra de modo colaborativo ou coletivo, mas também entende a máquina e o computador enquanto ferramentas de produção de imagens. Ele dá o exemplo de uma câmera fotográfica: para produzir uma imagem é preciso dominar a técnica desse equipamento, as lentes, a luz, mas no momento que se dá o clique, quem fez a fotografia foi quem apertou o botão, não a máquina.

O primeiro desafio é, portanto, dominar a tecnologia, tal qual o artista sente, interage e domina outros materiais, outras ferramentas. Em relação ao estigma de que o uso de tecnologia colabora para acabar com a arte, o lado professor de História da Arte de Rafael fala mais alto. Ele comenta que, nesses mais de 100 anos depois de instaurada a Arte Moderna, não devemos nos ater tanto aos valores do início do século passado ao lidar com as linguagens com as quais a Arte se relaciona hoje. “A gente tem que explorar as ferramentas que estão sendo criadas.”

Sobre se dividir entre as linguagens tradicionais e, agora, as ferramentas de inteligência artificial, o artista considera isso apenas um reflexo de sua personalidade. Sua curiosidade moveu o interesse por essas ferramentas e assim decidiu experimentar.

Recentemente, ele decidiu dar uma pausa na carreira de professor e a vontade de produzir, desenhar, pintar, voltou. Só que houve um bloqueio criativo, não havia um planejamento dessa retomada. Foi quando ele leu a notícia de que uma artista havia ganho um prêmio com uma imagem feita conjuntamente com uma inteligência artificial. Ele então decidiu explorar essas ferramentas.

Sem título. Rafael Dolinski x DALL-E, Out. 2022

“No começo eu jogava muita palavra aleatória, porque tem que ensinar a máquina a entender o que eu quero. Só que nem eu sabia o que eu queria. Então saiu muita coisa estranha”.

Todos os resultados ficam registrados no perfil do usuário, o que de certa forma foi bom para Dolinski, que tem enquanto prática guardar seus rascunhos, para depois revisitá-los.

“E foi pensando nisso que eu peguei uma pasta que eu tenho com vários rascunhos, vários croquis, desenhos, que eu ia fazendo aleatoriamente, e que eu ficava com dó de jogar fora. Achava que um dia poderia servir para alguma coisa, para alguma colagem ou para alguns projetos como pintura.”

Essas ideias não finalizadas, guardadas ao longo dos anos, tornaram-se o ponto de partida para os comandos que seriam inseridos na máquina. Era que nem fazer um remake dos desenhos. Ele as descreve para obter imagens. Ele chegou a me enviar algumas dessas descrições e são quase minicontos.

“Então é, mais ou menos, refazer o trabalho através de uma outra ferramenta. Eu poderia usar os mesmos desenhos para criar esculturas, por exemplo”. E o resultado tem sido satisfatório para o artista, que já pensa nas possibilidades futuras que essas imagens podem ter. Enquanto isso, o artista tem postado em seu perfil no Instagram os resultados de sua experiência.

A entrevista completa você pode ouvir no SoundCloud da Caderno Elétrico.

Por fim, essa conversa com Rafael Dolinski, e todo o histórico das IA’s até aqui, mostra que artistas têm integrado essas ferramentas em graus diferentes ao seu trabalho. Se todo esse entusiasmo será só mais uma onda passageira, tal qual aconteceu com o aplicativo Prisma, é difícil saber. E de que modo vai influenciar na Arte do futuro também. Mas se uma máquina só aprende se novas referências forem adicionadas ao seu banco de dados, parece que será sempre necessário alguém que tenha subjetividade para absorver o mundo e propor novas imagens, novos conceitos, novos estilos… Os humanos, talvez?

A capybara wearing a red hat and sunglasses lying on Ipanema beach having a drink in oil painting style. Isaac Guimarães x DALL-E. 2022.

Foi mais ou menos assim que você imaginou “Uma capivara usando um chapéu vermelho e óculos escuros, deitada na praia de Ipanema, tomando um drink, no estilo de pintura a óleo”?

Este texto foi revisado por Laura Rago, Marina Romano, integrantes da Caderno Elétrico, e também Clarice, uma inteligência artificial de revisão de texto.