Escola de Comunicação da FGV realiza experimento de IA baseado na captura de imagens em tempo real
O objetivo final é conceber uma obra multissensorial para compor a exposição da Bienal de Arte Digital, com a temática SON(H)O PROFUNDO, que vai acontecer entre 2024 e 2025 no Futuros – Arte e Tecnologia, no Rio de Janeiro.
Pesquisadores do Cubo de Inovação da Escola de Comunicação, Mídia e Informação Vargas (FGV ECMI) estão realizando experimentos com o Stable Diffusion, modelo de Inteligência Artificial generativa que produz imagens com o uso da ComfyUI. A experiência se baseia na captura de imagens em tempo real, que são enviadas para tratamento na ComfyUI, que cria uma nova imagem, como uma rotoscopia (técnica de animação), fundamentada não só nas que foram capturadas, mas também a partir do filtro e das instruções fornecidas por meio de um conjunto de palavras (denominado de prompt).
O objetivo final é conceber uma obra multissensorial para compor a exposição da Bienal de Arte Digital, com a temática SON(H)O PROFUNDO, que vai acontecer entre 2024 e 2025 no Futuros – Arte e Tecnologia, no Rio de Janeiro. O projeto é fruto da parceria do Cubo de Inovação em um dos projetos da FGV ECMI que envolve o Mídia Lab, laboratório da Escola dedicado ao audiovisual.
Durante os experimentos, os pesquisadores observaram que mesmo com um conjunto bem detalhado de palavras a serem excluídas da produção (prompt negativo), muitas imagens inapropriadas eram geradas, como corpos nus ou armas de fogo. Por essa razão, depois de vários testes, para adequar às políticas da Instituição e à faixa etária do público-alvo, levando em conta a temática e os objetivos oníricos, está sendo utilizado um modelo baseado em ilustrações de Crayon, o famoso giz de cera.
O modelo Stable Diffusion é gratuito e pode ser usado com ele instalado no computador ou em qualquer navegador. Dessa forma, com a codificação sendo realizada com ajuda de terceiros, sendo uma opção para computadores que não têm tanta potência.
Como a renderização depende muito da velocidade de processamento do equipamento, com as máquinas do Cubo de Inovação, o processo tem um atraso de aproximadamente dois segundos para que o resultado possa ser visualizado em uma imagem com a resolução de 1024x576px.
Para quem não sabe, ComfyUI é uma interface gráfica do usuário (em inglês Graphical User Interface – GUI) baseada em pontos ou nós (nodes) que gera resultados de imagens através de ajustes finos.
Leia também