Stable Confusion

20 Marzo 2023Asterione, 🇮🇹 Italiano

It’s always insane to me that pics like these look more realistic than most photos posted on Instagram due to photo editing today.
Broccolibox on Reddit

Questo commento sui recenti prodotti dell’intelligenza artificiale del redditor Broccolibox condensa benissimo lo stato dell’arte nel nostro attuale “mondo delle immagini” e anticipa una delle grandi trasformazioni cui stiamo per assistere.

Stable Diffusion, cui il nostro Broccolibox si riferisce (e, sì, ho scelto la citazione per lo username non meno che per il contenuto), è un modello di Generative AI del tipo “text-to-image”: si fornisce un input testuale e se ne ottiene una rappresentazione visuale (può fare più di così, ma per ora ci accontentiamo).

Applicazioni di questo tipo sono recenti ma non recentissime: da mesi gli utenti di Discord si divertono a generare immagini con Midjourney; la stampa ha fugacemente raccontato l’anno scorso i primi passi di Dall•E (di OpenAI, oggi più nota per ChatGPT; a qualcuno sarà forse capitato di notare l’immagine nata già iconica dell’astronauta a cavallo); ma già nel 2019 Nvidia presentava GauGAN, una tecnologia che produceva immagini realistiche impeccabili a partire da pochi schizzi colorati. E, andando ancora più indietro, nel 2014 Google esplorava questo spazio con Deep Dream. Tutti questi prodotti poggiano a loro volta su tecnologie le cui origini possono essere fatte risalire almeno agli Anni Sessanta.