Intelligenza dei software, sguardi sciamanoidi

Primo articolo della nuova rubrica Solaris. Arte, vita, media a cura di Giuseppe Frazzetto.

E-mmagini
La storia del rapporto fra immagini e digitale non è breve, e si è sempre caratterizzata per il legame fra nuove tecniche e tentativi di inquadramento teorico di quanto avveniva (ricordo ad esempio due testi fondamentali, la raccolta di saggi La scienza e l’arte, a cura di Ugo Volli, del 1972 e Computer images. State of the art, a cura di Hildegard Kron, del 1983). Di recente alcune iniziative hanno attirato l’attenzione sul nesso fra produzione di immagini e AI, “Intelligenza Artificiale”: si pensi alla divulgazione nel 2015 del software Deep Dream di Google (ci ricorda Andrea Daniele Signorelli su wired.it, parlando dell’intervento di Federico Perazzi al recentissimo Synapse AI Symposium, a Milano)1. Ma da qualche settimana l’interesse si è fatto spasmodico: speranze e ansie di moltissimi sono state suscitate dalla diffusione sui social network di esperimenti condotti con un software gratuito e per la verità abbastanza poco efficiente, DALL-E mini

L’oggetto delle sperimentazioni è sintetizzato da una frase d’un articolo allarmatissimo (per i rischi dell’AI) apparso il 26 luglio su “Libération”: “Le fonctionnement de ces systèmes est redoutablement simple: l’utilisateur écrit une description, qu’on appelle ‘prompt’, et le logiciel se charge de produire une image qui correspond2. Si scrive una descrizione, “appaiono” alcune immagini. Appaiono: quasi “evocate”, provenienti da un luogo sostanzialmente sconosciuto. Ed è interessante notare come DALL-E mini proponga 9 immagini per volta, Midjourney 4, disposte in una griglia (grid), ovvero in una forma di presentazione da decenni consacrata come essenza dell’antirealismo “modernista”.

Insomma, per qualche giorno i social sono stati “infestati”, haunted, dagli esiti di queste sperimentazioni – “spettri” di qualcosa di già-esistente, s’accennerà più avanti, manifestazioni della hantologie (in inglese hauntology) delineata da Derrida3

Solo pochi avevano accesso a software più potenti, come DALL-E 2, Imagen e Midjourney. Ma, ecco: il 13 luglio si è aperta l’ open beta di  Midjourney; il 21 luglio, ha notato Lev Manovich su Facebook: “DALL-E is opening today to 1 million people on waitlist. They get some free credits and can also pay $15 to generate additional images. Get ready for Dall-e-ism. I am actually glad you have to pay for it (!!??), so we may get at first only billions of images rather than trillions4.

Proviamo allora a riassumere alcune questioni. Esiste un nuovo modo di produrre immagini (le chiamerò e-mmagini): data una descrizione, un software ne visualizzerà alcune versioni visuali. Il software ovviamente opera nell’ambito di quella che ormai comunemente viene definita AI, “Intelligenza Artificiale”, ovvero (ci ricorda Federico Cabitza) una “forma di ‘automazione’: l’esecuzione automatica di compiti che, solitamente, richiedono una certa intelligenza per essere eseguiti da parte degli esseri umani”5

Ci ricorda Ruggero Eugeni: col digitale le immagini divengono la visualizzazione di insiemi complessi e manipolabili di dati6. A maggior ragione, questo spostamento di senso riguarda le e-mmagini. Va sottolineata intanto la loro duplice rilevanza estetica (se non artistica), giacché non si tratta “soltanto” delle produzioni di materiali visuali, ma anche e soprattutto di un’elaborazione precedente all’apparizione delle e-mmagini stesse, un’elaborazione consistente nella selezione di nessi significativi fra parole e immagini – un presupposto delle elaborazioni estetiche è appunto la selezione (potrà apparire pedante ricordarlo). L’AI sceglie e produce a partire da un database di informazioni che “qualcuno” o “qualcosa” ha creato. (Qui non parleremo dei dettagli tecnici).

Da questo punto di vista, il procedimento che determina le e-mmagini sembra analogo a quello più o meno esplicito delle idealizzazioni, in senso perfino classicistico. Il celeberrimo aneddoto narra che Zeusi, “per raffigurare Elena nel tempio di Hera Lacinia, selezionò cinque tra le più belle fanciulle di Crotone e di ciascuna prese la parte migliore, formando nella sua mente l’immagine di una perfetta bellezza”7. Certo, nel caso delle e-mmagini non è l’artista a condurre il gioco, in quanto la selezione è “automatizzata” dall’AI, e all’“artista” spetta il compito di fornire una descrizione; tuttavia la somiglianza delle modalità di “idealizzazione” risulta evidente. 

Ma in che senso, possiamo parlare di idealizzazioni? Per la verità in quanto si è visto finora prevalgono scorribande nell’assurdo o almeno nell’improbabile, inseguendo associazioni incongrue che fanno venire in mente la Metafisica o certe declinazioni del Surrealismo, e più di frequente gli immaginari fumettistici del fantasy e della fantascienza. Gli “autori”, o coautori insieme al software, in questa fase spesso si divertono a indicare accostamenti inconsulti. Del resto, come esempi di visualizzazioni da descrizioni testuali il sito di DALL-E 2 (https://openai.com/dall-e-2/) propone “Un astronauta a cavallo in stile fotorealistico”, “Orsacchiotti come scienziati pazzi che mescolano sostanze chimiche luccicanti nello stile di fumetti anni ‘90”, “Una tazza di zuppa che in effetti è un portale dimensionale, in stile ‘digital art’”.

Le questioni teoriche che si aprono sono evidentemente molteplici, siano sul piano diciamo così ontologico che su quello estetico (che qui ci interessa). Rinvio a un altro momento qualche riflessione sulle ricerche, segnalate sempre da Manovich, di utilizzo dell’AI in post-produzione)8. E tralascerò la questione del rapporto fra queste immagini e l’arte (segnalo comunque che sul nesso fra le e-mmagini e l’arte e sul compito degli artisti rispetto alla mobilitazione proposta dall’AI ha proposto riflessioni interessanti Francesco D’Isa in un recente articolo su iltascabile.com)9. In ogni modo (lo ricordo, per scrupolo, agli eventuali lettori non specialisti), il “significante flottante” arte da decenni ha allentato se non rescisso i legami che apparivano inscindibili con la produzione di immagini, indirizzandosi piuttosto al comportamento, alla strutturazione di ambienti, alle analisi metalinguistiche, ecc.

Ma certamente le e-mmagini hanno un’elevatissima pertinenza estetica. E di certo sono attinenti al Terzo Stato Estetico, ovvero all’addossarsi da parte degli “utenti” di buona parte dell’attività estetica, svolgendola direttamente, con una posizione “fai-da-te”, senza “delegarla” agli artisti10. Il Terzo Stato Estetico è strettamente legato alla cosiddetta disintermediazione e trova manifestazioni eclatanti della “cerimonia del me/mondo” che più o meno tutti conduciamo attraverso i media digitali, producendo “contenuti” (UGC, user generated contents). Da questo punto di vista, le e-mmagini appaiono come la concretizzazione più appropriata e potente della “volontà estetica” individualistica dei nostri giorni, della nostra situazione “postcontemporanea”.

Jack Sparrow

Parole e immagini
Supponiamo di somministrare al software la descrizione “Una sedia accanto alla fotografia di una sedia accanto alla definizione di ‘sedia’, nello stile di Cézanne”. Il riferimento è ovviamente a un caposaldo delle analisi metalinguistiche sulla differenza fra parole e immagini, cioè One and Three Chairs di Joseph Kosuth, 1965. Ed ecco apparire una o più versioni di qualcosa che “sembra” un “sedia” (si noti: ogni volta una “sedia” di forma, posizione ecc. differenti) accanto a qualcosa che “sembra” una “fotografia di una sedia”, “dipinto” con tonalità e tratti che in qualche modo ricordano quelli presenti nei dipinti dell’artista postimpressionista. L’abbondanza di virgolette, nelle frasi precedenti, intende far segno al fatto che questa irruzione d’una AI ripropone questioni che fino a qualche anno fa apparivano obsolete. Ad esempio, cosa ci fa “riconoscere” in un certo numero di “macchie colorate” una “rappresentazione” d’una sedia, d’un paesaggio, della persona amata, perfino di una divinità?

Si determina un problema già variamente segnalato in altri ambiti, in particolare per quanto riguarda le tecniche di “riconoscimento facciale”. L’AI “riconosce” l’immagine di una “sedia” facendo ricorso a un database di immagini di “sedie”; la duttilità del software (la sua “intelligenza”) consisterà nella sua capacità di estendere, o no, l’“idea” della “sedia” a immagini via via più distanti da quelle presente nel database.

Ovviamente un software non “sa” alcunché di sedie; né, d’altra parte, di linguaggi e di immagini. Un software è una sequenza organizzata in un certo modo, con determinate ricorsività, alternative, ecc. di qualcosa che (umanizzando) indichiamo come “0” e “1”. Le e-mmagini pongono allora una complessa questione legata alla compresenza di varie traslazioni. Tralasciando quelle specificamente connesse alla struttura dei software, dirò qualcosa sulla traslazione che all’utente appare come essenziale, ovvero quella fra la descrizione e la sua visualizzazione.

Potrà sembrare inutile ricordarlo: c’è una inesauribile differenza fra parola e immagine. Una parola (ad esempio “sedia”) rinvia a una classe di oggetti oppure a uno specifico qualcosa/qualcuno (come accade nel caso dei nomi propri). Di conseguenza, le versioni linguistiche (per così dire) di sedie, persone e di ogni altra cosa hanno sempre un “+1” possibile: ho in mente qualcosa come la nozione di “sedia”, e all’occorrenza riconosco come “sedia” anche un oggetto mai visto prima; ho in mente qualcosa come la nozione di “essere umano”, e all’occorrenza riconosco come “essere umano” anche qualcun* un po’ differente dalla nozione che avevo in mente – differente perché, appunto, unic*.

Viceversa, ogni immagine rinvia a un questo. Una “sedia” raffigurata è l’immagine di quella certa “sedia”, perfino nel caso in cui la “sedia” a cui ci si riferisce sia non-esistente, e perfino nel caso in cui l’immagine rinvii solo a sé stessa – come nell’arte aniconica e/o “concreta”. In altri termini, sembra legittimo chiedersi se le e-mmagini contribuiranno a un vertiginoso aumento della standardizzazione, con tutti i rischi che questa eventuale fenomenologia porterebbe con sé. 

Questo rischio è endemico in una situazione culturale e operativa come la nostra, là dove il ricorso ai database è ormai generalizzato. Mette conto di notare come la percezione di tali problematiche sia già giunta al livello delle narrazioni diciamo così “pop”, come mostrano ad esempio due film estremamente diversi, ma resi simili dal tematizzare qualcosa come una “memoria-database”, cioè Ready Player One di Steven Spielberg, del 2018, e Sto pensando di finirla qui (I’m Thinking of Ending Things) di Charlie Kaufman, del 202011

Le e-mmagini sono rielaborazioni di materiali esistenti, in fin dei conti. Le numerosissime e-mmagini oggi visibili in rete sembrano fatte apposta per confermare le argomentazioni sul carattere “spettrale” (spesso allucinatorio, pervaso di una allure decadente se non morbosa) della cultura postcontemporanea. Nonostante la bizzarria talvolta destabilizzante delle associazioni visualizzate, i singoli elementi sono pur sempre “già visti” (almeno “già visti” dall’AI, in quanto sono appunto esistenti). “Appare” qualcosa (ha notato Manovich) che va oltre la consuetudine tardomoderna del montaggio di frammenti che furono un tempo organici e sensati. Cosa sia questo qualcosa, ancora non è possibile vaticinarlo.

Ma si può supporre che l’innegabile fascino dialetticamente connesso alle e-mmagini derivi proprio dalla zona di indistinzione che esse finiscono col produrre fra l’ambito linguistico e l’ambito visuale. Nella sua forma più semplice, questa indistinzione si connette al poter avere nozione di qualcosa (ambito linguistico, astratto) e di poterla quasi subito visualizzare in tante versioni differenti (ambito delle immagini, concreto). Certo, si tratta di una indistinzione su cui hanno sempre lavorato gli artisti (sebbene la si sia teorizzata solo raramente); ma, ecco, oggi è disponibile a chiunque, o quasi.

Un’altra riflessione connessa al rapporto parola/immagine riguarda il singolare ribaltamento che nelle e-mmagini si attua rispetto ai meme (su cui recentemente ha pubblicato un saggio stimolante Valentina Tanni)12. Il ribaltamento consiste nel fatto che molto spesso un meme è costruito a partire da un’immagine, a cui viene aggiunta una frase, una headline, una tag-line. (Mi riservo di sviluppare questa riflessione in un’altra sede).

Kosuth incontra Cézanne

Sublime sciamanoide
L’apparizione delle e-mmagini sembra proporre un salto “mediologico” analogo a quello prodotto dalla fotografia. Ancora non sappiamo in che senso, ovviamente.

Ma alcune ulteriori problematiche sembrano già profilarsi. Per dirne una, come distinguere una “vera” immagine da un’e-mmagine “falsa”, fake? Ipotetiche risposte assai diverse a questo genere di interrogativi deriveranno dagli sviluppi della diffusione di queste pratiche. Questi software diverranno “per tutti”, oppure si limiteranno a essere un sofisticato nuovo strumento di intervento sul visivo da parte di specialisti? Superata la fase attuale di curiosità e di sperimentazione, si svilupperà davvero quello che Manovich definisce un Dall-e-ism, qualcosa come una nuova avanguardia di massa?

Tuttavia, mi interessa qui mettere in rilievo un elemento estremamente significativo. Le e-mmagini sono una nuova occorrenza della casistica dell’essere “soli con le macchine”. L’utente/produttore di immagini (o semi/produttore, si potrebbe dire) di solito sa molto poco del lavorio incluso nel software. L’apparato tecnico gli arriva dall’esterno, per così dire; l’intelligenza che ha sviluppato il software, le sue modalità d’azione, ecc. “risultano inglobati [notava Remo Bodei discutendo di alcuni passi di Georg Simmel] nella razionalità interna della macchina, in cui appaiono, letteralmente, come the ghost in the machine, spirito dentro la macchina […] oggettivato in essa”13.

Questa oggettivazione nei software è usualmente ignota, da parte degli utenti: ccome avrebbe detto Hans Blumenberg, conosciamo solo le procedure per metterli in azione14. Nel caso delle e-mmagini, resto estraneo cosa avvenga durante lo svolgimento della raccolta di dati, della loro indicizzazione, poi del loro esito visivo, ecc. Di conseguenza l’“apparizione” dell’e-mmagine sembra qualcosa di misterioso, un azzardo, un coup de dés.

Lo strapotere del medium nelle “immagini tecniche” (a cui ad esempio ha dedicato pagine indimenticabili Vilém Flusser)15 qui pare giungere a un nuovo picco. Letteralmente, le e-mmagini sembrano arrivare da “un altro luogo”. Un altro luogo simile in un certo senso al mundus imaginalis (a cui del resto accennava già Pierre Lévy negli anni Novanta)16. Ma un altro luogo fatto di informazioni già esistenti “da qualche parte”, e che “qualcuno” (o più probabilmente un algoritmo fornito di parametri che “qualcuno” o un altro algoritmo, ecc.) ha implementato. L’emergere dell’ennesima versione di qualcosa come un “sublime” prodotto più o meno direttamente da una seconda (o terza, o appunto ennesima) “natura” sembra dunque imminente.

Secondo l’elaborazione filosofica a partire dal Settecento, il “più elevato”, cioè il sublime, si produce quando la nostra percezione è stressata da uno “spettacolo” che per la sua grandezza e/o la sua forza eccede la capacità del nostro sensorio. Per Kant, infatti, il sublime poteva essere suscitato solo dallo “spettacolo” della Natura.

Ma la tecnica, si sa, produce fascinazione e angoscia. (Una specifica preoccupazione è oggi connessa proprio alla “misteriosa” potenza dell’AI). E certo, non una singola e-mmagine, ma il già sterminato oceano delle e-mmagini, nel loro complesso, produce un neo-sublime. Improvvisamente, per il tramite del software ognuno di noi si trova a scatenare un’impensabile potenza generativa di immagini. È una manifestazione dell’attuale “attitudine sciamanoide”. Anzi, ne è l’esibizione più pertinente, forte, fascinosa e inquietante.

L’esperienza di alcuni decenni di digitale ci ha insegnato che l’utente generico non desidera tanto un aumento di sapere (connesso a una “intelligenza collettiva”) quanto un aumento di espressività, di “presenza nel mondo”, di formazioni neo-mitologiche. L’ipotetica diffusione capillare dell’uso di questi software contribuirebbe all’interminabile eruzione di immagini già in corso da alcuni decenni. E-mmagini personalizzate (sebbene stereotipate, come accennato), visualizzazioni transitorie di emozioni, fantasticherie visive d’un inquieto “sublime sciamanoide”. 

Del resto, chi ha evocato una stramba e-mmagine perché non dovrebbe evocarne altre, a volontà? Apocalisse estetica, implosione interminabile. Dovremo dire che con le e-mmagini comincia un postdigitale, così come i telefonini decretarono l’avvento della postfotografia? 

Staremo a vedere. Ci penseremo. Get ready for Dall-e-ism, siamo pronti per il “Dall-e-ismo”. O l’e-mmaginismo.

1. https://www.wired.it/article/come-funzionano-dall-e-2-e-gli-altri-algoritmi-artistici/? fbclid=IwAR3RDGG5t_iJ5WqdjK75fu-dcDwOzPXJACdendkoFmQxo0hlpKUipXTpxHs. Cfr. https:// synapsesymposium.ai/.

2. Erwan Cario, L’intelligence artificielle, trop humaine pour être honnête, 26 luglio 2022, liberation.fr/idees-et-debats/lia- trop-humaine-pour-etre-honnete-20220726_TOQTGFXIF5DXBEXHRLG4B72WOE/?utm_medium=Social&xtor=CS7-51- &utm_source=Twitter#Echobox=1658851847-1.

3. Cfr. Jacques Derrida, Spettri di Marx. Stato del debito, lavoro del lutto e nuova Internazionale [Spectres de Marx. L’Etat de la dette, le travail du deuil et la nouvelle Internationale, 1993], Raffaello Cortina Editore, Milano 1994. Sulla nozione cfr.
Mark Fisher, The weird and the eerie. Lo strano e l’inquietante nel mondo contemporaneo [The Weird and the Eerie, 2017], Minimum Fax, Roma 2018; Id., Spettri della mia vita. Scritti su depressione, hauntologia e futuri perduti [Ghosts of My Life: Writings on Depression, Hauntology and Lost Futures, 2014], Minimum Fax, Roma 2019.

4. Qui e in altri passi del presente testo si fa riferimento a interventi di Manovich su Facebook.

5. Federico Cabitza, Deus in machina? L’uso umano delle nuove macchine, tra dipendenza e responsabilità, in Luciano Floridi – Federico Cabitza, Intelligenza artificiale. L’uso delle nuove macchine, Martini Lecture, Giunti-Bompiani, Firenze – Milano 2021, p. 30. Qui Cabitza fa riferimento alle argomentazioni di Raymond Kurzweil.

6. Cfr. Ruggero Eugeni, Capitale algoritmico. Cinque dispositivi postmediali (più uno), Scholé, Brescia 2021.

7. Elisabetta Di Stefano, Zeusi e la bellezza di Elena, in “Fieri. Annali del Dipartimento di Filosofia Storia e Critica dei Saperi”, giugno 2004, p. 77, disponibile online (https://www.academia.edu/388886/Zeusi_e_la_bellezza_di_Elena).

8. Sulla questione, rinvio intanto a https://ai.facebook.com/blog/greater-creative-control-for-ai-image-generation/. I riferimenti a Manovich presenti in qu

9. Francesco D’Isa, La rivoluzione degli algoritmi nel mondo dell’arte, https://www.iltascabile.com/scienze/arte-algoritmi/? fbclid=IwAR0vkj4jSV2filFl8F6uF2utfFjDeev6cNV0nHC20N2Wu3uDEILp27IVp-M.

10. Sul Terzo Stato Estetico cfr. il mio Nuvole sul grattacielo. Saggio sull’apocalisse estetica, Quodlibet, Macerata 2022.
Altre nozioni qui utilizzate (“postcontemporaneo”, “attitudine sciamanoide”, “cerimonia del me/mondo”) sono tematizzate in quel volume.

11. Sono due esempi usati in Nuvole cit. In quel saggio si analizzano varie questioni concernenti l’onnipresenza degli archivi, degli atlanti, dei database. Sul tema dei database risultano essenziali le riflessioni di Lev Manovich, Il linguaggio dei nuovi media [The Language of New Media, 2001), Olivares, Milano 2012; Id., Software culture [Software Takes Command, 2010], Milano 2010. Sul tema della documentazione, cfr. vari saggi di Maurizio Ferraris, in particolare Documentalità. Perché è necessario lasciar tracce, Laterza, Roma-Bari 2009 e Documanità. Filosofia del mondo nuovo, Laterza, Roma-Bari 2021.

12. Valentina Tanni, Memestetica. Il settembre eterno dell’arte, Nero, Roma 2020. Fra l’ormai vasta bibliografia di testi dedicati alla produzione dei fan e dei prosumer, cfr. almeno il classico Henry Jenkins, Cultura convergente [Convergence culture. Where Old and New Media Collide, 2006], Apogeo, Milano 2007.

13. Remo Bodei, Tempi e mondi possibili. Arte, avventura, straniero in Georg Simmel, in “aut aut”, 257, settembre-ottobre 1993, pp.64-65.

14. Cfr. Hans Blumenberg, Le realtà in cui viviamo, [Wirklichkeiten in denen wir leben, 1981], Feltrinelli, Milano 1987, p. 85.

15. Fra i numerosi suoi testi, cfr. Vìlém Flusser, La cultura dei media, [Medienkultur, 1997], Bruno Mondadori, Milano 2004; Id., Per una filosofia della fotografia, [Für eine Philosophie der Fotografie, 1983], Bruno Mondadori, Milano 2006; Id., Immagini. Come la tecnologia ha cambiato la nostra percezione del mondo [Ins Universum der technischen Bilder, 1995 ], Fazi, Roma 2009.

16. Cfr. Pierre Lévy, L’intelligenza collettiva. Per un’antropologia del cyberspazio [L’intelligence collective. Pour une anthropologie du cyberspace, 1994], Feltrinelli, Milano 1996.