L’évolution rapide des capacités opérationnelles de l’intelligence artificielle a ouvert deux voies principales (parmi d’autres) au créateur d’images photographiques : la possibilité d’élaborer à partir de la pensée (et non à partir d’une réalité physique objectivée par la réflexion de la lumière par un objet quelconque et l’insolation corrélative d’un récepteur photosensible) une image ayant l’apparence d’une photographie, d’une part ; la possibilité de transférer à la machine la réalisation d’opérations complexes, évolutives et/ou aléatoires en fonction de la nature de la production photographique, d’autre part. Nommons les choses dans leur apparente banalité : dans les deux cas, il s’agit de produire des images-représentations (au sens restreint, c’est-à-dire en deux dimensions) stables dans le temps et l’espace, reproductibles ou imitables, et transposables. Ces images-représentations sont destinées à être perçues par la vision naturelle dans un contexte spatial et culturel différent de celui qui a présidé à leur élaboration. À l’origine de celle-ci, on trouve l’intention de susciter l’émotion esthétique, soit comme but (l’art), soit comme moyen (religion, publicité, communication, illustration), ou de provoquer un trouble lié à l’identification primaire de l’objet représenté, comme dans une certaine photographie familiale (souvenirs heureux, présence de l’absent) et dans la pratique propagandiste (manipulation des esprits à des fins politiques, par exemple). Ces intentions, qui savent se cumuler, sont réputées existantes si, à une image donnée correspond un sujet la percevant, alors qu’il n’en est ni le concepteur, ni l’artisan, ni l’émetteur.
Autre banalité liminaire : pour être perçues comme photographiques, ces images-représentations doivent avoir l’apparence des photographies. Comment définir « l’apparence photographique » ? On admettra par principe que ni le format, ni la taille, ni la couleur n’en sont des éléments constitutifs et déterminants. On soutiendra ici que l’apparence photographique est conférée à l’image-représentation par la micro-structure physique qui permet de la distinguer de la peinture, et par l’agglomération de morceaux visuels considérés comme autant de paramètres permettant de limiter l’effet du soupçon d’invraisemblance et de favoriser la suspension momentanée de l’incrédulité. L’apparence photographique est supposée acquise si la vision naturelle de l’image-représentation ne permet pas de mettre en doute a priori l’existence d’un réel possible qui lui correspondrait. Plus la chose représentée est éloignée du monde réel du regardant, plus est grand le risque du doute a priori, plus l’élaboration de l’apparence photographique est complexe.
De la création d’images-représentations d’apparence photographique au moyen de l’IA : nommer la chose.
Observer un objet technologique nouveau impose quelques prémices au raisonnement, et c’est par l’exemple que l’on peut tenter de trouver le chemin. Début juillet 2023, le site d’une startup a publié un article de blog intitulé : « « Le futur de la photographie : Quand l’IA prend le relais » – Explorez le concept fascinant d’un appareil photo sans objectif ni capteur, mais capable de générer des images grâce à l’intelligence artificielle »[1]. On y trouve deux des biais qui viennent corrompre tout raisonnement à venir : nommer faussement la chose inconnue pour la rattacher à un domaine connu, et soumettre l’examen de cette même chose à un état psychologique particulier. Non, un appareil (au sens de « ensemble d’éléments constituant un tout et concourant à un même but ») qui ne comporte ni système optique centré convergent (un « objectif »), ni chambre noire, ni quelconque récepteur photosensible (pellicule photo ou capteur numérique), n’est pas un appareil photo. L’existence de la chose nouvelle étant avérée, elle ne peut être nommée identiquement à une chose qui lui est différente, tant dans sa conception qu’avec ses interactions avec les lois de la physique.
Par ailleurs, la fascination, attrait irrésistible et paralysant, ou attirance qui subjugue, range son objet au rang mystique de la chose à laquelle on ne peut que s’abandonner. L’abandon de soi est-il caractéristique d’une posture efficace dans une situation vouée à l’observation, la compréhension et (éventuellement) la prospective ?
Lauréat du prix Création des Sony World Photography Awards 2023, Boris Eldagsen[2] a posé les vraies données du problème. Que déclare-t-il après l’annonce de la sélection de son image par SWPA ? Je le cite[3] : « […] Après deux décennies de photographie, mon objectif artistique s’est déplacé vers l’exploration des possibilités créatives des générateurs d’IA. Le travail que SWPA a choisi est le résultat d’une interaction complexe d’ingénierie rapide, d’inpainting et de outpainting qui s’appuie sur ma richesse de connaissances photographiques. Pour moi, travailler avec des générateurs d’images IA est une co-création, dont je suis le réalisateur. Il ne s’agit pas d’appuyer sur un bouton – et c’est fait. Il s’agit d’explorer la complexité de ce processus, en commençant par affiner les invites de texte, puis en développant un flux de travail complexe et en mélangeant diverses plates-formes et techniques. Plus vous créez un tel flux de travail et définissez des paramètres, plus votre part créative devient élevée. […] J’appelle mes images « images ». Elles sont produites synthétiquement, utilisant « le photographique » comme langage visuel. Ce ne sont pas des « photographies« [4]. En participant à des appels ouverts, je souhaite accélérer le processus des organisateurs du prix pour prendre conscience de cette différence et créer des concours distincts pour les images générées par l’IA. […] »
Le même Boris Eldagsen nous informe que le photographe péruvien Christian Vinces a proposé un terme spécifique pour nommer cette forme d’images-représentations : la promptographie, de l’anglais to prompt, « inciter à, pousser à, pousser quelqu’un à faire quelque chose, aider quelqu’un à répondre en lui suggérant quelque chose ». Nommer la chose, c’est déjà la connaître, ou plutôt admettre son existence en tant que telle, et ainsi se donner la possibilité de la concevoir et de la distinguer parmi d’autres choses. Mais pour franchir certain seuil de compréhension, c’est-à-dire passer du constat à l’intelligence d’un environnement où cohabitent images-représentations photographiques et images-représentations promptographiques, il faut effectuer un déplacement du point de vue, en distance et en élévation.
L’approche humaniste et l’approche matérialiste de la création des images-représentations ne sont pas dissociables.
Qu’il s’agisse d’art ou de non-art, distinguons trois moments de la création d’une image-représentation : la décision de faire, le faire, le rendre perceptible. En photographie, le premier moment se termine par l’acte photographique, décision sanctionnée par le déclenchement de l’obturateur ; c’est la décision de couper (Dubois), dans un réel donné au sujet photographiant, ce qui semble relever de l’important à celui-ci. En promptographie, ce moment se termine lorsque le sujet considère que l’expression littéraire descriptive de l’image virtuelle et consciente produite par son imagination peut activer efficacement les calculs de probabilités de la machine-IA.
Alors commence le deuxième moment, celui du faire. Le terminus ad quo de ce moment, c’est l’entrée dans le laboratoire, le traitement numérique du signal généré par le capteur, le début des calculs de la machine-IA ; ce moment se termine quand le sujet créant juge satisfaisante la pertinence obtenue de l’image-représentation produite, évaluée en fonction de l’image-représentation prévisualisée. Plus ou moins long et laborieux, ce deuxième moment contient les opérations de masquage et de retouche (photographie argentique), de retouche (photographie numérique), de reformulation de la requête (promptographie). Relevons ici que le créateur mobilise certaines compétences qui sont communes aux deux pratiques (photographie et promptographie), mais dont la mise en œuvre ne s’opère pas dans le même moment. Ainsi, par exemple, la compétence de communication qui consiste à faire préciser la demande ou le désir d’image-représentation se situe au début du premier moment en photographie, alors qu’elle se situe tout au long du deuxième moment en promptographie. L’édition, ou monstration, est le troisième moment, celui du rendre perceptible l’image-représentation. La nature de ce moment ne dépend pas des caractéristiques de l’image-représentation (photographique ou promptographique), mais des moyens accessibles au créateur en vue de la publication, dont le modèle répond (en principe) aux objectifs primaires qu’il s’est fixé[5].
Brièvement et par commodité, considérons photographie et promptographie comme deux ensembles qui auraient en commun certains éléments. On ne trouverait dans l’ensemble de leur intersection que leurs éléments « humanistes » : désir d’image d’apparence photographique, jugement porté par l’auteur sur la pertinence du résultat, perception du sujet regardant. Or tous les éléments de ces deux ensembles sont des lois (au sens général) et des opérations. Celles-ci sont distribuées dans un certain ordre et leur mise en œuvre répond à une logique modale activée par l’auteur puis par le sujet regardant. Dans les deux cas, « […] ce qui juge en définitive de la photographie, c’est toujours la relation du photographe à sa technique »[6], que je me permets de paraphraser : ce qui juge en définitive de la création d’une image-représentation d’apparence photographique, c’est toujours la relation de son créateur à sa technique. Photographie et promptographie sont donc des dispositifs, qui contiennent par nature lois, moyens, opérateurs (Agamben). Les éléments d’un dispositif ne sont pas, par nature, dissociables, sauf à le rendre abstrait et improductif.
On peut différentier les dispositifs en fonction du degré de maîtrise de l’opérateur des lois et moyens inclus dans le dispositif dont il fait partie et auquel il se soumet.
Le dispositif photographique est un ensemble fini. J’utilise ce terme parce que la création de l’image-représentation photographique induit la soumission totale aux lois de la physique (lois de l’optique géométrique et de l’optique ondulatoire, chimie organique et minérale éventuellement) et la maîtrise d’un appareil (moyen contenu dans le dispositif) : chambre noire, obturateur, diaphragme, matériel de laboratoire, ordinateur et logiciels applicatifs. De surcroît, le dispositif photographique contient des lois juridiques, des principes moraux et des circonstances ; autant d’éléments dont la variabilité n’a d’égal que la capacité de l’opérateur à s’y soumettre ou à les transgresser. Au sein du dispositif photographique, les choix de l’opérateur sont conditionnés par les limites (ce qui ne signifie pas que celles-ci ne puissent être franchies). L’action menée par l’opérateur ne modifie en rien la nature des éléments du dispositif.
Le dispositif promptographique n’est pas un ensemble fini. En effet, l’action de l’opérateur est constitutive de l’évolution des capacités de la machine-IA à élaborer la réponse à une requête. L’organisation et la nature des termes du prompt induisent obligatoirement une modification des calculs de probabilités, la direction des recherches dans le stock des données disponibles (donc influent sur la nature des propositions), et acquièrent le statut de nouvelles données utilisables par la machine-IA. Maîtriser la langue qui permet à la machine-IA d’exploiter au mieux les données disponibles est un préalable à l’obtention d’un résultat jugé comme pertinent par l’opérateur. « Promptographier », c’est opérer à la construction sans fin d’une incertitude mouvante.
Du style, ou de la manière de diluer l’art dans la loi des grands nombres.
Approchons de plus près le second domaine cité plus haut, la possibilité de transférer à la machine-IA la réalisation d’opérations complexes, évolutives et/ou aléatoires en fonction de la nature de la production photographique. On parle ici, essentiellement, du traitement des photographies numériques. De quoi s’agit-il ? Le photographe alimente la machine-IA en fournissant chacune de ses photographies en deux versions : un fichier non traité et un fichier traité par ses soins qui lui correspond. À partir de la reconnaissance des éléments iconiques présents dans les images et des métadonnées liées au fichier, notamment celles qui correspondent aux opérations de traitement menées par le photographe au moyen d’un logiciel applicatif identifié, la machine-IA conçoit un modèle de traitement spécifique à ce photographe et aux images qu’il produit. Une fois ce premier travail effectué, le photographe confiera ses images non traitées à la machine-IA, afin que celle-ci opère à sa place au traitement, en fonction du modèle préétabli. On comprend que, compte tenu de la nature du fonctionnement de la machine-IA, plus le nombre des « images-témoins » est grand, plus la probabilité de pertinence du modèle fourni est grande. On parle ici de la nécessité de fournir plusieurs milliers d’images à la machine-IA pour aboutir à un modèle pertinent.
Le questionnement ne se situe pas dans la capacité de la machine-IA à parvenir au résultat demandé, mais dans un registre beaucoup moins trivial. Car le traitement du fichier image produit par le photographe, partie de son processus de création, est représentatif de son style. Pour faire court, le style est l’ensemble des moyens d’expression qui traduisent de façon originale les pensées, les sentiments, toute la personnalité d’un auteur. Une des promesses des services proposés par la machine-IA est sa capacité à reproduire le style du photographe, donc d’intégrer à un modèle une partie au moins de ce qui constitue l’originalité de la personnalité du créateur.
Certains photographes ont déjà (au moins intellectuellement) opéré à ce choix mécaniste. On sait combien certaines tâches du moment du faire peuvent être pénibles, mentalement et physiquement. On sait aussi que le progressisme sait être convaincant : depuis l’invention du marteau et de la roue, l’outil, gage d’une efficacité accrue, libère le temps qui sera consacré à des tâches jugées plus importantes ou trop négligées jusqu’alors. On n’a pas oublié l’organisation de l’atelier du peintre de la Renaissance ou de l’âge classique, dans lequel le maître déléguait la réalisation des drapés ou des ciels. Mais en faisant un choix industriel, le photographe admet qu’une partie du dispositif dans lequel il s’inscrit est modélisable et prédictible.
Or le style (donc le caractère d’originalité) ne saurait exister sans une particularité dont l’IA générative[7] ne dispose pas : une ouverture vers d’autres possibles, l’évolution. L’invention est-elle modélisable ? Autrement dit, le photographe doit-il renoncer à cette partie de lui-même qui interagit avec l’ensemble du dispositif photographique, admettant ainsi que cette partie de lui-même est transférable en tant que somme de données numériques ? Une partie du faire serait donc prévisible au lieu d’être spontanée. « Il faut s’adapter », disent déjà certains opérateurs du monde de la photographie : l’émergence de l’IA y est vécue comme la généralisation d’une innovation technologique aussi cruciale que celles qui ont provoqué les révolutions industrielles (ce qu’elle est probablement par nature) dont l’usage serait inéluctable, ce qui ne fait pas sens ni dans l’art, ni dans l’artisanat. Quand en 1523 Titien utilise pour Bacchus et Ariane la quasi-totalité des pigments alors disponibles, est-il en avance par rapport à Renoir qui, trois siècles et demi plus tard, n’en emploie que sept pour peindre La Seine à Chatou (1879-1880) ? Il en est ainsi de la notion de progrès, élastique, fluctuante et fracturante. L’histoire de la photographie (artistique ou artisanale) a montré que le dispositif photographique s’accommode du passage de l’atelier à la manufacture et de la division des tâches au sein du processus de fabrication : la multitude des métiers[8] qui ont existé, évolué, parfois disparu, dans le domaine de la photographie en est le témoin. L’adoption de l’IA n’est pas ici l’évolution naturelle d’un outil informatique déjà largement utilisé, et dont la maîtrise est sanctionnée par une suite de décisions, parmi lesquelles celle de changer d’avis n’est pas la moindre. Dans les conditions mentionnées plus haut, l’adoption de l’IA correspond à la délégation du choix, posture caractéristique du déroulement d’un processus spécifiquement humain.
« Certes, mais j’ai une objection : si le résultat, pour certains traitements produits par la machine-IA, ne me convient pas, je peux soit reprendre ce traitement moi-même, soit demander à la machine-IA d’élaborer un autre modèle !
– Oui, mais alors tu vas devoir, soit débourser à nouveau de l’argent (ta seconde solution), soit à nouveau consacrer au traitement le temps que tu souhaitais réserver à d’autres tâches (ou les deux).
– Tout ça peut être organisé, mesuré.
– C’est vrai, mais il reste deux choses au moins que tu ne peux pas mesurer: comment ton métier sera perçu désormais par tes clients (pas grave, hein, un client ça se remplace), et le devenir de cette partie de toi transformée en données.
– Je ne suis pas le jouet du système. Mes données sont protégées, et je reste indépendant !
– Ok, ok… Paulo, remets-nous ça ! »
Pour terminer, regardons ailleurs. De ces photographies dites « esthétiques » produites par la grande machine à fabriquer du visuel, donc données (substantif et attribut), Fabrice Midal nous en dit « [qu’]Il nous faut apprendre [qu’elles] ne montrent rien du monde – elles prétendent même qu’il est uniforme d’un bout à l’autre de la Terre, lisse et sage comme un coucher de soleil sur papier glacé.[9] » Gageons qu’il existe des photographies qui ne sont pas données. Peut-être s’agit-il de celles dont parle Henri Vanlier dans sa Philosophie de la Photographie[10] : celles qui contiennent ce qu’il nomme effets de champ. « Ce sont des « visions », des « optiques », des manières tout à fait fondamentales de saisir l’espace-temps, et qui consistent en des taux, singuliers pour chaque individu, d’ouverture-fermeture, de souplesse-rigidité, de volume-glissement, d’enveloppement-juxtaposition, etc., par quoi Rabelais, Beethoven ou Picasso sont presque toujours d’emblée reconnaissables, mais aussi la plupart des individus quelconques […]. » Il y a bel et bien une alternative : l’essence ou la donnée.
[1] https://www.starofservice.com/blog/le-futur-de-la-photographie-quand-lia-prend-le-relais-explorez-le-concept-fascinant-dun-appareil-photo-sans-objectif-ni-capteur-mais-capable-de-generer-des-images-grace-a-lintelligence/
[2] Boris Eldagsen est responsable du numérique de la Deutsche Fotografische Akademie et membre du groupe de travail sur l’IA du Deutscher Fotorat.
[3] https://www.eldagsen.com/sony-world-photography-awards-2023/
[4] C’est moi qui souligne.
[5] J’exclus de mon raisonnement, comme à mon habitude, le cas du créateur-unique regardeur dont la richesse psychopathologique m’échappe complètement (alors même que cette démarche est parfaitement respectable).
[6] Walter Benjamin : Petite histoire de la photographie, in Walter Benjamin : sur la photographie, Éditions Photosynthèses, Arles, 2012, p. 56. Traduit de l’allemand par Jörn Cambreleng.
[7] L’IA créatrice est un fantasme médiatique de ce début de XXIe siècle, donc hors de mon champ de réflexion.
[8] Au dictionnaire (CNRTL) : « Activité manuelle ou mécanique nécessitant l’acquisition d’un savoir-faire, d’une pratique. Occupation, profession utile à la société, donnant des moyens d’existence à celui qui l’exerce. »
[9] Fabrice Midal : La Photographie, Éditions du Grand Est, Mayet, 2007, p. 12.
[10] Henri Vanlier : Philosophie de la Photographie, Les Cahiers de la Photographie, Hors-série, 1983, p. 29 à 34.