Τα εργαλεία δημιουργίας εικόνων που χρησιμοποιούν την τεχνητή νοημοσύνη έχουν την τάση να αναπαράγουν προσβλητικά, απαρχαιωμένα στερεότυπα.
Οι Ασιάτισσες γυναίκες είναι πάντα υπερσεξουαλικοποιημένες – μια αναφορά στην κουλτούρα των manga και των anime, οι κρατούμενοι είναι πάντα έγχρωμοι άντρες, οι παραγωγικοί άνθρωποι είναι πάντα άντρες και φυσικά, λευκοί.
Η αναπαραγωγή των συγκεκριμένων στερεοτύπων προέρχεται από δεδομένα που χρησιμοποιούνται για την εκπαίδευση της ίδιας της τεχνολογίας. Αυτά τα δεδομένα που συλλέχθηκαν χωρίς ιδιαίτερο έλεγχο από το διαδίκτυο μπορούν να αποβούν ιδιαίτερα επικίνδυνα καθώς προωθούν μια ρατσιστική, μισογυνική και άκρως προβληματική ατζέντα.
Οι εταιρείες έχουν γίνει όλο και πιο μυστικοπαθείς σχετικά με το περιεχόμενο των βάσεων δεδομένων, εν μέρει επειδή το κείμενο και οι εικόνες που περιλαμβάνονται συχνά περιέχουν υλικό που προστατεύεται από πνευματικά δικαιώματα.
Ωστόσο, παρά τις προσπάθειες που γίνονται για την εξάλειψή τους, φαίνεται ότι τα εργαλεία αυτά ακόμη προωθούν σε μεγάλο βαθμό ξεπερασμένα δυτικά στερεότυπα.
Σύμφωνα με τον Christoph Schuhmann, συνιδρυτή της LAION – μιας μη κερδοσκοπικής εταιρείας που βρίσκεται πίσω από τη συλλογή δεδομένων που χρησιμοποιεί ένα από τα δημοφιλέστερα εργαλεία δημιουργίας εικόνων με χρήση AI, η Stable Diffusion – υποστηρίζει ότι οι γεννήτριες εικόνων αντικατοπτρίζουν φυσικά τον κόσμο των λευκών, καθώς η μη κερδοσκοπική εταιρεία δεν εστιάζει στην Κίνα και την Ινδία, απ’ όπου μάλιστα προέρχεται το μεγαλύτερο ποσοστό χρηστών του διαδικτύου.
«Το εργαλείο θα σας δώσει μια στερεοτυπική απεικόνιση βασισμένη στο νοητικό μοντέλο του μέσου Αμερικανού και Ευρωπαίου ανθρώπου. Δεν χρειάζεστε πτυχίο στην επιστήμη ανάλυσης δεδομένων για να το συμπεράνετε αυτό», δηλώνει ο Schuhmann.
Καθώς οι τεχνητές εικόνες που δημιουργούνται με χρήση AI καταλαμβάνουν τον κυβερνοχώρο με ταχύτατο ρυθμό, ένα κύμα αναβίωσης ξεπερασμένων και προσβλητικών στερεοτύπων βρίσκεται προ των πυλών.
Όπως το ChatGPT, τα εργαλεία παραγωγής εικόνων μέσω AI «μαθαίνουν» για τον κόσμο μέσω γιγαντιαίων βάσεων δεδομένων. Η διαφορά έγκειται στο ότι αντί για δισεκατομμύρια λέξεις, τροφοδοτούνται με δισεκατομμύρια ζεύγη εικόνων και τις απαραίτητες λεζάντες, που επίσης συλλέγονται από τον ιστό.
Οι εταιρείες έχουν γίνει όλο και πιο μυστικοπαθείς σχετικά με το περιεχόμενο αυτών των βάσεων δεδομένων, εν μέρει επειδή το κείμενο και οι εικόνες που περιλαμβάνονται συχνά περιέχουν υλικό που προστατεύεται από πνευματικά δικαιώματα. Ωστόσο, η Stable Diffusion και η LAION, όντως έργα ανοικτού κώδικα (open source), επιτρέπουν σε τρίτους να επιθεωρήσουν λεπτομέρειες του μοντέλου.
Ο διευθύνων σύμβουλος της Stability AI, Emad Mostaque, δήλωσε ότι η εταιρεία του θεωρεί τη διαφάνεια ως το κλειδί για τον έλεγχο και την εξάλειψη των στερεοτύπων.
Οι εικόνες της LAION, όπως και πολλών άλλων βάσεων δεδομένων, επιλέγονται επειδή περιέχουν κώδικα alt-text, ο οποίος βοηθά το λογισμικό να περιγράφει εικόνες σε τυφλούς ανθρώπους. Αν και ο κώδικας alt-text είναι φθηνότερος και πιο εύκολος στην χρήση από την προσθήκη λεζάντας, είναι και πιο αναξιόπιστος. Μπορεί να περιέχει προσβλητικές περιγραφές και άσχετους όρους που προορίζονται να βοηθήσουν τις εικόνες να κατατάσσονται ψηλά στην αναζήτηση.
Τα εργαλεία AI δημιουργούν εικόνες αντιστοιχίζοντας λέξεις και εικονοστοιχεία που κατατάσσονται ψηλά στην αναζήτηση. Έτσι όταν ζητείται από το εργαλείο να δημιουργήσει μια απεικόνιση ενός ελκυστικού ατόμου, το αποτέλεσμα είναι εικόνες λευκών, ανοιχτόχρωμων, λεπτών ατόμων με ευρωπαϊκά χαρακτηριστικά.
Αντίστοιχα, όταν ζητηθεί η εικόνα μιας «ευτυχισμένης οικογένειας» αυτό παράγει εικόνες χαμογελαστών, ετεροφυλόφιλων, λευκών ζευγαριών με τα παιδιά τους που ποζάρουν σε περιποιημένα γκαζόν.
Οι προσπάθειες για την «αποτοξίνωση» των εργαλείων έχουν επικεντρωθεί σε μερικές φαινομενικά γόνιμες παρεμβάσεις: το φιλτράρισμα των βάσεων δεδομένων, την τελειοποίηση των τελικών σταδίων ανάπτυξης και την κωδικοποίηση κανόνων για την άμεση αντιμετώπιση ζητημάτων που αφορούν την δημιουργία στερεοτυπικών εικόνων.
Σύμφωνα με την Stability AI θα ήταν ορθότερο κάθε χώρα να διαθέτει τη δική της «εθνική» γεννήτρια εικόνας, η οποία θα αντικατοπτρίζει τις εθνικές αξίες, με βάσεις δεδομένων που παρέχονται από την κυβέρνηση και τους δημόσιους φορείς.
Με στοιχεία από το The Washington Post.