Alexei Efros: Ο επιστήμονας που φέρνει τα…κάτω πάνω στη τεχνητή νοημοσύνη
Ο αποδέκτης του ACM 2016 Prize in Computing, γνωστός και ως «αλχημιστής» της εικόνας, που μελετά την TN από κάτω προς τα πάνω και που επιτρέπει στους υπολογιστές να κατανοούν οπτικά τον κόσμο χωρίς ανθρώπινη βοήθεια.
Μετά από πολλές δεκαετίες εστίασης στους αλγόριθμους, η κοινότητα της τεχνητής νοημοσύνης είναι επιτέλους έτοιμη να αποδεχθεί τον κεντρικό ρόλο των δεδομένων και των μοντέλων υψηλής χωρητικότητας που μπορούν να εκμεταλλευτούν αυτά τα δεδομένα.
Αλλά όταν οι άνθρωποι μιλούν για “AI”, συχνά εννοούν πολύ διαφορετικά πράγματα που ξεκινούν από πρακτικές εφαρμογές (όπως αυτόνομα οχήματα, ιατρική απεικόνιση, ρομπότ, επεξεργασία εικόνας/βίντεο) και φτάνουν σε μοντέλα ανθρώπινης γνώσης και συνειδητότητας.
Επομένως, ίσως είναι χρήσιμος ένας διαχωρισμός της τεχνητής νοημοσύνης σε δύο μορφές, στην τεχνητή νοημοσύνη από πάνω προς τα κάτω (top-down) και στην τεχνητή νοημοσύνη από κάτω προς τα πάνω (bottom-up).
Στη δεύτερη εστιάζει ο Ρωσοαμερικανός Alexei (Alyosha) Efros που είναι καθηγητής στο τμήμα Ηλεκτρολόγων Μηχανικών και Επιστήμης Υπολογιστών του UC Berkeley, αλλά και ο αποδέκτης του Βραβείου ACM 2016 στην Επιστήμη των Υπολογιστών. Η δουλειά του καθηγητή επικεντρώνεται στην υπολογιστική όραση που βασίζεται σε data και στη διασταύρωσή της με τα γραφικά υπολογιστών και την υπολογιστική φωτογραφία.
Ο Efros ερευνά επίσης τη ρομποτική, τη μηχανική μάθηση και τη χρήση της υπολογιστικής όρασης στις ανθρωπιστικές επιστήμες.
Όπως εξηγεί, ο στόχος της τεχνητής νοημοσύνης από πάνω προς τα κάτω είναι να μιμηθεί ή να υπερβεί την ανθρώπινη απόδοση σε ένα συγκεκριμένο έργο, όπως είναι η επισήμανση εικόνων, η οδήγηση ή η δημιουργία κειμένου.
Σε αυτή την περίπτωση η λειτουργία της καθορίζεται είτε από δεδομένα με σαφείς ετικέτες (εποπτευόμενη μάθηση), είτε από ένα σύνολο κανόνων ή από ένα σύνολο δημιουργημάτων του ανθρώπου, όπως π.χ. το GPT3.
«Επομένως, η τεχνητή νοημοσύνη από πάνω προς τα κάτω είναι αναγκαστικά υποκειμενική και ανθρωποκεντρική. Είναι το πεδίο όπου έχουμε δει τις περισσότερες προόδους μέχρι σήμερα», σχολιάζει ο καθηγητής, καθισμένος σε μια αίθουσα γεμάτη δημοσιογράφους στο Νέο Πανεπιστήμιο της Χαϊδελβέργης, της ειδυλλιακής γερμανικής πόλης όπου κάθε χρόνο λαμβάνει χώρα στα τέλη Σεπτεμβρίου η ετήσια “πνευματική ανταλλαγή”- θεσμός μεταξύ διαφορετικών γενεών επιστημόνων από το πεδίο των Μαθηματικών και της Πληροφορικής, το Heidelberg Laureates Forum 2023 (HLF).
Αυτοδίδακτη τεχνητή νοημοσύνη
Μότο του καθηγητή Efros είναι το “slow science” (αργή επιστήμη):
«Όλα κινούνται πολύ γρήγορα στην επιστήμη αλλά νομίζω πως υπάρχει ακόμη χώρος για όσους από μας επιθυμούν να το πάνε πιο αργά. Για αυτό προσπαθώ να ασχολούμαι με πεδία που είναι λιγότερο δημοφιλή και που δεν έχουν τόσο μεγάλο ανταγωνισμό.
Αυτό μου επιτρέπει να πηγαίνω πιο αργά. Δεν με απασχολεί να έχω μια δημοσίευση απαραίτητα κάθε χρόνο και δεν το βρίσκω ιδιαίτερα κακό. Πάντα ψάχνω πτυχές στις οποίες μπορώ να συνεισφέρω και πηγαίνω προς περιοχές όπου έχεις την αίσθηση πως αν δεν πας εσύ, δεν θα πάει κανένας άλλος γιατί δείχνουν ασήμαντες».
Για αυτό ο καθηγητής, όπως λέει, δεν επιλέγει τον εύκολο δρόμο στο deep learning, για παράδειγμα, αλλά εργάζεται τώρα σε ένα πεδίο που, σύμφωνα με τον ίδιο, δεν έχει μελετηθεί επαρκώς, στην τεχνητή νοημοσύνη από κάτω προς τα πάνω (bottom- up), η οποία στοχεύει να αγνοήσει τους ανθρώπους και τις ετικέτες τους.
Ο μόνος στόχος της είναι να προβλέψει τον περιβάλλοντα κόσμο με δεδομένα αισθητηριακών εισροών (παθητική και ενεργητική). Και παρότι ο ίδιος δεν το βλέπει και τόσο ρεαλιστικό, δεν διώχνει την ελπίδα ότι μελλοντικά μπορεί μα αναδυθεί ένα γενικά «φρέσκο» πεδίο.
«Η αυτο-εποπτευόμενη μάθηση (αυτόνομη μάθηση με χρήση τεχνητών νευρωνικών δικτύων που δεν απαιτεί δειγματοληπτικά δεδομένα ταξινομημένα εκ των προτέρων από ανθρώπους) σε ακατέργαστα αισθητηριακά δεδομένα, τα διάφορα παραγωγικά μοντέλα όπως το generative adversarial network (GAN) και τα ενδογενή κίνητρα (intrinsic motivation), όπως π.χ. η περιέργεια είναι όλες απόπειρες τεχνητής νοημοσύνης από κάτω προς τα πάνω», συμπληρώνει ο καθηγητής.
Οι αυτο-εποπτευόμενοι αλγόριθμοι ουσιαστικά δημιουργούν κενά στα δεδομένα και ζητούν από το νευρωνικό δίκτυο να τα συμπληρώσει.
Σε ένα μεγάλο γλωσσικό μοντέλο για παράδειγμα, ο αλγόριθμος εκπαίδευσης θα υποδείξει στο νευρωνικό δίκτυο τις πρώτες λίγες λέξεις μιας πρότασης και θα του ζητήσει να προβλέψει τις επόμενες. Όταν το μοντέλο εκπαιδεύεται με ένα τεράστιο σώμα κειμένου που έχει συλλεχθεί από το διαδίκτυο, φαίνεται να μαθαίνει τη συντακτική δομή της γλώσσας, επιδεικνύοντας εντυπωσιακή γλωσσική ικανότητα και όλα αυτά χωρίς ετικέτες ή επίβλεψη.
«Στη ρομποτική επίσης, κανείς δεν ασχολείται για παράδειγμα, με ρομποτικά συστήματα που δεν χρειάζεται να κάνουν ό,τι τους λένε οι άνθρωποι. Τα καλύτερα ρομπότ είναι αυτά που μαθαίνουν μόνα τους παρά εκείνα που διδάσκονται κάτι από κάποιον.
“Self knowledge is the more powerful knowledge than given to you by the teacher”(σε ελεύθερη απόδοση=η γνώση που κατακτά κάποιος μόνος του είναι πιο δυνατή από αυτή που του διδάσκουν)», λέει ο καθηγητής Efros συμπληρώνοντας πως ενώ το top-down AI «βασιλεύει» επί του παρόντος στη βιομηχανία και στον ακαδημαϊκό κόσμο, η εστίασή του στη μίμηση των ανθρώπων αποτελεί ταυτόχρονα τον κύριο περιορισμό του.
«Ως έφηβος της ΕΣΣΔ στη δεκαετία του 1980 έκανα πολλή παρέα με νέους φυσικούς μιλώντας για υπολογιστές. Ένας από αυτούς έδωσε έναν ορισμό της τεχνητής νοημοσύνης που εξακολουθώ να τον θεωρώ ως τον πιο συναρπαστικό:
“Τεχνητή νοημοσύνη δεν είναι όταν ένας υπολογιστής μπορεί να γράψει ποίηση. Τεχνητή νοημοσύνη είναι όταν ένας υπολογιστής θέλει να γράψει ποίηση”. Σύμφωνα με αυτόν τον ορισμό, αν θέλουμε να φέρουμε πιο κοντά στο δεύτερο την τεχνητή νοημοσύνη υποπτεύομαι ότι θα χρειαστεί να ξεκινήσουμε από κάτω προς τα πάνω», εκτιμά ο καθηγητής. Και η ερώτηση που προκύπτει αυθόρμητα είναι αν θα υπάρξει ποτέ τεχνητή νοημοσύνη που θα «γράψει» ποίηση: «Προσωπικά πιστεύω ότι η γνώση για το ΑΙ που έχουμε τώρα στα χέρια μας, και την οποία κακώς διατυμπανίζουμε, δεν αρκεί για να γράψει ποίηση».
Ο «Αλχημιστής» της εικόνας
Ο καθηγητής Alexei A. Efros είναι παθιασμένος με την κατανόηση, τον επαναπροσδιορισμό και την αναδημιουργία οπτικά του κόσμου γύρω μας, για αυτό και συχνά του αποδίδεται ο χαρακτηρισμός του «αλχημιστή» της εικόνας.
«Ένας από τους τομείς εστίασής μου είναι η χρήση μεγάλου όγκου οπτικών δεδομένων για να επιτρέψω στους υπολογιστές να αναπτύξουν τη δική τους οπτική κατανόηση του κόσμου-χωρίς καμία ανθρώπινη βοήθεια-με όρους όρασης και δράσης αντί με λέξεις, συνδέοντας τα πράγματα οπτικά με τον ίδιο σχεδόν τρόπο που συνδέουμε τώρα τα πράγματα με τις λέξεις.
Προσπαθούμε να απομακρυνθούμε από τη γλωσσική περιγραφή των σχέσεων των πραγμάτων με το περιβάλλον τους και με μια συγκεκριμένη εργασία. Εξάλλου, η όραση, σε αντίθεση με τη γλώσσα, είναι κοινή σχεδόν σε όλα τα ζώα. Ένα ποντίκι δεν χρειάζεται να ξέρει ότι κάτι λέγεται «γάτα», καλύτερα να μπορεί να προβλέψει τι πρόκειται να κάνει αυτό που βλέπει (τη γάτα) στη συνέχεια», περιγράφει ο ίδιος.
Ο καθηγητής είναι πρωτοπόρος στο συνδυασμό της δύναμης τεράστιων συνόλων δεδομένων εικόνων που προέρχονται από το διαδίκτυο με αλγόριθμους μηχανικής μάθησης για την προώθηση ισχυρών μετασχηματισμών εικόνας.
Έχει επίσης συνεισφέρει θεμελιωδώς στη σύνθεση υφής (texture synthesis), μιας τεχνικής που άνοιξε νέους ορίζοντες στα γραφικά υπολογιστών και που χρησιμοποιήθηκε ευρέως στη βιομηχανία ταινιών.
Η σύνθεση υφής είναι η διαδικασία της αλγοριθμικής κατασκευής μιας μεγάλης ψηφιακής εικόνας από ένα μικρό ψηφιακό δείγμα εικόνας, αξιοποιώντας το δομικό της περιεχόμενο.
Εξαιτίας της και συγκεκριμένα εξαιτίας της εργασίας με τίτλο: “Texture synthesis by non-parametric sampling” που συνέγραψε με τον Thomas K. Leung, ο καθηγητής Efros κέρδισε για πρώτη φορά ευρεία αναγνώριση στον τομέα των γραφικών υπολογιστών το 1999.
Του ίδιου του αρέσει η χρήση τεχνικών που βασίζονται σε δεδομένα για την αντιμετώπιση προβλημάτων που είναι πολύ δύσκολο να μοντελοποιηθούν παραμετρικά αλλά όπου μεγάλες ποσότητες δεδομένων είναι άμεσα διαθέσιμες.
Οι Efros και Leung έδειξαν μια νέα «μη παραμετρική» προσέγγιση που θα μπορούσε να χρησιμοποιηθεί για την εύκολη παραγωγή οπτικά ελκυστικών υφών. Αυτή η μη παραμετρική μοντελοποίηση ήταν «επαναστατική», είχε περισσότερες από 3000 ετεροαναφορές και ωφέλησε τη βιομηχανία της ψυχαγωγίας, όπου οι γνώσεις του Efros χρησιμοποιήθηκαν σε τρισδιάστατα γραφικά υπολογιστή, στη ψηφιακή επεξεργασία εικόνας και στη μεταπαραγωγή ταινιών.
Ο Alexei Efros βρίσκει συνεχώς πρωτοποριακούς τρόπους κατανόησης και δημιουργίας εικόνων, όπως είναι η πρωτοποριακή ανάπτυξη αλγορίθμων για τη σάρωση τεράστιων συλλογών φωτογραφιών από το διαδίκτυο.
Για παράδειγμα το 2008 στη μελέτη με τίτλο: “Scene Completion Using Millions of Photographs” παρουσίασε έναν αλγόριθμο που διορθώνει “τρύπες” σε εικόνες εντοπίζοντας παρόμοιες εικόνες μέσα από μια βάση δεδομένων με εκατομμύρια φωτογραφίες που συγκεντρώθηκαν από το διαδίκτυο. Αυτή η προσέγγιση ήταν επαναστατική και σήμερα οι ερευνητές χρησιμοποιούν τακτικά τους αλγόριθμους για τη σάρωση εκατομμυρίων εικόνων που προέρχονται από ποικίλες πλατφόρμες για έρευνα.
Σε μια άλλη εργασία με τίτλο: “Colorful Image Colorization,” ανέπτυξε ένα αλγόριθμο που μετατρέπει αυτόματα τις ασπρόμαυρες φωτογραφίες σε έγχρωμες, ενώ σε μια άλλη προσέγγιση μηχανικής όρασης (“What Makes Paris Look Like Paris?”) εκπαίδευσε ένα λογισμικό να αναγνωρίζει πόλεις από την ξεχωριστή αρχιτεκτονική τους.
Μας ενδιαφέρει το πώς μαθαίνουν οι άνθρωποι
Ο καθηγητής σε ένα γενικό πλαίσιο δηλώνει “evolutionist” και όχι “creationist” και ισχυρίζεται πως κακώς συγκρίνουμε τους υπολογιστές με το ανθρώπινο μυαλό και την ανθρώπινη εξέλιξη με την εξέλιξη των υπολογιστών:
«Σε αυτή τη σύγκριση νικά πάντα η εξέλιξη του ανθρώπου. Πάρτε ως παράδειγμα, τον κορωνοιό. Την ταχύτητα των μεταλλαγών του ιού ούτε καν μπορεί να την προβλέψει ένα κομπιούτερ. Δεν έχουμε άμυνα απέναντι στη φυσική (βιολογική) εξέλιξη. Είμαστε ό,τι είμαστε ως άνθρωποι καθοδηγούμενοι από τη δύναμη της εξέλιξης. Πιστεύω ότι μια μέρα φυσικής εξέλιξης σε ολόκληρο τον πλανήτη ισοδυναμεί με χιλιάδες χρόνια εξέλιξης στους υπολογιστές!». Ρωτάω τον καθηγητή αν θεωρεί πως η τεχνητή νοημοσύνη απειλεί την ανθρωπότητα και μου απαντά πως υπάρχουν άλλες πιο σοβαρές απειλές:
«Ο πόλεμος στην Ουκρανία μας απειλεί περισσότερο, απειλεί τη δημοκρατία (σ.σ. η συζήτηση έγινε πριν ξεσπάσει η κρίση στη Γάζα), το ίδιο και η βιοτρομοκρατία και η κλιματική αλλαγή. Ανησυχώ για αυτά που έρχονται και όχι τόσο για την τεχνολογία. Η τεχνολογία δεν έχει επαναστατικό χαρακτήρα, θα έλεγα έχει μάλλον εξελικτικό. Είναι μια αργή αλλαγή που με την κατάλληλη νομοθεσία, εκπαίδευση και Παιδεία μπορεί να γίνει διαχειρίσιμη». Για τον καθηγητή Efros, η «επανάσταση» στον τομέα του δεν είναι οι αλγόριθμοι, αλλά τα δεδομένα, ωστόσο αρνείται να κάνεις προβλέψεις, όχι γιατί είναι ριψοκίνδυνο αλλά γιατί δεν το θεωρεί ωφέλιμο:
«Προτιμώ να κάνω meta-predictions (μετα-προβλέψεις) και η αγαπημένη μου μετα-πρόβλεψη είναι η half knowledge (μισή γνώση). Πιστεύω ότι μέσα στα επόμενα χρόνια θα αντιληφθούμε ότι τα μισά από όσα μάθαμε ήταν λάθος. Και αυτό δεν είναι απαραίτητα κακό, είναι μάλλον φυσικό γιατί όποιες προβλέψεις επιχειρήσουμε να κάνουμε τώρα θα βασιστούν σε κάποιες υποθέσεις από τις οποίες δεν ξέρουμε ποιες θα διαψευστούν μελλοντικά και ποιες όχι».
Πηγή:dnews.gr