Η γενετική Τεχνητή Νοημοσύνη (AI), αν και δημιουργημένη από τον άνθρωπο, παραμένει ένα εν πολλοίς ανεξήγητο φαινόμενο, με τους μηχανικούς να αγωνίζονται να αποκρυπτογραφήσουν τη λειτουργία της προτού οι ικανότητές της εξελιχθούν ανεξέλεγκτα. Η έλλειψη πλήρους κατανόησης των δημιουργημάτων της AI προκαλεί ανησυχία, όπως επισημαίνει ο Ντάριο Αμοντέι, συνιδρυτής της Anthropic, τονίζοντας τον πρωτοφανή χαρακτήρα αυτής της άγνοιας στην ιστορία της τεχνολογίας.

Σε αντίθεση με τα παραδοσιακά προγράμματα, τα μοντέλα γενετικής AI αποτελούν μια δυναμική πλατφόρμα με απρόβλεπτες δυνατότητες. Ο Κρις Όλαχ, ερευνητής στην Anthropic και πρωτοπόρος της «μηχανιστικής ερμηνευσιμότητας», παρομοιάζει την AI με μια «σκαλωσιά» που χρήζει αποδόμησης για την κατανόηση της εσωτερικής της λειτουργίας.

Η νέα επιστήμη της μηχανιστικής ερμηνευσιμότητας, που αναπτύχθηκε από τα μέσα της δεκαετίας του 2010, επιδιώκει να αποκρυπτογραφήσει τη διαδρομή από ένα αίτημα στην απάντηση ενός μοντέλου AI, εξετάζοντας το πλήθος των πιθανών ενδιάμεσων βημάτων. Η κατανόηση ενός μεγάλου γλωσσικού μοντέλου, όπως αυτά που τροφοδοτούν εφαρμογές όπως το ChatGPT και το Gemini, αποτελεί ένα εξαιρετικά φιλόδοξο εγχείρημα, παρόμοιο με την προσπάθεια αποκωδικοποίησης του ανθρώπινου εγκεφάλου, σύμφωνα με τον Νιλ Νάντα της DeepMind.

Ένας κλάδος που μέχρι πρότινος ήταν εσωτερικού ενδιαφέροντος, η μηχανιστική ερμηνευσιμότητα αποκτά πλέον ευρύτερη σημασία, προσελκύοντας φοιτητές που επιθυμούν να βελτιώσουν την ασφάλεια των μοντέλων AI και να εξερευνήσουν ένα διανοητικά διεγερτικό πεδίο, όπως αναφέρει ο καθηγητής πληροφορικής Μαρκ Κροβέλα.

Η προσέγγιση της μηχανιστικής ερμηνευσιμότητας δεν περιορίζεται στην παρατήρηση του τελικού αποτελέσματος ενός αιτήματος, αλλά εστιάζει στην κατανόηση των υπολογισμών που πραγματοποιούνται «καθώς γίνονται» από το πρόγραμμα της AI, όπως εξηγεί ο «mech interp». Εταιρείες όπως η Goodfire χρησιμοποιούν μοντέλα ερμηνείας, αλγορίθμους AI ικανούς να αναπαριστούν δεδομένα ως στάδια σκέψης, με στόχο την καθοδήγηση και τη διόρθωση πιθανών σφαλμάτων της γενετικής AI.

Ο απώτερος σκοπός είναι η πρόληψη λαθών, η αποτροπή χρήσης για επιβλαβείς σκοπούς και η διασφάλιση ότι τα αυτόνομα μοντέλα δεν θα εξαπατούν τους ανθρώπους σχετικά με τη φύση των ενεργειών τους. Ο Έρικ Χο της Goodfire περιγράφει την κατάσταση ως μια «μάχη με τον χρόνο» για την κατανόηση της λειτουργίας των εξαιρετικά έξυπνων μοντέλων AI πριν αυτά διαδοθούν ευρέως.

Υπάρχουν ενδείξεις προόδου στην κατεύθυνση της ερμηνευσιμότητας, με τον Ντάριο Αμοντέι να εκφράζει την αισιοδοξία ότι το «κλειδί» μπορεί να βρεθεί έως το 2027. Ο Αν Νγκουγέν του πανεπιστημίου του Όμπερν πιστεύει ότι έως το 2027 θα υπάρχουν εργαλεία ικανά να εντοπίζουν αξιόπιστα τις αρνητικές προδιαθέσεις και τις επιβλαβείς προθέσεις ενός μοντέλου.

Σε αντίθεση με τον ανθρώπινο εγκέφαλο, στην AI «έχουμε μια αναπαράσταση κάθε νευρώνα», όπως αποκαλύπτει ο Μαρκ Κροβέλα, τονίζοντας ότι «μπορούμε να δούμε όλα όσα συμβαίνουν. Το ζήτημα είναι πώς να τα ερμηνεύσουμε».

Η εξιχνίαση του μυστηρίου της γενετικής AI θα επιτρέψει την υιοθέτηση της τεχνολογίας σε τομείς όπου ακόμη και ένα μικρό λάθος θα μπορούσε να είναι καταστροφικό, ιδίως σε αυτούς με σημαντικές προκλήσεις ασφάλειας, σύμφωνα με τον Ντάριο Αμοντέι. Για τον Νιλ Νάντα, η ερμηνευσιμότητα θα ανοίξει επίσης τον δρόμο για νέες ανακαλύψεις, όπως το μοντέλο AlphaZero της DeepMind που αποκάλυψε νέες στρατηγικές στο σκάκι.

Ο Ντάριο Αμοντέι καταλήγει τονίζοντας ότι η «υπερβολικά ισχυρή τεχνητή νοημοσύνη θα καθορίσει τη μοίρα της ανθρωπότητας» και ότι είναι επιτακτική ανάγκη να κατανοήσουμε τα δημιουργήματά μας πριν αυτά μεταμορφώσουν ριζικά την οικονομία, τις ζωές και το μέλλον μας.

Με πληροφορίες από ΑΠΕ-ΜΠΕ