Η Γεωργία Μανιάτη κάνει τις μηχανές να μιλάνε με «ανθρώπινη» γλώσσα

H νεαρή επιστήμονας που ειδικεύεται στην τεχνολογία μετατροπής κειμένου σε ομιλία εξηγεί γιατί το μέλλον «αντικατάστασης» των ανθρώπων από τις μηχανές είναι ακόμα μακρινό.

ΜΠΟΡΕΙΤΕ ΝΑ ΣΚΕΦΤΕΙΤΕ τις φορές που έχετε ακούσει έναν υπολογιστή ή μια συσκευή να σας μιλάει, όπως το GPS που σας δίνει οδηγίες ή τη φωνητική βοηθό του τηλεφώνου σας;

Η Γεωργία Μανιάτη είναι υπολογιστική γλωσσολόγος και μηχανικός γλώσσας και ειδικεύεται στην τεχνολογία μετατροπής κειμένου σε ομιλία, ενός υποπεδίου της Τεχνητής Νοημοσύνης που μετατρέπει το γραπτό κείμενο σε προφορικό λόγο. Είναι ένας από τους ανθρώπους που βοηθούν να ακούγονται αυτές οι φωνές φυσικές και να μοιάζουν ανθρώπινες.

Φανταστείτε να διδάσκατε σε έναν υπολογιστή πώς να μιλάει όπως εμείς. «Εργάζομαι στη δημιουργία προγραμμάτων που μπορούν να λαμβάνουν κείμενο και να το μετατρέπουν σε προφορικές λέξεις. Άρα, προσπαθούμε να “συνθέσουμε” φωνή και ομιλία. Για να το πετύχουμε, χρησιμοποιούμε ηχογραφήσεις πραγματικών ανθρώπων, ειδικούς αλγορίθμους και πολλούς υπολογιστές. Βεβαιωνόμαστε ότι η φωνή που δημιουργούμε ακούγεται καθαρή, ευχάριστη και όσο το δυνατόν πιο κοντά σε έναν πραγματικό άνθρωπο.

Οι υπολογιστικοί γλωσσολόγοι μελετούν τη δομή της γλώσσας (πώς από τους ήχους προκύπτουν οι λέξεις, οι προτάσεις, πώς παράγεται η σημασία) και χρησιμοποιούν υπολογιστικές μεθόδους όπως ο προγραμματισμός, η στατιστική και η μηχανική μάθηση, για να αναλύσουν μεγάλα δεδομένα γλώσσας, με σκοπό να περιγράψουν και να ερμηνεύσουν τη γλώσσα.
Επειδή η σύνθεση ομιλίας χρησιμοποιείται σε τόσο πολλά πράγματα, όπως οι φωνητικοί βοηθοί, οι αναγνώστες οθόνης, τα audiobooks, ακόμα και για να βοηθήσει ανθρώπους που δυσκολεύονται να μιλήσουν για ιατρικούς λόγους, είναι μια σημαντική τεχνολογία προσβασιμότητας». Αυτή την Τρίτη, στις 10 Οκτωβρίου, η καταξιωμένη επιστήμονας θα δώσει στο Athens Science Festival μια ομιλία με τίτλο «Δίνοντας φωνή στις μηχανές: Η ιστορία μου».

— Τι σημαίνει η ιδιότητά σας, «υπολογιστική γλωσσολόγος και μηχανικός γλώσσας»;
Στα ελληνικά δεν έχει παγιωθεί η ορολογία για τους επαγγελματίες αυτού του χώρου ακόμα. Οι υπολογιστικοί γλωσσολόγοι μελετούν τη δομή της γλώσσας (πώς από τους ήχους προκύπτουν οι λέξεις, οι προτάσεις, πώς παράγεται η σημασία) και χρησιμοποιούν υπολογιστικές μεθόδους όπως ο προγραμματισμός, η στατιστική και η μηχανική μάθηση, για να αναλύσουν μεγάλα δεδομένα γλώσσας, με σκοπό να περιγράψουν και να ερμηνεύσουν τη γλώσσα. Η υπολογιστική γλωσσολογία είναι διεπιστημονικός κλάδος της γλωσσολογίας. Οι μηχανικοί γλώσσας χρησιμοποιούν τις ίδιες γνώσεις για να φτιάξουν ή να βελτιώσουν αλγορίθμους που κάνουν τους υπολογιστές να μιλούν σαν άνθρωποι. Σκοπός τους δεν είναι να περιγράψουν τη γλώσσα, αλλά να δημιουργήσουν εφαρμογές που θα δουλεύουν ικανοποιητικά. Οι όροι πολλές φορές εναλλάσσονται ή ο πρώτος αναφέρεται στο ακαδημαϊκό υπόβαθρο και ο δεύτερος σε επαγγελματικό ρόλο στη βιομηχανία των γλωσσικών τεχνολογιών. Πολλοί υπολογιστικοί γλωσσολόγοι δουλεύουν ως μηχανικοί γλώσσας.

— Πώς ακριβώς χρησιμοποιείτε την Τεχνητή Νοημοσύνη σε αυτό που κάνετε;
Νομίζω πρέπει πρώτα να ορίσω την Τεχνητή Νοημοσύνη (ΤΝ) με απλά λόγια για να σας απαντήσω. Ας συμφωνήσουμε λοιπόν ότι η ΤΝ είναι ένας τρόπος προγραμματισμού. Πώς διαφέρει αυτό από τον παραδοσιακό προγραμματισμό; Όταν μια εργασία μπορεί να μεταφραστεί από έναν άνθρωπο σε ένα σύνολο βημάτων, τότε κάνουμε παραδοσιακό προγραμματισμό. Σκεφτόμαστε ένα σύνολο κανόνων, τους γράφουμε σε μια γλώσσα προγραμματισμού και ο υπολογιστής τους εκτελεί. Για παράδειγμα, αν προσπαθούμε να προγραμματίσουμε έναν υπολογιστή να παίξει σκάκι, πρέπει να κωδικοποιήσουμε όλους τους κανόνες του παιχνιδιού και τις επιτρεπόμενες κινήσεις για κάθε πιόνι. Όταν όμως τα προβλήματα που προσπαθούμε να λύσουμε είναι πολύπλοκα και δεν γνωρίζουμε τους κανόνες ή τα βήματα που οδηγούν στην επίλυσή τους, χρησιμοποιούμε την ΤΝ.

Στην ΤΝ, χρειαζόμαστε πολλά παραδείγματα (δεδομένα) από το σενάριο που προσπαθούμε να λύσουμε (π.χ. κινήσεις παικτών από πολλές παρτίδες σκάκι), και ειδικούς αλγορίθμους, και αφήνουμε τον υπολογιστή να ανακαλύψει τους κανόνες που διέπουν τα δεδομένα, ώστε να «μάθει» να λύνει το πρόβλημα. Αυτή η διαδικασία λέγεται εκπαίδευση. Αυτός είναι και ο τρόπος με τον οποίο τα έξυπνα όντα αποκτούν τη δυνατότητα να εκτελούν μια λειτουργία: μέσω της έκθεσης σε παραδείγματα, μέσω της εμπειρίας. Και η ΤΝ χρησιμοποιείται για να μιμηθεί τις λειτουργίες που μόνο νοήμονα όντα μπορούν να εκτελέσουν. Η γλώσσα είναι μία από αυτές. Στη συνθετική ομιλία, λοιπόν, τον τομέα της ΤΝ που ασχολείται με την παραγωγή ομιλίας, το πρόγραμμα που φτιάχνουμε δημιουργείται με αυτόν τον τρόπο. Συλλέγουμε παραδείγματα, δηλαδή κείμενα και ηχογραφήσεις ηθοποιών στη γλώσσα που μας ενδιαφέρει, επιλέγουμε τους κατάλληλους αλγορίθμους, και τους εκπαιδεύουμε να μιμούνται τη γλώσσα και τη φωνή των ηχογραφήσεων.

— Υπάρχει περίπτωση εμείς οι άνθρωποι να αποκτήσουμε μια φυσικότερη αλληλεπίδραση με τους υπολογιστές;
Αν σκεφτούμε πώς ξεκίνησε η αλληλεπίδραση του ανθρώπου με τις μηχανές, έχουμε ήδη κάνει άλματα σε ευκολία και φυσικότητα. Ξεκινώντας από υπολογιστές σε μέγεθος δωματίου, με τους οποίους μόνο ειδικευμένοι προγραμματιστές της εποχής μπορούσαν να αλληλεπιδράσουν, περάσαμε στον προσωπικό υπολογιστή, το λάπτοπ και το κινητό, και έτσι κάθε άνθρωπος έχει στην τσέπη του, χωρίς να το συνειδητοποιεί, πρόσβαση σε αριθμομηχανή, διαδίκτυο και σε όλη την πληροφορία του κόσμου. Μέχρι πριν μία εικοσαετία το κινητό είχε μικροσκοπική οθόνη και έπρεπε να αλληλεπιδρούμε αποκλειστικά με πλήκτρα σε περίπλοκα, δαιδαλώδη μενού. Πλέον έχουν μεγαλώσει οι οθόνες και υπάρχουν φωνητικοί βοηθοί. Μπορούμε να ζητήσουμε να βάλουν το αγαπημένο μας τραγούδι ή το ξυπνητήρι για το επόμενο πρωί. Το επόμενο βήμα είναι να μπορούμε να κάνουμε διάλογο μαζί τους. Ας μην ξεχνάμε πως υπολογιστές είναι και οι υπόλοιπες συσκευές που έχουμε στο σπίτι. Φανταστείτε ότι γυρνάτε σπίτι από τη δουλειά και πρέπει να μαγειρέψετε. Πιάνετε κουβέντα με το ψυγείο. Σας προτείνει συνταγές με τα υλικά που έχετε. Αν του πείτε πως θέλετε να φτιάξετε κάτι άλλο, στέλνει στο σούπερ μάρκετ μια παραγγελία με τα υλικά που σας λείπουν. Την ώρα που μαγειρεύετε, σας υπενθυμίζει πότε να κλείσετε τον φούρνο. Τα διαλογικά συστήματα που βασίζονται στη φωνή είναι η φυσικότερη διεπαφή μας με τους υπολογιστές, αφού οι μηχανές μαθαίνουν πλέον τη δική μας γλώσσα.

— Εσείς πώς επιχειρείτε να διευκολύνετε την πρόσβασή μας στον κόσμο των γνώσεων;
Όπως είπα, η τεχνολογία σύνθεσης ομιλίας δίνει φωνή στη μηχανή. Άρα είναι το νέο μέσο διεπαφής μας (user interface) με τη μηχανή, με την υπολογιστική της δύναμη και με το διαδίκτυο. Αν αρθεί το εμπόδιο της οθόνης και των πλήκτρων, αυτές οι υπολογιστικές δυνατότητες θα είναι πιο κοντά στον άνθρωπο από ποτέ, σαν μια νέα υπερδύναμη.

— Οι έξυπνες μηχανές μπορούν να μας βοηθήσουν να οξύνουμε το μυαλό μας;
Έξυπνες μηχανές εννοούμε και πάλι τις εφαρμογές Τεχνητής Νοημοσύνης. Δεν μιλάμε για ρομπότ όπως στις ταινίες επιστημονικής φαντασίας, αλλά για απλές καθημερινές εφαρμογές που μας κάνουν πιο αποτελεσματικούς και παραγωγικούς σε οτιδήποτε θέλουμε να κάνουμε, γιατί λειτουργούν δίπλα μας σαν συνεργάτες (αυτόματη μετάφραση, διορθωτής κειμένου). Έτσι έχουμε περισσότερο χρόνο για να καλλιεργήσουμε και να αξιοποιήσουμε μόνο ανθρώπινες ικανότητες, όπως είναι η κριτική σκέψη και η φαντασία μας. Όσο περισσότερο βρίσκονται στην καθημερινότητά μας, τόσο τείνουμε να ξεχνάμε ότι είναι τέτοιες. Επίσης, σκεφτείτε ότι ακόμα κι αν δεν γνωρίζουμε τη γλώσσα μιας ταινίας, πολλές φορές προσφέρεται αυτόματος υποτιτλισμός και αυτόματη μετάφραση υποτίτλων. Έτσι, ναι, έχουμε τη δυνατότητα να λάβουμε περισσότερα ερεθίσματα από περισσότερες πηγές, διευρύνοντας υπό μία έννοια τους ορίζοντές μας.

— Με τις ταχύτητες που αλλάζει ο κόσμος, πώς διαμορφώνονται τα επαγγέλματα;
Είναι σημαντικό να κατανοούμε πως η απόφαση για το τι θα σπουδάσουμε στα 18 μας δεν προεξοφλεί την επαγγελματική μας πορεία. Όταν επιλέγουμε σχολή, τα επαγγέλματα του μέλλοντος δεν υπάρχουν ακόμη, και δεν έχουμε όλα τα δεδομένα ώστε να αποφασίσουμε τι επάγγελμα θα κάνουμε. Επομένως, αυτό που θα μπορούσα να συμβουλεύσω τα νέα παιδιά για τον τρόπο που μπορούν να έχουν μεγαλύτερη ανθεκτικότητα στον σημερινό κόσμο είναι τον πρώτο λόγο να έχει το τι απολαμβάνουν να κάνουν και τι τα ενδιαφέρει να μάθουν. Δεν θα μπορούσα να είχα φανταστεί ή προδιαγράψει, όταν επέλεξα να σπουδάσω φιλολογία, το επάγγελμα που θα κάνω μετά από 6-7 χρόνια, ότι δηλαδή θα ασχοληθώ με την ΤΝ για τη γλώσσα. Από ένα γενικό πεδίο/επιστήμη όπως η φιλολογία, το ένα βήμα έφερε το επόμενο και πήγα προς ένα ειδικότερο πεδίο, όπως η γλωσσολογία, και στη διεπιστημονική της μορφή με τον τομέα της πληροφορικής.

— Ποια είναι τα επαγγέλματα του μέλλοντος; Οι κλασικές σπουδές και οι ανθρωπιστικές επιστήμες τι ρόλο παίζουν στην ανάπτυξη της Τεχνητής Νοημοσύνης;
Αυτό συνδέεται στενά και με την προηγούμενη ερώτηση. Στα περισσότερα σημερινά επαγγέλματα, για να παραμένουμε ανταγωνιστικοί, θα πρέπει να αναπτύξουμε δεξιότητες χρήσης εφαρμογών ΤΝ, για να αυξήσουμε την ταχύτητα και την ποιότητα των αποτελεσμάτων μας. Νέα επαγγέλματα που δεν γνωρίζουμε σήμερα θα προκύψουν στο μέλλον. Αυτό που θα ζητείται από εμάς δεν θα είναι να έχουμε απομνημονεύσει γνώσεις, μιας και αυτό το κάνουν ήδη πολύ καλά οι μηχανές. Ωστόσο, καθαρά «ανθρώπινες» δεξιότητες, όπως η κριτική σκέψη, η δημιουργικότητα, η επίλυση προβλημάτων και η λήψη αποφάσεων, θα είναι ζητούμενες περισσότερο από ποτέ. Είναι σημαντικό να σκεφτούμε πώς πρέπει να αλλάξει η εκπαίδευσή μας για να μας προετοιμάζει για αυτές τις μελλοντικές ανάγκες, όχι μόνο της εργασίας αλλά και της κοινωνίας γενικότερα.

Οι κλασικές και ανθρωπιστικές σπουδές δεν είναι επάγγελμα, είναι επιστήμες και έχουν μεγάλη αξία στην κοινωνία μας. Προσωπικά, με έχουν βοηθήσει πολύ στην ανάπτυξη της κριτικής σκέψης, που είναι ζητούμενο όταν δημιουργείς ή αλληλεπιδράς με συστήματα ΤΝ. Πολύς λόγος γίνεται σήμερα για το πώς οι αλγόριθμοι θα είναι ηθικοί, δίκαιοι και αξιόπιστοι. Σε μεγάλες εταιρείες που αναπτύσσουν τέτοια συστήματα εργάζονται ήδη AI ethicists, δηλαδή κοινωνιολόγοι και νομικοί με ειδίκευση στην ΤΝ που αξιολογούν τα αποτελέσματα των αλγορίθμων και επισημαίνουν τρόπους ώστε να επιλυθούν τα λάθη. Τα λάθη δεν προέρχονται από τον ίδιο τον αλγόριθμο αλλά από τα δεδομένα που έχουν χρησιμοποιηθεί για να τον εκπαιδεύσουν. Επομένως, η γνώση των προκαταλήψεων που υπάρχουν ήδη στην κοινωνία μας, άρα και στα δεδομένα της γλώσσας, μπορεί να αναζητηθεί μόνο στις ανθρωπιστικές επιστήμες. Και άλλο ένα σημαντικό πρόβλημα σήμερα είναι η παραπληροφόρηση (fake news) ή και οι ψευδαισθήσεις (hallucinations) που ορισμένες φορές έχουν οι αλγόριθμοι όταν παράγουν αναληθή αποτελέσματα. Στις ανθρωπιστικές επιστήμες υπάρχει μεγάλη παράδοση στην κριτική αξολόγηση των πηγών. Οι ιστορικοί, οι φιλόλογοι, οι δημοσιογράφοι έχουν τις δεξιότητες να αξιολογούν τα αποτελέσματα της ΤΝ ως προς την εγκυρότητα και την αλήθεια τους.

Η ΤΝ δεν είναι εδώ για να μας πάρει τη δουλειά, αλλά σίγουρα ένας άνθρωπος που έχει μάθει να αξιοποιεί εργαλεία Τεχνητής Νοημοσύνης είναι πιο ανταγωνιστικός, οπότε πιθανώς να μας πάρει τη δουλειά. Θεωρείται ότι τα επόμενα 5 χρόνια θα αυξηθούν κατά 70% τα επαγγέλματα που απαιτούν χρήση εργαλείων ΤΝ.
— Ποιο ρόλο μπορεί να παίξει η Τεχνητή Νοημοσύνη στην άμβλυνση των προκαταλήψεων γύρω από το φύλο και τις υποεκπροσωπούμενες ομάδες στα γλωσσικά δεδομένα;
Δυστυχώς, η ΤΝ μπορεί να οξύνει τέτοιες προκαταλήψεις. Θα σας δώσω ένα παράδειγμα. Το 2015, η Amazon διαπίστωσε πως το σύστημα που χρησιμοποιούσε εσωτερικά για να αξιολογήσει τα βιογραφικά των υποψηφίων εργαζομένων της είχε προκαταλήψεις και τις ανατροφοδοτούσε στην εταιρεία. Ο αλγόριθμος είχε εκπαιδευτεί σε βιογραφικά προγραμματιστών που είχαν ήδη προσληφθεί στο παρελθόν, και είχε μάθει τα μοτίβα που έκαναν ένα βιογραφικό «καλό για πρόσληψη». Έτσι, έκανε μια αρχική διαλογή των υποψηφίων. Το πρόβλημα ήταν ότι οι εργαζόμενοι ήταν ήδη στη συντριπτική πλειοψηφία τους άντρες. Βλέποντας αυτά τα δεδομένα εκπαίδευσης, ο αλγόριθμος είχε συσχετίσει το ανδρικό φύλο ως στοιχείο που θα οδηγούσε σε πρόσληψη, και τελικά απέρριπτε τα βιογραφικά γυναικών υποψηφίων. Φυσικά η εταιρεία δεν είχε αξιολογήσει το σύστημα ως προς τις προκαταλήψεις που μπορεί να περιέχει πριν αρχίσει να το χρησιμοποιεί και αυτό οδήγησε σε δυσμενή αντιμετώπιση των γυναικών για αρκετό καιρό. Όταν τέτοιες εφαρμογές χρησιμοποιούνται μέσα στην κοινωνία, όχι απλώς αναπαράγουν μια προκατάληψη, αλλά διογκώνουν το πρόβλημα. Γι’ αυτό είναι σημαντική η συζήτηση για την αξιοπιστία, τη δικαιοσύνη και την ηθική των αλγορίθμων.

— Τι σημαίνει «γραμματισμός» στην Τεχνητή Νοημοσύνη;
Είναι η απόδοση του αγγλικού όρου «AI literacy». Σημαίνει το να μπορεί κάποιος να έχει επίγνωση για τις τεχνολογίες που χρησιμοποιεί στην καθημερινότητά του και εμπεριέχουν ΤΝ, αλλά και να κατανοεί τον τρόπο που δημιουργήθηκαν και λειτουργούν. Αυτό θα τον βοηθήσει να αλληλεπιδρά μαζί τους με τρόπο αποτελεσματικότερο, να αναγνωρίζει τις δυνατότητες και τους περιορισμούς τους. Θα έχετε ακούσει για το ChatGPT, ένα γλωσσικό μοντέλο που επιτρέπει στον χρήστη να κάνει ένα ερώτημα και να λαμβάνει απαντήσεις σε φυσικό γραπτό λόγο. Αν κατανοούμε πώς λειτουργεί ένα τέτοιο γλωσσικό μοντέλο, ότι δηλαδή απλώς προβλέπει την επόμενη πιο πιθανή λέξη χωρίς να έχει γνώση της πραγματικότητας ή της εγκυρότητας των πληροφοριών που παράγει, θα αποφύγουμε τον κίνδυνο της παραπληροφόρησης. Αφού απλώς «κολλάει» κομμάτια πληροφοριών που ταιριάζουν μεταξύ τους, κατά περιπτώσεις θα παράξει σίγουρα και απαντήσεις που θα στερούνται εγκυρότητας. Παραμένει καλό εργαλείο για να μας βοηθήσει στις περιπτώσεις που δεν υπάρχει μόνο μία σωστή απάντηση, όμως δεν μπορούμε να το εμπιστευτούμε όταν η απάντηση πρέπει να είναι ακριβής και αληθής για να είναι χρήσιμη. Μόνο αν γνωρίζουμε τους περιορισμούς των εφαρμογών αυτών μπορούμε να τις χρησιμοποιήσουμε με υπευθυνότητα. Καθώς τα συστήματα ΤΝ είναι όλο και πιο διαδεδομένα, επηρεάζουν τις κοινωνικές μας αλληλεπιδράσεις. Άρα πρέπει να αναγνωρίζουμε τα δυνατά τους σημεία αλλά και αυτά στα οποία έχουν περιορισμούς και αδυναμίες. Αυτός ο γραμματισμός περιλαμβάνει και αρκετή κριτική σκέψη.

— Ποσό μακρινό είναι το μέλλον στο οποίο οι μηχανές θα αντικαταστήσουν τον άνθρωπο;
Το μέλλον «αντικατάστασης» των ανθρώπων από τις μηχανές φαίνεται μακρινό. Οι εφαρμογές για τις οποίες μιλάμε σήμερα είναι εφαρμογές περιορισμένης ΤΝ. Μπορούν μεν να λύσουν δύσκολα προβλήματα πολύ γρήγορα, αλλά το κάθε πρόγραμμα έχει δημιουργηθεί για έναν συγκεκριμένο σκοπό. Το κάθε ένα έχει «μάθει» από παραδείγματα ενός πολύ περιορισμένου τομέα. Ο άνθρωπος έχει γενική νοημοσύνη, δηλαδή λαμβάνει όλων των ειδών τα ερεθίσματα (οπτικά, ακουστικά) και σε όλα τα επίπεδα μπορεί να πραγματοποιήσει διεργασίες. Για να έχουμε γενική ΤΝ, σημαίνει πως θα δημιουργήσουμε συστήματα με αντίληψη για κάθε είδους δεδομένα και εμπειρία του κόσμου. Οι πόροι, η υπολογιστική δύναμη και τα δεδομένα που θα χρειάζονταν για να εκπαιδευτούν τέτοια συστήματα, με το σημερινό τεχνολογικό υπόβαθρο, κάνουν ανέφικτο ένα τέτοιο σενάριο άμεσα. Στο παρόν και το άμεσο μέλλον μιλάμε περισσότερο για συνεργασία ανθρώπων και μηχανών.

Μίνα Καλογερά

Πηγή:lifo.gr

Η Γεωργία Μανιάτη κάνει τις μηχανές να μιλάνε με «ανθρώπινη» γλώσσα

Σχετικά άρθρα

Ο σαρκασμός είναι δείγμα ευφυΐας και ωριμότητας, σύμφωνα με την επιστήμη

Οι Δημοτικοί Υπάλληλοι Πιερίας σας εύχονται Καλά Χριστούγεννα

Ποια είναι η «σχεδόν τέλεια χριστουγεννιάτικη ταινία», σύμφωνα με το Rotten Tomatoes

Το Park Hotel σας εύχεται Καλά Χριστούγεννα

Χάρι Πότερ: Ο Κίλιαν Μέρφι θα είναι ο νέος Βόλντεμορτ στη σειρά του HBO;

Τέρπος Κατασκευαστική: Πωλούνται…