Το εν λόγω εργαλείο μπορεί ακόμη και να μιμηθεί τα συναισθήματα και τον τόνο που υιοθετεί ένας ομιλητής

Ερευνητές της Microsoft ανακοίνωσαν τη δημιουργία του «VALL-E», ενός Bot που μετατρέπει γραπτά κείμενα σε ομιλία και μπορεί να μιμηθεί τη φωνή ενός ατόμου μετά από ένα σύντομο ηχητικό δείγμα μόλις τριών δευτερολέπτων.

Είναι χαρακτηριστικό ότι το εν λόγω εργαλείο μπορεί ακόμη και να μιμηθεί τα συναισθήματα και τον τόνο που υιοθετεί ένας ομιλητής. Το Bot έχει εκπαιδευτεί σε 60.000 ώρες αγγλικής ομιλίας από το LibriLight, μια βιβλιοθήκη ήχου που έχει δημιουργήσει η Meta. Εκτός από την αναπαραγωγή των μοτίβων ομιλίας ενός ατόμου, μπορεί να δημιουργήσει παρόμοια ομιλία με λέξεις που δεν έχουν χρησιμοποιηθεί από τον αρχικό ομιλητή.

Η Microsoft μοιράστηκε ορισμένα από τα αποτελέσματα του «VALL-E» σε έναν ειδικό ιστότοπο. Από ό,τι φαίνεται, το εργαλείο αποδίδει αρκετά πειστικό «ανθρώπινο» ήχο, αν και ορισμένες ομιλίες συνεχίζουν να μοιάζουν με «ρομποτικές».

Βέβαια, ας μην ξεχνάμε ότι τα εν λόγω αποτελέσματα προκύπτουν με ένα σύνολο δεδομένων από τρία δευτερόλεπτα ανθρώπινης ομιλίας. Ως εκ τούτου, με ένα πλουσιότερο σύνολο δεδομένων, το VALL-E πιθανότατα θα έχει πολύ καλύτερες επιδόσεις.

 

Η εταιρεία δεν διαθέτει ακόμη τις ικανότητες του VALL-E στο κοινό, λαμβάνοντας υπόψη τους κινδύνους που μπορούν να προκύψουν από την ανεξέλεγκτη χρήση του, όπως η αναπαραγωγή ψευδών ειδήσεων.

«Δεδομένου ότι το VALL-E θα μπορούσε να συνθέσει ομιλία από συγκεκριμένο ομιλητή μπορεί να ενέχει πιθανούς κινδύνους στην κακή χρήση του μοντέλου, όπως η πλαστοπροσωπία ενός συγκεκριμένου ομιλητή», αναγνωρίζει οι ερευνητές της Microsoft.

Ωστόσο, η ερευνητική ομάδα προσθέτει ότι είναι δυνατό να αναπτυχθεί ένα σύστημα που θα ανιχνεύει αν ένα ηχητικό κλιπ δημιουργήθηκε από το VALL-E.

 

 

Με πληροφορίες από Design Taxi

Πηγή:lifo.gr