Η επανάσταση της γενετικής ΑΙ επεκτείνεται στην κινούμενη εικόνα.

Ένας νέος αλγόριθμός τεχνητής νοημοσύνης, ο Gen-1, μόλις κυκλοφόρησε μέσω cloud στον ιστότοπο της Runway. Δημιουργεί από κείμενο βίντεο, και νέα βίντεο από βίντεο, διατίθεται σε μερικούς μόνο προσκεκλημένους χρηστες και θα κυκλοφορήσει σε όλους στη λίστα αναμονής σε λίγες εβδομάδες.

Η OpenAI στα τέλη του 2021, με μια μικρή ομάδα ερευνητών στο Σαν Φρανσίσκο είχαν δημιουργήσει το DALL-E, ένα μοντέλο τεχνητής νοημοσύνης που μετατρέπει σύντομες γραπτές περιγραφές (κείμενο) σε εικόνα Το DALL-E 2 ακόμα πιο εξελιγμένο, εισήχθη τον Απρίλιο του 2022. Τον Μάιο, η Google ανακοίνωσε (αλλά δεν κυκλοφόρησε) δύο δικά της μοντέλα κειμένου σε εικόνα, το Imagen και το Parti. Μετά ήρθε το Midjourney, ένα μοντέλο κειμένου σε εικόνα φτιαγμένο για καλλιτέχνες. Και ο Αύγουστος έφερε το Stable Diffusion, ένα μοντέλο ανοιχτού κώδικα που η νεοσύστατη εταιρεία Stability AI με έδρα το Ηνωμένο Βασίλειο κυκλοφόρησε δωρεάν στο κοινό.

Η εταιρία Runway, η οποία ήταν πέρυσι συνδημιουργός του μοντέλου μετατροπής κειμένου σε εικόνα Stable Diffusion, κυκλοφόρησε ένα νέο μοντέλο γενετικής τεχνητής νοημοσύνης που μπορεί να μετατρέψει τα υπάρχοντα βίντεο σε νέα, εφαρμόζοντας οποιοδήποτε στυλ καθορίζεται από μια προτροπή κειμένου ή μια εικόνα αναφοράς.

Σε μια επίδειξη που δημοσιεύτηκε στον ιστότοπό του, το Runway δείχνει πώς το λογισμικό του, που ονομάζεται Gen-1, μπορεί να μετατρέψει κλιπ ανθρώπων σε ένα δρόμο σε μαριονέτες ή βιβλία στοιβαγμένα σε ένα τραπέζι να τα μετατρέψει σε αστικό τοπίο της νύχτας. Η Runway ελπίζει ότι η Gen-1 θα κάνει για βίντεο ό, τι έκανε η Stable Diffusion για τις εικόνες.

Η Runway είναι εξειδικευμένη σε λογισμικό επεξεργασίας βίντεο με τεχνολογία τεχνητής νοημοσύνης εδώ και αρκετά χρόνια. Τα εργαλεία της χρησιμοποιούνται από TikTokers και YouTubers καθώς και καθιερωμένα κινηματογραφικά και τηλεοπτικά στούντιο.

Η Stability AI, μια νεοσύστατη εταιρεία με έδρα το Ηνωμένο Βασίλειο, παρενέβη στη συνέχεια για να πληρώσει το κόστος που απαιτείται για την εκπαίδευση του μοντέλου σε πολύ περισσότερα δεδομένα. Το 2022, το Stability AI πήρε το Stable Diffusion mainstream, μετατρέποντάς το σε ένα παγκόσμιο φαινόμενο. Το Gen-1 αντιπροσωπεύει μια νέα αρχή για την Runway.

Ακολουθεί μια σειρά μοντέλων κειμένου σε βίντεο που αποκαλύφθηκαν στα τέλη του περασμένου έτους, συμπεριλαμβανομένων των Make-aVideo από τη Meta και Phenaki από την Google, και τα δύο μπορούν να δημιουργήσουν πολύ σύντομα βίντεο κλιπ από το μηδέν. Είναι επίσης παρόμοιο με το Dreamix, ένα παραγωγικό AI από την Google που αποκαλύφθηκε την περασμένη εβδομάδα, το οποίο μπορεί να δημιουργήσει νέα βίντεο από υπάρχοντα εφαρμόζοντας συγκεκριμένα στυλ. Το μοντέλο της Gen-1 φαίνεται να είναι ένα βήμα πμπροστά στην ποιότητα του βίντεο. Επειδή μεταμορφώνει τα υπάρχοντα πλάνα, μπορεί επίσης να παράγει πολύ μεγαλύτερα βίντεο από τα περισσότερα άλλα μοντέλα.

Η πρόσφατη έκρηξη της γενετικής τεχνητής νοημοσύνης γνώρισε τεράστια απήχηση από τα εκατομμύρια των ανθρώπων που πήραν στα χέρια τους ισχυρά δημιουργικά εργαλεία για πρώτη φορά και αντιλήφθηκαν τις τεράστιες δυνατότητες τους. Αναλυτές ελπίζουν ότι το Gen-1 στα χέρια επαγγελματιών δημιουργών θα έχει σύντομα παρόμοιο αντίκτυπο στο βίντεο. Ίσως η τεχνητή νοημοσύνη είναι πολύ κοντά να δημιουργήσει ακόμα και ταινίες μεγάλου μήκους.

Το ChatGPT απέκτησε 1 εκατομμύριο χρήστες σε 5 ημέρες όταν το Facebook χρειάστηκε 10 μήνες για να φθάσει στο 1 εκ. χρήστες. Στην OpenAI εγγράφηκαν 1 εκ. χρήστες σε μόλις 2,5 μήνες. Περισσότεροι από ένα εκατομμύριο άνθρωποι άρχισαν να χρησιμοποιούν το Stable Diffusion μέσω της πληρωμένης υπηρεσίας Dream Studio σε λιγότερο από το 1,5 μήνα. Ο ιδρυτής της StabilityAI, λέει ότι στοχεύει σε ένα δισεκατομμύριο χρήστες. Και στη συνέχεια, τον Οκτώβριο είχαμε τον Δεύτερο Γύρο: μια σειρά μοντέλων κειμένου σε βίντεο από την Google, τη Meta και άλλους. Αντί να δημιουργούν απλώς στατικές εικόνες, αυτές μπορούν να δημιουργήσουν σύντομα βίντεο κλιπ, κινούμενες εικόνες και εικόνες 3D.

Το σοκ και το δέος αυτής της τεχνολογίας είναι εκπληκτικό, είναι αυτό που πρέπει να είναι η νέα τεχνολογία αλλά κινείται τόσο γρήγορα που οι αρχικές εντυπώσεις ενημερώνονται πριν καν συνηθίσετε την ιδέα. Θα χρειαστεί αρκετός χρόνος ως κοινωνία για να κατανοήσουμε αυτήν την τεχνολογία και την συμβολή της στην αύξηση της παραγωγικότητας.

Αλλά ενώ μερικοί εξακολουθούν να κλονίζονται από το σοκ, πολλοί βρίσκουν τρόπους να εργαστούν με αυτά τα εργαλεία και να προβλέψουν τι θα ακολουθήσει. Η συναρπαστική αλήθεια είναι ότι δεν γνωρίζουμε πραγματικά πόσο θα αυξηθούν οι δυνατότητες μας. Γιατί ενώ οι δημιουργικές βιομηχανίες – από τα μέσα ψυχαγωγίας έως τημόδα, την αρχιτεκτονική, το μάρκετινγκ και πολλά άλλα – θα αισθανθούν πρώτα τον αντίκτυπο, αυτής η τεχνολογίας, καθώς θα δώσει δημιουργικές υπερδυνάμεις σε όλους. Μακροπρόθεσμα, θα μπορούσε να χρησιμοποιηθεί για τη δημιουργία σχεδίων για σχεδόν οτιδήποτε, από νέους τύπους φαρμάκων έως ρούχα και κτίρια. Η γενετική επανάσταση έχει ξεκινήσει.
Για έναν ψηφιακό δημιουργό που εργάζεται σε βιντεοπαιχνίδια και τηλεοπτικές εκπομπές, τα μοντέλα κειμένου σε εικόνα είναι μια μοναδική ανακάλυψη. Αυτή η τεχνολογία δημιουργεί ένα πρώτο σκίτσο σε δευτερόλεπτα , η ταχύτητα με την οποία μπορείτε να δημιουργήσετε και να εξερευνήσετε είναι επαναστατική.

Μια μαγική επανάσταση. Μέσα σε λίγες εβδομάδες από το ντεμπούτο τους, οι άνθρωποι χρησιμοποιούσαν αυτά τα εργαλεία για να δημιουργήσουν πρωτότυπα και να σκεφτούν τα πάντα, από εικονογραφήσεις περιοδικών και διατάξεις μάρκετινγκ έως περιβάλλοντα βιντεοπαιχνιδιών και έννοιες ταινιών. Οι άνθρωποι δημιούργησαν fan art, ακόμη και ολόκληρα κόμικς, και τα διαθέτουν στο διαδίκτυο κατά χιλιάδες.

Πολλές άλλες εφαρμογές τεχνητής νοημοσύνης κυκλοφορούν ευρέως όπως: Prime Voice παράγει την φωνή οποιουδήποτε, Vidyo δημιουργεί σύντομα βίντεο από τις κορυφαίες στιγμές από ήδη υπάρχων βίντεο, Wordtune, παρέχει επιλογές λέξεων, προτάσεων και παραγράφων, για υψηλής ποιότητας κείμενο, Sembly μεταγράφει, κρατάει σημειώσεις, δημιουργεί περιλήψεις για συνεδριάσεις, Compose συμπληρώνει προτάσεις, Pragma συνδυάζει τις γνώσεις σε μια πλατφόρμα, Beatoven δημιουργεί μουσική υπόκρουση για μια ιστορία, ελεύθερη από πνευματικά δικαιώματα, Tome γενετικές παρουσιάσεις, Cleanvoice απομακρύνει θόρυβο από ηχογραφήσεις, Papercup μεταγλωττίζει σε οπουδήποτε γλώσσα, Podcastle μετατρέπει τον φορητό Η/Υ σε στούντιο ηχογράφησης, StockAI παράγει εικόνες που δεν υπόκειται σε πνευματικά δικαιώματα, Riffusion απλά ζητάς τι μουσική θες να ακούσεις, Illustroke ζητάς τι εικόνα θέλεις να σου φτιάξει, Maverick δημιουργεί προσωποποιημένα βίντεο, Durable δημιουργεί ένα επιχειρηματικό ιστότοπο σε λιγότερο από ένα λεπτό κλπ.

 

Γράφει ο Γιώργος Ατσαλάκης*

*Ο Γιώργος Ατσαλάκης είναι Οικονομολόγος, Αναπληρωτής Καθηγητής Πολυτεχνείου Κρήτης Εργαστήριο Ανάλυσης Δεδομένων και Πρόβλεψης

 

Πηγή:in.gr