Οι εξελίξεις στον τομέα της Τεχνητής Νοημοσύνης είναι πλέον ραγδαίες, με την Google και την OpenAI να διαγκωνίζονται η μία την άλλη, για το ποιος θα επικρατήσει τελικά στον «πόλεμο» των Νέων Τεχνολογιών.

Την περασμένη εβδομάδα οι δύο εταιρείες – «κολοσσοί» προχώρησαν σε ένα μπαράζ σημαντικών ανακοινώσεων, με τις επικείμενες αλλαγές να αφορούν σε ηλεκτρονικούς υπολογιστές αλλά και κινητά τηλέφωνα.

Σύμφωνα με το gzero, τόσο η Google όσο και η OpenAI πραγματοποίησαν μεγάλες εκδηλώσεις την περασμένη εβδομάδα με επίκεντρο τα επιτεύγματά και τα προσεχή σχέδιά τους στον τομέα της Τεχνητής Νοημοσύνης.

Στο δικό της συνέδριο προγραμματιστών, η Google ανακοίνωσε ουσιαστικά ότι σκοπεύει να ενσωματώσει την Τεχνητή Νοημοσύνη σε όλα τα προϊόντα της, ακόμη και στην ομώνυμη μηχανή αναζήτησης, Google Search, που όλοι ξέρουμε.

Αν έχετε ψάξει κάτι στο Google τελευταία, μπορεί να έχετε παρατηρήσει ότι το Gemini, το chatbot της Google, έχει αρχίσει να εμφανίζεται και να προτείνει τις απαντήσεις στις ερωτήσεις σας. Ανακοίνωσε επίσης το Veo, μια εφαρμογή AI που δημιουργεί βίντεο στα πρότυπα του Sora της OpenAI, και το Project Astra, μια πλατφόρμα AI η οποία, μεταξύ άλλων, περιγράφει όσα αποτυπώνει η κάμερα του κινητού.

Από την άλλη, η OpenAI παρουσίασε την εξέλιξη του ChatGPT, το GPT-4o. Το νέο γλωσσικό μοντέλο θα λειτουργεί περισσότερο σαν φωνητικός βοηθός παρά σαν chatbot και ίσως σύντομα να εξαλείψει τη χρησιμότητα προϊόντων όπως η «Alexa» ή η «Siri».

Το μέλλον της Τεχνητής Νοημοσύνης, σύμφωνα με την εταιρεία, θα έχει πολλές χρήσεις. Αυτό σημαίνει ότι τα μοντέλα θα μπορούν να επεξεργάζονται κείμενο, εικόνες, βίντεο και ήχο γρήγορα και απρόσκοπτα δίνοντας απαντήσεις στους χρήστες.

Το πιο σημαντικό όμως είναι ότι αυτή η μετεξέλιξη του ChatGPT (σε smartphones και επιτραπέζιους υπολογιστές) θα είναι δωρεάν. Έτσι, εκατομμύρια άνθρωποι που δεν έχουν συνηθίσει να πληρώνουν για την premium υπηρεσία του ChatGPT θα έχουν τώρα πρόσβαση στο τελευταίας τεχνολογίας μοντέλο της.

Η «μάχη» για την Πολυτροπική και τη Συναισθηματική Τεχνητή Νοημοσύνη

Ήδη από το 2023, οι εταιρείες – «κολοσσοί» μας εξηγούσαν πόσο σημαντικό ήταν το γεγονός ότι τα Μεγάλα Γλωσσικά Μοντέλα (LLM) της Τεχνητής Νοημοσύνης μπορούσαν να συνοψίζουν έγγραφα, μηνύματα ηλεκτρονικής αλληλογραφίας ακόμη και ποιήματα.

Με τα νέα chatbots που αναπτύσσουν ήδη από φέτος τόσο η Google όσο και η OpenAI, φαίνεται πως οδηγούμαστε πλέον σε μια νέα εποχή σε ό,τι αφορά τον «πόλεμο» της Τεχνητής Νοημοσύνης.

Τα βαρύτιμα «τρόπαια» αυτής της μάχης θα είναι πλέον η κατάκτηση της λεγόμενης Πολυτροπικής Τεχνητής Νοημοσύνης (Multimodal Artificial Intelligence – MAi) και της Συναισθηματικής Τεχνητής Νοημοσύνης (ΕQ).

Σε ό,τι αφορά την MAi, τα κορυφαία υπολογιστικά μοντέλα AI μπορούν να κατανοούν και να αναλύουν όχι μόνο κείμενο αλλά και ήχο, εικόνες και κώδικα υπολογιστή και να δημιουργούν απαντήσεις στα ίδια μέσα.

Σε ένα απλό παράδειγμα, το ChatGPT της OpenAI ή το Gemini της Google μπορούν να προσλαμβάνουν μια οπτική εικόνα (ίσως μέσω της κάμερας ενός smartphone) και να περιγράφουν με λόγια το περιεχόμενο της εικόνας. «Η πολυτροπικότητα επεκτείνει ριζικά το είδος των ερωτήσεων που μπορούμε να θέσουμε και των απαντήσεων που μπορούμε να λάβουμε ως feedback», δήλωσε ο διευθύνων σύμβουλος της Google Sundar Pichai στην εκδήλωση I/O της εταιρείας.

Την Δευτέρα (13/05), η OpenAI παρουσίασε μια αναβαθμισμένη έκδοση του ChatGPT, που τροφοδοτείται από το νέο μοντέλο GPT-4o (το «o» σημαίνει «omni»).

Το πιο αξιοσημείωτο πράγμα στο νέο ChatGPT είναι το πώς αισθάνονται οι «ανθρώπινες» αλληλεπιδράσεις με το chatbot.

Αυτό οφείλεται κυρίως στον ήχο και τη συμπεριφορά της φωνής ομιλίας του ChatGPT που μοιάζει με την Her. Ο τόνος της είναι παράξενα ανθρώπινος – ακούγεται φυσικός και εκφραστικός, κάνει αστεία και σταματάει αμέσως να μιλάει όταν ακούει τον χρήστη να αρχίζει να μιλάει.

Η ηχητική φωνή αντιπροσωπεύει έναν άλλο τρόπο λειτουργίας, όπως ακριβώς και οι τρόποι λειτουργίας κειμένου ή εικόνας που καταλαβαίνει το μοντέλο.

Και το ChatGPT προσθέτει έναν ακόμη τρόπο λειτουργίας – τη συναισθηματική νοημοσύνη ή «EQ».

Φαίνεται ικανό να ανιχνεύει συναισθήματα στη φωνή του χρήστη (στο demo της Δευτέρας, το chatbot ανίχνευσε το άγχος στη φωνή ενός ερευνητή του OpenAI) και στη συνέχεια να επηρεάζει τις απαντήσεις του με το κατάλληλο συναίσθημα (για τον ερευνητή, την ενσυναίσθηση).

Την ίδια στιγμή, η Google θα κυκλοφορήσει ένα παρόμοιο chatbot φωνητικής αλληλεπίδρασης με την ονομασία «Gemini Live» αργότερα φέτος.

Το πιο σημαντικό είναι ότι τα μοντέλα Τεχνητής Νοημοσύνης έχουν αναπτύξει την ικανότητα να «συλλογίζονται» σχετικά με αυτές τις πολυτροπικές εισόδους.

Για παράδειγμα, η Google έδειξε στο I/O πώς το chatbot Gemini μπορεί να βοηθήσει έναν χρήστη να προγραμματίσει ένα επερχόμενο ταξίδι.

Ξεκινάει με την εξαγωγή της υλικοτεχνικής υποδομής του ταξιδιού (πτήσεις, ξενοδοχεία κ.λπ.) από τις κρατήσεις που αποστέλλονται με email στο Gmail του χρήστη- στη συνέχεια, αφού συγκεντρώσει κάποιες πληροφορίες σχετικά με τα ενδιαφέροντα του χρήστη, αποφασίζει ποιες δραστηριότητες θα μπορούσαν να χωρέσουν καλύτερα στον διαθέσιμο χρόνο, δεδομένης της θέσης τους (με βάση τα δεδομένα του Google Maps) σε σχέση με το ξενοδοχείο του χρήστη.

Στις αντίστοιχες επιδείξεις τους, τόσο στο ChatGPT όσο και στο Gemini παρουσιάστηκαν μαθηματικά προβλήματα γραμμένα σε λευκό πίνακα και ζητήθηκε βοήθεια για την επίλυσή τους.

Και οι δύο εταιρείες παρουσίασαν τα chatbots τους να διαβάζουν κώδικα υπολογιστή από μια οθόνη και να τον αναλύουν, για παράδειγμα.

Στην πραγματικότητα, ο υπολογιστικός κώδικας μπορεί να είναι το «κλειδί «για την κατανόηση του τρόπου με τον οποίο αυτά τα μοντέλα Τεχνητής Νοημοσύνης αποκτούν πλέον την ικανότητα να συλλογίζονται και να κάνουν κρίσεις.

 

Πηγή:liberal