Οι άνθρωποι έχουν τη δυνατότητα να μάθουν μια έννοια και στη συνέχεια να την προεκβάλλουν για σχετικές χρήσεις. Με την έλευση των μέσων κοινωνικής δικτύωσης, για παράδειγμα, μάθαμε την έννοια του «τιτιβίσματος». Και αφού γνωρίζουμε την έκφραση «δύο φορές», καταλαβαίνουμε τι σημαίνει «τιτιβίζω δύο φορές». Όμως, περιέργως, η τεχνητή νοημοσύνη, ακόμη και στην περίπτωση των πιο προηγμένων συστημάτων, δυσκολεύεται να κάνει αυτήν την παρέκταση.
Πράγματι, στα τέλη της δεκαετίας του 1980, οι Jerry Fodor και Zenon Pylyshyn, φιλόσοφοι και γνωστικοί επιστήμονες, υπέθεσαν ότι τα τεχνητά νευρωνικά δίκτυα (ένα απλουστευμένο μοντέλο που μιμείται τον τρόπο με τον οποίο ο ανθρώπινος εγκέφαλος επεξεργάζεται τις πληροφορίες) ήταν εντελώς ανίκανα να δημιουργήσουν αυτές τις συνδέσεις, που ονομάζονται συνθετικές γενικεύσεις. .
Αν και τις τελευταίες δεκαετίες (και ειδικά τα τελευταία χρόνια) αυτού του είδους τα νευρωνικά δίκτυα έχει σημειώσει τεράστια πρόοδο, είναι ακόμα δύσκολο να αντικρούσει κανείς το αξίωμα των Fodor και Pylyshyn. Ωστόσο, η ομάδα με επικεφαλής τον Brenden Lake (επίκουρος καθηγητής στο Κέντρο Επιστήμης Δεδομένων και Τμήμα Ψυχολογίας και Τεχνολογίας στο Πανεπιστήμιο της Νέας Υόρκης) και ο Marco Baroni (ερευνητής στο Καταλανικό Ινστιτούτο Έρευνας και Προηγμένων Σπουδών και καθηγητής στο Τμήμα Μετάφρασης και Οι Γλωσσικές Επιστήμες στο Pompeu Fabra της Βαρκελώνης, έχουν αναπτύξει μια νέα μέθοδο εκπαίδευσης που ονομάζεται «compositional meta-learning» (MLC) που διδάσκει τεχνητές νοημοσύνη όπως το ChatGPT να καθιερώνουν αυτές τις γενικεύσεις, σε ορισμένες περιπτώσεις ακόμη καλύτερα από τους ίδιους τους ανθρώπους. Τα αποτελέσματα μόλις δημοσιεύτηκαν στο περιοδικό «Nature».
Διδασκαλία τεχνητής νοημοσύνης
Παραδοσιακά, αυτά τα συστήματα αναμένεται να μάθουν «τον παλιό τρόπο». «Τα νευρωνικά δίκτυα εκπαιδεύονται πάντα με παραδείγματα της εργασίας που θέλουμε να λύσουν», εξηγεί ο Baroni στο ABC. «Κανονικά ένα νευρωνικό δίκτυο εκπαιδεύεται με συγκεκριμένα παραδείγματα συγκεκριμένων περιπτώσεων. Αν, για παράδειγμα, θέλουμε το δίκτυο να μάθει να αναγνωρίζει ζώα, θα του δείξουμε φωτογραφίες από σκύλους, γάτες, άλογα…».
Αυτή δεν ήταν η μόνη προσέγγιση: αναπτύχθηκαν επίσης συγκεκριμένες αρχιτεκτονικές για την απόκτηση αυτής της ικανότητας γενίκευσης. Ωστόσο, τα αποτελέσματα ήταν μικτά. Αυτή η ομάδα εισάγει μια νέα εναλλακτική προσέγγιση, το MLC: «Εδώ, κάθε παράδειγμα που χρησιμοποιείται κατά τη διάρκεια της μάθησης είναι ένα διαφορετικό πρόβλημα. Με αυτόν τον τρόπο το δίκτυο μαθαίνει να λύνει αφηρημένα προβλήματα, αντί να μαθαίνει να αντιλαμβάνεται μόνο επιφανειακές συσχετίσεις μεταξύ του ενός παραδείγματος και του άλλου», εξηγεί ο Baroni.
Χρησιμοποιώντας το MLC ως μέθοδο εκπαίδευσης, το νευρωνικό δίκτυο (στην περίπτωση αυτή έχει δοκιμαστεί ειδικά με μοντέλα γλώσσας παρόμοια με το ChatGPT) ενημερώνεται συνεχώς για να βελτιώνει τις δεξιότητές του με κάθε νέα ιδέα. Για παράδειγμα, το MLC παίρνει τη λέξη “jump”? Στη συνέχεια, κάντε συνδυασμούς λέξεων, όπως «άλμα δύο φορές». Στο επόμενο βήμα, προστίθενται νέες λέξεις, όπως “διπλό άλμα γύρω από έναν κώνο”. Και ούτω καθεξής, βελτιώνοντας τις δυνατότητες σύνθεσης της αλυσίδας.
Η μηχανή ενάντια στον άνθρωπο
Για να επαληθευτεί ότι η μέθοδος εκπαίδευσης λειτουργεί πραγματικά, διεξήχθη μια σειρά πειραμάτων συγκρίνοντας μηχανές με ανθρώπους. Για να υπάρχουν ίσοι όροι, εφευρέθηκαν νέες λέξεις που έπρεπε να μάθουν και οι δύο εξίσου. Συγκεκριμένα, οι λέξεις «dax», «wif», «lug» και «zup», που σήμαιναν «κόκκινο», «πράσινο», «μπλε» και «κίτρινο», αντίστοιχα. Στη συνέχεια, εισήχθησαν νέες έννοιες που ορίστηκαν από τους ερευνητές ως “fep”, πράγμα που σήμαινε ότι η προηγούμενη λέξη επαναλήφθηκε τρεις φορές. Για παράδειγμα, “dax fep” θα σήμαινε “κόκκινο κόκκινο κόκκινο”. Ή η λέξη «kiki» αντιστρέφει τη σειρά των εννοιών: επομένως το «dax kiki lug» θα ήταν «μπλε κόκκινο».
Και οι δύο ομάδες, μηχανές και άνθρωποι, έχουν πετύχει παρόμοιες επιτυχίες. Επίσης, σε ορισμένες περιπτώσεις το MLC λειτούργησε καλύτερα. Ακόμη και σε σύγκριση με άλλα ισχυρά νευρωνικά δίκτυα, όπως το ChatGPT και το GPT-4, το MLC ήταν ανώτερο και έδειξε δυσκολία σε αυτήν την εργασία εκμάθησης. Αλλά αυτό που εξέπληξε περισσότερο τους συγγραφείς ήταν ότι τα νευρωνικά δίκτυα έμοιαζαν με ανθρώπους όχι μόνο όταν παρήγαγαν τη σωστή απάντηση, «αλλά και όταν έκαναν λάθη», λέει ο Baroni.
«Τα μεγάλα γλωσσικά μοντέλα όπως το ChatGPT εξακολουθούν να παλεύουν με τη συνθετική γενίκευση, αν και έχουν βελτιωθεί τα τελευταία χρόνια», σημειώνει ο συγγραφέας. “Αλλά πιστεύουμε ότι το MLC μπορεί να βελτιώσει περαιτέρω τις δυνατότητες σύνθεσης των γλωσσικών μοντέλων.”
Δημοκρατικά νευρωνικά δίκτυα
Και δεν θα χρησίμευε μόνο για να κάνει αυτές τις τεχνητές νοημοσύνη περισσότερο παρόμοιες με τον τρόπο σκέψης μας. Επίσης να αυξηθεί η προσβασιμότητά τους και να αρθούν κάποιες από τις υποψίες που συχνά προκαλούν στους επαγγελματίες που τα χρησιμοποιούν. «Το να κάνουν τα δίκτυα να συμπεριφέρονται πιο συστηματικά σημαίνει επίσης ότι οι μέθοδοι «συλλογισμού» τους θα είναι πιο διαφανείς», εξηγεί ο Baroni. Επειδή μια από τις επικρίσεις αυτών των μοντέλων, που θεωρούνται συστήματα υποστήριξης, για παράδειγμα, στις ιατρικές διαγνώσεις, είναι ότι η διαδρομή που οδηγεί σε αυτόν τον ολοένα και πιο εκλεπτυσμένο τελικό συλλογισμό δεν είναι απολύτως σαφής.
Δεν θα ήταν ο μόνος στόχος. «Ελπίζουμε ότι τα δίκτυα ικανά για γενίκευση σύνθεσης θα απαιτούν επίσης λιγότερα δεδομένα εκπαίδευσης και επομένως θα είναι μικρότερο και ευκολότερο να αναπτυχθούν συστήματα παρόμοια με αυτά των εταιρειών όπως η OpenAI και η Google από πανεπιστήμια και δημόσια ερευνητικά ιδρύματα», προσθέτει ο ερευνητής. Ωστόσο, υπάρχει ακόμη πολλή δουλειά που πρέπει να γίνει, και ακόμη κι αν διδάξουμε τις μηχανές να γενικεύουν, αυτό δεν σημαίνει ότι έχουμε μιμηθεί πλήρως την ανθρώπινη διάνοια: «Ο συλλογισμός της σύνθεσης είναι απλώς μέρος του τρόπου λειτουργίας μας οι άνθρωποι».