Μια γλώσσα που η AI μόλις έμαθε μέσα από τα μάτια και τα αυτιά ενός παιδιού

By | February 1, 2024

Ο Sam ήταν έξι μηνών όταν έδεσε για πρώτη φορά μια ελαφριά κάμερα στο μέτωπό του.

Τον επόμενο ενάμιση χρόνο, ο φωτογραφικός φακός απαθανάτισε αποσπάσματα από τη ζωή του. Σερνόταν γύρω από τα κατοικίδια της οικογένειας, έβλεπε τους γονείς του να μαγειρεύουν και έκλαιγε στην μπροστινή βεράντα με τη γιαγιά του. Στο μεταξύ, η κάμερα κατέγραψε όλα όσα άκουσε.

Αυτό που φαίνεται να είναι ένα χαριτωμένο οικιακό βίντεο για ένα παιδί είναι στην πραγματικότητα μια τολμηρή ιδέα: μπορεί η τεχνητή νοημοσύνη να μάθει γλώσσες όπως ένα παιδί; Τα αποτελέσματα μπορεί επίσης να αποκαλύψουν πώς τα παιδιά αποκτούν γρήγορα τη γλώσσα και τις έννοιες από μικρή ηλικία.

Μια νέα μελέτη στο Επιστήμη περιγράφει πώς οι ερευνητές χρησιμοποίησαν τις ηχογραφήσεις του Sam για να εκπαιδεύσουν ένα AI ώστε να κατανοεί τη γλώσσα. Με ένα μικρό μόνο μέρος της εμπειρίας ζωής ενός παιδιού κατά τη διάρκεια ενός έτους, το AI μπόρεσε να κατανοήσει βασικές έννοιες – για παράδειγμα, μια μπάλα, μια πεταλούδα ή έναν κουβά.

Το AI, που ονομάζεται Children’s Vision for Contrastive Learning (CVCL), μιμείται κατά προσέγγιση τον τρόπο που μαθαίνουμε ως παιδιά συνδυάζοντας την όραση με τον ήχο. Είναι μια πολύ διαφορετική προσέγγιση από αυτή που ακολουθούν μεγάλα γλωσσικά μοντέλα όπως αυτά πίσω από το ChatGPT ή το Bard. Η απίστευτη ικανότητα αυτών των μοντέλων να δημιουργούν δοκίμια, ποιήματα ή ακόμα και σενάρια podcast έχει συγκινήσει τον κόσμο. Πρέπει όμως να αφομοιώσουν τρισεκατομμύρια λέξεις από μια μεγάλη ποικιλία ειδήσεων, σεναρίων και βιβλίων για να αναπτύξουν αυτές τις δεξιότητες.

Τα παιδιά, από την άλλη, μαθαίνουν με πολύ λιγότερες πληροφορίες και γενικεύουν γρήγορα αυτά που μαθαίνουν καθώς μεγαλώνουν. Οι επιστήμονες έχουν από καιρό αναρωτηθεί εάν η τεχνητή νοημοσύνη μπορεί να καταγράψει αυτές τις ικανότητες μόνο από καθημερινές εμπειρίες.

«Δείξαμε, για πρώτη φορά, ότι ένα νευρωνικό δίκτυο εκπαιδευμένο σε αυτές τις ρεαλιστικές αναπτυξιακές πληροφορίες από ένα μόνο παιδί μπορεί να μάθει να συνδέει λέξεις με οπτικά αντίστοιχά τους», δήλωσε ο συγγραφέας της μελέτης Δρ. Wai Keen Vong του Επιστημονικού Κέντρου του NYU Data. , σε μια μελέτη. δελτίο τύπου για την έρευνα.

Παιδικό παιχνίδι

Τα παιδιά απορροφούν εύκολα τις λέξεις και τις έννοιές τους από την καθημερινή εμπειρία.

Σε ηλικία μόλις έξι μηνών, αρχίζουν να συνδέουν τις λέξεις με αυτό που βλέπουν – για παράδειγμα, ένα στρογγυλό, γερό πράγμα είναι μια «μπάλα». Μέχρι την ηλικία των δύο ετών, γνωρίζουν περίπου 300 λέξεις και τις έννοιές τους.

Οι επιστήμονες έχουν συζητήσει εδώ και καιρό πώς συμβαίνει αυτό. Μια θεωρία λέει ότι τα παιδιά μαθαίνουν να ταιριάζουν αυτό που βλέπουν με αυτό που ακούν. Ένας άλλος προτείνει ότι η εκμάθηση γλωσσών απαιτεί ευρύτερη εμπειρία του κόσμου, όπως η κοινωνική αλληλεπίδραση και η ικανότητα συλλογισμού.

Αυτές οι ιδέες είναι δύσκολο να διαχωριστούν με τα παραδοσιακά γνωστικά τεστ σε μικρά παιδιά. Αλλά μπορούμε να πάρουμε μια απάντηση εκπαιδεύοντας μια τεχνητή νοημοσύνη μέσα από τα μάτια και τα αυτιά ενός παιδιού.

M3GAN;

Η νέα μελέτη χρησιμοποίησε μια πλούσια πηγή βίντεο που ονομάζεται SAYCam, η οποία περιλαμβάνει δεδομένα που συλλέχθηκαν από τρία παιδιά ηλικίας μεταξύ 6 και 32 μηνών, χρησιμοποιώντας κάμερες τύπου GoPro, δεμένες στο μέτωπό τους.

Δύο φορές την εβδομάδα, οι κάμερες κατέγραφαν περίπου μία ώρα βίντεο και ήχο καθώς θήλαζαν, σέρνονταν και έπαιζαν. Όλος ο ηχητικός διάλογος μεταγράφηκε σε “εκφωνήσεις” – λέξεις ή φράσεις που ειπώθηκαν πριν αλλάξει ο ομιλητής ή η συνομιλία. Το αποτέλεσμα είναι ένας πλούτος δεδομένων πολυμέσων από την οπτική γωνία των μωρών και των μικρών παιδιών.

Για το νέο σύστημα, η ομάδα σχεδίασε δύο νευρωνικά δίκτυα με έναν «κριτή» να τα συντονίζει. Κάποιος μετέφρασε τα γραφικά πρώτου προσώπου σε μια σκηνή ποιος και τι – είναι μια μητέρα που μαγειρεύει; Οι άλλοι αποκρυπτογραφούσαν λέξεις και νοήματα από τις ηχογραφήσεις.

Στη συνέχεια, τα δύο συστήματα συσχετίστηκαν χρονικά, έτσι ώστε η τεχνητή νοημοσύνη να μάθει να συνδέει τις σωστές εικόνες με τις λέξεις. Για παράδειγμα, η τεχνητή νοημοσύνη έμαθε να ταιριάζει την εικόνα ενός μωρού με τις λέξεις «Κοίτα, υπάρχει ένα μωρό» ή την εικόνα μιας μπάλας γιόγκα με «Ουάου, τι μεγάλη μπάλα». Με την εκπαίδευση, σταδιακά έμαθε να διαχωρίζει την έννοια της μπάλας γιόγκα από ένα μωρό.

«Αυτό δίνει στο μοντέλο μια ιδέα για το ποιες λέξεις πρέπει να συσχετιστούν με ποια αντικείμενα», είπε ο Vong.

Στη συνέχεια, η ομάδα εκπαίδευσε το AI σε βίντεο που εκτείνονται σε περίπου ενάμιση χρόνο από τη ζωή του Sam. Μαζί, συγκέντρωσαν συνολικά περισσότερα από 600.000 καρέ βίντεο, σε συνδυασμό με 37.500 απομαγνητοφωνημένες δηλώσεις. Παρόλο που οι αριθμοί φαίνονται μεγάλοι, αντιπροσωπεύουν μόνο το ένα τοις εκατό της καθημερινής ζωής του Sam και ένα ασήμαντο ποσό σε σύγκριση με τον όγκο των δεδομένων που χρησιμοποιούνται για την εκπαίδευση μεγάλων γλωσσικών μοντέλων.

Baby AI σε άνοδο

Για να δοκιμάσει το σύστημα, η ομάδα προσάρμοσε ένα κοινό γνωστικό τεστ που χρησιμοποιείται για τη μέτρηση των γλωσσικών δεξιοτήτων των παιδιών. Έδειξαν στο AI τέσσερις νέες εικόνες – μια γάτα, μια κούνια, μια μπάλα και ένα γκαζόν – και ρώτησαν ποια ήταν η μπάλα.

Συνολικά, το AI επέλεξε τη σωστή εικόνα περίπου στο 62% των περιπτώσεων. Η απόδοση σχεδόν ταίριαζε με έναν αλγόριθμο αιχμής που εκπαιδεύτηκε σε 400 εκατομμύρια ζεύγη εικόνας-κειμένου από τον Ιστό — πολύ περισσότερα δεδομένα από αυτά που χρησιμοποιήθηκαν για την εκπαίδευση του AI στη μελέτη. Διαπίστωσαν ότι η σύνδεση εικόνων βίντεο με ήχο ήταν ζωτικής σημασίας. Όταν η ομάδα ανακάτεψε τα καρέ του βίντεο και τις σχετικές δηλώσεις τους, το μοντέλο κατέρρευσε εντελώς.

Η τεχνητή νοημοσύνη θα μπορούσε επίσης να «σκέφτεται» έξω από το πλαίσιο και να γενικεύει σε νέες καταστάσεις.

Σε ένα άλλο τεστ, εκπαιδεύτηκε στην οπτική γωνία του Σαμ από ένα βιβλίο με εικόνες, όταν ο πατέρας του είπε: «Είναι μια πάπια και μια πεταλούδα». Αργότερα κράτησε ένα παιχνίδι πεταλούδα όταν τον ρώτησαν: «Μπορείς να φτιάξεις την πεταλούδα;» Όταν αμφισβητήθηκε με πολύχρωμες εικόνες πεταλούδων – αυτές που η τεχνητή νοημοσύνη δεν είχε ξαναδεί – εντόπισε τρία στα τέσσερα παραδείγματα «πεταλούδων» με ακρίβεια μεγαλύτερη από 80%.

Δεν είχαν όλες οι έννοιες των λέξεων την ίδια βαθμολογία. Για παράδειγμα, το “scooping” ήταν ένας αγώνας. Αξίζει όμως να σημειωθεί ότι, όπως και ένα δυνατό reCAPTCHA, οι εικόνες της εκπαίδευσης ήταν δύσκολο να αποκρυπτογραφηθούν ακόμη και από έναν άνθρωπο.

Πόνοι ανάπτυξης

Η τεχνητή νοημοσύνη βασίζεται στις πρόσφατες εξελίξεις στην πολυτροπική μηχανική μάθηση, η οποία συνδυάζει κείμενο, εικόνες, ήχο ή βίντεο για να εκπαιδεύσει τον εγκέφαλο μιας μηχανής.

Βασισμένος στην εμπειρία ενός μόνο παιδιού, ο αλγόριθμος μπόρεσε να καταγράψει πώς σχετίζονται οι λέξεις μεταξύ τους και να συνδέσει λέξεις με εικόνες και έννοιες. Προτείνει ότι για τα παιδιά, το να ακούν λέξεις και να τις ταιριάζουν με αυτό που βλέπουν βοηθάει στην οικοδόμηση του λεξιλογίου τους.

Αυτό δεν σημαίνει ότι άλλες διεργασίες του εγκεφάλου, όπως η κοινωνική σηματοδότηση και ο συλλογισμός, δεν μπαίνουν στο παιχνίδι. Η προσθήκη αυτών των στοιχείων στον αλγόριθμο θα μπορούσε να τον βελτιώσει, έγραψαν οι συγγραφείς.

Η ομάδα σχεδιάζει να συνεχίσει το πείραμα. Προς το παρόν, το «baby» AI μαθαίνει μόνο από ακίνητα καρέ εικόνων και έχει ένα λεξιλόγιο που αποτελείται κυρίως από ουσιαστικά. Η ενσωμάτωση τμημάτων βίντεο στην εκπαίδευση μπορεί να βοηθήσει την τεχνητή νοημοσύνη να μάθει ρήματα, επειδή το βίντεο περιλαμβάνει κίνηση.

Η προσθήκη τονισμού στα δεδομένα ομιλίας μπορεί επίσης να βοηθήσει. Τα παιδιά μαθαίνουν από μικρή ηλικία ότι το «χμμ» της μητέρας τους μπορεί να έχει πολύ διαφορετικές έννοιες ανάλογα με τον τόνο.

Αλλά συνολικά, ο συνδυασμός AI και εμπειριών ζωής είναι μια ισχυρή νέα μέθοδος για τη μελέτη του ανθρώπινου εγκεφάλου και του εγκεφάλου μηχανών. Θα μπορούσε να μας βοηθήσει να αναπτύξουμε νέα μοντέλα τεχνητής νοημοσύνης που μαθαίνουν σαν παιδιά και ενδεχομένως να αναδιαμορφώσουμε την κατανόησή μας για το πώς ο εγκέφαλός μας μαθαίνει τη γλώσσα και τις έννοιες.

Πίστωση εικόνας: Wai Keen Vong

Leave a Reply

Your email address will not be published. Required fields are marked *