Η διαδρομή προς τα φωτορεαλιστικά άβαταρ

By | December 11, 2023

Victor Erukhimov, ο ιδρυτής του Avatar SDK.

Πριν από δέκα χρόνια, έτρεχα την πρώτη μου startup. Καθώς ήμουν υπεύθυνος για τις πωλήσεις, έπρεπε να πετάξω σε όλο τον κόσμο για να αποκτήσω νέους πελάτες. Ζούσα σε αεροπλάνα. Συχνά αυτές οι συναντήσεις ήταν εντελώς χάσιμο χρόνου και ταξιδιωτικού προϋπολογισμού. Αυτός ο τρελός, γεμάτος ταξίδια τρόπος ζωής με έβαλε σε σκέψεις: Όταν ταξιδεύουμε σε μια συνάντηση πρόσωπο με πρόσωπο, δίνουμε τα χέρια και μετά καθόμαστε στο τραπέζι για μια ώρα και οι περισσότερες από τις πληροφορίες που ανταλλάσσουμε είναι οπτικοακουστικές. Όταν εξαγοράστηκε η startup μου το 2016, αναρωτήθηκα: Μπορούν οι απομακρυσμένες συναντήσεις VR να μοιάζουν με προσωπική εμπειρία; Αυτή η ερώτηση καθόρισε τι έκανα για τα επόμενα επτά χρόνια.

Η εικονική πραγματικότητα είναι ένα μακροχρόνιο όνειρο πολλών. Η Meta (τότε Facebook) εξαγόρασε την Oculus για 2 δισεκατομμύρια δολάρια το 2014. Αυτή η συμφωνία έγινε έμπνευση για πολλές ομάδες μηχανικών σε όλο τον κόσμο. Αλλά αυτό ήταν μόνο η αρχή: σύμφωνα με το CNBC, η Meta επένδυσε στα Reality Labs (το τμήμα που εργάζεται σε VR) ένα εκπληκτικό ποσό 13,7 δισεκατομμυρίων δολαρίων μόνο το 2022! Και παρόλο που αυτό το επίπεδο επένδυσης φαίνεται πολύ τολμηρό, το κίνητρο είναι πολύ ξεκάθαρο: αν δημιουργήσουν ένα μετασύμπαν που είναι αρκετά καλό για έναν μέσο καταναλωτή, αυτή η επένδυση θα επιστραφεί πολλές φορές. Η Meta δεν είναι η μόνη εταιρεία που εργάζεται σε αυτήν την τεχνολογία: η Apple ανακοίνωσε τα γυαλιά Vision Pro με ρεαλιστικά avatar και μερικοί άλλοι παίκτες εργάζονται σε παρόμοια προϊόντα. Μια προσωπική συνάντηση στην εικονική πραγματικότητα ήταν πάντα μια εφαρμογή δολοφονίας για το metaverse: φανταστείτε ότι δεν χρειάζεται πλέον να ταξιδεύετε. Απλώς φορέστε ένα κράνος, συναντήστε τους συνεργάτες σας σε μια όμορφη αίθουσα συνεδριάσεων και σε 2 λεπτά ξεχνάτε πού βρίσκεστε. Η αίσθηση της παρουσίας που αποκτάτε σε ένα κράνος VR ​​κόβει την ανάσα και δεν μπορεί ποτέ να επιτευχθεί σε μια εγκατάσταση τηλεδιάσκεψης. Ωστόσο, για να εφαρμόσουμε την εφαρμογή προσωπικής συνάντησης, χρειαζόμαστε ρεαλιστικά avatar.

Η δημιουργία ρεαλιστικών avatar είναι ένα δύσκολο πρόβλημα στα όρια μεταξύ της όρασης υπολογιστή και των τρισδιάστατων γραφικών. Χρησιμοποιούνται ήδη ευρέως σε ταινίες, αλλά η δυναμική δημιουργία avatars για εφαρμογές καταναλωτών παραμένει ένα άλυτο πρόβλημα. Πολλές ομάδες επιτέθηκαν, αλλά καμία δεν τα κατάφερε. Ταυτόχρονα, έχει σημειωθεί απίστευτη πρόοδος σε αυτόν τον τομέα τα τελευταία χρόνια και φαίνεται ότι πρόκειται να διασχίσουμε την παράξενη κοιλάδα και να επιτύχουμε φωτορεαλιστικά avatar καταναλωτών. Ένας συνδυασμός τεχνολογικών και ρυθμιστικών σεναρίων θα καθορίσει πώς θα μοιάζει η λύση για τον τελικό χρήστη. Ακολουθούν ορισμένες σημαντικές πτυχές που πρέπει να λάβετε υπόψη: συλλογή/εξατομίκευση δεδομένων, ιδιοκτησία δεδομένων και συσκευή VR. Ας αναφερθούμε σε καθένα από αυτά.

Συλλογή και εξατομίκευση δεδομένων

Μια προσέγγιση σε ρεαλιστικά avatars παρουσιάστηκε πρόσφατα από το Meta στο podcast του Lex Fridman. Απαιτεί την εγγραφή βίντεο ενός ατόμου σε θάλαμο 4-D φωτογραμμετρίας (ένα τεράστιο πλαίσιο με περίπου εκατό ψηφιακές φωτογραφικές μηχανές) για να καταγράψετε κάθε πιθανή λεπτομέρεια του προσώπου. Στη συνέχεια, ένα νευρωνικό δίκτυο συνθέτει ένα τρισδιάστατο μοντέλο σε κάθε πλαίσιο και αυτό το μοντέλο αποδίδεται σε VR. Η προσέγγιση της ομάδας μου ήταν να συλλέξει όσο το δυνατόν λιγότερα δεδομένα από ένα άτομο, τελικά απλώς μια selfie. Και οι δύο προσεγγίσεις πιθανότατα θα συγκλίνουν σε έναν συμβιβασμό μεταξύ των δύο άκρων, όπως η εγγραφή βίντεο από κινητό τηλέφωνο. Αυτό είναι επεκτάσιμο, αντί να βάζει κάθε καταναλωτή σε ένα θάλαμο φωτογραμμετρίας, και πιθανώς αρκετά καλό για να δημιουργήσει ένα ρεαλιστικό 3D avatar.

Ιδιοκτησία δεδομένων

Δεδομένου ότι τα δεδομένα 3D αποτελούν μέρος των βιομετρικών πληροφοριών ενός ατόμου και χρησιμοποιούνται για λειτουργίες ψηφιακής ασφάλειας, όπως το ξεκλείδωμα ενός κινητού τηλεφώνου, πρέπει να προστατεύονται. Τη στιγμή που γράφεται αυτό το άρθρο, πέντε πολιτείες των ΗΠΑ έχουν νόμους που ρυθμίζουν την επεξεργασία βιομετρικών δεδομένων, όπως σαρώσεις προσώπου. Ο νόμος περί απορρήτου των βιομετρικών πληροφοριών του Ιλινόις, που θεωρείται ένας από τους αυστηρότερους νόμους περί απορρήτου, έχει χρησιμοποιηθεί σε πολλές αγωγές κατά μεγάλων εταιρειών που συλλέγουν δεδομένα καταναλωτών. Οι ΗΠΑ (σε ομοσπονδιακό επίπεδο) και η ΕΕ αναμένεται να ακολουθήσουν το παράδειγμά τους και να εισαγάγουν βιομετρικούς κανονισμούς. Ο πολυσυζητημένος νόμος της ΕΕ για την τεχνητή νοημοσύνη εστιάζει σε μεγάλο βαθμό στις βιομετρικές πληροφορίες. Περιλαμβάνει έξι ορισμούς που σχετίζονται με τη βιομετρία και, για παράδειγμα, μία από τις προτάσεις απαγορεύει όλα τα απομακρυσμένα βιομετρικά συστήματα σε πραγματικό χρόνο σε δημόσιους χώρους. Αυτό σημαίνει ότι θα είναι πολύ δύσκολο να ανταλλάξουμε συλλεγμένα δεδομένα 3D, επομένως πιθανότατα θα συλλέγονται και θα φιλοξενούνται από την εταιρεία που εκτελεί την υπηρεσία avatar και κατέχει τη συσκευή VR.

Συσκευές VR

Η τρέχουσα προσέγγιση για τη δημιουργία και την απόδοση ρεαλιστικών τρισδιάστατων avatars θέτει δύσκολες απαιτήσεις στο υλικό VR. Πρώτον, το κράνος πρέπει να είναι εξοπλισμένο με κάποιες κάμερες που παρακολουθούν τις εκφράσεις του προσώπου. Συνήθως θα υπάρχουν ξεχωριστές κάμερες για την παρακολούθηση των ματιών και του στόματος. Στη συνέχεια, η συσκευή VR πρέπει να έχει αρκετούς υπολογιστικούς πόρους για να τρέξει νευρωνικά δίκτυα που δημιουργούν ένα avatar σε κάθε καρέ σε πραγματικό χρόνο με βάση την είσοδο της κάμερας. Τέλος, το σύστημα γραφικών πρέπει να είναι αρκετά ισχυρό ώστε να αποδίδει ρεαλιστικά το τρισδιάστατο μοντέλο, με όλες τις λεπτομέρειες, από διαφανή γυαλιά μέχρι μακριά χτενίσματα. Τούτου λεχθέντος, φαίνεται ότι μια συσκευή παρόμοια με την Quest3 είναι κοντά στο να είναι αρκετά καλή.

Τρέχουσες Προκλήσεις

Αν και η πρόοδος στην ανακατασκευή ρεαλιστικών avatar ήταν αξιοσημείωτη την τελευταία δεκαετία, τουλάχιστον, η επίτευξη ενός ακριβούς ψηφιακού αντιγράφου του κόσμου μας εξακολουθεί να θέτει πολλές προκλήσεις. Οι περισσότεροι από αυτούς τους περιορισμούς προκύπτουν από την αναντιστοιχία μεταξύ των απαιτήσεων γραφικών υπολογιστών τελευταίας τεχνολογίας και του διαθέσιμου υλικού. Τα μακριά χτενίσματα και τα ρούχα πρέπει να είναι κινούμενα με φυσική προσομοίωση για να φαίνονται ρεαλιστικά. Αυτό απαιτεί πολύ περισσότερους υπολογιστικούς πόρους από αυτούς που μπορεί να προσφέρει η εικονική πραγματικότητα για φορητές συσκευές αυτήν τη στιγμή. Πολλοί άλλοι περιορισμοί προέρχονται επίσης από μια αντιστάθμιση μεταξύ του βάρους των ακουστικών και της υπολογιστικής ισχύος της GPU.

Δεδομένου του τρέχοντος ρυθμού προόδου, νομίζω ότι είναι λογικό να περιμένουμε να έρθουν ρεαλιστικά avatar καταναλωτών τα επόμενα χρόνια. Αυτή η αναζήτηση έχει μαγέψει πολλούς ερευνητές και μηχανικούς την τελευταία δεκαετία. Και φαίνεται ότι η συλλογική προσπάθεια αποδίδει καρπούς. Είμαστε έτοιμοι να μπούμε στην εποχή των ρεαλιστικών avatar!


Το Τεχνολογικό Συμβούλιο Forbes είναι μια κοινότητα μόνο με πρόσκληση για CIO, CTO και στελέχη τεχνολογίας παγκόσμιας κλάσης. Είμαι κατάλληλος;


Leave a Reply

Your email address will not be published. Required fields are marked *