}); }
EDITORIALΕΡΕΥΝΑ & ΠΑΝΕΠΙΣΤΗΜΙΑ 31 Georgia Giannopoulou May 31, 2025
To Google SignGemma παρουσιάστηκε δημόσια στο Google I/O 2025 ως «το πιο ικανό μας μοντέλο για τη μετάφραση νοηματικής γλώσσας» (Gadgets 360). Το νέο μέλος της οικογένειας Gemma είναι ανοιχτού κώδικα, λειτουργεί πλήρως offline και στοχεύει να αποδώσει χειρομορφές, κινήσεις βραχιόνων και εκφράσεις προσώπου με καθυστέρηση κάτω από 100 ms. Με αυτόν τον τρόπο γεφυρώνει σε πραγματικό χρόνο το κενό ανάμεσα στους υπογράφοντες και στο ακουστικό κοινό, ακόμη και σε περιοχές χωρίς σταθερή σύνδεση.
Το μοντέλο βασίζεται σε ελαφριά εκδοχή του Gemini Nano, με vision transformer που εντοπίζει 21 σημεία στα χέρια και περισσότερα από 50 στο πρόσωπο. Σύμφωνα με το Analytics India Magazine, η ακρίβεια BLEU φθάνει το 71 % στην ASL-English. Η εκπαίδευση καλύπτει 750 ώρες και 14 δημόσια σύνολα δεδομένων· στη συνέχεια έγινε fine-tune σε σπάνιες διαλέκτους με differential privacy, ώστε να προστατεύονται τα πρωτογενή βίντεο.
Η offline φύση του SignGemma επιβεβαιώθηκε και από το Jang News, που επισημαίνει ότι η μηδενική εξάρτηση από cloud προσαρμόζει το εργαλείο σε νοσοκομεία, σχολεία και απομακρυσμένες κοινότητες.
Στην επίδειξη του keynote, ο Product Manager Gus Martins υπέγραψε τη φράση «AI connects us all» και η οθόνη απέδωσε το αγγλικό κείμενο σχεδόν ταυτόχρονα (AIbase). Η Google άνοιξε φόρμα για early testers, ενώ το πρώτο beta θα ενσωματωθεί στο Gemini Live έως το τέλος του 2025.
Πιλοτικό πρόγραμμα σε λύκεια του Σαν Φρανσίσκο μείωσε τον χρόνο διερμηνείας έκτακτων ανακοινώσεων κατά 42 %. Παράλληλα, Πανεπιστημιακά μαθήματα φυσικής σημείωσαν βελτίωση 18 % στις βαθμολογίες κωφών μαθητών που χρησιμοποιούν SignGemma στη διάρκεια των διαλέξεων, σύμφωνα με στοιχεία της Multilingual.com.
Η Google συγκρότησε advisory board με Deaf Nation, European Union of the Deaf και ελληνικούς φορείς. Το Gemma Community License απαγορεύει επιβολή επιτήρησης και εμπορική αξιοποίηση χωρίς σεβασμό στα ανθρώπινα δικαιώματα. Παρά τις επιφυλάξεις ορισμένων developers, η άδεια θεωρείται συμβιβασμός ανάμεσα σε ανοιχτό οικοσύστημα και υπεύθυνη καινοτομία.
Η Meta εργάζεται στο Seamless Sign, ενώ ανεξάρτητες πλατφόρμες (π.χ. ASL Bloom) προχωρούν σε cloud λύσεις εκμάθησης νοηματικής. Ωστόσο, καμία δεν προσφέρει πλήρη offline ενδοσυσκευαστική λειτουργία.
Δύο μεγάλα ζητούμενα παραμένουν:
— Το μοντέλο αποδίδει καλύτερα στην ASL και απαιτεί data augmentation για μικρές κοινότητες.
Η ASL διαθέτει σήμερα τα πιο εκτενή, δημόσια και ετερογενή σύνολα βίντεο με λεζάντες· ορισμένα φτάνουν τις 1 000+ ώρες και χιλιάδες μοναδικούς υπογράφοντες, όπως το YouTube-ASL και το How2Sign. Γι’ αυτό η Google, όπως παραδέχεται επίσημα, «εκπαίδευσε και βελτιστοποίησε πρωτίστως το μοντέλο για ASL–English», επιτυγχάνοντας την υψηλότερη BLEU/Word Error Rate σε εσωτερικά τεστ. Η μεγάλη ποικιλία δεδομένων βοηθά το SignGemma να μάθει:
μορφολογία χεριών (χειρομορφές),
κίνηση βραχιόνων στον 3D χώρο,
εκφράσεις προσώπου που φέρουν γραμματικό ρόλο στην ASL.
Με πλούσιο corpus, ο αλγόριθμος vision-transformer δηλαδή βλέπει πολλές γωνίες, φωτισμούς, ρυθμούς και στυλ, οπότε γενικεύει εύκολα σε νέους υπογράφοντες. Αντίθετα, για μικρότερες γλώσσες η ανεπαρκής κάλυψη προξενεί overfitting—το μοντέλο «κολλά» σε συγκεκριμένα πρόσωπα ή φόντα και χάνει ακρίβεια όταν αλλάξουν.
Οι περισσότερες εθνικές νοηματικές (π.χ. Ελληνική ΕΝΓ, Κυπριακή, Ιρλανδική) διαθέτουν λίγες εκατοντάδες ώρες βίντεο· συχνά μάλιστα είναι μονοθεματικά (π.χ. ειδησεογραφικά δελτία) και δεν αποτυπώνουν την πλήρη ποικιλία της γλώσσας. Για να «μεγεθύνει» αυτό το υλικό, η ερευνητική κοινότητα εφαρμόζει data augmentation — τεχνικές δημιουργίας συνθετικών ή παραλλαγμένων δείγματων που αυξάνουν την ποικιλομορφία χωρίς νέα γυρίσματα:
Χωρικές μεταμορφώσεις: καθρέπτισμα-δεξιά/αριστερά, ελαφρύ zoom ή περιστροφή ώστε ο αναγνωριστής να μην εξαρτάται από ακριβείς συντεταγμένες χεριών.
Χρονικές παραμορφώσεις: επιβράδυνση ή επιτάχυνση ακολουθίας καρέ· διδάσκει το μοντέλο να αντέχει σε διαφορετικές ταχύτητες υπογραφής.
Προσθήκη θορύβου/φωτισμού: random brightness, blur· βοηθά σε συνθήκες χαμηλού φωτισμού.
Συνθετικά avatar: δημιουργία ψηφιακών υποκειμένων που εκτελούν σημεία χωρίς να αποκαλύπτουν πραγματικά πρόσωπα, μειώνοντας ζητήματα ιδιωτικότητας.
Μελέτες σε ισπανική και γερμανική νοηματική δείχνουν ότι η ακρίβεια αναγνώρισης αυξάνεται 5–15 ποσοστιαίες μονάδες μετά από τέτοια τεχνητή διεύρυνση των δεδομένων.Η Google αναφέρει ότι τα εσωτερικά της pipelines εφαρμόζουν ανάλογες πρακτικές πριν κάνει fine-tune το SignGemma σε «μικρές» γλώσσες, ώστε να αποφευχθεί η προαναφερθείσα μεροληψία υπέρ της ASL.
Με το data augmentation το μοντέλο:
αντέχει σε διαφορετικούς υπογράφοντες, φωτισμούς και κάμερες χαμηλής ανάλυσης·
μαθαίνει σπάνιες δομές (π.χ. διπλές αρθρώσεις, ταξινομικές χειρομορφές) που απουσιάζουν από τα αρχικά δείγματα·
περιορίζει την ανάγκη για ακριβή, χρονοβόρα ανθρώπινη επιμέλεια βίντεο·
προστατεύει την ιδιωτικότητα, καθώς μπορεί να δουλέψει με συνθετικά δεδομένα αντί για πραγματικά πρόσωπα.
Ωστόσο, ακόμη και με εντατικό augmentation, η απόδοση σε γλώσσες με ελάχιστο φυσικό corpus θα υστερεί συγκριτικά· γι’ αυτό οι φορείς Κωφών ζητούν από τη Google να στηρίξει νέα προγράμματα λήψης, ώστε το SignGemma να προσφέρει στο μέλλον εξίσου εύστοχη μετάφραση στην Ελληνική Νοηματική και σε άλλες λιγότερο τεκμηριωμένες γλώσσες.
Επειδή οι χειρονομίες και τα πρόσωπα σε βίντεο νοηματικής είναι στην πράξη βιομετρικά δεδομένα, η μόνη ρεαλιστική άμυνα είναι:
Επεξεργασία & αποθήκευση μόνο τοπικά με ισχυρή κρυπτογράφηση,
Ρητή, ανακλητή συγκατάθεση και «κόκκινο κουμπί» διαγραφής,
Ελάχιστη αποθήκευση (μόνο σκελετικά/συμπιεσμένα features όταν είναι επαρκές),
Δημόσια privacy card που περιγράφει τους κινδύνους και τα μέτρα.
Μόνο έτσι εργαλεία όπως το Google SignGemma μπορούν να εξελιχθούν χωρίς να μετατραπούν σε “dataset pastiche” που εκθέτει τους ίδιους τους ανθρώπους που είχαν σκοπό να εξυπηρετήσουν.
Η Google εξετάζει αντίστροφη ροή (text-to-sign avatar) και πολυμερή meetings όπου SignGemma θα συνδυάζει αυτόματη φωνητική αναγνώριση, υπότιτλους και ψηφιακή νοηματική σε μία διεπαφή.
Η διάθεση ενός τόσο εξειδικευμένου εργαλείου ως ανοιχτού μοντέλου μετατρέπει την προσβασιμότητα σε κεντρικό πυλώνα της στρατηγικής AI της Google. Αν η κοινότητα Κωφών παραμείνει συνδιαμορφωτής, το Google SignGemma μπορεί να εξελιχθεί από μεταφραστή σε ζωντανή πλατφόρμα πολιτισμικού διαλόγου, δημιουργώντας ένα θετικό προηγούμενο για τεχνολογία με κοινωνικό πρόσημο.
Tagged as:
AI μετάφρασης Google SignGemma LLMS slideshow νοηματική γλώσσα προσβασιμότητα τεχνητή νοημοσύνη
Το #1 ειδησεογραφικό site στην Ελλάδα με νέα για την Τεχνητή Νοημοσύνη AI. Αναλύσεις. Τάσεις. Εργαλεία. Περιεχόμενο σχεδιασμένο για επαγγελματίες που παίρνουν αποφάσεις αλλά και για αρχάριους που ζητούν να καταλάβουν πού πάει το μέλλον.
Το #1 ελληνικό newsletter για AI, Τεχνολογία & Marketing που ανανεώνεται μόνο με ό,τι έχει πραγματική αξία. Μπορείς να διαγραφείς ανά πάσα στιγμή.
Αλλά δύσκολα θα θες!
Για διαφημίσεις :
hello@inadgenous.gr
mobile +30 6983 199 249
© Copyrigh 2025| greece-ai.gr | All rights reserved. Το περιεχόμενο υπόκειται σε πνευματικά δικαιώματα. Επιτρέπεται η αναδημοσίευση με την προϋπόθεση ότι αναφέρεται η πηγή.
Please login or subscribe to continue.
No account? Register | Lost password
✖✖
Are you sure you want to cancel your subscription? You will lose your Premium access and stored playlists.
✖