Μια ενοποιημένη αρχιτεκτονική για σύνθετο ρετούς

Αυτή η νέα μελέτη έρχεται μετά από εργασία που δημοσιεύθηκε τον περασμένο Μάιο, στην οποία η Apple παρουσίασε ένα μεγάλο πολυτροπικό γλωσσικό μοντέλο (MLLM) ικανό να κατανοεί και να δημιουργεί εικόνες χωρίς να βασίζεται σε ξεχωριστά συστήματα. Με το UniGen-1.5, οι επιστήμονες ενσωματώνουν πλέον προηγμένες δυνατότητες επεξεργασίας σε αυτό το υπάρχον πλαίσιο.  

Η ενοποίηση αυτών των τριών δεξιοτήτων παρουσιάζει μια σημαντική τεχνική πρόκληση, επειδή η δημιουργία και η ανάλυση εικόνων παραδοσιακά βασίζονταν σε αποκλίνουσες προσεγγίσεις. Ωστόσο, οι ερευνητές υποστηρίζουν ότι αυτή η συγχώνευση επιτρέπει στο μοντέλο να αξιοποιήσει τις δυνατότητες κατανόησής του για να βελτιώσει την ποιότητα της παραγωγής του. Αυτό είναι απαραίτητο για την επίλυση ενός επαναλαμβανόμενου προβλήματος: της δυσκολίας που αντιμετωπίζει η Τεχνητή Νοημοσύνη στην τέλεια κατανόηση σύνθετων οδηγιών ρετουσαρίσματος, ειδικά όταν οι απαιτούμενες αλλαγές είναι ανεπαίσθητες ή πολύ συγκεκριμένες.

Ευθυγράμμιση οδηγιών ως τεχνική λύση

Για να αντιμετωπίσει αυτά τα κενά στην κατανόηση, η ομάδα ανέπτυξε ένα νέο βήμα μετά την εκπαίδευση που ονομάζεται «Επεξεργασία Ευθυγράμμισης Οδηγιών». Η αρχή είναι να αναγκαστεί το μοντέλο να προβλέψει μια λεπτομερή περιγραφή κειμένου του αναμενόμενου αποτελέσματος, με βάση την αρχική εικόνα και το αίτημα τροποποίησης, ακόμη και πριν από τη δημιουργία του τελικού οπτικού στοιχείου.  

«Παρατηρούμε ότι το μοντέλο παραμένει ανεπαρκές για τον χειρισμό διαφόρων σεναρίων επεξεργασίας μετά από εποπτευόμενη βελτίωση λόγω της ανεπαρκούς κατανόησης των οδηγιών επεξεργασίας. Ως εκ τούτου, προτείνουμε την ευθυγράμμιση των οδηγιών επεξεργασίας […] για να βελτιωθεί η ευθυγράμμιση μεταξύ της οδηγίας επεξεργασίας και της σημασιολογίας της εικόνας-στόχου », δηλώνουν οι ερευνητές της Apple.

Αυτή η μέθοδος επιτρέπει στο σύστημα να εσωτερικεύσει καλύτερα την πρόθεση πίσω από την επεξεργασία. Στη συνέχεια, οι ερευνητές εφαρμόζουν ενισχυτική μάθηση, η οποία χρησιμοποιεί ένα πανομοιότυπο σύστημα ανταμοιβής τόσο για τη δημιουργία όσο και για την επεξεργασία - ένα σύστημα κρίσιμο για την εναρμόνιση της απόδοσης σε όλες τις εργασίες, από απλές διορθώσεις έως πλήρεις μετασχηματισμούς.

Υπάρχουν ορισμένοι περιορισμοί

Τα πειραματικά αποτελέσματα κατατάσσουν το UniGen-1.5 ως ένα ισχυρό σημείο αναφοράς έναντι του ανταγωνισμού. Σε πρότυπα βιομηχανικών δοκιμών, το μοντέλο επιτυγχάνει βαθμολογίες 0,89 στο GenEval και 86,83 στο DPG-Bench, ξεπερνώντας σημαντικά πρόσφατες μεθόδους όπως το BAGEL και το BLIP3o. Στην επεξεργασία εικόνας, επιτυγχάνει συνολική βαθμολογία 4,31 στο ImgEdit, ξεπερνώντας το μοντέλο ανοιχτού κώδικα OminiGen2 και ανταγωνιζόμενο ιδιόκτητες λύσεις όπως το GPT-Image-1.

Παρά τις εξελίξεις αυτές, η Apple παραδέχεται ότι το εργαλείο της εξακολουθεί να παρουσιάζει αδυναμίες. Το UniGen-1.5 δυσκολεύεται να διατηρήσει συνεπή την ταυτότητα του θέματος σε ορισμένες περιπτώσεις και δεν αποδίδει σωστά το κείμενο στις εικόνες. Οι ερευνητές αποδίδουν αυτό το ελάττωμα στον ελαφρύ, διακριτό αποτοξινωτή, ο οποίος δυσκολεύεται να χειριστεί τις λεπτές δομικές λεπτομέρειες που είναι απαραίτητες για τη δημιουργία κειμένου, γεγονός που υποδηλώνει την ανάγκη για μελλοντικές βελτιώσεις.