Ερευνητές από την Apple και το Πανεπιστήμιο Purdue στις Ηνωμένες Πολιτείες ανέπτυξαν το μοντέλο DarkDiff για την αποκατάσταση λεπτομερειών σε φωτογραφίες που λαμβάνονται σε συνθήκες πολύ χαμηλού φωτισμού. Αυτή η τεχνητή νοημοσύνη ενσωματώνει ένα μοντέλο διάχυσης απευθείας στη ροή εργασίας επεξεργασίας εικόνας για την εξουδετέρωση του ψηφιακού θορύβου χωρίς υπερβολική εξομάλυνση της εικόνας.
Το DarkDiff αναδιοργανώνει την επεξεργασία σήματος εικόνας της Apple
Οι τρέχοντες αλγόριθμοι επεξεργασίας εικόνας επιχειρούν να αντισταθμίσουν την έλλειψη φωτός που καταγράφεται από τον αισθητήρα, αλλά συχνά επικρίνονται για τα τεχνητά αποτελέσματά τους. Αυτές οι μέθοδοι δημιουργούν συχνά ένα εφέ "ελαιοχρωματισμού" όπου οι μικρές λεπτομέρειες εξαφανίζονται ή γίνονται δυσανάγνωστες. Για να διορθώσουν αυτό, οι ερευνητές επέλεξαν να μην εφαρμόσουν την Τεχνητή Νοημοσύνη αποκλειστικά στην μετεπεξεργασία.
Αντ' αυτού, η ομάδα επαναχρησιμοποίησε το Stable Diffusion, ένα μοντέλο ανοιχτού κώδικα που έχει εκπαιδευτεί σε εκατομμύρια εικόνες, για να το ενσωματώσει στον πυρήνα της επεξεργασίας σήματος εικόνας (ISP). Το τσιπ του αισθητήρα εικόνας συνεχίζει να χειρίζεται τα κρίσιμα αρχικά βήματα, όπως η ισορροπία λευκού και η αποχρωματισμός, για να ερμηνεύσει τα ακατέργαστα δεδομένα του αισθητήρα. Στη συνέχεια, το DarkDiff επεξεργάζεται τη γραμμική εικόνα RGB για να την αποθορυβοποιήσει και να δημιουργήσει απευθείας την τελική εικόνα sRGB.«Εισάγουμε ένα νέο πλαίσιο για τη βελτίωση των ακατέργαστων εικόνων σε συνθήκες χαμηλού φωτισμού, αναδιατάσσοντας προ-εκπαιδευμένα μοντέλα γενετικής διάχυσης με τον ISP της κάμερας », εξηγούν οι ερευνητές στη μελέτη τους.
Το μοντέλο βελτιστοποιεί την ευκρίνεια και περιορίζει τις παραισθήσεις.
Η τεχνική προσέγγιση του DarkDiff βασίζεται σε έναν μηχανισμό που υπολογίζει την προσοχή σε εντοπισμένες περιοχές εικόνας. Αυτή η μέθοδος βοηθά στη διατήρηση των τοπικών δομών και μειώνει τον κίνδυνο οπτικών παραισθήσεων, ένα συνηθισμένο ελάττωμα όπου η τεχνητή νοημοσύνη τροποποιεί πλήρως το περιεχόμενο της εικόνας.
Το σύστημα χρησιμοποιεί επίσης μια τυπική τεχνική διάχυσης που ονομάζεται «καθοδήγηση χωρίς ταξινομητή». Αυτή η παράμετρος ελέγχει την ισορροπία μεταξύ του σεβασμού της εικόνας εισόδου και της οπτικής γνώσης που αποκτάται από το μοντέλο. Η χαμηλή καθοδήγηση έχει ως αποτέλεσμα ομαλά μοτίβα, ενώ η υψηλή καθοδήγηση ευνοεί πιο ευκρινείς υφές και λεπτές λεπτομέρειες, αλλά αυξάνει τον κίνδυνο εμφάνισης τεχνουργημάτων.
Σύμφωνα με τα πειράματα που διεξήχθησαν, αυτή η μέθοδος ξεπερνά την τρέχουσα τεχνολογία όσον αφορά την αντιληπτική ποιότητα σε τρεις δοκιμαστικούς πάγκους ακατέργαστων εικόνων σε χαμηλό φωτισμό.
Αυτή τη στιγμή υπάρχουν ορισμένοι περιορισμοί.
Για να επικυρώσουν το μοντέλο τους, οι ερευνητές χρησιμοποίησαν πραγματικές φωτογραφίες που τραβήχτηκαν με κάμερες όπως η Sony A7SII σε ακραίο σκοτάδι. Οι δοκιμαστικές εικόνες, που τραβήχτηκαν με χρόνο έκθεσης μόλις 0,033 δευτερολέπτων, συγκρίθηκαν με λήψεις αναφοράς που τραβήχτηκαν σε τρίποδο με έκθεση 300 φορές μεγαλύτερη. Το DarkDiff συγκρίθηκε επίσης με άλλα βασικά μοντέλα, συμπεριλαμβανομένου του ExposureDiffusion.
Παρά τις εξελίξεις αυτές, η τεχνολογία έχει σημαντικούς περιορισμούς. Η επεξεργασία με τεχνητή νοημοσύνη είναι σημαντικά πιο αργή από τις παραδοσιακές μεθόδους. Οι υψηλές απαιτήσεις υπολογισμού θα είχαν σημαντικό αντίκτυπο στη διάρκεια ζωής της μπαταρίας εάν εκτελούνταν τοπικά σε ένα τηλέφωνο, γεγονός που υποδηλώνει ότι η επεξεργασία που βασίζεται στο cloud θα ήταν απαραίτητη.
Επιπλέον, το μοντέλο δυσκολεύεται να αναγνωρίσει κείμενο που δεν είναι στα αγγλικά σε σκοτεινές σκηνές. Η μελέτη δεν αναφέρει κάποια επερχόμενη κυκλοφορία σε iPhone, αλλά καταδεικνύει το αυξανόμενο ενδιαφέρον της αγοράς για φωτογραφία με τεχνητή νοημοσύνη, ικανή να ξεπεράσει τους φυσικούς περιορισμούς των συσκευών.





