Οι συγγραφείς: 1) Λικούν Ζανγκ 2) Ο Χάου Γουί 3) Λινγκτσούι Ζανγκ 4) Φενγκγιουάν Σου 5) Τζιν Τσάο 6) Φενγκούα Λι (7) Μπεν Νιου . Authors: 1) Λικούν Ζανγκ 2) Ο Χάου Γουί 3) Λινγκτσούι Ζανγκ 4) Φενγκγιουάν Σου 5) Τζιν Τσάο 6) Φενγκούα Λι (7) Μπεν Νιου . Το τραπέζι της Αριστεράς Abstract and Introduction Background & Related Work 2.1 Text-to-Image Diffusion Model 2.2 Watermarking Techniques 2.3 Preliminary 2.3.1 [Problem Statement](https://hackernoon.com/preview/2x1yHRqHVmhjmOG0ig2c) 2.3.2 [Assumptions](https://hackernoon.com/preview/2x1yHRqHVmhjmOG0ig2c) 2.4 Methodology 2.4.1 [Research Problem](https://hackernoon.com/preview/2x1yHRqHVmhjmOG0ig2c) 2.4.2 [Design Overview](https://hackernoon.com/preview/2x1yHRqHVmhjmOG0ig2c) 2.4.3 [Instance-level Solution](https://hackernoon.com/preview/2x1yHRqHVmhjmOG0ig2c) 2.5 Statistical-level Solution Experimental Evaluation 3.1 Settings 3.2 Main Results 3.3 Ablation Studies 3.4 Conclusion & References ΑΠΑΣΧΟΛΗΣΗ Συγκεκριμένα, ένας αντίπαλος μπορεί να εκμεταλλευτεί τα δεδομένα που δημιουργούνται από ένα εμπορικό μοντέλο για να εκπαιδεύσει τον εαυτό του χωρίς την κατάλληλη εξουσιοδότηση. Για να αντιμετωπιστεί ένας τέτοιος κίνδυνος, είναι κρίσιμο να διερευνηθεί η αποδοχή των δεδομένων κατάρτισης ενός ύποπτου μοντέλου με τον προσδιορισμό του κατά πόσον τα δεδομένα κατάρτισης προέρχονται, εξ ολοκλήρου ή εν μέρει, από ένα συγκεκριμένο μοντέλο προέλευσης. Για να εντοπιστούν τα δεδομένα που παράγονται από ένα εμπορικό μοντέλο, οι υπάρχουσες μεθόδους μας απαιτούν την εφαρμογή πρόσθετων υδατανθράκων κατά τη διάρκεια της εκπαίδευσης ή των φάσεων συμπερίληψης του μοντέλου προέλευσης. Ω Likun Zhang, Hao Wu, Lingcui Zhang, Fengyuan Xu, Jin Cao, Fenghua Li, Ben Niu. 2024. Αναγνώριση δεδομένων κατάρτισης: Το μοντέλο σας εκπαιδεύτηκε μυστικά σε δεδομένα που δημιουργήθηκαν από εμένα; In . ACM, Νέα Υόρκη, Νέα Υόρκη, ΗΠΑ, 9 σελίδες. https://doi.org/10.1145/nnnnnnnnn.nnnnnnnnn ACM Reference Format: 1 Εισαγωγή Τα συστήματα παραγωγής κειμένου-εικόνας που βασίζονται σε μοντέλα διάδοσης έχουν γίνει δημοφιλή εργαλεία για τη δημιουργία ψηφιακών εικόνων και καλλιτεχνικών δημιουργιών [16, 17]. Δεδομένης μιας έγκαιρης εισόδου στη φυσική γλώσσα, αυτά τα γενετικά συστήματα μπορούν να συνθέσουν ψηφιακές εικόνες υψηλής αισθητικής ποιότητας. Ωστόσο, η εκπαίδευση αυτών των μοντέλων είναι ένα αρκετά έντονο έργο, που απαιτεί σημαντικές ποσότητες δεδομένων και εκπαιδευτικών πόρων. Κάνουν τέτοια μοντέλα πολύτιμες πνευματικές ιδιότητες για τους ιδιοκτήτες μοντέλων, ακόμη και αν οι δομές των μοντέλων είναι συνήθως δημόσιες. Μια σημαντική ανησυχία για τέτοια μοντέλα είναι η μη εξουσιοδοτημένη χρήση των δεδομένων που παράγουν [10]. Όπως απεικονίζεται στο σχήμα 1, ένας επιτιθέμενος θα μπορούσε δυνητικά να ρωτήσει ένα εμπορικό μοντέλο και να συλλέξει τα δεδομένα που παράγει το μοντέλο, στη συνέχεια να χρησιμοποιήσει τα δεδομένα που παράγονται για να εκπαιδεύσει το εξατομικευμένο μοντέλο τους. Αυτή η επίθεση έχει ήδη προκαλέσει τον συναγερμό μεταξύ των προγραμματιστών εμπορικών μοντέλων. Μερικές κορυφαίες εταιρείες, π.χ., MidJourney [14] και ImagenAI [7], έχουν δηλώσει ρητά στους όρους χρήστη τους ότι τέτοιες πρακτικές δεν επιτρέπονται, όπως φαίνεται στο σχήμα 2. Για την αντιμετώπιση του καθήκοντος, μπορεί κανείς να σκεφτεί να χρησιμοποιήσει τις τεχνικές σήμανσης νερού για να επιτύχει το καθήκον. Οι υπάρχουσες μέθοδοι σήμανσης νερού μπορούν γενικά να ταξινομηθούν σε δύο τύπους: το ένα περιλαμβάνει την ενσωμάτωση σήματος νερού στα δεδομένα εκπαίδευσης κατά τη φάση εκπαίδευσης μοντέλου [11, 12, 28], και το άλλο προσθέτει σήματα νερού στις εξόδους μοντέλου μετά την εκπαίδευση [10], έτσι ώστε τα δεδομένα που παράγονται να περιέχουν χαρακτηριστικά σήματος νερού που μπορούν να ανιχνευθούν. Ωστόσο, υπάρχουν δύο ζητήματα που τα υπάρχοντα έργα δεν αντιμετωπίζουν πλήρως. Πρώτον, όσον αφορά τη σκοπιμότητα, παραμένει ανε Σε αυτό το έγγραφο, ο στόχος μας είναι να ανακαλύψουμε τους δείκτες που ενσωματώνονται φυσικά σε ένα μοντέλο προέλευσης, οι οποίοι μπορούν να μεταφερθούν σε οποιοδήποτε μοντέλο που εκπαιδεύεται σε δεδομένα που παράγεται από το μοντέλο προέλευσης. Αυτά τα εγγενή υδατάνθρακες μπορούν να αποκαλύψουν τη σχέση μεταξύ της πηγής και των ύποπτων μοντέλων. Σε αντίθεση με τα τεχνητά ενέσιμα υδατάνθρακες, αυτοί οι εγγενείς δείκτες δεν απαιτούν τροποποιήσεις στον αλγόριθμο εκπαίδευσης του μοντέλου ή στις εξόδους. Η λογική της προσέγγισής μας προέρχεται από το φαινόμενο της απομνημόνευσης που εκδηλώνεται από τα μοντέλα παραγωγής κειμένου-εικόνας. Η απομνημόνευση σημαίνει την ικανότητα ενός μοντέλου να θυμάται και να αναπαράγει εικόνες ορισμένων δειγμάτων εκπαίδευσης όταν το μοντέλο ενθαρρύνεται από τα αντίστοιχα κείμενα κατά τη διάρκεια της συμπερίληψης [23]. Η έρευνα έχει δείξει ότι αυτή η απομνημόνευση στα γενετικά μοντέλα δεν είναι περιστασιακή. Παρόλο που είναι πολλά υποσχόμενο, η εφαρμογή του φαινομένου της απομνημόνευσης για την επίτευξη του στόχου μας δεν είναι απλή. Ακόμη και αν καταφέρουμε να διεξάγουμε μια επιτυχημένη εξαγωγή δεδομένων κατάρτισης στο ύποπτο μοντέλο όπως προτείνεται στο [3], οι πληροφορίες που λαμβάνουμε είναι τα δεδομένα που παράγονται από το μοντέλο προέλευσης. Δεδομένου ότι ο χώρος παραγωγής του μοντέλου προέλευσης είναι τεράστιος, καθίσταται δύσκολο να επαληθευτεί αν τα δεδομένα που εξάγονται δημιουργήθηκαν από το μοντέλο προέλευσης. Σε αυτό το έγγραφο, προτείνουμε μια πρακτική μέθοδο χωρίς ένεση δεδομένων για να διαπιστώσουμε αν ένα ύποπτο μοντέλο έχει εκπαιδευτεί χρησιμοποιώντας δεδομένα που παράγονται από ένα συγκεκριμένο μοντέλο προέλευσης. Η προσέγγισή μας εξετάζει τόσο τα χαρακτηριστικά συμπεριφοράς σε επίπεδο περιπτώσεων όσο και στατιστικά χαρακτηριστικά του μοντέλου προέλευσης, τα οποία αντιμετωπίζονται ως μέρος των εγγενών δεικτών για την ανίχνευση των δεδομένων που παράγονται από αυτό κατά μη εξουσιοδοτημένη χρήση. Ειδικότερα, σε επίπεδο περιπτώσεων, σχεδιάζουμε δύο στρατηγικές για την επιλογή ενός συνόλου βασικών δειγμάτων (σε μορφή ζευγαριών κειμένου και εικόνας) στα δεδομένα εκπαίδευσης του μοντέλου προέ Τα πειραματικά αποτελέσματα αποδεικνύουν ότι η λύση αποδοχής σε επίπεδο περιπτώσεων είναι αξιόπιστη στην αναγνώριση ενός παραβατικού μοντέλου με υψηλή εμπιστοσύνη άνω του 0,8. Ακόμη και όταν το παραβατικό μοντέλο χρησιμοποιεί μόνο ένα μικρό ποσοστό, όπως το 30% των δεδομένων που παράγονται, η εμπιστοσύνη αποδοχής είναι άνω του 0,6, ανάλογα με την υπάρχουσα μέθοδο αποδοχής με βάση το υδραυλικό σήμα. Our main contributions are summarized as: Εστιάζοντας στο ζήτημα της παραβίασης των όρων χρήστη που προκαλούνται από την κατάχρηση των δεδομένων που παράγονται από προ-εκπαιδευμένα μοντέλα κειμένου-εικόνας, διατυπώνουμε το πρόβλημα ως προσαρμογή δεδομένων κατάρτισης σε ένα ρεαλιστικό σενάριο. Προτείνουμε δύο νέες λύσεις χωρίς ένεση για να αποδίδουν τα δεδομένα κατάρτισης ενός ύποπτου μοντέλου στο μοντέλο προέλευσης τόσο σε επίπεδο εμφάνισης όσο και στατιστικό επίπεδο. Τα αποτελέσματα δείχνουν ότι η απόδοσή του είναι ανάλογη με την υπάρχουσα προσέγγιση αποδοχής βάσει υδραυλικού σήματος, όπου τα υδραυλικά σήματα εγχέονται πριν από την ανάπτυξη ενός μοντέλου. Το υπόλοιπο της εργασίας είναι οργανωμένο ως εξής. Εισάγουμε τις γνώσεις υπόβαθρου και συναφείς εργασίες στο τμήμα 2. Το τμήμα 3 περιγράφει τις προκαταρκτικές και τις υποθέσεις μας. Στη συνέχεια, το τμήμα 4 παρουσιάζει λεπτομερώς την ερευνητική μας ερώτηση και την προσέγγιση αποδοχής. Τα αποτελέσματα της πειραματικής αξιολόγησης αναφέρονται στο τμήμα 5. Αυτό το έγγραφο είναι διαθέσιμο στο archiv υπό την άδεια CC BY 4.0. Αυτό το έγγραφο είναι Υπό την άδεια CC BY 4.0. Διαθέσιμο στα Αρχεία