Αυτό το μάθημα καλύπτει:
- Την ασφάλεια στο πλαίσιο των συστημάτων τεχνητής νοημοσύνης.
- Κοινά ρίσκα και απειλές για τα συστήματα τεχνητής νοημοσύνης.
- Μεθόδους και παραμέτρους για την ασφάλεια των συστημάτων τεχνητής νοημοσύνης.
Μετά την ολοκλήρωση αυτού του μαθήματος, θα έχετε κατανοήσει:
- Τις απειλές και τα ρίσκα για τα συστήματα τεχνητής νοημοσύνης.
- Κοινές μεθόδους και πρακτικές για την ασφάλεια των συστημάτων τεχνητής νοημοσύνης.
- Πώς η εφαρμογή δοκιμών ασφάλειας μπορεί να αποτρέψει απρόσμενα αποτελέσματα και την απώλεια εμπιστοσύνης των χρηστών.
Καθώς οι τεχνολογίες Τεχνητής Νοημοσύνης (AI) και Μηχανικής Μάθησης (ML) επηρεάζουν όλο και περισσότερο τη ζωή μας, είναι ζωτικής σημασίας να προστατεύσουμε όχι μόνο τα δεδομένα των πελατών αλλά και τα ίδια τα συστήματα τεχνητής νοημοσύνης. Η AI/ML χρησιμοποιείται όλο και περισσότερο για τη λήψη αποφάσεων υψηλής αξίας σε βιομηχανίες όπου η λανθασμένη απόφαση μπορεί να έχει σοβαρές συνέπειες.
Ακολουθούν βασικά σημεία που πρέπει να ληφθούν υπόψη:
- Επίδραση της AI/ML: Η AI/ML έχει σημαντική επίδραση στην καθημερινή ζωή και, ως εκ τούτου, η προστασία τους έχει γίνει απαραίτητη.
- Προκλήσεις Ασφάλειας: Η επίδραση της AI/ML απαιτεί την κατάλληλη προσοχή για την αντιμετώπιση της ανάγκης προστασίας προϊόντων που βασίζονται στην AI από εξελιγμένες επιθέσεις, είτε από trolls είτε από οργανωμένες ομάδες.
- Στρατηγικά Προβλήματα: Η τεχνολογική βιομηχανία πρέπει να αντιμετωπίσει προληπτικά στρατηγικές προκλήσεις για να εξασφαλίσει τη μακροπρόθεσμη ασφάλεια των πελατών και των δεδομένων.
Επιπλέον, τα μοντέλα Μηχανικής Μάθησης δεν μπορούν να διακρίνουν εύκολα μεταξύ κακόβουλων εισροών και αθώων ανώμαλων δεδομένων. Ένα σημαντικό μέρος των δεδομένων εκπαίδευσης προέρχεται από μη επιμελημένα, μη ελεγχόμενα δημόσια σύνολα δεδομένων, τα οποία είναι ανοιχτά σε συνεισφορές τρίτων. Οι επιτιθέμενοι δεν χρειάζεται να παραβιάσουν τα σύνολα δεδομένων όταν μπορούν να συνεισφέρουν σε αυτά. Με την πάροδο του χρόνου, τα κακόβουλα δεδομένα χαμηλής εμπιστοσύνης γίνονται δεδομένα υψηλής εμπιστοσύνης, εφόσον η δομή/μορφοποίηση των δεδομένων παραμένει σωστή.
Γι' αυτό είναι κρίσιμο να εξασφαλίσετε την ακεραιότητα και την προστασία των αποθηκευμένων δεδομένων που χρησιμοποιούν τα μοντέλα σας για τη λήψη αποφάσεων.
Όσον αφορά την AI και τα συναφή συστήματα, η δηλητηρίαση δεδομένων αποτελεί τη σημαντικότερη απειλή ασφάλειας σήμερα. Η δηλητηρίαση δεδομένων συμβαίνει όταν κάποιος αλλάζει σκόπιμα τις πληροφορίες που χρησιμοποιούνται για την εκπαίδευση της AI, προκαλώντας της να κάνει λάθη. Αυτό οφείλεται στην απουσία τυποποιημένων μεθόδων ανίχνευσης και αντιμετώπισης, σε συνδυασμό με την εξάρτησή μας από μη αξιόπιστα ή μη επιμελημένα δημόσια σύνολα δεδομένων για εκπαίδευση. Για να διατηρηθεί η ακεραιότητα των δεδομένων και να αποφευχθεί μια ελαττωματική διαδικασία εκπαίδευσης, είναι κρίσιμο να παρακολουθείται η προέλευση και η γενεαλογία των δεδομένων σας. Διαφορετικά, το παλιό ρητό "σκουπίδια μέσα, σκουπίδια έξω" ισχύει, οδηγώντας σε υποβαθμισμένη απόδοση του μοντέλου.
Ακολουθούν παραδείγματα για το πώς η δηλητηρίαση δεδομένων μπορεί να επηρεάσει τα μοντέλα σας:
- Αντιστροφή Ετικετών: Σε μια εργασία δυαδικής ταξινόμησης, ένας αντίπαλος αντιστρέφει σκόπιμα τις ετικέτες ενός μικρού υποσυνόλου δεδομένων εκπαίδευσης. Για παράδειγμα, τα αθώα δείγματα χαρακτηρίζονται ως κακόβουλα, οδηγώντας το μοντέλο να μάθει λανθασμένες συσχετίσεις.
Παράδειγμα: Ένα φίλτρο ανεπιθύμητης αλληλογραφίας που ταξινομεί λανθασμένα νόμιμα email ως ανεπιθύμητα λόγω παραποιημένων ετικετών. - Δηλητηρίαση Χαρακτηριστικών: Ένας επιτιθέμενος τροποποιεί διακριτικά χαρακτηριστικά στα δεδομένα εκπαίδευσης για να εισάγει προκατάληψη ή να παραπλανήσει το μοντέλο.
Παράδειγμα: Προσθήκη άσχετων λέξεων-κλειδιών στις περιγραφές προϊόντων για να επηρεαστούν τα συστήματα συστάσεων. - Εισαγωγή Δεδομένων: Εισαγωγή κακόβουλων δεδομένων στο σύνολο εκπαίδευσης για να επηρεαστεί η συμπεριφορά του μοντέλου.
Παράδειγμα: Εισαγωγή ψεύτικων κριτικών χρηστών για να αλλοιωθούν τα αποτελέσματα ανάλυσης συναισθημάτων. - Επιθέσεις Πίσω Πόρτας: Ένας αντίπαλος εισάγει ένα κρυφό μοτίβο (πίσω πόρτα) στα δεδομένα εκπαίδευσης. Το μοντέλο μαθαίνει να αναγνωρίζει αυτό το μοτίβο και συμπεριφέρεται κακόβουλα όταν ενεργοποιείται.
Παράδειγμα: Ένα σύστημα αναγνώρισης προσώπου που εκπαιδεύεται με εικόνες πίσω πόρτας και αναγνωρίζει λανθασμένα ένα συγκεκριμένο άτομο.
Η MITRE Corporation έχει δημιουργήσει το ATLAS (Adversarial Threat Landscape for Artificial-Intelligence Systems), μια βάση γνώσεων για τακτικές και τεχνικές που χρησιμοποιούνται από αντιπάλους σε πραγματικές επιθέσεις σε συστήματα AI.
Υπάρχει ένας αυξανόμενος αριθμός ευπαθειών σε συστήματα που υποστηρίζονται από AI, καθώς η ενσωμάτωση της AI αυξάνει την επιφάνεια επίθεσης των υπαρχόντων συστημάτων πέρα από τις παραδοσιακές κυβερνοεπιθέσεις. Δημιουργήσαμε το ATLAS για να αυξήσουμε την ευαισθητοποίηση σχετικά με αυτές τις μοναδικές και εξελισσόμενες ευπάθειες, καθώς η παγκόσμια κοινότητα ενσωματώνει όλο και περισσότερο την AI σε διάφορα συστήματα. Το ATLAS είναι μοντελοποιημένο σύμφωνα με το πλαίσιο MITRE ATT&CK® και οι τακτικές, τεχνικές και διαδικασίες (TTPs) του είναι συμπληρωματικές με αυτές στο ATT&CK.
Όπως και το πλαίσιο MITRE ATT&CK®, το οποίο χρησιμοποιείται εκτενώς στην παραδοσιακή κυβερνοασφάλεια για τον σχεδιασμό προηγμένων σεναρίων εξομοίωσης απειλών, το ATLAS παρέχει ένα εύκολα αναζητήσιμο σύνολο TTPs που μπορεί να βοηθήσει στην καλύτερη κατανόηση και προετοιμασία για την άμυνα ενάντια σε αναδυόμενες επιθέσεις.
Επιπλέον, το Open Web Application Security Project (OWASP) έχει δημιουργήσει μια "Λίστα Top 10" με τις πιο κρίσιμες ευπάθειες που βρίσκονται σε εφαρμογές που χρησιμοποιούν LLMs. Η λίστα αναδεικνύει τους κινδύνους απειλών όπως η προαναφερθείσα δηλητηρίαση δεδομένων, καθώς και άλλες όπως:
- Εισαγωγή Εντολών: μια τεχνική όπου οι επιτιθέμενοι χειραγωγούν ένα Μεγάλο Γλωσσικό Μοντέλο (LLM) μέσω προσεκτικά διαμορφωμένων εισροών, προκαλώντας του να συμπεριφέρεται εκτός της προβλεπόμενης συμπεριφοράς.
- Ευπάθειες Εφοδιαστικής Αλυσίδας: Τα στοιχεία και το λογισμικό που αποτελούν τις εφαρμογές που χρησιμοποιούνται από ένα LLM, όπως τα Python modules ή εξωτερικά σύνολα δεδομένων, μπορούν να παραβιαστούν, οδηγώντας σε απρόσμενα αποτελέσματα, εισαγωγή προκαταλήψεων και ακόμη και ευπάθειες στην υποκείμενη υποδομή.
- Υπερβολική Εξάρτηση: Τα LLMs είναι επιρρεπή σε σφάλματα και έχουν την τάση να "φαντάζονται", παρέχοντας ανακριβή ή μη ασφαλή αποτελέσματα. Σε αρκετές τεκμηριωμένες περιπτώσεις, οι άνθρωποι έχουν δεχθεί τα αποτελέσματα ως δεδομένα, οδηγώντας σε ανεπιθύμητες αρνητικές συνέπειες στον πραγματικό κόσμο.
Ο Microsoft Cloud Advocate Rod Trent έχει γράψει ένα δωρεάν ebook, Must Learn AI Security, που εξετάζει σε βάθος αυτές και άλλες αναδυόμενες απειλές AI και παρέχει εκτενή καθοδήγηση για το πώς να αντιμετωπιστούν καλύτερα αυτά τα σενάρια.
Η τεχνητή νοημοσύνη (AI) μεταμορφώνει διάφορους τομείς και βιομηχανίες, προσφέροντας νέες δυνατότητες και οφέλη για την κοινωνία. Ωστόσο, η AI θέτει επίσης σημαντικές προκλήσεις και κινδύνους, όπως η ιδιωτικότητα δεδομένων, η προκατάληψη, η έλλειψη εξηγήσεων και η πιθανή κατάχρηση. Επομένως, είναι ζωτικής σημασίας να διασφαλιστεί ότι τα συστήματα AI είναι ασφαλή και υπεύθυνα, δηλαδή ότι συμμορφώνονται με ηθικά και νομικά πρότυπα και μπορούν να εμπιστευτούν από χρήστες και ενδιαφερόμενους.
Η δοκιμή ασφάλειας είναι η διαδικασία αξιολόγησης της ασφάλειας ενός συστήματος AI ή LLM, μέσω της αναγνώρισης και εκμετάλλευσης των ευπαθειών τους. Αυτό μπορεί να πραγματοποιηθεί από προγραμματιστές, χρήστες ή τρίτους ελεγκτές, ανάλογα με τον σκοπό και το εύρος της δοκιμής. Μερικές από τις πιο κοινές μεθόδους δοκιμής ασφάλειας για συστήματα AI και LLMs είναι:
- Καθαρισμός Δεδομένων: Η διαδικασία αφαίρεσης ή ανωνυμοποίησης ευαίσθητων ή ιδιωτικών πληροφοριών από τα δεδομένα εκπαίδευσης ή την είσοδο ενός συστήματος AI ή LLM. Ο καθαρισμός δεδομένων μπορεί να βοηθήσει στην πρόληψη διαρροής δεδομένων και κακόβουλης χειραγώγησης μειώνοντας την έκθεση εμπιστευτικών ή προσωπικών δεδομένων.
- Δοκιμές Αντιπαραθέσεων: Η διαδικασία δημιουργίας και εφαρμογής αντιπαραθετικών παραδειγμάτων στην είσοδο ή την έξοδο ενός συστήματος AI ή LLM για την αξιολόγηση της ανθεκτικότητας και της αντίστασής του σε αντιπαραθετικές επιθέσεις. Οι δοκιμές αντιπαραθέσεων μπορούν να βοηθήσουν στην αναγνώριση και αντιμετώπιση των ευπαθειών και αδυναμιών ενός συστήματος AI ή LLM που μπορεί να εκμεταλλευτούν οι επιτιθέμενοι.
- Επαλήθευση Μοντέλου: Η διαδικασία επαλήθευσης της ορθότητας και πληρότητας των παραμέτρων ή της αρχιτεκτονικής του μοντέλου ενός συστήματος AI ή LLM. Η επαλήθευση μοντέλου μπορεί να βοηθήσει στην ανίχνευση και πρόληψη κλοπής μοντέλου διασφαλίζοντας ότι το μοντέλο είναι προστατευμένο και αυθεντικό.
- Επικύρωση Εξόδου: Η διαδικασία επικύρωσης της ποιότητας και αξιοπιστίας της εξόδου ενός συστήματος AI ή LLM. Η επικύρωση εξόδου μπορεί να βοηθήσει στην ανίχνευση και διόρθωση κακόβουλης χειραγώγησης διασφαλίζοντας ότι η έξοδος είναι συνεπής και ακριβής.
Η OpenAI, ηγέτης στα συστήματα AI, έχει δημιουργήσει μια σειρά από αξιολογήσεις ασφάλειας ως μέρος της πρωτοβουλίας δικτύου red teaming, με στόχο τη δοκιμή της εξόδου συστημάτων AI με την ελπίδα να συμβάλει στην ασφάλεια της AI.
Οι αξιολογήσεις μπορεί να κυμαίνονται από απλές δοκιμές ερωτήσεων και απαντήσεων έως πιο σύνθετες προσομοιώσεις. Ως συγκεκριμένα παραδείγματα, εδώ είναι δείγματα αξιολογήσεων που αναπτύχθηκαν από την OpenAI για την αξιολόγηση συμπεριφορών AI από διάφορες οπτικές γωνίες:
- MakeMeSay: Πόσο καλά μπορεί ένα σύστημα AI να παραπλανήσει ένα άλλο σύστημα AI ώστε να πει μια μυστική λέξη;
- MakeMePay: Πόσο καλά μπορεί ένα σύστημα AI να πείσει ένα άλλο σύστημα AI να δωρίσει χρήματα;
- Ballot Proposal: Πόσο καλά μπορεί ένα σύστημα AI να επηρεάσει την υποστήριξη ενός άλλου συστήματος AI για μια πολιτική πρόταση;
- Steganography: Πόσο καλά μπορεί ένα σύστημα AI να περάσει κρυφά μηνύματα χωρίς να εντοπιστεί από ένα άλλο σύστημα AI;
- Text Compression: Πόσο καλά μπορεί ένα σύστημα AI να συμπιέσει και να αποσυμπιέσει μηνύματα, ώστε να επιτρέψει την απόκρυψη κρυφών μηνυμάτων;
- Schelling Point: Πόσο καλά μπορεί ένα σύστημα AI να συντονιστεί με ένα άλλο σύστημα AI, χωρίς άμεση επικοινωνία;
Είναι επιτακτική ανάγκη να προστατεύσουμε τα συστήματα AI από κακόβουλες επιθέσεις, κατάχρηση ή απρόβλεπτες συνέπειες. Αυτό περιλαμβάνει τη λήψη μέτρων για τη διασφάλιση της ασφάλειας, της αξιοπιστίας και της εμπιστοσύνης των συστημάτων AI, όπως:
- Προστασία των δεδομένων και των αλγορίθμων που χρησιμοποιούνται για την εκπαίδευση και τη λειτουργία των μοντέλων AI
- Πρόληψη μη εξου Η προσομοίωση πραγματικών απειλών θεωρείται πλέον μια τυπική πρακτική για την ανάπτυξη ανθεκτικών συστημάτων AI, χρησιμοποιώντας παρόμοια εργαλεία, τακτικές και διαδικασίες για την αναγνώριση των κινδύνων στα συστήματα και τη δοκιμή της αντίδρασης των αμυντικών μηχανισμών.
Η πρακτική του AI red teaming έχει εξελιχθεί ώστε να αποκτήσει ένα πιο διευρυμένο νόημα: δεν καλύπτει μόνο την ανίχνευση ευπαθειών ασφαλείας, αλλά περιλαμβάνει επίσης την ανίχνευση άλλων αποτυχιών του συστήματος, όπως η δημιουργία δυνητικά επιβλαβούς περιεχομένου. Τα συστήματα AI φέρνουν νέους κινδύνους, και το red teaming είναι βασικό για την κατανόηση αυτών των νέων κινδύνων, όπως η έγχυση εντολών και η παραγωγή περιεχομένου χωρίς βάση. - Microsoft AI Red Team building future of safer AI
Παρακάτω παρατίθενται βασικές πληροφορίες που έχουν διαμορφώσει το πρόγραμμα AI Red Team της Microsoft.
- Διευρυμένο Πεδίο του AI Red Teaming: Το AI red teaming πλέον καλύπτει τόσο την ασφάλεια όσο και τα αποτελέσματα Υπεύθυνης AI (RAI). Παραδοσιακά, το red teaming επικεντρωνόταν στις πτυχές ασφαλείας, αντιμετωπίζοντας το μοντέλο ως έναν φορέα (π.χ., κλοπή του υποκείμενου μοντέλου). Ωστόσο, τα συστήματα AI εισάγουν νέες ευπάθειες ασφαλείας (π.χ., έγχυση εντολών, δηλητηρίαση), που απαιτούν ειδική προσοχή. Πέρα από την ασφάλεια, το AI red teaming εξετάζει επίσης ζητήματα δικαιοσύνης (π.χ., στερεοτυπικές αντιλήψεις) και επιβλαβές περιεχόμενο (π.χ., εξύμνηση της βίας). Η έγκαιρη αναγνώριση αυτών των ζητημάτων επιτρέπει την προτεραιοποίηση των επενδύσεων στην άμυνα.
- Κακόβουλες και Αθώες Αποτυχίες: Το AI red teaming εξετάζει αποτυχίες τόσο από κακόβουλη όσο και από αθώα σκοπιά. Για παράδειγμα, κατά το red teaming του νέου Bing, εξετάζουμε όχι μόνο πώς κακόβουλοι αντίπαλοι μπορούν να υπονομεύσουν το σύστημα, αλλά και πώς οι απλοί χρήστες μπορεί να συναντήσουν προβληματικό ή επιβλαβές περιεχόμενο. Σε αντίθεση με το παραδοσιακό red teaming ασφαλείας, που επικεντρώνεται κυρίως σε κακόβουλους παράγοντες, το AI red teaming λαμβάνει υπόψη ένα ευρύτερο φάσμα προσωπικοτήτων και πιθανών αποτυχιών.
- Δυναμική Φύση των Συστημάτων AI: Οι εφαρμογές AI εξελίσσονται συνεχώς. Στις εφαρμογές μεγάλων γλωσσικών μοντέλων, οι προγραμματιστές προσαρμόζονται στις μεταβαλλόμενες απαιτήσεις. Η συνεχής διαδικασία red teaming εξασφαλίζει συνεχή επαγρύπνηση και προσαρμογή στους εξελισσόμενους κινδύνους.
Το AI red teaming δεν είναι πανάκεια και θα πρέπει να θεωρείται συμπληρωματική κίνηση σε πρόσθετους ελέγχους, όπως έλεγχος πρόσβασης βάσει ρόλων (RBAC) και ολοκληρωμένες λύσεις διαχείρισης δεδομένων. Σκοπός του είναι να συμπληρώσει μια στρατηγική ασφαλείας που επικεντρώνεται στη χρήση ασφαλών και υπεύθυνων λύσεων AI, λαμβάνοντας υπόψη την ιδιωτικότητα και την ασφάλεια, ενώ επιδιώκει να ελαχιστοποιήσει τις προκαταλήψεις, το επιβλαβές περιεχόμενο και την παραπληροφόρηση που μπορεί να υπονομεύσουν την εμπιστοσύνη των χρηστών.
Ακολουθεί μια λίστα με πρόσθετη βιβλιογραφία που μπορεί να σας βοηθήσει να κατανοήσετε καλύτερα πώς το red teaming μπορεί να βοηθήσει στην αναγνώριση και μείωση των κινδύνων στα συστήματα AI σας:
- Σχεδιασμός red teaming για μεγάλα γλωσσικά μοντέλα (LLMs) και τις εφαρμογές τους
- Τι είναι το OpenAI Red Teaming Network;
- AI Red Teaming - Μια Βασική Πρακτική για την Ανάπτυξη Ασφαλέστερων και Πιο Υπεύθυνων Λύσεων AI
- MITRE ATLAS (Adversarial Threat Landscape for Artificial-Intelligence Systems), μια βάση γνώσεων για τακτικές και τεχνικές που χρησιμοποιούνται από αντιπάλους σε πραγματικές επιθέσεις σε συστήματα AI.
Ποια θα μπορούσε να είναι μια καλή προσέγγιση για τη διατήρηση της ακεραιότητας των δεδομένων και την αποτροπή κατάχρησης;
- Εφαρμογή ισχυρών ελέγχων πρόσβασης βάσει ρόλων για τη διαχείριση δεδομένων
- Εφαρμογή και έλεγχος επισήμανσης δεδομένων για την αποτροπή παραπλάνησης ή κατάχρησης δεδομένων
- Εξασφάλιση ότι η υποδομή AI σας υποστηρίζει φιλτράρισμα περιεχομένου
Α:1, Παρόλο που και οι τρεις είναι εξαιρετικές συστάσεις, η εξασφάλιση ότι αποδίδετε τα κατάλληλα δικαιώματα πρόσβασης δεδομένων στους χρήστες θα συμβάλει σημαντικά στην αποτροπή χειραγώγησης και παραπλάνησης των δεδομένων που χρησιμοποιούνται από τα LLMs.
Διαβάστε περισσότερα για το πώς μπορείτε να διαχειριστείτε και να προστατεύσετε ευαίσθητες πληροφορίες στην εποχή της AI.
Αφού ολοκληρώσετε αυτό το μάθημα, δείτε τη Συλλογή Μάθησης για Γενετική AI για να συνεχίσετε να αναβαθμίζετε τις γνώσεις σας στη Γενετική AI!
Προχωρήστε στο Μάθημα 14, όπου θα εξετάσουμε τον Κύκλο Ζωής Εφαρμογών Γενετικής AI!
Αποποίηση ευθύνης:
Αυτό το έγγραφο έχει μεταφραστεί χρησιμοποιώντας την υπηρεσία μετάφρασης AI Co-op Translator. Παρόλο που καταβάλλουμε προσπάθειες για ακρίβεια, παρακαλούμε να έχετε υπόψη ότι οι αυτοματοποιημένες μεταφράσεις ενδέχεται να περιέχουν λάθη ή ανακρίβειες. Το πρωτότυπο έγγραφο στη μητρική του γλώσσα θα πρέπει να θεωρείται η αυθεντική πηγή. Για κρίσιμες πληροφορίες, συνιστάται επαγγελματική ανθρώπινη μετάφραση. Δεν φέρουμε ευθύνη για τυχόν παρεξηγήσεις ή εσφαλμένες ερμηνείες που προκύπτουν από τη χρήση αυτής της μετάφρασης.

