Skip to content

Latest commit

 

History

History
181 lines (102 loc) · 33.7 KB

File metadata and controls

181 lines (102 loc) · 33.7 KB

Εξερεύνηση και σύγκριση διαφορετικών LLMs

Κάντε κλικ στην εικόνα παραπάνω για να δείτε το βίντεο αυτού του μαθήματος

Στο προηγούμενο μάθημα, είδαμε πώς η Γενετική Τεχνητή Νοημοσύνη αλλάζει το τοπίο της τεχνολογίας, πώς λειτουργούν τα Μεγάλα Γλωσσικά Μοντέλα (LLMs) και πώς μια επιχείρηση - όπως η δική μας startup - μπορεί να τα εφαρμόσει στις περιπτώσεις χρήσης της και να αναπτυχθεί! Σε αυτό το κεφάλαιο, επιδιώκουμε να συγκρίνουμε και να αντιπαραβάλουμε διαφορετικούς τύπους μεγάλων γλωσσικών μοντέλων (LLMs) για να κατανοήσουμε τα πλεονεκτήματα και τα μειονεκτήματά τους.

Το επόμενο βήμα στο ταξίδι της startup μας είναι να εξερευνήσει το τρέχον τοπίο των LLMs και να κατανοήσει ποια είναι κατάλληλα για την περίπτωση χρήσης μας.

Εισαγωγή

Αυτό το μάθημα θα καλύψει:

  • Διάφορους τύπους LLMs στο τρέχον τοπίο.
  • Δοκιμή, επανάληψη και σύγκριση διαφορετικών μοντέλων για την περίπτωση χρήσης σας στο Azure.
  • Πώς να αναπτύξετε ένα LLM.

Στόχοι Μάθησης

Μετά την ολοκλήρωση αυτού του μαθήματος, θα είστε σε θέση να:

  • Επιλέξετε το σωστό μοντέλο για την περίπτωση χρήσης σας.
  • Κατανοήσετε πώς να δοκιμάσετε, να επαναλάβετε και να βελτιώσετε την απόδοση του μοντέλου σας.
  • Γνωρίζετε πώς οι επιχειρήσεις αναπτύσσουν μοντέλα.

Κατανόηση διαφορετικών τύπων LLMs

Τα LLMs μπορούν να έχουν πολλαπλές κατηγοριοποιήσεις με βάση την αρχιτεκτονική τους, τα δεδομένα εκπαίδευσης και την περίπτωση χρήσης. Η κατανόηση αυτών των διαφορών θα βοηθήσει τη startup μας να επιλέξει το σωστό μοντέλο για το σενάριο, και να κατανοήσει πώς να δοκιμάσει, να επαναλάβει και να βελτιώσει την απόδοση.

Υπάρχουν πολλοί διαφορετικοί τύποι μοντέλων LLM, η επιλογή σας εξαρτάται από το τι σκοπεύετε να τα χρησιμοποιήσετε, τα δεδομένα σας, πόσα είστε έτοιμοι να πληρώσετε και περισσότερα.

Ανάλογα με το αν σκοπεύετε να χρησιμοποιήσετε τα μοντέλα για κείμενο, ήχο, βίντεο, δημιουργία εικόνας κ.λπ., μπορεί να επιλέξετε διαφορετικό τύπο μοντέλου.

  • Αναγνώριση ήχου και ομιλίας. Για αυτόν τον σκοπό, τα μοντέλα τύπου Whisper είναι μια εξαιρετική επιλογή καθώς είναι γενικής χρήσης και στοχεύουν στην αναγνώριση ομιλίας. Είναι εκπαιδευμένα σε ποικίλο ήχο και μπορούν να εκτελέσουν πολυγλωσσική αναγνώριση ομιλίας.

  • Δημιουργία εικόνας. Για δημιουργία εικόνας, το DALL-E και το Midjourney είναι δύο πολύ γνωστές επιλογές. Το DALL-E προσφέρεται από το Azure OpenAI.

  • Δημιουργία κειμένου. Τα περισσότερα μοντέλα είναι εκπαιδευμένα στη δημιουργία κειμένου και έχετε μια μεγάλη ποικιλία επιλογών από το GPT-3.5 έως το GPT-4. Έρχονται με διαφορετικά κόστη, με το GPT-4 να είναι το πιο ακριβό.

  • Πολυτροπικότητα. Αν θέλετε να χειριστείτε πολλούς τύπους δεδομένων στην είσοδο και την έξοδο, ίσως θέλετε να εξετάσετε μοντέλα όπως το gpt-4 turbo με όραση ή gpt-4o - οι τελευταίες εκδόσεις των μοντέλων OpenAI - που είναι ικανά να συνδυάσουν την επεξεργασία φυσικής γλώσσας με την κατανόηση εικόνων.

Η επιλογή ενός μοντέλου σημαίνει ότι αποκτάτε κάποιες βασικές δυνατότητες, που μπορεί να μην είναι αρκετές όμως. Συχνά έχετε δεδομένα συγκεκριμένα για την εταιρεία που πρέπει με κάποιο τρόπο να τα γνωστοποιήσετε στο LLM. Υπάρχουν μερικές διαφορετικές επιλογές για το πώς να το προσεγγίσετε, περισσότερα σε αυτό στις επόμενες ενότητες.

Μοντέλα Θεμελίωσης έναντι LLMs

Ο όρος Μοντέλο Θεμελίωσης επινοήθηκε από ερευνητές του Stanford και ορίζεται ως ένα μοντέλο AI που ακολουθεί ορισμένα κριτήρια, όπως:

  • Εκπαιδεύονται χρησιμοποιώντας μη εποπτευόμενη μάθηση ή αυτοεποπτευόμενη μάθηση, που σημαίνει ότι εκπαιδεύονται σε μη επισημασμένα πολυτροπικά δεδομένα και δεν απαιτούν ανθρώπινη επισήμανση ή ετικετοποίηση δεδομένων για τη διαδικασία εκπαίδευσής τους.
  • Είναι πολύ μεγάλα μοντέλα, βασισμένα σε πολύ βαθιά νευρωνικά δίκτυα εκπαιδευμένα σε δισεκατομμύρια παραμέτρους.
  • Κανονικά προορίζονται να χρησιμεύσουν ως "θεμέλιο" για άλλα μοντέλα, που σημαίνει ότι μπορούν να χρησιμοποιηθούν ως αφετηρία για να χτιστούν άλλα μοντέλα πάνω τους, κάτι που μπορεί να γίνει με λεπτομερή προσαρμογή.

Για να διευκρινίσουμε περαιτέρω αυτή τη διάκριση, ας πάρουμε το ChatGPT ως παράδειγμα. Για να κατασκευαστεί η πρώτη έκδοση του ChatGPT, ένα μοντέλο που ονομάζεται GPT-3.5 χρησίμευσε ως το θεμέλιο μοντέλο. Αυτό σημαίνει ότι η OpenAI χρησιμοποίησε κάποια δεδομένα συγκεκριμένα για συνομιλίες για να δημιουργήσει μια προσαρμοσμένη έκδοση του GPT-3.5 που ήταν εξειδικευμένη στο να αποδίδει καλά σε συνομιλιακά σενάρια, όπως τα chatbots.

Ανοιχτού κώδικα έναντι Κλειστών Μοντέλων

Ένας άλλος τρόπος κατηγοριοποίησης των LLMs είναι αν είναι ανοιχτού κώδικα ή κλειστά.

Τα ανοιχτού κώδικα μοντέλα είναι μοντέλα που είναι διαθέσιμα στο κοινό και μπορούν να χρησιμοποιηθούν από οποιονδήποτε. Συχνά διατίθενται από την εταιρεία που τα δημιούργησε ή από την ερευνητική κοινότητα. Αυτά τα μοντέλα επιτρέπεται να επιθεωρηθούν, να τροποποιηθούν και να προσαρμοστούν για διάφορες περιπτώσεις χρήσης στα LLMs. Ωστόσο, δεν είναι πάντα βελτιστοποιημένα για παραγωγική χρήση και μπορεί να μην είναι τόσο αποδοτικά όσο τα κλειστά μοντέλα. Επιπλέον, η χρηματοδότηση για τα ανοιχτού κώδικα μοντέλα μπορεί να είναι περιορισμένη και μπορεί να μην συντηρούνται μακροπρόθεσμα ή να μην ενημερώνονται με την τελευταία έρευνα.

Τα κλειστά μοντέλα είναι μοντέλα που ανήκουν σε μια εταιρεία και δεν είναι διαθέσιμα στο κοινό. Αυτά τα μοντέλα είναι συχνά βελτιστοποιημένα για παραγωγική χρήση. Ωστόσο, δεν επιτρέπεται να επιθεωρηθούν, να τροποποιηθούν ή να προσαρμοστούν για διαφορετικές περιπτώσεις χρήσης. Επιπλέον, δεν είναι πάντα διαθέσιμα δωρεάν και μπορεί να απαιτούν συνδρομή ή πληρωμή για χρήση.

Ενσωμάτωση έναντι Δημιουργίας Εικόνας έναντι Δημιουργίας Κειμένου και Κώδικα

Τα LLMs μπορούν επίσης να κατηγοριοποιηθούν από την έξοδο που παράγουν.

Οι ενσωματώσεις είναι ένα σύνολο μοντέλων που μπορούν να μετατρέψουν το κείμενο σε αριθμητική μορφή, που ονομάζεται ενσωμάτωση, η οποία είναι μια αριθμητική αναπαράσταση του εισαγόμενου κειμένου. Οι ενσωματώσεις διευκολύνουν τις μηχανές να κατανοήσουν τις σχέσεις μεταξύ λέξεων ή προτάσεων και μπορούν να καταναλωθούν ως είσοδοι από άλλα μοντέλα, όπως μοντέλα ταξινόμησης ή μοντέλα ομαδοποίησης που έχουν καλύτερη απόδοση σε αριθμητικά δεδομένα.

Τα μοντέλα δημιουργίας εικόνας είναι μοντέλα που δημιουργούν εικόνες. Αυτά τα μοντέλα συχνά χρησιμοποιούνται για επεξεργασία εικόνας, σύνθεση εικόνας και μετάφραση εικόνας. Τα μοντέλα δημιουργίας εικόνας συχνά εκπαιδεύονται σε μεγάλες συλλογές εικόνων και μπορούν να χρησιμοποιηθούν για τη δημιουργία νέων εικόνων ή για την επεξεργασία υπαρχόντων εικόνων με τεχνικές inpainting, super-resolution και colorization.

Τα μοντέλα δημιουργίας κειμένου και κώδικα είναι μοντέλα που δημιουργούν κείμενο ή κώδικα. Αυτά τα μοντέλα συχνά χρησιμοποιούνται για σύνοψη κειμένου, μετάφραση και απάντηση σε ερωτήσεις. Τα μοντέλα δημιουργίας κειμένου συχνά εκπαιδεύονται σε μεγάλες συλλογές κειμένου και μπορούν να χρησιμοποιηθούν για τη δημιουργία νέου κειμένου ή για την απάντηση σε ερωτήσεις. Τα μοντέλα δημιουργίας κώδικα, όπως το CodeParrot, συχνά εκπαιδεύονται σε μεγάλες συλλογές κώδικα και μπορούν να χρησιμοποιηθούν για τη δημιουργία νέου κώδικα ή για τη διόρθωση σφαλμάτων σε υπάρχοντα κώδικα.

Encoder-Decoder έναντι Decoder-only

Για να μιλήσουμε για τους διαφορετικούς τύπους αρχιτεκτονικών των LLMs, ας χρησιμοποιήσουμε μια αναλογία.

Φανταστείτε ότι ο διευθυντής σας έδωσε μια εργασία για να γράψετε ένα κουίζ για τους μαθητές. Έχετε δύο συναδέλφους· ένας είναι υπεύθυνος για τη δημιουργία του περιεχομένου και ο άλλος για την αναθεώρησή τους.

Ο δημιουργός περιεχομένου είναι σαν ένα μοντέλο μόνο με αποκωδικοποιητή, μπορεί να δει το θέμα και να δει τι έχετε ήδη γράψει και στη συνέχεια μπορεί να γράψει ένα μάθημα με βάση αυτό. Είναι πολύ καλός στο να γράφει ελκυστικό και ενημερωτικό περιεχόμενο, αλλά δεν είναι πολύ καλός στο να κατανοεί το θέμα και τους μαθησιακούς στόχους. Κάποια παραδείγματα μοντέλων αποκωδικοποιητή είναι τα μοντέλα της οικογένειας GPT, όπως το GPT-3.

Ο αναθεωρητής είναι σαν ένα μοντέλο μόνο με κωδικοποιητή, κοιτάζει το μάθημα που έχει γραφτεί και τις απαντήσεις, παρατηρώντας τη σχέση μεταξύ τους και κατανοώντας το πλαίσιο, αλλά δεν είναι καλός στη δημιουργία περιεχομένου. Ένα παράδειγμα μοντέλου μόνο με κωδικοποιητή θα ήταν το BERT.

Φανταστείτε ότι μπορούμε να έχουμε κάποιον που θα μπορούσε να δημιουργήσει και να αναθεωρήσει το κουίζ, αυτό είναι ένα μοντέλο κωδικοποιητή-αποκωδικοποιητή. Κάποια παραδείγματα θα ήταν τα BART και T5.

Υπηρεσία έναντι Μοντέλου

Τώρα, ας μιλήσουμε για τη διαφορά μεταξύ μιας υπηρεσίας και ενός μοντέλου. Μια υπηρεσία είναι ένα προϊόν που προσφέρεται από έναν πάροχο υπηρεσιών cloud και είναι συχνά ένας συνδυασμός μοντέλων, δεδομένων και άλλων συστατικών. Ένα μοντέλο είναι το βασικό συστατικό μιας υπηρεσίας και είναι συχνά ένα θεμέλιο μοντέλο, όπως ένα LLM.

Οι υπηρεσίες συχνά βελτιστοποιούνται για παραγωγική χρήση και είναι συχνά πιο εύχρηστες από τα μοντέλα, μέσω μιας γραφικής διεπαφής χρήστη. Ωστόσο, οι υπηρεσίες δεν είναι πάντα διαθέσιμες δωρεάν και μπορεί να απαιτούν συνδρομή ή πληρωμή για χρήση, σε αντάλλαγμα για την αξιοποίηση του εξοπλισμού και των πόρων του κατόχου της υπηρεσίας, βελτιστοποιώντας τα έξοδα και την εύκολη κλιμάκωση. Ένα παράδειγμα μιας υπηρεσίας είναι η Azure OpenAI Service, η οποία προσφέρει ένα πρόγραμμα τιμολόγησης pay-as-you-go, που σημαίνει ότι οι χρήστες χρεώνονται αναλογικά με το πόσο χρησιμοποιούν την υπηρεσία. Επίσης, η Azure OpenAI Service προσφέρει εταιρική ασφάλεια και ένα υπεύθυνο πλαίσιο AI πάνω από τις δυνατότητες των μοντέλων.

Τα μοντέλα είναι απλά το Νευρωνικό Δίκτυο, με τις παραμέτρους, τα βάρη και άλλα. Επιτρέποντας στις εταιρείες να τρέχουν τοπικά, ωστόσο, θα χρειαστεί να αγοράσουν εξοπλισμό, να χτίσουν μια δομή για κλιμάκωση και να αγοράσουν άδεια ή να χρησιμοποιήσουν ένα ανοιχτού κώδικα μοντέλο. Ένα μοντέλο όπως το LLaMA είναι διαθέσιμο για χρήση, απαιτώντας υπολογιστική ισχύ για να τρέξει το μοντέλο.

Πώς να δοκιμάσετε και να επαναλάβετε με διαφορετικά μοντέλα για να κατανοήσετε την απόδοση στο Azure

Μόλις η ομάδα μας εξερευνήσει το τρέχον τοπίο των LLMs και εντοπίσει κάποιους καλούς υποψήφιους για τα σενάριά τους, το επόμενο βήμα είναι να τα δοκιμάσουν στα δεδομένα τους και στον φόρτο εργασίας τους. Αυτή είναι μια επαναληπτική διαδικασία, που γίνεται με πειράματα και μετρήσεις. Τα περισσότερα από τα μοντέλα που αναφέραμε στις προηγούμενες παραγράφους (μοντέλα OpenAI, μοντέλα ανοιχτού κώδικα όπως το Llama2 και μετασχηματιστές Hugging Face) είναι διαθέσιμα στον Κατάλογο Μοντέλων στο Azure AI Studio.

Το Azure AI Studio είναι μια πλατφόρμα cloud σχεδιασμένη για προγραμματιστές να χτίσουν εφαρμογές γενετικής AI και να διαχειριστούν ολόκληρο τον κύκλο ανάπτυξης - από τον πειραματισμό μέχρι την αξιολόγηση - συνδυάζοντας όλες τις υπηρεσίες AI του Azure σε έναν ενιαίο κόμβο με μια βολική γραφική διεπαφή χρήστη. Ο Κατάλογος Μοντέλων στο Azure AI Studio επιτρέπει στον χρήστη να:

  • Βρει το Μοντέλο Θεμελίωσης ενδιαφέροντος στον κατάλογο - είτε ιδιόκτητο είτε ανοιχτού κώδικα, φιλτράροντας κατά εργασία, άδεια ή όνομα. Για τη βελτίωση της αναζήτησης, τα μοντέλα είναι οργανωμένα σε συλλογές, όπως η συλλογή Azure OpenAI, η συλλογή Hugging Face και άλλες.

  • Επισκοπήσει την κάρτα μοντέλου, που περιλαμβάνει μια λεπτομερή περιγραφή της προτεινόμενης χρήσης και των δεδομένων εκπαίδευσης, δείγματα κώδικα και αποτελέσματα αξιολόγησης στη βιβλιοθήκη εσωτερικών αξιολογήσεων.

  • Συγκρίνετε τα benchmarks μεταξύ μοντέλων και συνόλων δεδομένων διαθέσιμων στη βιομηχανία για να αξιολογήσετε ποιο καλύπτει το επιχειρηματικό σενάριο, μέσω του πίνακα Model Benchmarks.

  • Βελτιώστε το μοντέλο με προσαρμοσμένα δεδομένα εκπαίδευσης για να βελτιώσετε την απόδοση του μοντέλου σε συγκεκριμένο φορτίο εργασίας, αξιοποιώντας τις δυνατότητες πειραματισμού και παρακολούθησης του Azure AI Studio.

  • Αναπτύξτε το αρχικό προεκπαιδευμένο μοντέλο ή την εκδοχή που έχει βελτιωθεί σε απομακρυσμένη πραγματική πρόβλεψη - διαχειριζόμενη υπολογιστική ισχύ - ή σε διακομιστή API χωρίς διακομιστή - pay-as-you-go - για να επιτρέψετε στις εφαρμογές να το χρησιμοποιήσουν.

Note

Δεν είναι όλα τα μοντέλα στον κατάλογο διαθέσιμα για βελτίωση και/ή ανάπτυξη pay-as-you-go. Ελέγξτε την κάρτα του μοντέλου για λεπτομέρειες σχετικά με τις δυνατότητες και τους περιορισμούς του μοντέλου.

Βελτίωση των αποτελεσμάτων LLM

Έχουμε εξερευνήσει με την ομάδα startup μας διαφορετικά είδη LLM και μια πλατφόρμα Cloud (Azure Machine Learning) που μας επιτρέπει να συγκρίνουμε διαφορετικά μοντέλα, να τα αξιολογούμε σε δεδομένα δοκιμών, να βελτιώνουμε την απόδοση και να τα αναπτύσσουμε σε σημεία πρόβλεψης.

Αλλά πότε πρέπει να εξετάσουν το ενδεχόμενο βελτίωσης ενός μοντέλου αντί να χρησιμοποιήσουν ένα προεκπαιδευμένο; Υπάρχουν άλλες προσεγγίσεις για να βελτιώσουν την απόδοση του μοντέλου σε συγκεκριμένα φορτία εργασίας;

Υπάρχουν αρκετές προσεγγίσεις που μια επιχείρηση μπορεί να χρησιμοποιήσει για να επιτύχει τα αποτελέσματα που χρειάζεται από ένα LLM. Μπορείτε να επιλέξετε διαφορετικούς τύπους μοντέλων με διαφορετικά επίπεδα εκπαίδευσης όταν αναπτύσσετε ένα LLM στην παραγωγή, με διαφορετικά επίπεδα πολυπλοκότητας, κόστους και ποιότητας. Εδώ είναι μερικές διαφορετικές προσεγγίσεις:

  • Μηχανική προτροπών με πλαίσιο. Η ιδέα είναι να παρέχετε αρκετό πλαίσιο όταν δίνετε προτροπή για να διασφαλίσετε ότι θα λάβετε τις απαντήσεις που χρειάζεστε.

  • Ανάκτηση Αυξημένης Γεννήσεως, RAG. Τα δεδομένα σας μπορεί να υπάρχουν σε μια βάση δεδομένων ή σε ένα web endpoint για παράδειγμα, για να διασφαλίσετε ότι αυτά τα δεδομένα, ή ένα υποσύνολό τους, περιλαμβάνονται κατά τη στιγμή της προτροπής, μπορείτε να ανακτήσετε τα σχετικά δεδομένα και να τα κάνετε μέρος της προτροπής του χρήστη.

  • Βελτιωμένο μοντέλο. Εδώ, έχετε εκπαιδεύσει περαιτέρω το μοντέλο στα δικά σας δεδομένα, το οποίο οδήγησε το μοντέλο να είναι πιο ακριβές και ανταποκρίσιμο στις ανάγκες σας, αλλά μπορεί να είναι κοστοβόρο.

Μηχανική Προτροπών με Πλαίσιο

Τα προεκπαιδευμένα LLM λειτουργούν πολύ καλά σε γενικευμένα καθήκοντα φυσικής γλώσσας, ακόμη και όταν τα καλείτε με μια σύντομη προτροπή, όπως μια πρόταση για να ολοκληρώσετε ή μια ερώτηση – η λεγόμενη "μάθηση μηδενικής βολής".

Ωστόσο, όσο περισσότερο μπορεί ο χρήστης να διαμορφώσει το ερώτημά του, με λεπτομερή αίτηση και παραδείγματα – το Πλαίσιο – τόσο πιο ακριβής και κοντά στις προσδοκίες του χρήστη θα είναι η απάντηση. Σε αυτήν την περίπτωση, μιλάμε για "μάθηση μιας βολής" αν η προτροπή περιλαμβάνει μόνο ένα παράδειγμα και "μάθηση λίγων βολών" αν περιλαμβάνει πολλαπλά παραδείγματα. Η μηχανική προτροπών με πλαίσιο είναι η πιο οικονομική προσέγγιση για να ξεκινήσετε.

Ανάκτηση Αυξημένης Γεννήσεως (RAG)

Τα LLM έχουν τον περιορισμό ότι μπορούν να χρησιμοποιούν μόνο τα δεδομένα που έχουν χρησιμοποιηθεί κατά την εκπαίδευσή τους για να παράγουν μια απάντηση. Αυτό σημαίνει ότι δεν γνωρίζουν τίποτα για τα γεγονότα που συνέβησαν μετά τη διαδικασία εκπαίδευσής τους, και δεν μπορούν να έχουν πρόσβαση σε μη δημόσιες πληροφορίες (όπως εταιρικά δεδομένα). Αυτό μπορεί να ξεπεραστεί μέσω του RAG, μιας τεχνικής που αυξάνει την προτροπή με εξωτερικά δεδομένα υπό μορφή κομματιών εγγράφων, λαμβάνοντας υπόψη τα όρια μήκους προτροπής. Αυτό υποστηρίζεται από εργαλεία βάσης δεδομένων Vector (όπως Azure Vector Search) που ανακτούν τα χρήσιμα κομμάτια από ποικίλες προκαθορισμένες πηγές δεδομένων και τα προσθέτουν στο Πλαίσιο προτροπής.

Αυτή η τεχνική είναι πολύ χρήσιμη όταν μια επιχείρηση δεν έχει αρκετά δεδομένα, αρκετό χρόνο ή πόρους για να βελτιώσει ένα LLM, αλλά εξακολουθεί να επιθυμεί να βελτιώσει την απόδοση σε συγκεκριμένο φορτίο εργασίας και να μειώσει τους κινδύνους κατασκευών, δηλαδή, παραποίηση της πραγματικότητας ή επιβλαβές περιεχόμενο.

Βελτιωμένο μοντέλο

Η βελτίωση είναι μια διαδικασία που αξιοποιεί τη μεταφορά μάθησης για να "προσαρμόσει" το μοντέλο σε ένα κατώτερο καθήκον ή για να λύσει ένα συγκεκριμένο πρόβλημα. Διαφορετικά από τη μάθηση λίγων βολών και το RAG, οδηγεί στη δημιουργία ενός νέου μοντέλου, με ενημερωμένα βάρη και προκαταλήψεις. Απαιτεί ένα σύνολο παραδειγμάτων εκπαίδευσης που αποτελείται από μια μόνο είσοδο (την προτροπή) και τη συσχετισμένη έξοδο (την ολοκλήρωση). Αυτή θα ήταν η προτιμώμενη προσέγγιση αν:

  • Χρήση βελτιωμένων μοντέλων. Μια επιχείρηση θα ήθελε να χρησιμοποιήσει λιγότερο ικανά βελτιωμένα μοντέλα (όπως μοντέλα ενσωμάτωσης) αντί για μοντέλα υψηλής απόδοσης, οδηγώντας σε μια πιο οικονομική και γρήγορη λύση.

  • Σκέψη για καθυστέρηση. Η καθυστέρηση είναι σημαντική για μια συγκεκριμένη περίπτωση χρήσης, έτσι δεν είναι δυνατό να χρησιμοποιήσετε πολύ μακρές προτροπές ή ο αριθμός των παραδειγμάτων που πρέπει να μάθει το μοντέλο δεν ταιριάζει με το όριο μήκους προτροπής.

  • Παραμονή ενημερωμένος. Μια επιχείρηση έχει πολλά δεδομένα υψηλής ποιότητας και ετικέτες πραγματικότητας και τους πόρους που απαιτούνται για να διατηρήσει αυτά τα δεδομένα ενημερωμένα με την πάροδο του χρόνου.

Εκπαιδευμένο μοντέλο

Η εκπαίδευση ενός LLM από το μηδέν είναι αναμφισβήτητα η πιο δύσκολη και η πιο περίπλοκη προσέγγιση για να υιοθετηθεί, απαιτώντας τεράστιες ποσότητες δεδομένων, εξειδικευμένους πόρους και κατάλληλη υπολογιστική ισχύ. Αυτή η επιλογή πρέπει να εξεταστεί μόνο σε ένα σενάριο όπου μια επιχείρηση έχει μια περίπτωση χρήσης ειδική για τον τομέα και μια μεγάλη ποσότητα δεδομένων κεντρικών στον τομέα.

Έλεγχος γνώσεων

Ποια θα μπορούσε να είναι μια καλή προσέγγιση για να βελτιώσετε τα αποτελέσματα ολοκλήρωσης LLM;

  1. Μηχανική προτροπών με πλαίσιο
  2. RAG
  3. Βελτιωμένο μοντέλο

Α:3, αν έχετε τον χρόνο και τους πόρους και δεδομένα υψηλής ποιότητας, η βελτίωση είναι η καλύτερη επιλογή για να παραμείνετε ενημερωμένοι. Ωστόσο, αν εξετάζετε τη βελτίωση των πραγμάτων και σας λείπει ο χρόνος αξίζει να εξετάσετε πρώτα το RAG.

🚀 Πρόκληση

Διαβάστε περισσότερα για το πώς μπορείτε να χρησιμοποιήσετε το RAG για την επιχείρησή σας.

Καλή δουλειά, Συνεχίστε την εκμάθηση σας

Αφού ολοκληρώσετε αυτό το μάθημα, δείτε τη Συλλογή Μάθησης Generative AI για να συνεχίσετε να αναβαθμίζετε τις γνώσεις σας στο Generative AI!

Προχωρήστε στο Μάθημα 3 όπου θα εξετάσουμε πώς να χτίσετε με Generative AI Υπεύθυνα!

Αποποίηση ευθυνών:
Αυτό το έγγραφο έχει μεταφραστεί χρησιμοποιώντας την υπηρεσία μετάφρασης AI Co-op Translator. Παρόλο που επιδιώκουμε την ακρίβεια, παρακαλούμε να γνωρίζετε ότι οι αυτοματοποιημένες μεταφράσεις μπορεί να περιέχουν λάθη ή ανακρίβειες. Το πρωτότυπο έγγραφο στη μητρική του γλώσσα θα πρέπει να θεωρείται η έγκυρη πηγή. Για κρίσιμες πληροφορίες, συνιστάται επαγγελματική μετάφραση από ανθρώπους. Δεν φέρουμε ευθύνη για τυχόν παρεξηγήσεις ή εσφαλμένες ερμηνείες που προκύπτουν από τη χρήση αυτής της μετάφρασης.