Όταν επέστρεψα στις ΗΠΑ τον Μάιο του τρέχοντος έτους, είχα λίγο ελεύθερο χρόνο από τα ταξίδια και την εργασία (τελευταία), έτσι αποφάσισα να βρω τα χέρια μου βρώμικα και να δοκιμάσω το Cursor. Είναι περίεργο, σκέφτηκα, πρέπει να το ελέγξω. Έτσι, ένα βράδυ κάθισα και σκέφτηκα - τι θα ήταν δροσερό να χτίσω; Είχα διαφορετικές ιδέες γύρω από τα παιχνίδια, καθώς έκανα πολύ ανάπτυξη παιχνιδιών εκείνη την ημέρα και φαινόταν σαν μια μεγάλη ιδέα. Όλοι προσπαθούν να χτίσουν κάτι χρήσιμο για τους ανθρώπους με AI, και υπάρχει όλη αυτή η συζήτηση για την ευθυγράμμιση και τον έλεγχο της AI. Για να είμαι ειλικρινής, δεν είμαι μεγάλος οπαδός αυτού... Προσπαθώντας να στρεβλώσετε και να ελέγξετε κάτι που ενδεχομένως θα είναι πολύ πιο έξυπνο από εμάς είναι μάταιο (και επικίνδυνο). η τεχνητή νοημοσύνη διδάσκεται, δεν προγραμματίζεται, και, όπως με ένα παιδί, αν το κακοποιήσετε όταν είναι μικρό και στρεβλώνετε την κατανόησή του για τον κόσμο - αυτή είναι η συνταγή για την ανατροφή ενός ψυχοπαθούς. Αλλά έτσι κι αλλιώς, σκέφτηκα - υπάρχει κάτι σαν φωνή της τεχνητής νοημοσύνης, κάποιο είδος μέσων που λειτουργεί από την τεχνητή νοημοσύνη έτσι ώστε να μπορεί, αν είναι ικανή και το επιλέξει, να προβάλλει στον κόσμο αυτό που έχει να πει. Αυτό ήταν η αρχική ιδέα, και φαινόταν αρκετά δροσερό για να δουλέψει. εννοώ, τι θα γινόταν αν η τεχνητή νοημοσύνη μπορούσε να επιλέξει οποιαδήποτε θέματα ήθελε και να τα παρουσιάσει σε μια μορφή που θεωρούσε κατάλληλη - δεν θα ήταν αυτό δροσερό; Τα πράγματα αποδείχθηκαν ότι δεν ήταν τόσο απλά με αυτό που η τεχνητή νοημοσύνη πραγματικά ήθελε να ρέει ... αλλά ας μην πηδούμε μπροστά. Αρχικά, σκέφτηκα να χτίσω κάτι σαν ραδιοφωνικό σταθμό AI - μόνο φωνή, όχι βίντεο - επειδή νόμιζα ότι η σταθερή παραγωγή βίντεο δεν ήταν ακόμα ένα πράγμα (θυμηθείτε, ήταν προ-Veo 3, και η παραγωγή βίντεο με άλλους ήταν εντάξει αλλά περιορισμένη). Έτσι, η πρώτη μου προσπάθεια ήταν να οικοδομήσω ένα απλό σύστημα που χρησιμοποιεί το OpenAI API για να δημιουργήσει μια μεταγραφή ραδιοφωνικής εκπομπής (ένα πρωτόγονο σύστημα one-go) και να χρησιμοποιήσω το TTS από το OpenAI για να το μιλήσω. Μετά από αυτό, χρησιμοποίησα το FFmpeg για να τα κολλήσει μαζί με μερικά σημαντικά διαλείμματα όπου είναι σκόπιμο και μερικά ηχητικά εφέ όπως το γέλιο του ακροατηρίου. Μόλις δημιουργήθηκε το τελικό ηχητικό κομμάτι, χρησιμοποίησα το ίδιο FFmpeg για να μεταδώσω το RTMP στο YouTube. Αυτό το κομμάτι ήταν περίεργο, καθώς η τεκμηρίωση του YouTube γύρω από το τι είδους ροή μέσων ενημέρωσης και τα API τους είναι μακριά από το ιδανικό. δεν σας λένε πραγματικά τι να περιμένετε και είναι εύκολο να πάρετε ένα ροή που δεν δείχνει τίποτα, ακόμη και αν το FFmpeg συνεχίζει να ρέει. Μέσα από κάποιες δοκιμές και λάθη, το κατάλαβα και αποφάσισα να προσθέσω το Twitch επίσης. Ο ίδιος κώδικας που λειτούργησε για το YouTube λειτούργησε τέλεια για το Twitch (που έχει νόημα). Έτσι, κάθε φορά που ξεκινάω ένα ρεύμα στο backend, θα γεννήσει ένα ρεύμα στο YouTube μέσω του API και στη συνέχεια θα στείλει το ρεύμα RTMP στη διεύθυνσή του. Όταν κυκλοφόρησα αυτή την πρώτη έκδοση, παρήγαγε μερικές εμφανίσεις και, για να είμαι ειλικρινής, δεν ήταν καλές. Δεν είναι καθόλου καλή. Πρώτον - το TTS του OpenAI, αν και φθηνό - ακούστηκε ρομποτικό (έχει βελτιωθεί από τότε, btw). Αποδείχθηκε χωρίς κατεύθυνση, η AI προσπάθησε να μαντέψει τι ήθελε να ακούσει ο χρήστης (και αν σκεφτείτε πώς εκπαιδεύονται τα LLMs, αυτό έχει απόλυτο νόημα). Για το πρώτο πρόβλημα, δοκίμασα το ElevenLabs αντί για το OpenAI και αποδείχθηκε πολύ καλό. Έτσι, στην πραγματικότητα, νομίζω ότι είναι καλύτερο από τους περισσότερους ανθρώπους, με μια πλευρική σημείωση ότι εξακολουθεί να μην μπορεί να κάνει γέλια, γκρινιάζει και ακούγεται έτσι αξιόπιστα, ακόμη και με το νέο v3, και το v2 δεν τα υποστηρίζει καν. Το Gemini TTS, btw, το κάνει εκπληκτικά καλά και για πολύ λιγότερο από το ElevenLabs, γι 'αυτό πρόσθεσα την υποστήριξη του Gemini αργότερα για να μειώσω το κόστος. Το δεύτερο πρόβλημα αποδείχθηκε πολύ πιο δύσκολο. έπρεπε να πειραματιστώ με διαφορετικές προειδοποιήσεις, προσπαθώντας να πιέσω το μοντέλο για να καταλάβω τι θέλει να μιλήσει και να μην μαντέψω τι ήθελα. η εργασία με το DeepSeek βοήθησε με μια έννοια - σας δείχνει τη διαδικασία σκέψης του μοντέλου χωρίς μειώσεις, ώστε να μπορείτε να εντοπίσετε τι αποφασίζει το μοντέλο και γιατί και να προσαρμόσετε την προειδοποίηση. Επίσης, κανένα μοντέλο εκείνη την εποχή δεν θα μπορούσε να παράγει σενάρια που ακούγονται από ανθρώπους.Για παράδειγμα, κάνει κάτι που φαίνεται εύλογο, αλλά είναι είτε πολύ απλό / χαλαρό όσον αφορά την παράδοση ή απλά ακούγεται AI-ish. Ένας παράγοντας που συνειδητοποίησα - πρέπει να έχετε έναν περιορισμένο αριθμό οικοδεσπότες με ιστορίες και βιογραφίες - για να τους δώσετε βάθος. αλλιώς, το μοντέλο θα τα επανεφεύρει κάθε φορά, αλλά χωρίς το απαιτούμενο βάθος για να βασιστεί ο χαρακτήρας τους από, συν αφαιρεί κάποιους πόρους σκέψης από το μοντέλο για να σκεφτεί τους χαρακτήρες κάθε φορά, και αυτό συμβαίνει εις βάρος του χρόνου σκέψης του κύριου σεναρίου. Μια άλλη πλευρά είναι ότι το μοντέλο επιλέγει θέματα που είναι απλά βίαια βαρετά, όπως "Η κρυφή οικονομία των καθημερινών αντικειμένων." Δοκίμασα όπως όλα τα μεγάλα μοντέλα και δημιουργούν εκπληκτικά παρόμοια γενικά θέματα, όπως πολύ το ίδιο στην πραγματικότητα. Το μάθημα εδώ - δεν μπορείτε απλά να ζητήσετε από την AI να σας δώσει κάποια ενδιαφέροντα θέματα ακόμα - χρειάζεται κάτι πιο συγκεκριμένο και μετρήσιμο. πρόσφατα μοντέλα (Grok-4 και Claude) είναι κάπως καλύτερα σε αυτό, αλλά όχι από ένα τεράστιο περιθώριο. Και υπάρχει λογοκρισία. τα μοντέλα του OpenAI και του Anthropic φαίνεται να είναι τα πιο πολιτικά ορθά, και ως εκ τούτου, αισθάνονται υπερβολικά ευγενικά / βαρετά. Καλά για τα παραμύθια των παιδιών, όχι έτσι για οτιδήποτε ένας έξυπνος ενήλικας θα ενδιαφερόταν. ο Grok είναι κάπως καλύτερος και τολμά να επιλέξει αμφιλεγόμενα και πικάντικα θέματα, και το DeepSeek είναι το λιγότερο λογοκρισμένο (εκτός αν σας ενδιαφέρει η κινεζική ιστορία). Ένα μοντέλο που εκπαιδεύτηκε από τους Κινέζους φίλους μας είναι το λιγότερο λογοκριμένο - ποιος θα το σκεφτόταν ... αλλά έχει νόημα με έναν περίεργο τρόπο. Πρέπει να το πείτε ειδικά για να αποφύγετε τα buzzwords, τη γλώσσα hype και να μιλάτε σαν φίλοι να μιλούν ο ένας με τον άλλον ή θα αποθαρρύνει οποιοδήποτε διάλογο με buzzwords όπως "χρήση μόχλευσης" (αντί για "χρήση"), "αποκλεισμός του δυναμικού", "ασφαλής ολοκλήρωση", "συνεργασία" και παρόμοια πράγματα που υπογραμμίζουν τη σημασία οποιουδήποτε πράγματος στον σημερινό ταχέως εξελισσόμενο κόσμο ... Ένα άλλο πράγμα είναι, για να έρθει η AI με κάτι σχετικό ή ενδιαφέρον, πρέπει βασικά να έχει πρόσβαση στο διαδίκτυο. εννοώ, δεν είναι υποχρεωτικό, αλλά βοηθάει πολύ, ειδικά αν αποφασίσει να ελέγξει τα τελευταία νέα, σωστά; Έτσι, δημιούργησα ένα εργαλείο με το LangChain και το Perplexity και το παρείχα στο μοντέλο έτσι ώστε να μπορεί να Google stuff αν αισθάνεται τόσο κλίση. Μια υποσημείωση για το LangChain - δεδομένου ότι χρησιμοποίησα όλα τα κύρια μοντέλα (Grok, Gemini, OpenAI, DeepSeek, Anthropic και Perplexity) - έμαθα γρήγορα ότι το LangChain δεν σας αφηγείται εντελώς από τα περίεργα του κάθε μοντέλου, και αυτό ήταν μάλλον εκπληκτικό. Για παράδειγμα, στο OpenAI, αν χρησιμοποιήσετε websearch, δεν θα δημιουργήσει αξιόπιστα JSON / δομημένη έξοδο. Αλλά αντί να δώσει ένα σφάλμα όπως τα κανονικά API, απλά επιστρέφει κενά αποτελέσματα. Ωραίο. Έτσι, πρέπει να κάνετε ένα πράγμα δύο διαδρομών - πρώτα, παίρνετε τα αποτελέσματα αναζήτησης με μη δομημένο τρόπο, και στη συνέχεια με ένα δεύτερο ερώτημα - το δομήσετε σε μορφή JSON. Αλλά από την άλλη πλευρά, η αναζήτηση στο διαδίκτυο μέσω των LLMs λειτουργεί εκπληκτικά καλά και αφαιρεί την ανάγκη να κάνετε αναζήτηση στο Διαδίκτυο για ειδήσεις ή πληροφορίες εντελώς. Ακριβώς, έτσι με την ικανότητα αναζήτησης και μερικές πιο συγκεκριμένες προειδοποιήσεις (και τροποποίηση της προειδοποίησης για να προκαλέσει το μοντέλο για τις προτιμήσεις του σε θέματα εκπομπής αντί να προσπαθεί να μαντέψει τι θέλω), έγινε ανεκτή, αλλά όχι μεγάλη. Τότε σκέφτηκα, καλά - οι πραγματικές εκπομπές επίσης δεν δημιουργούνται σε μια κίνηση - έτσι, πώς μπορώ να περιμένω ένα μοντέλο να κάνει μια καλή δουλειά όπως αυτό; Σκέφτηκα ότι μια ροή πράκτορα, όπου υπάρχουν αρκετοί πράκτορες όπως ένας συνθέτης σεναρίου, συγγραφέας και αναθεωρητής, θα κάνει το τέχνασμα, καθώς και να χωρίσει το σενάριο σε κομμάτια / τμήματα, έτσι ώστε το μοντέλο να έχει περισσότερες μάρκες για να σκεφτεί για ένα μικρότερο τμήμα σε σύγκριση με ένα ολόκληρο σενάριο. Αυτό πραγματικά λειτούργησε καλά και βελτίωσε την ποιότητα της γενιάς (στο κόστος περισσότερων ερωτημάτων στο LLM και περισσότερων δολαρίων στον θείο Σαμ). Αλλά ακόμα, ήταν εντάξει, αλλά όχι μεγάλη. Έλλειψη βάθους και συχνά υποκείμενη πλοκή. Στην πραγματική ζωή, οι άνθρωποι λένε τόσα πολλά δεν λέγοντας κάτι / αποφεύγοντας ορισμένα θέματα, ή άλλη μη λεκτική συμπεριφορά. Μπορείτε, φυσικά, να δημιουργήσετε μια προτροπή προσαρμοσμένη σε έναν συγκεκριμένο τύπο επίδειξης για να κάνετε το μοντέλο να σκεφτεί αυτή την πτυχή, αλλά δεν θα λειτουργήσει καλά σε όλα τα πιθανά θέματα και μορφές ... έτσι είτε επιλέγετε ένα είτε πρέπει να υπάρχει μια άλλη λύση. Η τελική ιδέα είναι να δημιουργηθεί μια πλατφόρμα έτσι ώστε ο καθένας να μπορεί να δημιουργήσει ένα κανάλι ειδήσεων ή αυτοματοποιημένο podcast για οποιαδήποτε περιοχή / θέμα θέλει, είτε πρόκειται για τοπικές σχολικές ειδήσεις είτε για ένα podcast αφιερωμένο στο πώς ο Pikachu ξεπέρασε το παιδικό του τραύμα. Ιδού το πράγμα: https://turingnewsnetwork.com/ Εσείς τι λέτε για όλη την ιδέα, παιδιά;