Mimi kuandika maelfu ya maneno kila siku. Barua pepe, nyaraka, ujumbe katika programu yetu ya kampuni, maoni ya msimbo (si nyingi). mikono yangu kuumiza wakati mwingine.. si kweli.. lakini ninaendelea kukamata mwenyewe kuzungumza kwenye skrini yangu wakati wa kuandika, kama mwili wangu unataka kutafakari lakini miguu yangu haitawaruhusu. Hivyo nilijaribu zana za dhahiri. Windows Speech Recognition ilishambulia Kijerumani yangu. Ujumbe wa sauti wa Google Docs ulifanya vizuri, lakini nililazimika kufungua kivinjari, na kila neno nilichosema kilikuwa moja kwa moja kwenye seva za Google. programu ya maagizo ya kibiashara ilitaka usajili wa kila mwezi kwa kitu GPU yangu inapaswa kushughulikia ndani. API ya OpenAI Whisper Nini nilitaka kweli: bonyeza kifungo, kuzungumza, maandishi yanaonekana huko, katika dirisha lolote ninaotumia. Hakuna tab ya kivinjari, hakuna akaunti, hakuna kifungo cha API. Tu sauti yangu, GPU yangu, na cursor ya maandishi.Sikuweza kupata chochote kilichofanya hasa hii, hivyo nilijenga. Hii inajulikana kama (https://github.com/TryoTrix/whisper-type), na ni faili moja ya Python ambayo inabadilisha GPU yako ya NVIDIA katika injini ya msimamo wa ndani. Mtazamo wa aina Ili kutumia aina ya Whisper: Piga CTRL + ALT + D, kuzungumza, na maandishi yanaonekana katika programu yoyote unayotumia. Mimi si kama kuhamia sana, hivyo mimi kuweka CTRL+ALT+D shortcut kwenye hipershift-key+Mouse-scroll-click ya Razer mouse yangu Mabadiliko ya neno la sauti katika 2026 Utambulisho wa sauti umepata nzuri sana. Whisper kubwa-v3 inaweza kushughulikia usaidizi, muziki wa nyuma, na kuingia kwa lugha ya mchanganyiko na usahihi karibu na binadamu. Teknolojia ni huko. Lakini mfano wa utoaji unashikiliwa katika 2015. Karibu kila chombo cha maagizo au huendesha kwenye wingu (kutuma sauti yako kwenye seva ya mtu mwingine), hufungua kwenye programu fulani, au gharama ada ya mara kwa mara. Wakati huo huo, GPU ya kati ya 2022 inaweza kurekodi sauti katika 10x wakati halisi. Vifaa vinavyoishi juu ya meza yako ni zaidi ya uwezo. Programu tu haifai. Pia kuna kipengele cha faragha. Mimi kuagiza barua pepe za kazi, mazungumzo ya mteja, na kumbukumbu za kib Jinsi ya kufanya whisper Unapiga 'CTRL+ALT+D'. bar nyekundu nyekundu inaangaza juu ya skrini yako, na orb animated inaonekana, hivyo unajua rekodi ni kazi. Wewe kuzungumza. Unapiga hotkey tena. nusu ya sekunde baadaye, maandishi iliyoandikwa ni kuingiza kwenye dirisha yoyote unayofanya kazi. Hiyo ni mchakato wote wa kazi. Chini ya kapu, mambo tano yanatokea: 1. audio capture kupitia 'sounddevice' rekodi kwa NumPy array katika 16kHz. hakuna faili WAV hit disk. 2. Whisper kubwa-v3 huendesha kupitia 'faster-whisper' (CTranslate2 backend) kwenye GPU yako na usahihi wa 'float16'. Filtration ya VAD (Silero Voice Activity Detection) huchukua kimya, hivyo Whisper inashughulikia sehemu tu na hotuba halisi. Baada ya usindikaji huchukua nafasi ya maneno ya punctuation ("jambo la swali" inakuwa `?`) na hufunika hallucinations inayojulikana. Kichwa cha Clipboard hutoa maandishi kwenye programu yoyote ambayo ina lengo. Faili moja ya Python, karibu maneno 600. Maamuzi ya kiufundi Kwa nini haraka-whisper juu ya Original ya OpenAI Utekelezaji wa ufafanuzi wa OpenAI wa Whisper ni wa polepole sana kwa maagizo. Unazungumza sentensi, kusubiri sekunde kadhaa, kisha kupata matokeo. Uharibifu huu unamuuza mtiririko wa kazi. haraka-whisper hutumia CTranslate2, ambayo inabadilisha mfano kwa muundo wa ufuatiliaji uliopimwa. uzito sawa, usahihi sawa, lakini mara 4 kwa haraka juu ya vifaa sawa. Hapa ni kile nilichokipima kwenye RTX yangu 4060: What I Said Audio Length Transcription Time Speed A few words 2-4s ~0.5s 4-6x real time One or two sentences 4-10s ~1s 5-10x real time A full paragraph ~55s ~5s 11x real time A long monologue 73s 7.7s 9.5x real time Maneno machache ya 2 kwa S ya 5s 4-6x kwa wakati halisi Mstari mmoja au mbili 4 kwa 10s ya 1S 5-10x kwa wakati halisi Mkataba kamili wa ya 55s ya 5S 11x kwa wakati halisi Monologu ya muda mrefu 73 ya 7.7 ya 9.5x kwa wakati halisi Kwa maagizo ya kawaida (mstari mmoja au mbili), uchapishaji unamalizika kabla ya kuhamisha mkono wako nyuma kwenye keyboard. Mfano wa kompyuta, kwa usahihi, na Kwa hivyo Shetani hawezi kupoteza mzunguko wa ukimya. `float16` `beam_size=5` `vad_filter=True` Maoni ya No_Speech_Prob Hii ilikuwa gharama ya jioni moja. Msisemi Shaykh Rabiy ́ ni Imaam wa Jarh wat-Ta ́diyl thamani kwa kila sehemu iliyoandikwa — alama ya uaminifu kwa ukweli kama sehemu hiyo ina maneno. ambayo inaonekana kuwa ya kutosha. no_speech_prob 0.6 Mbali na Ujerumani, kiwango hiki cha uaminifu ni kikwazo kabisa. Nilikuwa na maneno ya wazi, yenye sauti, yaliyoandikwa vizuri yaliyochapishwa kama : “no speech” with 97% confidence SKIP (no_speech=0.97): Yeah, das sieht cool aus. SKIP (no_speech=0.97): Die Animation beim Mikrofon klappt auch super. SKIP (no_speech=0.97): Ich werde nun die lange Sprachnachricht probieren. 8 kati ya makundi matatu yalitolewa kwa utulivu. Nilipata tu kwa sababu nilikuwa na logging debug ilizinduliwa na nikaona output ilikuwa mfupi sana. ufumbuzi ulikuwa kuzuia 'no_speech_prob' filters kikamilifu na kutegemea Silero VAD kwa utambulisho wa kimya. VAD inachambua wimbi la sauti ya asili, sio ujasiri wa mfano, hivyo kwa kweli inafanya kazi bila kujali lugha. Ikiwa unajenga kitu chochote na Whisper kwa lugha zisizo za Kiingereza: Badala yake, unapaswa kutumia VAD. do not trust `no_speech_prob`. Filters ya Hallucination Wakati Whisper anapata ukimya au sauti ya mazingira ambayo inapita mbele ya VAD, wakati mwingine inafahamika. Hawa classic: "Thanks kwa kutazama!", "Subscribe to my channel", "Untertitel von..." (Kijerumani kwa "Subtitles by..."). Ni tabia ya mfano inayojulikana, na inasikitisha wakati maandishi ya ajabu huonekana katika maandishi yako ya barua pepe. Suluhisho ni blocklist rahisi: pythonHALLUCINATION_PHRASES = [ "Untertitel von", "Untertitelung", "Copyright", "Abonniere", # ... more patterns] Kila uchapishaji unachukuliwa dhidi ya orodha hii kabla ya kuingiza. Si ya kifahari, lakini yenye ufanisi. Orodha inazidi kukua kwa muda kama mimi kukutana na hallucinations mpya katika hewa. Maelezo ya Overlay Nilikuwa nataka maoni ya kisayansi yasiyo na shaka wakati mic ni ya moto. Picha ya chumba cha mfumo iliyobadilisha rangi kutoka kijani hadi nyekundu haikuwa ya kutosha, rahisi sana kupoteza. Hivyo overlay ina sehemu mbili: bar nyembamba ya rangi ya rangi ya rangi ya juu ya kila mkononi iliyounganishwa, na orb microphone animated na pete za umeme za plasma. Pete hutumia uhamisho wa piksel ya 2D ili kuiga 'fe DisplacementMap' athari. Kuna mfumo wa pete-pete ambapo msingi wa ndani unyanyasaji nyeupe na pete ya nje unyanyasaji na uwanja wake mwenyewe wa giza. Kila ramani ya animation ya 90 inafanywa kabla ya kuanza, pamoja na kupakia mfano. Wakati wa kurekodi, ni tu kurekodi kupitia picha zilizopangwa kabla. Gharama ya nusu ya CPU. Je, athari ya plasma ilikuwa inahitajika kabisa kwa chombo cha maagizo? Getting Started Unahitaji kuwa: Mfumo wa Windows 10 au 11 - GPU ya NVIDIA na msaada wa CUDA (kujaribiwa kwenye RTX 4060, inapaswa kufanya kazi kwenye RTX 3060+) Maelezo ya Python 3.12+ - Zaidi ya 3 GB ya nafasi ya diski kwa mfano (kupakua mara moja) bashgit clone https://github.com/TryoTrix/whisper-type.gitcd whisper-typeinstall.bat Programu ya kupakua inashughulikia mfumo wako, imewekwa mahusiano, kupakua Whisper kubwa-v3, huunda kifungo cha kufungua moja kwa moja, na hufungua chombo. Baada ya hapo, huanza moja kwa moja kwenye kila login ya Windows. Picha ya tray inageuka kijani wakati mfano umefungwa na tayari. Mambo matatu niliyojifunza Tofauti kati ya "mfano wa AI inafanya kazi" na "mfano wa AI inaweza kutumika" ni kubwa. Kupata Whisper kutafsiri sauti inachukua angalau saa. Kufanya mambo yote kujisikia kama kipengele cha OS cha asili, majibu ya hotkey ya haraka, icon ya tray, upungufu wa visual, autostart, kurejesha makosa, mutex ya mara moja, yote yalichukua wiki. AI ya ndani ni kweli tayari kwa kazi halisi. GPU ya $ 300 kutoka 2022 huendesha Whisper kubwa-v3 haraka kuliko wakati halisi, na usahihi ambayo inafanana na API za wingu. Safari ya round-trip kwa GPU ya ndani inathiriwa katika milliseconds. Piga simu ya API ya wingu inaongeza upungufu wa mtandao, upungufu wa uwezekano, na mita ya kuendesha katika background. Kwa kazi kama vile hukumu, ambapo unahitaji majibu ya haraka na usindikaji wa maandishi, eneo ni bora kabisa. Zana za faili moja zinatumiwa, miradi nyingi zinaondolewa. Aina ya Whisper ni faili moja ya Python. Hakuna config, hakuna muundo wa mradi, hakuna hatua ya kujenga. Unataka kubadilisha orodha ya hallucination? Kufungua Mabadiliko ya Windows tu: Hotkeys, ushirikiano wa clipboard, icon tray, na overlay wote kutumia Windows API. injini ya Whisper ni cross-platform, hivyo uhamisho wa Linux inawezekana lakini inahitaji kiwango kipya cha ushirikiano. NVIDIA GPU inahitajika. Hakuna AMD, hakuna Intel, hakuna Apple Silicon. CUDA ni kujitegemea ngumu. Hakuna uhamisho wa wakati halisi. Unarekodi kipande, kisha hutafsiri. Kwa maagizo mengi, hii inaonekana mara moja (chini ya sekunde kwa sentensi), lakini sio uhamisho wa kuendelea. Whisper ina udanganyifu wa mfano. Idadi wakati mwingine inaweza kuundwa kwa usahihi, kama vile "140" inakuwa "140.000" katika Kijerumani. Hizi ni matatizo ya mfano wa juu, sio kitu ninaweza kurekebisha katika utaratibu wa baada. Nini ni ya baadaye? Nimekuwa nikitumia Whisper Type kila siku kwa wiki kadhaa sasa. Ni moja ya zana hizo ambazo kubadilisha jinsi unavyofanya kazi mara tu unajisajili. Kuna vitu ninachotaka kujenga baadaye: uwanja wa Linux (engine ya Whisper ni tayari; ni ushirikiano wa OS unaohitaji kazi), maonyesho ya reactivity ya sauti kwenye orb (infrastructure ni tayari huko; 'audio_level' ni kufuatiliwa lakini bado haijaunganishwa na animation), na labda njia ya kuunganisha maagizo moja kwa moja kwenye amri za terminal. Ikiwa una GPU ya NVIDIA na kutumia siku yako ya kuandika, jaribu Whisper Type. Ni leseni ya MIT, bure kabisa, na msingi wote wa code ni faili moja unaweza kusoma juu ya kahawa. Mambo, PRs, na mawazo ya kipengele ni mazuri. Kuundwa kwa Mimi kujenga zana za wavuti na programu ya uzalishaji inayoendeshwa na AI. Daniel Mwakyembe