Každý den zadávám tisíce slov. E-maily, dokumentace, zprávy v naší firemní aplikaci, komentáře k kódu (ne tolik). Moje ruce někdy bolely.. ne opravdu.. ale pořád jsem se chytil mluvit na obrazovce při psaní, jako můj mozek chce diktovat, ale moje prsty to nedovolí. Tak jsem zkusil zřejmé nástroje. Rozpoznávání řeči Windows porazil můj německý jazyk. Google Docs hlasové psaní fungovalo v pořádku, ale musel jsem otevřít prohlížeč a každé slovo, které jsem řekl, šlo přímo na servery Google. Komerční diktátorský software chtěl měsíční předplatné na něco, co by měl můj GPU zvládnout lokálně. OpenAI Whisper API byl přesný, ale streamování každé zprávy Slack Co jsem vlastně chtěl: stiskněte tlačítko, mluvte, text se objeví přímo tam, v jakémkoliv okně, které používám. Žádná karta prohlížeče, žádný účet, žádný klíč API. Jen můj hlas, moje GPU a textový kurzor.Nemohla jsem najít nic, co to přesně dělá, takže jsem ho postavila. Je nazýván (https://github.com/TryoTrix/whisper-type), a je to jediný Python soubor, který promění váš NVIDIA GPU v lokální diktátor. Typ šeptání Chcete-li použít typ Whisper: Stiskněte kombinace kláves CTRL+ALT+D, promluvte a text se objeví v libovolné aplikaci, kterou používáte. Nemám rád tolik pohybu, takže jsem vložil zkratku CTRL + ALT + D do hypershiftového klíče myši Razer + klikněte na myš Problém s hlasovým diktátem v roce 2026 Hlasové rozpoznávání se stalo neuvěřitelně dobrým. Whisper large-v3 může zvládat akcenty, hudbu na pozadí a mixovaný jazykový vstup s téměř lidskou přesností. Technologie je tam. Ale model doručení je uvízl v roce 2015. Téměř každý diktátorský nástroj buď běží v cloudu (posílání vašeho zvuku na něčí server), zamkne vás do konkrétní aplikace nebo stojí opakující se poplatek. Mezitím, střední rozsah GPU od roku 2022 může přepsat řeč v 10x reálném čase. Hardware sedící na vašem stole je více než schopen. Jen software se nezachytil. Existuje také úhel soukromí. Diktuji pracovní e-maily, konverzace klientů a osobní poznámky. Nemám rád myšlenku, že Co dělá typ šeptání Stisknete klávesu Ctrl+Alt+D. V horní části obrazovky se rozsvítí tenký červený proužek a zobrazí se animovaná obloha, takže víte, že nahrávání je aktivní. Mluvíte. Stisknete opět klíč. O půl sekundy později je přepsaný text vložen do jakéhokoli okna, ve kterém pracujete. Pod kapotou se děje pět věcí: Zvukový záznam prostřednictvím ‚zvukového zařízení‘ do array NumPy při 16kHz. Žádný soubor WAV se na disk nedostane. Whisper large-v3 běží přes ‚faster-whisper‘ (CTranslate2 backend) na vaší GPU s ‚float16‘ přesností. Filtrace VAD (Silero Voice Activity Detection) přesahuje ticho, takže Whisper zpracovává pouze segmenty se skutečnou řečí. Post-zpracování nahrazuje mluvenou punkci ("dotazník" se stává `?') a filtruje známé halucinace. Clipboard paste vstřikuje text do jakékoliv aplikace, která má zaměření. Jeden Python soubor, asi 600 řádků. Technická rozhodnutí Proč rychlejší whisper nad OpenAI Original Referenční implementace Whisper od OpenAI je příliš pomalá na diktování. Mluvíte větu, počkejte několik sekund, pak získáte výsledek. To zpoždění zabíjí pracovní postup. rychlejší whisper používá CTranslate2, který převádí model na optimalizovaný formát závěru. Stejné váhy, stejná přesnost, ale 4x rychleji na stejném hardwaru. Zde je to, co jsem měřil na RTX 4060: What I Said Audio Length Transcription Time Speed A few words 2-4s ~0.5s 4-6x real time One or two sentences 4-10s ~1s 5-10x real time A full paragraph ~55s ~5s 11x real time A long monologue 73s 7.7s 9.5x real time Pár slov 2 - 4s • 0,5 s 4x v reálném čase Jedna nebo dvě věty 4 až 10s • 1s 5x v reálném čase Celý odstavec 55s • 5s 11x v reálném čase Dlouhý monolog 73s 7.7 S 9,5x v reálném čase Pro typické diktace (jedna věta nebo dvě), transkripce končí dříve, než jste přesunuli ruku zpět na klávesnici. počítačový typ, Pro přesnost a Takže Whisper neztrácí cykly na tichu. `float16` `beam_size=5` `vad_filter=True` The no_speech_prob Trap Příslušenství To mě stálo jedno odpoledne. Šepot přiděluje a hodnotu pro každý přepsaný segment – skóre důvěryhodnosti pro to, zda segment skutečně obsahuje řeč. Což zní dostatečně rozumně. no_speech_prob 0.6 S výjimkou Německa je toto důvěryhodné skóre zcela rozbité. Měl jsem jasné, hlasité, dobře artikulované věty, které byly označeny jako : “no speech” with 97% confidence SKIP (no_speech=0.97): Yeah, das sieht cool aus. SKIP (no_speech=0.97): Die Animation beim Mikrofon klappt auch super. SKIP (no_speech=0.97): Ich werde nun die lange Sprachnachricht probieren. Osm z devíti segmentů bylo tiše vyhozeno. Chytil jsem to jen proto, že jsem měl zapnutý protokol debugingu a všiml jsem si, že výstup byl podezřele krátký. Oprava byla vypnout filtrování `no_speech_prob` zcela a spolehnout se na Silero VAD pro detekci ticha. VAD analyzuje surovou zvukovou vlnovou formu, nikoliv důvěru modelu, takže ve skutečnosti funguje bez ohledu na jazyk. Pokud vytváříte něco s Whisper pro jiné než anglické jazyky: Místo toho použijte VAD. do not trust `no_speech_prob`. Halucinace filtrace Když Whisper dostane ticho nebo okolní hluk, který prochází VAD, někdy halucinuje. Klasické ty: "Děkuji za sledování!", "Přihlásit se k mému kanálu", "Untertitel von..." (německy pro "Podtitulky..."). Řešením je jednoduchý blok: pythonHALLUCINATION_PHRASES = [ "Untertitel von", "Untertitelung", "Copyright", "Abonniere", # ... more patterns] Každá transkripce je kontrolována proti tomuto seznamu před vložením.Není elegantní, ale efektivní. Seznam roste v průběhu času, když se setkávám s novými halucinacemi ve volné přírodě. nahrávací overlay Chtěl jsem nezaměnitelnou vizuální zpětnou vazbu, když je mikrofon horký. ikona systémové zásuvky měnící barvu ze zelené na červenou nestačila, příliš snadné chybět. Takže povrch má dvě části: tenký červený pruh přes horní okraj každého připojeného monitoru a animovaný mikrofon s elektrickými plazmovými kroužky.Prsteny používají 2D posunutí pixelů k simulaci efektu "fe DisplacementMap". Všechny 90 animovaných snímků jsou předběžně zobrazovány při spuštění, paralelně s načítáním modelu. Během nahrávání se jednoduše otočí přes předběžně vypočtené obrázky. Byl plazmový efekt pro diktátorský nástroj nezbytný?Ne, ale dělá mě šťastným. Getting Started Potřebujete tedy: Windows 10 nebo 11 GPU NVIDIA s podporou CUDA (testováno na RTX 4060, by mělo fungovat na RTX 3060+) Python 3.12 a více - Přibližně 3 GB místa na disku pro model (jednorázové stažení) bashgit clone https://github.com/TryoTrix/whisper-type.gitcd whisper-typeinstall.bat Instalační program zkontroluje váš systém, nainstaluje závislosti, stahuje Whisper large-v3, vytváří zkratku pro spuštění a spustí nástroj. Poté se automaticky spustí na každém přihlášení systému Windows. ikona zásuvky se stává zelenou, když je model načten a připraven. Tři věci, které jsem se naučil Rozdíl mezi "AI model funguje" a "AI nástroj je použitelný" je obrovský. Získání Whisper k přepisu zvuku trvalo možná hodinu. Aby se celá věc cítila jako nativní funkce OS, okamžitá reakce na klíč, ikona zásuvky, vizuální překrytí, autostart, obnovení chyb, single-instance mutex, to vše trvalo týdny. Přepis je možná 10% kódu. Místní AI je skutečně připraven pro reálnou práci. GPU 300 dolarů z roku 2022 běží Whisper large-v3 rychleji než v reálném čase, s přesností, která odpovídá cloudovým API. Round-trip k místnímu GPU je měřen v milisekundách. Volání cloudového API přidává síťovou latenci, potenciální pozastavení a měřič běžící v pozadí. Pro úkoly, jako je diktování, kde potřebujete okamžitou odezvu a zpracování citlivého textu, je místní striktně lepší. Jednotlivé nástroje se používají, multi-file projekty se opouštějí. Whisper Type je jeden Python soubor. Žádná konfigurace, žádná struktura projektu, žádný krok budování. Chcete upravit seznam haluc Omezení Pouze pro Windows: Hotkeys, clipboardová integrace, ikona zásuvky a překrytí používají všechny rozhraní Windows. Vyžaduje GPU NVIDIA. žádný AMD, žádný Intel, žádný Apple Silicon. CUDA je tvrdá závislost. Žádný streaming v reálném čase. Nahráváte kus, pak se přepisuje. U většiny diktátů se to cítí okamžitě (méně než vteřinu pro větu), ale není to nepřetržitý streaming. Čísla jsou někdy formátována nekonzistentně, jako je "140" se stává "140.000" v němčině. Co je následující? Používám Whisper Type denně již několik týdnů.Je to jeden z těch nástrojů, které mění způsob, jakým pracujete, jakmile si na to zvyknete. Jsou věci, které chci vybudovat: Linuxový port (motor Whisper je připraven; je to integrace OS, která potřebuje práci), audio-reaktivní vizuály na oběžné dráze (infrastruktura je již tam; ‚audio_level‘ je sledován, ale ještě není připojen k animaci), a možná způsob, jak potrubí diktovat přímo do příkazů terminálu. Pokud máte NVIDIA GPU a strávíte svůj den psaním, dejte Whisper Type zkusit. Postavená na ve Švýcarsku. buduji webové nástroje a software pro produktivitu poháněný umělou inteligencí. Daniel Štěpán