Я напісаў тысячы слоў кожны дзень. Электронныя пошты, дакументацыі, паведамленні ў нашым кампаніі прыкладання, код каментароў (не так шмат). Мае рукі боляць часам.. не вельмі.. але я працягваю захаваць сябе размаўляць на маім экране, у той час як напісаў, як мой мозг хоча дыктаваць, але маі пальцы не дазволіць гэта. Так што я паспрабаваў абсалютныя інструменты. Windows Speech Recognition забіў мой нямецкі. Google Docs гаворка напісання працавала добра, але я павінен быў адкрыць браўзэр, і кожнае слова, якое я сказаў, пайшоў прама на серверы Google. Камерцыйная дыктацыя праграмнае забеспячэнне хацела месячную Што я на самой справе хацеў: націснуць кнопку, размаўляць, тэкст з'яўляецца там, у любым вікні я выкарыстоўваю. Няма браўзэра, няма рахунку, няма ключа API. Толькі мой голас, мой GPU, і тэкставы курсор.Я не мог знайсці нічога, што зрабіла гэта, так што я пабудаваў яго. Гэта называецца (https://github.com/TryoTrix/whisper-type), і гэта адзін файл Python, які пераўтварае ваш NVIDIA GPU ў локальны дыктацыйны рухавік. Шчырасць тыпу Для выкарыстання тыпу Whisper: Націсніце клавішу CTRL + ALT + D, размаўляйце, і тэкст з'явіцца ў любым прыкладзе, які вы выкарыстоўваеце. Я не люблю рухацца так шмат, так што я паклаў клавішу CTRL+ALT+D на клавішнай клавішнай клавішнай клавішнай клавішнай клавішнай клавішнай клавішнай клавішчы Вынікі пошуку - The Problem With Voice Dictation in 2026 Голас прызначэння атрымаў неверагодна добры. Whisper large-v3 можа апрацоўваць акцэнты, музыку ў фоне і змяшаны моўны ўвод з амаль людзям дакладнасцю. Тэхалогія ёсць. Але мадэль дастаўкі загінуў у 2015 годзе. Больш за ўсё кожны інструмент дыктацыі або працуе ў хмары (прасылаючы ваш аўдыё на чужы сервер), зачыняе вас у пэўную прыкладанне, або коштуе паўторную плату. Між тым, GPU сярэдняга дыяпазону з 2022 года можа транскрываць гаворку ў рэальным часе 10x. Агульнасць абсталявання, які сядзіць на вашым столе, больш чым здольны. Прастойнае праграмнае забеспячэнне не захапіла Што робіць шчырасць Вы націсніце «CTRL+ALT+D». На верхняй частцы экрана ўспыхне тонкі чырвоны бар, а анімаваная арба з'явіцца, так што вы ведаеце, што запіс актыўны. Вы размаўляеце. Вы націсніце клавіш зноў. Пазней за паўторы секунды, перапісаны тэкст ўпрыгожваецца ў любы вокны, у якім вы працуеце. Пад капотам, пяць рэчаў адбываецца: 1.Звуковы захоп праз "звуковы прылад" запісы да NumPy машыны на 16kHz. няма WAV-файл трапляе на диск. Whisper large-v3 праходзіць праз `faster-whisper` (CTranslate2 backend) на вашым GPU з `float16` дакладнасцю. VAD-фільтраванне (Silero Voice Activity Detection) выключае маўчанне, так што Whisper апрацоўвае толькі сегменты з рэальнай мовай. Пост-працэсар замяняе гаворную пунктуацыю ("пазнак пытання" становіцца "?") і фільтруе вядомыя галюцинацыі. 5.Clipboard паста ўпрыгожвае тэкст у любым прыкладзе мае фокус. 1 Python файл, каля 600 ліній. Технические решения Наступная Артыкул Што рабіць з OpenAI Прадстаўляем вашай увазе гадавую справаздачу АПБ за 2010 г., у якую увайшлі нашы дасягненні за мінулы год. Вось што я вымяраў на сваім RTX 4060: What I Said Audio Length Transcription Time Speed A few words 2-4s ~0.5s 4-6x real time One or two sentences 4-10s ~1s 5-10x real time A full paragraph ~55s ~5s 11x real time A long monologue 73s 7.7s 9.5x real time Некалькі слоў 2-4 с 0 0 5s 4 x рэальны час 1 або 2 словы 4 — 10 1С 5-10 х рэальны час Поўны абзац 55С 5С 11x рэальны час Доўгі монолог 73С 7С 9.5x рэальны час Для тыпнай дыктацыі (адна сэнс або два), транскрипцыя заканчваецца, перш чым вы перамясцілі руку назад на клавіятуру. Вырашыў свой тип, для дакладнасці, і Так што шчырасць не марнуе циклаў на маўчанні. `float16` `beam_size=5` `vad_filter=True` The no_speech_prob Trap Вынікі Гэта коштаў мне адзін дзень. Вынікі пошуку - a У гэтым выпадку пешаходы, якія сканчаюць пераход, уяўляюць істотную небяспеку (мал. І гэта выглядае разумна. no_speech_prob 0.6 За выключэннем нямецкай, гэтая давернасць скарачана цалкам. У мяне былі ясныя, гучныя, добраартыкуляваныя словы, якія ўзначальвалі як : “no speech” with 97% confidence SKIP (no_speech=0.97): Yeah, das sieht cool aus. SKIP (no_speech=0.97): Die Animation beim Mikrofon klappt auch super. SKIP (no_speech=0.97): Ich werde nun die lange Sprachnachricht probieren. Восьмеро з девяці сегментаў былі выкінутыя. Я ўзяў яго толькі таму, што ў мяне быў уключаны рэгарант і адзначыў, што выхад быў сумніўна кароткі. Выпрабаванне было выключыць `no_speech_prob` фільтраванне цалкам і спадзявацца на Silero VAD для выяўлення цішыні. VAD аналізуе сырую навуковую форму, а не ўпэўненасць мадэлі, так што яна на самой справе працуе незалежна ад мовы. Калі вы ствараеце што-небудзь з Whisper для неанглійскіх моў: Замест іх выкарыстоўваецца вада. do not trust `no_speech_prob`. Фільтраванне галюцинацый Калі Whisper атрымае маўчанне або абмежаваны шум, які слізае праз VAD, гэта часам галлюцинаты. Класічныя з'явы: "Дякую за глядзець!", "Підпіс на мой канал", "Untertitel von..." (германская для "Субтатыл па..."). Гэта вядомая мадэль паводзіны, і гэта ганарыцца, калі фантомны тэкст з'яўляецца ў вашым распраце электроннай пошты. Рашэнне складаецца з простых блокаў: pythonHALLUCINATION_PHRASES = [ "Untertitel von", "Untertitelung", "Copyright", "Abonniere", # ... more patterns] Кожная транскрипцыя праверыцца супраць гэтага спісу, перш чым палепшыць. Не элегантна, але эфектыўна. спіс ростуць з часам, калі я сутыкаюся з новымі галюцинацыямі ў жыцці. Загрузіць Overlay У нашай багатай беларускай літаратуры няма другога такога твора, які па энцыклапедычнасці выяўлення ў ім нацыянальнага, так набліжаўся б да "Новай зямлі". Так што паверхня мае дзве часткі: тонкі чырвоны бар над верхнім краем кожнага падключанага экрана, і анімаваны мікрафонны орб з электрычнымі плазменнымі кольцамі. Кольцы выкарыстоўваюць 2D-піксель размяшчэнне, каб імітаваць эфект "Fe DisplacementMap". Усе 90 анімацыйных кадраў з'яўляюцца перададзенымі на стартап, паралельна з загрузкай мадэляў. Падчас запісу, гэта проста перакладчыкі праз перададзеныя малюнкі. нуль кошт CPU. Ці быў плазменны эфект строга неабходны для інструмента дыктацыі?Ні, але гэта робіць мяне радасным. Getting Started Вам трэба быць: Windows 10 і 11 GPU NVIDIA з падтрымкай CUDA (тэставаны на RTX 4060, павінен працаваць на RTX 3060+) Папярэдні Тэкст Python 3.12+ - Прыкладна 3 Гб месца на дысках для мадэлі (однаразовай загрузкі) bashgit clone https://github.com/TryoTrix/whisper-type.gitcd whisper-typeinstall.bat Інсталятар праверыць вашу сістэму, ўсталёўвае залежності, загружае Whisper large-v3, стварае шчасце для аўтаматычнага запуску і запускае інструмент. Пасля таго, ён запускаецца аўтаматычна на кожным уходзе ў Windows. Ікона лайкі з'яўляецца зялёнай, калі мадэль загружана і гатовая. Тры рэчы, якія я вывучыў Працягласць паміж "AI мадэль працуе" і "AI інструмент можа быць выкарыстаны" вельмі вялікая. Вылучэнне Whisper для транскрыту аўдыё заняла максімальна гадзіну. Зробіць тое, што ўсё адчуваецца, як нацыянальная функцыя ОС, маніторынгавы адказ на хаткавы ключ, ікона лайкі, візуальны пераклад, аўтастарт, аднаўленне пашкоджанняў, адзін экземпляр мутэкс, усё гэта займала тыдні. Транскрипцыя можа быць 10% кода. Іншыя 90% робяць яго знікнуць у вашым працэсе працы. Локальны AI сапраўды гатовы для рэальнай працы. 300 $ GPU з 2022 года запускае Whisper large-v3 хутка, чым у рэальным часе, з дакладнасцю, якая адпавядае Cloud APIs. Круглая паездка да локальнага GPU вымяраецца ў мілісекундах. Вокальны API выклик дае сеткавую латентнасць, магутны час зачынення і метра працуе ў фоне. Для задач, такіх як дыктацыя, дзе вам патрэбна мгновенная адмова і працэсуючы адчувальны тэкст, локальнае строга лепшае. Інструменты для адной файлы выкарыстоўваюцца, шматфайлныя праекты пакідаюцца. Whisper Type з'яўляецца адным файлам Python. Няма канфігурацыі, няма структуры праекта, няма абмежаванне Выключна для Windows: Hotkeys, clipboard інтэграцыя, іконка лайкі, і пераклад усе выкарыстоўваюць Windows API. Whisper рухавік крос-платформы, так што Linux порт магутна, але патрабуе новы пласт інтэграцыі. NVIDIA GPU патрабуецца. няма AMD, няма Intel, няма Apple Silicon. CUDA з'яўляецца жорсткай залежнасцю. Ніякіх рэйтынгаў у рэальным часе. Вы запісваеце шмат, а затым гэта транскрыбуе. Для большасці дыктатараў гэта адчуваецца мгновенна (менш за адну секунду для фразы), але гэта не бесперапынны стрэймінг. Часам лічбы атрымліваюць фарматаваныя несумяшчальна, як "140" становіцца "140.000" на нямецкай мове. Што наступнага? Я быў у выкарыстанні Whisper Type кожны дзень на працягу некалькіх тыдняў цяпер. Гэта адзін з тых інструментаў, якія змяняюць, як вы працуеце, калі вы звычайна да яе. Ёсць рэчы, якія я хацеў бы пабудаваць наступным чынам: порт Linux (рухавік Whisper гатовы; гэта інтэграцыя АС, якая патрабуе працы), аўдыё-рэактивныя візуальныя на орбе (інфраструктура ўжо ёсць там; `аудио_level` праследуецца, але яшчэ не вядзена да анімацыі), і, магчыма, спосаб выпрабаваць дыктацыю прама ў термінальныя каманды. Будаўніцтва У Швейцарыі. я будую вэб-інструменты і праграмнае забеспячэнне для прадукцыйнасці. Дэніэл Гатэр