زه هر ورځ د ډیجیټل کلمه ډک کړئ. ایمیلونه، سندونه، پیغامونه په زموږ د شرکت اپلیکیشن کې، کوډ تبصرې (نه ډیر)). زما لاسونه ځینې وختونه درد کوي.. په حقیقت کې نه. خو زه په ټیپ کولو کې زما د پردې سره خبرې کولو کې ځان ته ونیسئ، لکه څنګه چې زما دماغ غواړم ډکوي، مګر زما ډکونه به دا اجازه نه ورکوي. نو زه د ښکلي وسایلو هڅه کړ. د ویډوز خبرې کول زما د جرمني څخه ډکوي. د Google ډکس صوتی ټیپ کولو ښه کار کړ، مګر زه باید یو براؤزر ونیسئ، او هر کلمه چې زه وايي د Google سرورونو ته راځي. د سوداګرۍ ډکولو سافټویر غواړم چې په میاشت کې د هغه څه هغه څه چې زه په واقعیت کې غواړم: د بوتل فشار، خبرې کول، د متن په دې ځای کې ښودل کیږي، په کوم کړکۍ کې چې زه کاروي. نه د پلورونکي ټیپ، نه حساب، نه API کلید. یوازې زما غږ، زما GPU، او د متن کورر. زه نه کولی شي کوم څه چې دقیقا دا کار کوي، نو زه دا جوړ کړم. دا د نام (https://github.com/TryoTrix/whisper-type) ، او دا یو واحد Python فایل دی چې ستاسو د NVIDIA GPU په یوه محلي ډیکټینټ انجن کې بدل کیږي. د چټک ډول د Whisper ډول کارولو لپاره: د CTRL + ALT + D ټیپ کړئ، خبرې وکړئ او متن په هر اپلیکیشن کې ښودل کیږي چې تاسو کار کوي. زه ترټولو ګټه نه لرم، نو زه د CTRL + ALT + D مخکښ په خپل Razer موډل کې hypershift-key + موډل-scroll-click ورکړم د 2026 کال کې د غږ ډیکټن ستونزه د صوتی شناخت په لټه کې ډیر ښه دی. Whisper لوی-v3 کولی شي د نندارتونونو، پیژندنې موسيقي، او مرکزي زبانونو د وارداتو سره تقریبا د انسان د دقت سره کار وکړي. تکنالوژۍ دی. خو د ترانسپورت ماډل په 2015 کال کې دی. په عمده توګه هر ډکټینټینټ آله په سایټ کې چلول کیږي (د شخصي سرور ته خپل صوتی پیژندل کوي)، تاسو ته په ځانګړي اپلیکیشن کې بندوي، یا د تکرار کولو لګښت لګښت لري. په داسې حال کې، د 2022 څخه د منځنۍ رینج GPU کولی شي په 10x واقعي وخت کې خبرې transcribe کړي. په خپل ډیسک کې د هډوډوډو څخه ډیر توان لري. یوازې د سافټویر په لټه کې هغه څه چې د whisper ډول کار کوي تاسو د 'CTRL+ALT+D' فشار ورکړئ. یو ټیټ رنګ بار ستاسو د اسکرین په لوړه کې ښکاره کیږي، او یو انیمیشن بڼه ښکاره کیږي، نو تاسو پوه شئ چې د ریکارډ فعال دی. تاسو خبرې وکړئ. تاسو د هټیټ ټیټ دوبارہ فشار ورکړئ. د نیم ثانیو وروسته، transcribed متن په هر کړکۍ کې چې تاسو کار کوي. دا ټول workflow دی. د پوډر لاندې، د پنجې څه شي: 1. د 'sounddevice' ریکارډونو له لارې د 16kHz په NumPy لړ کې غږ ریکارډ کړئ. نه د WAV فایل د ډیسک ته ځي. 2. Whisper لوی-v3 د 'Faster-whisper' (CTranslate2 backend) په ستاسو د GPU سره 'float16' د دقت له لارې ترسره کیږي. 3. د VAD فلټر (Silero Voice Activity Detection) د سکوت له لاسه ورکوي، نو Whisper یوازې د واقعي خبرې په برخه کې پروسس کوي. 4. وروسته د پروسس بدلون په خبرې کې د نندارتونونو ("کړتیا نندارتون" به `؟' وي) او د معلوماتو هلیسینونو فلټرونه. 5. Clipboard پټ د متن په هر ایپ کې تمرکز کوي. یو Python فایل، په اړه 600 لړۍ. تخنیکي حلونه چرا د OpenAI اصلي په پرتله چټک-whisper د OpenAI د پیژندنې د Whisper اجرا لپاره ډیر چټک دی. تاسو د کلمې خبرې وکړئ، ځینې ثانیو انتظار وکړئ، او بیا د پایلو ترلاسه کړئ. دا چټک د کار په جریان کې کولی شي. چټک-whisper د CTranslate2 کاروي، کوم چې د ماډل په یو ګټور پایلو فارم کې بدل کیږي. ورته وزنونه، ورته دقت، مګر په ورته هارډویر کې 4x چټک. دلته هغه څه چې زه په زما RTX 4060 اندازه: 
 
 
 
 
 
 
 
 
 
 
 
 What I Said 
 Audio Length 
 Transcription Time 
 Speed 
 
 
 
 
 
 A few words 
 2-4s 
 ~0.5s 
 4-6x real time 
 
 
 
 
 
 One or two sentences 
 4-10s 
 ~1s 
 5-10x real time 
 
 
 
 
 
 A full paragraph 
 ~55s 
 ~5s 
 11x real time 
 
 
 
 
 
 A long monologue 
 73s 
 7.7s 
 9.5x real time ځینې کلمه د 2-4s د 0.5s 4-6x په واقعي وخت کې یو یا دوه کلمه د 4-10s د 1s 5-10X په واقعي وخت کې بشپړ پارامتر د 55s د 5s 11x د واقعي وخت د اوږد monologue د 73s 7.7 په 9.5x په واقعي وخت کې د عادي دستور لپاره (په یوه کلمه یا دوه) ، د تریپشن ختم کیږي مخکې چې تاسو خپل لاس د ټایټ بورډ ته ورسیږي. د کلیدي ترتیبات: د کمپیوټر ډول، د دقت لپاره، او په دې توګه، د شمعې په سکوت کې د چرګانو په لټه کې نه کوي. `float16` `beam_size=5` `vad_filter=True` د no_speech_prob ټاپو دا زما لپاره یو بعده لګښت لري. د تفتیش د A د هر transcribed سیگنال لپاره د ارزښت - د ډاټا سکور لپاره چې آیا د سیگنال په حقیقت کې د خبرې شامل دي. د سند د مخکښو سیگنالونو په پرتله ښيي ، کوم چې ډیره منطقي ښکاري. no_speech_prob 0.6 د جرمني په لټه کې، دا اعتماد ټیټ دی. زه د ښکلي، غږونه، ښه بیان شوي مفاهیمونه لري چې د نندارتون په توګه : “no speech” with 97% confidence SKIP (no_speech=0.97): Yeah, das sieht cool aus.
SKIP (no_speech=0.97): Die Animation beim Mikrofon klappt auch super.
SKIP (no_speech=0.97): Ich werde nun die lange Sprachnachricht probieren.
 د 9 ټوټې څخه د 8 ټوټې په چټکۍ سره ډک شوي دي. زه یوازې دا راټول کړ ځکه چې زه د ډبګګ لګولو فعال کړم او د صادراتو مشکوک کم دی. د حل دی چې 'no_speech_prob' فلټر کولو په بشپړه توګه غیر فعال کړي او د سکې تشخیص لپاره Silero VAD پر بنسټ. VAD د ګرځنده آډیو اول فورمه تحلیل کوي، نه د موډل د اعتماد، نو دا په حقیقت کې د ژور ژوره کار کوي. که تاسو د غیر انګلیسي زبانونو لپاره د Whisper سره څه جوړ کړئ: د VAD په بڼه کارول. do not trust `no_speech_prob`. د Hallucination فلټر کله چې Whisper د سکوت یا د چاپیریال شور ترلاسه کوي چې د VAD څخه مخنیوی کوي، دا ځینې وختونه هلیسینات کوي. د کلاسیکونو: "د سپارښتنې لپاره سپارښتنه!", "د زما چینل ته سپارښتنه"، "Untertitel von..." (د "Subtitles by..." لپاره جرمني). دا یو مشهور ماډل چلند دی، او کله چې د افسانو متن په خپل ایمیل ډیزاین کې ښودل کیږي. د حل یو ساده بلاک لیست دی: pythonHALLUCINATION_PHRASES = [    "Untertitel von",    "Untertitelung",    "Copyright",    "Abonniere",    
# ... more patterns]
 هر ترانسپورت د دې لیست په اړه د پوښونو مخکې چمتو کیږي. نه ښکلي، خو اغیزمن. د لیست په وخت کې زیات کیږي لکه څنګه چې زه په وحشي کې د نوي هالوسیانونو سره ونیسئ. د ریکارډ Overlay زه غواړم چې د مایکروسافټ د ګرمۍ په وخت کې د ناڅاپي بصری پیژندنه ورکړم. د سیسټم ټری ایکون چې د رنګ څخه ګرځنده ته رنګ بدلون نلري، ډیر آسانه نلري. نو د پوښونو دوه برخو لري: د هر اړیکه ولډنګ ډیزاین په لوړه بڼه کې د رنګ بڼه، او د برقي پلازما حلقوي سره د انیمیشن میکروفون بڼه. د حلقوي د 2D پیکسل تبادلې کاروي ترڅو د 'fe DisplacementMap' اغیزه نمونې وکړي. د دوه حلقوي سیسټم دی چې د داخلي کورس د سپین ګرمه او د بهرني حلقوي د خپل غږ د ځمکې سره تریږي. ټول څه د سانس لري. ټول 90 انیمیشن فریمونه په پیل کولو کې مخکښ دي، د نمونوي لوډ کولو سره همدارنګه. د ریکارډ کولو په وخت کې، دا یوازې د مخکښ کمپیوټریټ انځورونو له لارې ګنډل کیږي. د CPU لګښت. آیا د پلازما اغېز د سند کولو آله لپاره سخته اړتیا لري؟ نه، مګر دا زما خوشحاله کوي. Getting Started تاسو اړتيا لري: د وینډوز 10 یا 11 - د CUDA ملاتړ سره د NVIDIA GPU (د RTX 4060 کې تست شوي، باید په RTX 3060 + کې کار وکړي) د پیټون 3.12 + - د موډل لپاره د 3 GB ډیزاین فضا (د یو وخت ډاونلوډ) bashgit clone https://github.com/TryoTrix/whisper-type.gitcd whisper-typeinstall.bat
 د انټرنیټر ستاسو د سیستم چیک کوي، بستې نصب کوي، د Whisper لوی-v3 ډاونلوډ کوي، د اتوماتيک سټاک جوړوي، او د وسایلو پیل کوي. د دې وروسته، دا په هر ویډیوډ انډول کې اتوماتيک پیل کیږي. کله چې د ماډل لوستل کیږي او چمتو کیږي، د ټری نښه سبز شي. 3 هغه څه چې زه زده کړې د "AI ماډل کار کوي" او "AI tool is usable" تر منځ د نښلیدو لوی دی. د آډیو transkription لپاره Whisper ترلاسه کولو ممکن د یو ساعت لګښت لري. ټول څه د کورني OS ځانګړتیاوې، د instant hotkey ځواب، ټری نښلیدو، بصری پوښښ، اتوماتيک پیل، بریښنالیک خوندي کولو، واحد انټرنټ موټیکس، د ټولو اونۍ لګښت لري. د transkription ممکن د کوډ 10٪ ده. د نورو 90٪ یې ستاسو د کار په جریان کې ناڅاپي کوي. د کورني AI په حقیقت کې د واقعي کار لپاره چمتو دی. د 2022 څخه د 300 ډالرو GPU د Whisper لوی-v3 په واقعي وخت کې په پرتله چټک کار کوي، د دقت سره چې د سایټ APIs سره مطابقت لري. د کورني GPU ته د کلن سفر په میلی ثانیو کې اندازه کیږي. د سایټ API کال د شبکې لټینټ، احتمالي بندۍ وخت، او په پایله کې چلولو لپاره یو مترم اضافه کوي. د کاروونکو لپاره لکه ډکټینټ، چې تاسو اړتیا لرئ د عاجل ځواب او د پروسس حساس متن، محلي په سخت ډول ښه دی. د واحد فایبر وسایلو کارول کیږي، د ډیرو فایبر پروژو پرته. Whisper ډول یو پیتون فایبر دی. نه د پروژې جوړ محدودیتونه 
 
 
 
 
 د وینډوز یوازې: Hotkeys، clipboard انټرنټ، ټری نښې، او overlay ټول د وینډوز APIs کاروي. د Whisper انجن د پلیټ فارمونو په پرتله ده، نو د لینوکس بندر ممکن دی، مګر د انټرنټ په پرتله نوی اړتیا لري. د NVIDIA GPU ته اړتیا لري. نه AMD، نه Intel، نه Apple Silicon. CUDA د سخت بستې دی. نه په واقعي وخت کې سټراییم. تاسو یو ټوټه ریکارډ کړئ، نو دا transcribes. د ډیری ډکټینټونو لپاره، دا په اټکل کې احساس کیږي (د یک ثانیو لپاره د بیلګې لپاره)، مګر دا لنډ سټراییم نه ده. Whisper د نمونوي ځانګړتیاوې لري. شمیره ځینې وختونه غیرقانوني formatted کیږي، لکه "140" په جرمني کې "140.000" وي. دا د upstream نمونوي ستونزې دي، نه کوم چې زه په وروسته د پروسس کولو کې حل کولی شي. په بل کې څه؟ زه هر ورځ د ډیرو اونۍ لپاره د Whisper ډول کاروي. دا د هغه وسایلو څخه دی چې کله چې تاسو په کارولو سره کار واخلئ. د اوږد بریښنالیک ټیپ کول یو ځل چې تاسو ځینې ډک کړئ غیر فعال دی. هغه څه دي چې زه غواړم چې بل جوړ کړي: د لینوکس بندر (د Whisper انجن چمتو ده؛ دا د OS انټرنټ دی چې کار ته اړتيا لري)، د آډیو-اډیو ویزونه په orb کې (د انټرنېټ اوس موجود دی؛ 'audio_level' پیژندل کیږي مګر د انیمیشن ته نښلیدل نه دی) او شاید یو لاره چې د ډکټیو په مستقیم ډول په ټیمینیم امرونو کې راټول شي. که تاسو د NVIDIA GPU لرئ او خپل ورځ د ټیپ کولو لپاره کار واخلئ، د Whisper Type هڅه وکړئ. دا د MIT لګښت لري، په بشپړ ډول وړیا دی، او ټول کوډ بیس یو فایل دی چې تاسو کولی شئ په کافي کې وګورئ. پوښتنو، جوړ شوی په سویس کې. زه د ویب وسایلو او AI-powered تولیدات سافټویر جوړ. د دانيلي ګاټار

This story contains new, firsthand information uncovered by the writer.

Read My Stories

دا غږ د کیسې په اصلي ژبه تولید شوی!

زه د offline Voice-to-Text وسیله جوړ کړ چې ستاسو د GPU پر چلول کیږي

About Author

تبصرې

hang tags

دا مقاله په کې وړاندې شوې وه

Related Stories

Autonomous APIs are the Future - Interview with Jean Machuca, Founder, QCObjects

Thrilled to be Recognized as 'HackerNoon Contributor of the Year - WORK'

#CrazyTechStories @ Huckletree, London, England

Psychology of the Unconscious by C. G. Jung - Table of Links

Autonomous APIs are the Future - Interview with Jean Machuca, Founder, QCObjects

Thrilled to be Recognized as 'HackerNoon Contributor of the Year - WORK'

#CrazyTechStories @ Huckletree, London, England

Psychology of the Unconscious by C. G. Jung - Table of Links

Light-Mode

Classic

Newspaper

Minty

Dark-Mode

Neon Noir

Minty

HN StartUps