সুচিপত্র SoftVC VITS এবং Bert-VITS2 এর সাথে ভয়েস ক্লোনিং-এ গভীর ডুব ডেটাসেট প্রস্তুত করুন একটি গান থেকে নির্যাস UVR কর্মপ্রবাহ ভোকাল রেকর্ডিংয়ের জন্য প্রস্তুতি সস্তার অডিও সরঞ্জাম ধৃষ্টতা কর্মপ্রবাহ অডিও-স্লাইসার ডেটাসেট পরিষ্কার করা অট্টতা ম্যাচ so-vits-svc পরিবেশ স্থাপন করুন আরম্ভ প্রাক-প্রশিক্ষিত মডেল ডাউনলোড করুন ডেটাসেট প্রস্তুতি কনফিগার সম্পাদনা করুন প্রশিক্ষণ অনুমান অডিও এডিটিং so-vits-svc-কাঁটা স্থাপন প্রস্তুতি প্রশিক্ষণ অনুমান ডিডিএসপি-এসভিসি প্রস্তুতি প্রশিক্ষণ অনুমান Bert-vits2-V2.3 আরম্ভ প্রস্তুতি প্রতিলিপি প্রশিক্ষণ এবং অনুমান vits-simple-api Tweaks মডেল শেয়ার করুন , আমি এর কিছুটা চেষ্টা করেছি এবং এটি আকর্ষণীয় বলে মনে হয়েছে। তাই, আমি আমার নিজের ভয়েস দিয়ে একটি ব্যবহারযোগ্য মডেলকে প্রশিক্ষণ দেওয়ার সিদ্ধান্ত নিয়েছি। আগের পোস্টে টিটিএস জেনারেশন ওয়েবইউআই- এই ভয়েস ক্লোনিং প্রকল্পটি ভয়েস পরিবর্তনের জন্য SVC এবং টেক্সট-টু-স্পিচের জন্য উভয়ই অন্বেষণ করে। এমন কোন টুল নেই যা সব কাজ করে। VITS আমি এই প্রকল্পের জন্য বেশ কয়েকটি সরঞ্জাম পরীক্ষা করেছি। , , এবং মত অনেক ভাল গাইড চাইনিজ ভাষায়। তাই, আমি ভেবেছিলাম আমার নোটগুলি ইংরেজিতে পোস্ট করা উপযোগী হবে। এই এই এই যদিও কয়েক মাসের জন্য সংরক্ষণাগারভুক্ত করা হয়েছে, সম্ভবত নিপীড়নের কারণে, এটি এখনও সেরা ফলাফলের হাতিয়ার। so-vits-svc অন্যান্য সম্পর্কিত টুল যেমন , , , এবং হয় দ্রুত/লিটার অপ্টিমাইজেশান, আরও বৈশিষ্ট্য, বা আরও ভাল ইন্টারফেস প্রদান করে। so-vits-svc-fork so-vits-svc-5.0 DDSP-SVC RVC কিন্তু পর্যাপ্ত সময় এবং সংস্থান সহ, এই বিকল্পগুলির কোনটিই আসল so-vits-svc দ্বারা উৎপন্ন উচ্চতর ফলাফলের সাথে প্রতিযোগিতা করতে পারে না। TTS-এর জন্য, নামে একটি নতুন টুল চমত্কারভাবে কাজ করে এবং গত মাসে এটির চূড়ান্ত প্রকাশের সাথে ইতিমধ্যেই পরিপক্ক হয়েছে। এটির কিছু খুব আলাদা ব্যবহারের ক্ষেত্রে রয়েছে, উদাহরণস্বরূপ, অডিও সামগ্রী তৈরি৷ Bert-VITS2 ডেটাসেট প্রস্তুত করুন ডেটাসেটের অডিও ফাইলগুলি WAV ফর্ম্যাটে, 44100 Hz, 16bit, mono, আদর্শভাবে 1-2 ঘন্টা হওয়া উচিত। একটি গান থেকে নির্যাস এই কাজের জন্য সবচেয়ে সহজ টুল। একটি আছে যা বিস্তারিতভাবে সবকিছু ব্যাখ্যা করে। আলটিমেট ভোকাল রিমুভার থ্রেড UVR কর্মপ্রবাহ ইন্সট্রুমেন্টাল সরান এবং নিষ্কাশন করুন মডেল: VR - UVR(4_HP-ভোকাল-UVR) সেটিংস: 512 - 10 - GPU আউটপুট এবং অপরিষ্কার ভোকাল ইনস্ট্রুমেন্টাল সরান এবং পটভূমি ভোকাল নিষ্কাশন. মডেল: VR - UVR(5_HP-Karaoke-UVR) সেটিংস: 512 - 10 - GPU আউটপুট এবং অপরিষ্কার প্রধান ভোকাল ব্যাকগ্রাউন্ড ভোকাল reverb এবং গোলমাল সরান. মডেল: VR - UVR-DeEcho-DeReverb এবং UVR-DeNoise সেটিংস: 512 - 10 - GPU - শুধুমাত্র অন্য নয় আউটপুট পরিষ্কার প্রধান ভোকাল (ঐচ্ছিক) একটি ম্যানুয়াল সূক্ষ্ম-পরিষ্কার করার জন্য RipX (নন-ফ্রি) ব্যবহার করা। ভোকাল রেকর্ডিংয়ের জন্য প্রস্তুতি একটি কনডেন্সার মাইক্রোফোন সহ একটি চিকিত্সা করা ঘরে রেকর্ড করা ভাল, অন্যথায়, শব্দ কমাতে একটি দিকনির্দেশক বা গতিশীল মাইক্রোফোন ব্যবহার করুন৷ সস্তার অডিও সরঞ্জাম আমি প্রথমবার সঙ্গীতে প্রবেশ করি হাই স্কুলের সময়, নীল Sennheiser MX500 এবং Koss Porta Pro এর সাথে। আমার এখনও মনে আছে যে প্রথমবার আমি একটি গান রেকর্ড করছিলাম যেটি Sony VAIO-তে ছিল Cool Edit Pro এর সাথে। আজকাল, আমি এখনও অপেশাদার হিসাবে অডিও হার্ডওয়্যারে প্রচুর অর্থ ব্যয় করতে প্রতিরোধ করি কারণ এটি আক্ষরিক অর্থে একটি অর্থ চোষা কালো গর্ত। তবুও, আমি সত্যিই সেই সস্তা উত্পাদন সরঞ্জামগুলির নির্ভরযোগ্যতার প্রশংসা করি। আমার সেটআপের মূল অংশটি একটি Behringer UCA202, এবং এটি আমার ব্যবহারের ক্ষেত্রে উপযুক্ত। দাম কমার সময় আমি এটি 10 ডলারে কিনেছি। এটি একটি তথাকথিত "অডিও ইন্টারফেস" তবে মূলত একাধিক পোর্ট সহ একটি সাউন্ড কার্ড। আমি আমার হেডফোনের জন্য RCA থেকে 3.5mm TRS ক্যাবল, নিয়মিত আউটপুটের জন্য একটি আধা-খোলা K240s এবং মনিটরের আউটপুটের জন্য একটি বন্ধ-ব্যাক HD669/MDR7506 ব্যবহার করেছি। উল্লিখিত তিনটি হেডফোনই স্বাভাবিক মূল্যের জন্য $100 এর নিচে। এবং সেখানে স্যামসন, টাসকাম, নক্স গিয়ার এবং আরও অনেক কিছুর ক্লোন রয়েছে $50 এর কম। ইনপুট ডিভাইসের জন্য, আমি আমার পরিবেশগত গোলমালের জন্য একটি গতিশীল মাইক্রোফোন ব্যবহার করছি। এটি একটি SM58 কপি (Pyle) + একটি Tascam DR-05 রেকর্ডার (একটি পরিবর্ধক হিসাবে)। অন্যান্য ক্লোন যেমন SL84c বা wm58 এটাও করবে। রেকর্ডারের MIC/বাহ্যিক-ইনপুটে মাইক্রোফোন সংযোগ করতে আমি একটি XLR থেকে 3.5mm TRS তার ব্যবহার করি এবং তারপরে রেকর্ডারের লাইন-আউট এবং UCA202 এর ইনপুটের মধ্যে সংযোগ করতে একটি AUX তার ব্যবহার করি। আমার সেটআপের প্রতিলিপি করার জন্য একটি "অডিও ইন্টারফেস" এবং একটি ডেডিকেটেড এমপ্লিফায়ার কেনার পরামর্শ দেওয়া হয় না। একটি $10 সি-মিডিয়া USB সাউন্ড কার্ড যথেষ্ট ভাল হওয়া উচিত। আমার মালিকানাধীন Syba মডেলটি সরাসরি "প্রি-অ্যাম্পিং" ডায়নামিক মাইক্রোফোন এবং এমনকি কিছু নিম্ন-প্রান্তের ফ্যান্টম-চালিত মাইক্রোফোনে সক্ষম। সেটআপ অত্যন্ত সস্তা হতে পারে ($40~60), কিন্তু UCA202 এবং DR-05 এর সাথে, শব্দটি অনেক বেশি পরিষ্কার। এবং আমি সত্যিই আমার পুরানো ভাল ডিজিটাল রেকর্ডারের শারীরিক নিয়ন্ত্রণ, বহুমুখিতা এবং বহনযোগ্যতা পছন্দ করি। অড্যাসিটি ওয়ার্কফ্লোস যদিও আমি যখন ডিজাইনার হিসাবে বেতন পাচ্ছিলাম, আমি অডিশন নিয়ে বেশ খুশি ছিলাম। কিন্তু একটি মজার প্রকল্পে ব্যক্তিগত ব্যবহারের জন্য, Audacity হল Adobe-এর বিশৃঙ্খল মন্দ এড়ানোর উপায়। নয়েজ রিডাকশন ডেরেভারব নীরবতা কাটা স্বাভাবিক করা অডিও-স্লাইসার বা ব্যবহার করুন অডিও ফাইলটিকে পরবর্তীতে ব্যবহারের জন্য ছোট ছোট টুকরো টুকরো করে কাটতে। অডিও-স্লাইসার অডিও-স্লাইসার (গুই) ডিফল্ট সেটিং দুর্দান্ত কাজ করে। ডেটাসেট পরিষ্কার করা সেই খুব ছোটগুলি সরান এবং যেগুলি এখনও 10 সেকেন্ডের বেশি সেগুলিকে আবার টুকরো টুকরো করে দিন৷ একটি বড় ডেটাসেটের ক্ষেত্রে, 4 সেকেন্ডের কম যে সমস্ত ডেটাসেট রয়েছে তা সরিয়ে ফেলুন। একটি ছোট ডেটাসেটের ক্ষেত্রে, শুধুমাত্র 2 সেকেন্ডের কম ডেটাসেটগুলি সরান৷ প্রয়োজনে প্রতিটি ফাইলের জন্য একটি ম্যানুয়াল পরিদর্শন করুন। উচ্চতা ম্যাচ সাথে আবার অডাসিটি ব্যবহার করুন; 0db এটা করা উচিত. লাউডনেস নরমালাইজেশনের so-vits-svc পরিবেশ সেট আপ করুন একটি সিস্টেমের মধ্যে একাধিক পাইথন টুল চালানোর জন্য ভার্চুয়াল পরিবেশ অপরিহার্য। আমি ভিএম এবং ডকার ব্যবহার করতাম, কিন্তু এখন, আমি দেখেছি যে অন্যদের তুলনায় দ্রুত এবং সহজ। অ্যানাকোন্ডা so-vits-svc-এর জন্য একটি নতুন পরিবেশ তৈরি করুন এবং এটি সক্রিয় করুন। conda create -n so-vits-svc python=3.8 conda activate so-vits-svc তারপর, প্রয়োজনীয়তা ইনস্টল করুন. git clone https://github.com/svc-develop-team/so-vits-svc cd so-vits-svc pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118 #for linux pip install -r requirements.txt #for windows pip install -r requirements_win.txt pip install --upgrade fastapi==0.84.0 pip install --upgrade gradio==3.41.2 pip install --upgrade pydantic==1.10.12 pip install fastapi uvicorn আরম্ভ প্রাক-প্রশিক্ষিত মডেল ডাউনলোড করুন প্রাক ট্রেন wget https://huggingface.co/WitchHuntTV/checkpoint_best_legacy_500.pt/resolve/main/checkpoint_best_legacy_500.pt wget https://huggingface.co/lj1995/VoiceConversionWebUI/resolve/main/rmvpe.pt লগ/44k wget https://huggingface.co/datasets/ms903/sovits4.0-768vec-layer12/resolve/main/sovits_768l12_pre_large_320k/clean_D_320000.pth wget https://huggingface.co/datasets/ms903/sovits4.0-768vec-layer12/resolve/main/sovits_768l12_pre_large_320k/clean_G_320000.pth logs/44k/diffusion wget https://huggingface.co/datasets/ms903/Diff-SVC-refactor-pre-trained-model/resolve/main/fix_pitch_add_vctk_600k/model_0.pt (বিকল্প) wget https://huggingface.co/datasets/ms903/DDSP-SVC-4.0/resolve/main/pre-trained-model/model_0.pt (বিকল্প) wget https://huggingface.co/datasets/ms903/Diff-SVC-refactor-pre-trained-model/blob/main/hubertsoft_fix_pitch_add_vctk_500k/model_0.pt প্রি-ট্রেন/এনএসএফ_হিফিগান wget -P pretrain/ https://github.com/openvpi/vocoders/releases/download/nsf-hifigan-v1/nsf_hifigan_20221211.zip unzip -od pretrain/nsf_hifigan pretrain/nsf_hifigan_20221211.zip ডেটাসেট প্রস্তুতি সমস্ত প্রস্তুত audio.wav ফাইলগুলি এ রাখুন dataset_raw/character cd so-vits-svc python resample.py --skip_loudnorm python preprocess_flist_config.py --speech_encoder vec768l12 --vol_aug python preprocess_hubert_f0.py --use_diff কনফিগার সম্পাদনা করুন ফাইলটি এ অবস্থিত configs/config.json : প্রিন্টিং লগ ফ্রিকোয়েন্সি : চেকপয়েন্ট সেভ করার ফ্রিকোয়েন্সি : মোট ধাপ : সংরক্ষিত চেকপয়েন্টের সংখ্যা, সীমাহীনের জন্য 0। : fp32 আমার ক্ষেত্রে, : যত ছোট তত দ্রুত (রুক্ষ), বড় ধীর (ভাল)। log interval eval interval epochs keep ckpts half_type batch_size প্রস্তাবিত ব্যাচ_সাইজ প্রতি VRAM: 4=6G;6=8G;10=12G;14=16G;20=24G এর জন্য ডিফল্ট রাখুন configs/diffusion.yaml প্রশিক্ষণ python cluster/train_cluster.py --gpu python train_index.py -c configs/config.json python train.py -c configs/config.json -m 44k python train_diff.py -c configs/diffusion.yaml প্রশিক্ষণের ধাপে: প্রধান মডেলকে প্রশিক্ষণ দিতে ব্যবহার করুন; সাধারণত, 20k-30k ব্যবহারযোগ্য হবে, এবং 50k এবং তার উপরে যথেষ্ট ভাল হবে। GPU গতির উপর নির্ভর করে এটি কয়েক দিন সময় নিতে পারে। train.py নির্দ্বিধায় দ্বারা এটি বন্ধ করুন, এবং এটি যেকোন সময় পুনরায় চালানোর মাধ্যমে প্রশিক্ষণ অব্যাহত রাখা হবে। ctrl+c python train.py -c configs/config.json -m 44k ডিফিউশন মডেলকে প্রশিক্ষণ দিতে ব্যবহার করুন; প্রধান মডেলের 1/3 এ প্রশিক্ষণের পদক্ষেপগুলি সুপারিশ করা হয়। train_diff.py অতিরিক্ত প্রশিক্ষণ সম্পর্কে সচেতন হন। প্লট নিরীক্ষণ করতে ব্যবহার করুন এটি সমতল হয় কিনা তা দেখতে। tensorboard --logdir=./logs/44k প্রয়োজনে 0.0001 থেকে 0.00005 এ পরিবর্তন করুন। learning rate সম্পন্ন হলে, অনুমানের জন্য এই ফাইলগুলি ভাগ/পরিবহন করুন। কনফিগার/ config.json diffusion.yaml লগ/44k feature_and_index.pkl kmeans_10000.pt মডেল_0.pt G_xxxxx.pt অনুমান এটি প্রশিক্ষিত মডেল চেষ্টা করার সময়. পরামিতিগুলিকে টুইক করার সুবিধার জন্য আমি Webui পছন্দ করব। কিন্তু এটি ফায়ার করার আগে, LAN অ্যাক্সেসের জন্য এ নিম্নলিখিত লাইনগুলি সম্পাদনা করুন: webUI.py os.system("start http://localhost:7860") app.launch(server_name="0.0.0.0", server_port=7860) চালান; তারপর একটি ওয়েব ব্রাউজার থেকে এর অ্যাক্সেস করুন। python webUI.py ipaddress:7860 ওয়েবুই-এর কোনো ইংরেজি স্থানীয়করণ নেই, তবে সহায়ক হবে। ইমারসিভ অনুবাদ বেশিরভাগ পরামিতি ডিফল্ট মান সহ ভাল কাজ করবে। পরিবর্তন করতে এবং পড়ুন। এটি এটি এই 5টি ফাইল আপলোড করুন: এবং এর main model.pt config.json এবং এর diffusion model.pt diffusion.yaml হয় কথা বলার জন্য ক্লাস্টার মডেল অথবা গান গাওয়ার জন্য বৈশিষ্ট্য পুনরুদ্ধার । kmeans_10000.pt feature_and_index.pkl শুধুমাত্র কথা বলার জন্য, গান গাওয়ার জন্য নয়। ব্যবহার করার সময় সুপারিশ করুন। F0 predictor RMVPE একটি পুরুষালী ভয়েস সহ একটি মডেল ব্যবহার করে একটি মেয়েলি গান গাওয়ার সময় উপযোগী। Pitch change স্বন নিয়ন্ত্রণের উপায়। স্পষ্টতম বক্তৃতা পেতে ব্যবহার করুন এবং মডেলের নিকটতম টোন পেতে ব্যবহার করুন৷ Clustering model/feature retrieval mixing ratio 0.1 0.9 এর কাছাকাছি সেট করা উচিত, এটি ধাপে ফলাফল বাড়ায়। shallow diffusion steps 50 30-100 অডিও এডিটিং এই পদ্ধতি ঐচ্ছিক. শুধু ভালো গান নির্মাণের জন্য। অডিও এডিটিং সফ্টওয়্যার, বা তথাকথিত DAW (ডিজিটাল অডিও ওয়ার্কস্টেশন), যেটি আমি ব্যবহার করছি তা অ-মুক্ত বলে আমি এই বিষয়ে বিস্তারিত জানাতে যাব না। আমার মালিকানাধীন সফ্টওয়্যার সমর্থন করার কোন উদ্দেশ্য নেই যদিও সমগ্র শিল্পটি পেওয়ালড এবং ক্লোজ-সোর্স। অডাসিটি মাল্টিট্র্যাক, প্রভাব এবং আরও অনেক কিছু সমর্থন করে। এটি কিছু উন্নত VST প্লাগইনও লোড করে। Audacity এর সাথে গানগুলি আয়ত্ত করার টিউটোরিয়াল খুঁজে পাওয়া কঠিন নয়। সাধারণত, মাস্টারিং প্রক্রিয়াটি মিক্সিং/ব্যালেন্সিং, EQ/কম্প্রেসিং, রিভার্ব এবং ইমেজিং হওয়া উচিত। টুলটি যত উন্নত হবে, প্রক্রিয়া তত সহজ হবে। আমি অবশ্যই ভবিষ্যতে আমার মাস্টারিং প্রক্রিয়ার জন্য অডাসিটি গ্রহণ করার জন্য আরও বেশি সময় ব্যয় করব এবং আমি সবাইকে তা করার পরামর্শ দিচ্ছি। so-vits-svc-কাঁটা এটি রিয়েল-টাইম সমর্থন সহ একটি so-vits-svc , এবং মডেলগুলি সামঞ্জস্যপূর্ণ। ব্যবহার করা সহজ কিন্তু ডিফিউশন মডেল সমর্থন করে না। ডেডিকেটেড রিয়েল-টাইম ভয়েস পরিবর্তনের জন্য, একটি সুপারিশ করা হয়। ফর্ক ভয়েস-চেঞ্জার স্থাপন conda create -n so-vits-svc-fork python=3.10 pip conda activate so-vits-svc-fork git clone https://github.com/voicepaw/so-vits-svc-fork cd so-vits-svc-fork python -m pip install -U pip setuptools wheel pip install -U torch torchaudio --index-url https://download.pytorch.org/whl/cu118 pip install -U so-vits-svc-fork pip install click sudo apt-get install libportaudio2 প্রস্তুতি ডেটাসেট .wav ফাইলগুলিকে এ রাখুন so-vits-svc-fork/dataset_raw svc pre-resample svc pre-config এ একটি সম্পাদনা করুন। এই কাঁটাটি আসলটির চেয়ে বড় আকারের। configs/44k/config.json batch_size প্রশিক্ষণ svc pre-hubert svc train -t svc train-cluster অনুমান এর সাথে GUI ব্যবহার করুন। এর জন্য একটি স্থানীয় ডেস্কটপ পরিবেশ প্রয়োজন। svcg অথবা বাস্তব সময়ের জন্য এর সাথে CLI এবং ব্যবহার করুন। svc vc svc infer -m "logs/44k/xxxxx.pth" -c "configs/config.json" raw/xxx.wav ডিডিএসপি-এসভিসি জন্য কম হার্ডওয়্যার সংস্থান প্রয়োজন এবং so-vits-svc-এর চেয়ে দ্রুত চলে। এটি রিয়েল-টাইম এবং ডিফিউশন মডেল (ডিফ-এসভিসি) উভয়কেই সমর্থন করে। DDSP-SVC-এর conda create -n DDSP-SVC python=3.8 conda activate DDSP-SVC git clone https://github.com/yxlllc/DDSP-SVC cd DDSP-SVC pip3 install torch torchvision torchaudio --index-url https://download.pytorch.org/whl/cu118 pip install -r requirements.txt দুটি ফাইলের জন্য পড়ুন: সূচনা বিভাগটি pretrain/rmvpe/model.pt pretrain/contentvec/checkpoint_best_legacy_500.pt প্রস্তুতি python draw.py python preprocess.py -c configs/combsub.yaml python preprocess.py -c configs/diffusion-new.yaml configs/ batch_size: 32 (16 for diffusion) cache_all_data: false cache_device: 'cuda' cache_fp16: false প্রশিক্ষণ conda activate DDSP-SVC python train.py -c configs/combsub.yaml python train_diff.py -c configs/diffusion-new.yaml tensorboard --logdir=exp অনুমান এটি ব্যবহার করার পরামর্শ দেওয়া হচ্ছে কারণ এতে DDSP এবং ডিফিউশন মডেল উভয়ই রয়েছে। main_diff.py python main_diff.py -i "input.wav" -diff "model_xxxxxx.pt" -o "output.wav" ভয়েস ক্লোনিংয়ের জন্য রিয়েল-টাইম GUI: python gui_diff.py Bert-vits2-V2.3 এটি একটি TTS টুল যা উপরের সবকিছু থেকে সম্পূর্ণ আলাদা। এটি ব্যবহার করে, আমি ইতিমধ্যে আমার পিতামাতার জন্য আমার ভয়েস দিয়ে বেশ কয়েকটি অডিওবুক তৈরি করেছি এবং তারা সত্যিই এটি উপভোগ করে। ব্যবহার করার পরিবর্তে, আমি একটি সহজ সেটআপের জন্য দ্বারা ফর্ক ব্যবহার করেছি। আসল v3u আরম্ভ conda create -n bert-vits2 python=3.9 conda activate bert-vits2 git clone https://github.com/v3ucn/Bert-vits2-V2.3.git cd Bert-vits2-V2.3 pip install torch==2.0.1+cu118 torchvision==0.15.2+cu118 torchaudio==2.0.2+cu118 --index-url https://download.pytorch.org/whl/cu118 pip install -r requirements.txt প্রাক-প্রশিক্ষিত মডেল ডাউনলোড করুন (চীনা, জাপানি এবং ইংরেজি সহ): wget -P slm/wavlm-base-plus/ https://huggingface.co/microsoft/wavlm-base-plus/resolve/main/pytorch_model.bin wget -P emotional/clap-htsat-fused/ https://huggingface.co/laion/clap-htsat-fused/resolve/main/pytorch_model.bin wget -P emotional/wav2vec2-large-robust-12-ft-emotion-msp-dim/ https://huggingface.co/audeering/wav2vec2-large-robust-12-ft-emotion-msp-dim/resolve/main/pytorch_model.bin wget -P bert/chinese-roberta-wwm-ext-large/ https://huggingface.co/hfl/chinese-roberta-wwm-ext-large/resolve/main/pytorch_model.bin wget -P bert/bert-base-japanese-v3/ https://huggingface.co/cl-tohoku/bert-base-japanese-v3/resolve/main/pytorch_model.bin wget -P bert/deberta-v3-large/ https://huggingface.co/microsoft/deberta-v3-large/resolve/main/pytorch_model.bin wget -P bert/deberta-v3-large/ https://huggingface.co/microsoft/deberta-v3-large/resolve/main/pytorch_model.generator.bin wget -P bert/deberta-v2-large-japanese/ https://huggingface.co/ku-nlp/deberta-v2-large-japanese/resolve/main/pytorch_model.bin একটি অক্ষর মডেল ফোল্ডার তৈরি করুন mkdir -p Data/xxx/models/ বেস মডেল ডাউনলোড করুন: !wget -P Data/xxx/models/ https://huggingface.co/OedoSoldier/Bert-VITS2-2.3/resolve/main/DUR_0.pth !wget -P Data/xxx/models/ https://huggingface.co/OedoSoldier/Bert-VITS2-2.3/resolve/main/D_0.pth !wget -P Data/xxx/models/ https://huggingface.co/OedoSoldier/Bert-VITS2-2.3/resolve/main/G_0.pth !wget -P Data/xxx/models/ https://huggingface.co/OedoSoldier/Bert-VITS2-2.3/resolve/main/WD_0.pth #More options https://openi.pcl.ac.cn/Stardust_minus/Bert-VITS2/modelmanage/model_filelist_tmpl?name=Bert-VITS2_2.3%E5%BA%95%E6%A8%A1 https://huggingface.co/Erythrocyte/bert-vits2_base_model/tree/main https://huggingface.co/OedoSoldier/Bert-VITS2-2.3/tree/main সমস্ত এ প্রতিস্থাপন করে সম্পাদনা করুন bfloat16 float16 train_ms.py LAN অ্যাক্সেসের জন্য সম্পাদনা করুন: webui.py webbrowser.open(f"start http://localhost:7860") app.launch(server_name="0.0.0.0", server_port=7860) এবং এর জন্য সম্পাদনা করুন batch_size spk2id Data/xxx/config.json প্রস্তুতি অনুরূপ কর্মপ্রবাহ. পূর্ববর্তী বিভাগে গোলমাল এবং নীরবতা সরান, স্বাভাবিককরণ, তারপর এ আন-স্লাইস করা WAV ফাইল রাখুন। Data/xxx/raw , , এবং এর জন্য সম্পাদনা করুন। dataset_path num_workers keep_ckpts config.yml WAV ফাইলটি স্লাইস করতে চালান। python3 audio_slicer.py 2 সেকেন্ডের নিচে থাকা ছোট ফাইলগুলি সরিয়ে ডেটাসেট ( ) পরিষ্কার করুন। Data/xxx/raw প্রতিলিপি whisper ইনস্টল করুন pip install git+https://github.com/openai/whisper.git ভাষা স্বয়ংক্রিয় সনাক্তকরণ বন্ধ করতে, এটি শুধুমাত্র ইংরেজিতে সেট করুন এবং মডেল ব্যবহার করুন; নিচের মত সম্পাদনা করুন: large short_audio_transcribe.py # set the spoken language to english print('language: en') lang = 'en' options = whisper.DecodingOptions(language='en') result = whisper.decode(model, mel, options) # set to use large model parser.add_argument("--whisper_size", default="large") #Solve error "Given groups=1, weight of size [1280, 128, 3], expected input[1, 80, 3000] to have 128 channels, but got 80 channels instead" while using large model mel = whisper.log_mel_spectrogram(audio,n_mels = 128).to(model.device) ট্রান্সক্রিপশন শুরু করতে চালান। python3 short_audio_transcribe.py কাটা ডেটাসেটের পুনরায় নমুনা নিন: python3 resample.py --sr 44100 --in_dir ./Data/zizek/raw/ --out_dir ./Data/zizek/wavs/ প্রিপ্রসেস ট্রান্সক্রিপশন: python3 preprocess_text.py --transcription-path ./Data/zizek/esd.list BERT বৈশিষ্ট্য কনফিগার তৈরি করুন: python3 bert_gen.py --config-path ./Data/zizek/configs/config.json প্রশিক্ষণ এবং অনুমান প্রশিক্ষণ শুরু করতে চালান python3 train_ms.py মডেল পাথের জন্য সম্পাদনা করুন: config.yml model: "models/G_20900.pth" অনুমানের জন্য webui শুরু করতে চালান python3 webui.py vits-simple-api হল প্রশিক্ষিত মডেল ব্যবহারের জন্য একটি ওয়েব ফ্রন্টএন্ড। আমি এটি মূলত এর দীর্ঘ পাঠ্য সমর্থনের জন্য ব্যবহার করি যা মূল প্রকল্পে নেই। vits-simple-api git clone https://github.com/Artrajz/vits-simple-api git pull https://github.com/Artrajz/vits-simple-api cd vits-simple-api conda create -n vits-simple-api python=3.10 pip conda activate vits-simple-api && pip install -r requirements.txt (ঐচ্ছিক) পূর্ব-প্রশিক্ষিত মডেল ফাইলগুলিকে থেকে এ কপি করুন Bert-vits2-V2.3/ vits-simple-api/bert_vits2/ এবং এ কপি করুন Bert-vits2-V2.3/Data/xxx/models/G_xxxxx.pth Bert-vits2-V2.3/Data/xxx/config.json vits-simple-api/Model/xxx/ পছন্দ অনুযায়ী এবং জন্য সম্পাদনা করুন MODEL_LIST Default parameter config.py নীচের মত সম্পাদনা করুন: Model/xxx/config.json "data": { "training_files": "Data/train.list", "validation_files": "Data/val.list", "version": "2.3" এ হিসেবে চেক/সম্পাদনা করুন config.yml [xxx/G_xxxxx.pth, xxx/config.json] model_list চালান python app.py Tweaks স্বরের জন্য , এলোমেলোতার জন্য , উচ্চারণের জন্য এবং গতির জন্য । এবং স্ব-ব্যাখ্যামূলক SDP Ratio Noise Noise_W Length emotion style মডেল শেয়ার করুন এর , অন্যদের দ্বারা ভাগ করা প্রচুর VITS মডেল রয়েছে৷ আপনি প্রথমে এটি চেষ্টা করে দেখতে পারেন, এবং তারপর থেকে পছন্দসই মডেলগুলি ডাউনলোড করতে পারেন। আলিঙ্গন ফেস রেপোতে ফাইলগুলি উচ্চ মানের কারণে কিছু বিষয়বস্তু তৈরি সম্প্রদায়ে ব্যাপকভাবে ব্যবহৃত হয়। এটিতে শত শত অক্ষর রয়েছে, যদিও শুধুমাত্র চীনা এবং জাপানি সমর্থিত। গেনশিন মডেলটি , অনেকগুলি Bert-vits2 মডেল রয়েছে যা জনপ্রিয় চাইনিজ স্ট্রিমার এবং VTubers থেকে তৈরি। অন্য একটি রেপোতে ইতিমধ্যেই এআই তৈরির প্রকল্প রয়েছে অদূর ভবিষ্যতে এই প্রযুক্তি কীভাবে শিল্পকে পরিবর্তন করতে পারে তার জন্য আমি উন্মুখ। ভিটিউবার । https://techshinobi.org/posts/voice-vits/https://techshinobi.org/posts/voice-vits/