paint-brush
একটি ট্রান্সক্রাইবার অ্যাপ তৈরি এবং স্থাপন করতে OpenAI-এর হুইস্পার এবং GPT-3 API ব্যবহার করা - পার্ট 1দ্বারা@juanfrank77
8,177 পড়া
8,177 পড়া

একটি ট্রান্সক্রাইবার অ্যাপ তৈরি এবং স্থাপন করতে OpenAI-এর হুইস্পার এবং GPT-3 API ব্যবহার করা - পার্ট 1

দ্বারা Juan F. Gonzalez11m2023/09/13
Read on Terminal Reader
Read this story w/o Javascript

অতিদীর্ঘ; পড়তে

নিবন্ধটি OpenAI এর Whisper এবং GPT-3.5 Turbo API ব্যবহার করে একটি ট্রান্সক্রিবার অ্যাপের বিকাশের রূপরেখা দেয়। পার্ট 1 সেটআপ কভার করে, এপিআই কী অধিগ্রহণ, হুইস্পার ইনস্টলেশন, এবং স্থানীয় বা অনলাইন বিকাশের পছন্দ সহ। এটি ব্যাখ্যা করে কিভাবে ট্রান্সক্রিপশনের জন্য অডিও ফাইল ডাউনলোড করতে হয়, হুইস্পারের সাথে অডিও ট্রান্সক্রিপশন প্রদর্শন করে এবং GPT-3 ব্যবহার করে একটি এক্সিকিউটিভ সারাংশ তৈরির প্রক্রিয়ার বিবরণ দেয়। পার্ট 2 ক্লাউডে অ্যাপটি স্থাপনের উপর ফোকাস করবে।

People Mentioned

Mention Thumbnail
featured image - একটি ট্রান্সক্রাইবার অ্যাপ তৈরি এবং স্থাপন করতে OpenAI-এর হুইস্পার এবং GPT-3 API ব্যবহার করা - পার্ট 1
Juan F. Gonzalez HackerNoon profile picture
0-item


চ্যাটবট, বৃহৎ ভাষা মডেল (এলএলএম) এবং কপিলটগুলির মতো এআই প্রযুক্তিগুলির চারপাশে হাইপ হিসাবে চ্যাটজিপিটি প্রকাশের পরে শুরু হয়েছিল, শীঘ্রই আরও অনেকগুলি ব্যবহারের ক্ষেত্রে উপস্থিত হয়েছিল।


আমি আপনার ডেটাতে প্রশিক্ষিত রাইটিং অ্যাসিস্ট্যান্ট, ইমেজ জেনারেটর বা চ্যাটবটগুলির মতো সবচেয়ে সাধারণ বিষয়ে কথা বলছি না। আমি বাস্তবসম্মত কথা বলার অবতার, ভিডিও সম্পাদক বা বক্তৃতা সংশ্লেষণের মতো আরও বিশেষ ব্যবহারের ক্ষেত্রে কথা বলছি।


এই নিবন্ধে, আমরা সেই ব্যবহারের ক্ষেত্রেগুলির মধ্যে একটি অন্বেষণ করতে যাচ্ছি - একটি ট্রান্সক্রিবার অ্যাপ যা আপনি পডকাস্ট বা YouTube ভিডিওগুলির সাথে ব্যবহার করতে পারেন৷ আপনি যদি কখনও GPT-3 API ব্যবহার করতে চান বা একটি OpenAI Whisper ডেমো দেখতে চান তবে এটি অনেক মূল্যবান হবে৷


এই টিউটোরিয়ালের অংশ 1-এর জন্য, আমরা সেট আপ করতে এবং অ্যাপটির বিকাশ শুরু করার জন্য প্রয়োজনীয় সমস্ত কিছুর মধ্য দিয়ে যাব।


এবং তারপর পার্ট 2-এ , আমরা ক্লাউডে আমাদের কাজের কোড আপলোড করব এবং একটি ইউজার ইন্টারফেস কাজ করব যাতে অন্যরা ফলাফল দেখতে পারে এবং অ্যাপের সাথে ইন্টারঅ্যাক্ট করতে পারে।


এখন, আবদ্ধ করুন কারণ আমরা কিছু পাইথন কোড দিয়ে আমাদের হাত নোংরা করব।






মঞ্চ সাজানো

এটি তৈরি করতে, আমরা 3টি কাজ করব।


  • প্রথমটিতে, আমরা সামনের যাত্রার জন্য প্রস্তুত হওয়ার জন্য যা যা প্রয়োজন তা দেখব।


  • দ্বিতীয়টিতে, আমরা স্থানীয়ভাবে একটি প্রোটোটাইপ তৈরি করব এবং খুঁজে বের করব কোন সরঞ্জামগুলি আমাদের এই প্রক্রিয়ায় সহায়তা করতে পারে৷


  • এবং চূড়ান্তভাবে, আমরা ক্লাউডে তৈরি করা সমস্ত কিছু আপলোড করব যাতে অন্যরাও এটি চেষ্টা করতে পারে।


ভাল শোনাচ্ছে?


ঠিক আছে তাহলে, এর জন্য যাওয়া যাক!






আইন 1: সেটআপ (হুইস্পার এবং GPT-3 API)

প্রথম জিনিসগুলি, আমরা যে প্রক্রিয়াটি অনুসরণ করব তার একটি মোটামুটি ওভারভিউ হল আমরা যে তথ্যটি প্রতিলিপি করতে চাই তা বের করা এবং তারপরে এটিকে খাওয়ানো। OpenAI এর হুইস্পার .


সেখান থেকে, আমরা আউটপুট নেব এবং অন্যদের দেখার জন্য এবং এটির সাথে ইন্টারঅ্যাক্ট করতে সক্ষম হওয়ার জন্য একটি ফ্রন্ট-এন্ড অ্যাপ্লিকেশনে এটি প্রদর্শন করার আগে এটিতে কিছু পোস্ট-প্রসেসিং করব।


যদি আমরা ম্যানুয়ালি এটি করি তবে এই প্রক্রিয়াটি কয়েকটি অতিরিক্ত পদক্ষেপ নেবে। সৌভাগ্যবশত, OpenAI উপলব্ধ করা হয়েছে Whisper এবং ChatGPT উভয়ের জন্য API অ্যাক্সেস .


এখানে আপনাকে সিদ্ধান্ত নিতে হবে কোন পথটি নিতে হবে।


  • আপনার মেশিনে স্থানীয়ভাবে এটি তৈরি করা (ধরে নিচ্ছে যে আপনি পাইথন 3 ইনস্টল করেছেন) বা,
  • একটি ব্যবহার করে অনলাইনে এটি তৈরি করা Google Colab নোটবুক .


প্রথমে আপনার পথ বেছে নিন তারপর আমরা এগিয়ে যাব।


এরপরে, আমাদের GPT-3.5 টার্বো মডেল (যা মূলত ChatGPT কে ক্ষমতা দেয় এমন মডেল) অ্যাক্সেস করার জন্য OpenAI থেকে একটি API কী প্রয়োজন।


আপনি যদি এটি পেতে না জানেন তবে এই পদক্ষেপগুলি অনুসরণ করুন:

  • OpenAI প্ল্যাটফর্ম ওয়েবসাইটে যান এবং লগ ইন করুন বা সাইন আপ করুন (আপনার ক্ষেত্রে নির্ভর করে)।


  • তারপরে, বিকল্পগুলি প্রদর্শন করতে উপরের ডানদিকে আপনার প্রোফাইল আইকনে ক্লিক করুন এবং "এপিআই কীগুলি দেখুন" নির্বাচন করুন৷



  • সেই পৃষ্ঠায়, আপনি API কী বিভাগের অধীনে "নতুন গোপন কী তৈরি করুন" বলে একটি বিকল্প দেখতে পাবেন।




  • এটি একটি পপআপ প্রদর্শন করবে যেখানে আপনার গোপন কী প্রদর্শিত হবে। এটি একটি নিরাপদ জায়গায় সংরক্ষণ করুন কারণ আপনি এটি আর কখনও দেখতে পাবেন না৷


একবার আপনার কাছে সেই চাবিটি হয়ে গেলে, আমরা ধাঁধার পরবর্তী অংশ, হুইসপারের জন্য যাব।



আপনি নিম্নলিখিত কমান্ডটি চালিয়ে আপনার মেশিনে হুইস্পারের সর্বশেষ সংস্করণ ডাউনলোড এবং ইনস্টল করতে পারেন:


 pip install -U openai-whisper


বিকল্পভাবে, আপনি এই কমান্ডটি ব্যবহার করে তার নির্ভরতা সহ গিট থেকে সর্বশেষ প্রতিশ্রুতি ইনস্টল করতে পারেন:


 pip install git+https://github.com/openai/whisper.git


আপনি কোন সংস্করণটি ইনস্টল করছেন তার উপর এটি আপনাকে আরও নিয়ন্ত্রণ দেয় (এবং আপনি যদি Colab নোটবুক থেকে এটি চেষ্টা করে থাকেন তবে এটি আপনি চালাতে চাইবেন।)


দ্রষ্টব্য: আপনি যদি কমান্ড লাইন থেকে হুইস্পার চালাতে চান তবে আপনাকে 'ffmpeg' ইনস্টল করতে হবে।


হুইস্পার ইন্সটল করার সাথে সাথে, আমাদের এখন শুধু প্রয়োজন প্রকৃত ফাইলগুলি যা আমরা প্রতিলিপি করতে চাই। আমরা এটিকে 'mp3', 'mp4', 'mpeg', 'wav' এবং আরও অনেক ধরনের মিডিয়া ফাইল খাওয়াতে পারি।


এখানে একমাত্র সীমাবদ্ধতা হল ফাইলের আকার, এটি 20 মিনিটের পডকাস্টের চেয়ে 10 মিনিটের ভিডিওর সাথে অনেক বেশি সময় নেবে৷


এখন, এখানে রাস্তার পরবর্তী কাঁটা।



আপনি ভিডিও বা অডিও প্রতিলিপি করতে চান কিনা তা আপনাকে চয়ন করতে হবে৷


এই উদাহরণে সরলতার খাতিরে, আমরা পডকাস্ট থেকে অডিও ফাইল ব্যবহার করব।


এবং এখানে, আপনার মনে যে প্রশ্নটি থাকতে পারে তা হল " আমি পডকাস্ট পর্বগুলি কোথা থেকে ডাউনলোড করব?


আমি জানি যে 2 উপায় আছে.


প্রথমটি হল ListenNotes-এর মতো একটি সাইট ব্যবহার করা, আপনার পছন্দের কোনো পডকাস্ট বেছে নেওয়া এবং পৃথক পর্বগুলিতে যাওয়া।


এটি লক্ষণীয় যে আপনাকে পৃথক পর্ব এবং তাদের সংশ্লিষ্ট অডিও ফাইলগুলি অ্যাক্সেস করতে সক্ষম হওয়ার জন্য একটি অ্যাকাউন্ট তৈরি করতে হবে।


সেখান থেকে, আপনাকে একটি "আরো" ট্যাব খুলতে 3টি বিন্দু সহ একটি বোতামে ক্লিক করতে হবে এবং তারপরে আপনি অডিওটি ডাউনলোড করার বিকল্পটি দেখতে পাবেন।


এটি দেখতে কেমন হবে তা এখানে:





২য় বিকল্পটি হল এর পরিবর্তে পডচেজার ব্যবহার করা। আপনি একটি পডকাস্ট খোঁজার, পর্বের তালিকার মধ্য দিয়ে যাওয়া এবং একটি নির্দিষ্ট নির্বাচন করার অনুরূপ প্রক্রিয়া অনুসরণ করবেন।


একবার আপনি পৃথক পর্বের পৃষ্ঠায় পৌঁছে গেলে, আপনি ডানদিকে একটি কলাম দেখতে পাবেন যার নীচে প্লে বোতাম এবং অন্যান্য বিকল্প রয়েছে।


আপনি যদি নীচে স্ক্রোল করেন, আপনি পডকাস্ট সম্পর্কে তথ্য, সামাজিকগুলিতে ভাগ করার বিকল্প এবং অডিও ফাইল ডাউনলোড করার বিকল্প সহ একটি ছোট বিভাগ দেখতে পাবেন।


এটি দেখতে কেমন হবে তা এখানে:






আপনি যে বিকল্পটি পছন্দ করেন তা চয়ন করুন এবং বিভিন্ন দৈর্ঘ্যের কয়েকটি পর্ব ডাউনলোড করুন যাতে আপনি প্রতিলিপি প্রক্রিয়া কীভাবে কাজ করে তা পরীক্ষা করতে পারেন।


আমার সুপারিশ হল আপনি 30 মিনিটের চেয়ে ছোট পর্বগুলি বেছে নিন।


এর কারণ হল যে আপনি যদি লম্বা একটি বেছে নেন, তাহলে Whisper এটি প্রক্রিয়া করতে অনেক সময় নিতে পারে এবং আপনি টাইমআউট সমস্যায় পড়তে পারেন (বিশেষ করে যদি আপনি Colab পরিবেশ ব্যবহার করেন)।


20-30 মিনিটের একটি পর্ব প্রতিলিপি হতে 4 থেকে 8 মিনিট সময় নিতে পারে।


এখানে প্রধান বাধা হল ট্রান্সক্রিপশন প্রক্রিয়ার সময়কাল আমরা এমন ফলাফল পাওয়ার আগে যা আমরা আরও কাজের জন্য ব্যবহার করতে পারি।


এখন আমরা সমস্ত প্রয়োজনীয়তা পূরণ করেছি এবং সেটআপ সম্পন্ন হয়েছে।


আমাদের যাত্রার পরবর্তী অংশে যাওয়ার সময় এসেছে।



আইন 2: উন্নয়ন (ওপেনএআই হুইস্পার ডেমো)

আমরা গভীর প্রোগ্রামিং অঞ্চলে প্রবেশ করছি।


আমরা পাইথনের মাধ্যমে হুইস্পার ব্যবহার করব যেহেতু এটি আরও সুবিধাজনক। এবং ট্রান্সক্রিপশনের জন্য আমাদের বিশেষ কিছু করার দরকার নেই, শুধু মডেলটিতে অডিও ফাইলটি পাস করুন এবং ট্রান্সক্রিপশনের জন্য অপেক্ষা করুন, এটাই।


সুতরাং চলুন লাইন দ্বারা যে প্রক্রিয়া লাইন মাধ্যমে যান.

 import whisper model = whisper.load_model("base")


এখানে আমরা হুইস্পার মডেলের 'বেস' সংস্করণ লোড করি। ওপেনএআই প্রকাশ করেছে এমন বেশ কয়েকটি সংস্করণ (বা "আকার") রয়েছে এবং সেগুলি পরামিতিগুলির সংখ্যা, তাদের ব্যবহার করা সংস্থান এবং ট্রান্সক্রিপশন সম্পাদন করতে সময় লাগে তার উপর পরিবর্তিত হয়।


রেফারেন্সের জন্য এখানে একটি সহজ চার্ট।


আপনি এগিয়ে যান এবং আকারের জন্য তাদের সব চেষ্টা করতে পারেন (শ্লেষের উদ্দেশ্যে) যদি আপনি চান.


মনে রাখবেন যে আপনি যদি একটি বড় মডেল ব্যবহার করেন তবে এটি চালানোর জন্য আপনার আরও সংস্থান প্রয়োজন হবে (যেমন একটি GPU)।


সুতরাং, আপনি Colab-এ এটি চালালে, আপনি পরিবর্তে এই কমান্ডটি ব্যবহার করতে পারেন।


 model = whisper.load_model('medium', device='cuda')


আপনি যে ডিভাইসটি চালাতে চান তার প্যারামিটারে পাস করুন৷


আপনি মডেলের আকার বেছে নেওয়ার পরে, আপনি যে অডিও ফাইলটি প্রতিলিপি করতে চান সেটি পাস করতে পারেন, এইভাবে:


 result = model.transcribe(“path-to-where-the-file-is”)


তারপর আপনি ট্রান্সক্রিপশন কাজ করে যাচাই করতে বিষয়বস্তু মুদ্রণ করতে পারেন। (কিন্তু আপনি পুরো জিনিসটি প্রিন্ট করার পরিবর্তে শুধুমাত্র প্রথম 1000টি অক্ষর বা তার মধ্যে উঁকি দিতে চাইতে পারেন।)


 podcast_transcript = result['text'] podcast_transcript[:1000]


যদি এটি ভাল হয়ে থাকে, তাহলে আপনার কাছে এখন ট্রান্সক্রিপশন প্রক্রিয়ার ফলাফলগুলি একটি ভেরিয়েবলে সংরক্ষণ করা হয়েছে। যেটি আমরা পোস্ট-প্রসেসিংয়ের জন্য ব্যবহার করব।


যে যথেষ্ট সহজ. তবে ধরা যাক আমরা পর্বের বর্ণনায় যা পাব তার বাইরে পডকাস্টে কী আলোচনা করা হয়েছে তা জানার একটি উপায় চাই।


আমরা একটি ফাংশন তৈরি করতে পারি যা পুরো ট্রান্সক্রিপ্ট নেয় এবং আমাদের একটি "এক্সিকিউটিভ সারাংশ" দেয়। একটি সংক্ষিপ্তসার যা আমরা ব্যস্ত লোকেদের সাথেও শেয়ার করতে পারি যাদের কাছে পুরো বিষয়টির মধ্য দিয়ে যাওয়ার সময় নেই এবং দেখুন এটি তাদের সময়ের মূল্যবান কিনা।


এর এগিয়ে যান এবং যে কি.


আমরা যে সারাংশ করতে ব্যবহার করব কি জন্য কোন অনুমান?


ইঙ্গিত: আমাদের কাছে ইতিমধ্যেই এটির জন্য একটি API কী রয়েছে৷


হ্যাঁ, আপনি এটা পেয়েছেন.


আমরা পডকাস্টের ট্রান্সক্রিপ্ট দিয়ে এই সারাংশ তৈরি করতে `get-3.5-turbo` মডেল ব্যবহার করব।



আমরা সরাসরি API এ কল করতে পারতাম, কিন্তু এটির জন্য OpenAI প্যাকেজ ব্যবহার করা অনেক বেশি সুবিধাজনক (যার নাম 'openai' 😆)।


আমরা মডেলটিতে কত টোকেন পাঠাব তা জানতে ওপেনএআই থেকে টোকেনাইজার লাইব্রেরিও আমাদের প্রয়োজন হবে।


এবং আমরা চালানোর মাধ্যমে উভয়ই ইনস্টল করতে পারি...


 pip install openai pip install tiktoken


এখন, আমরা GPT-3 এ কল করার আগে আমাদের API কীটি কোথাও সংরক্ষণ করতে হবে।


আপনি এটিকে এনভায়রনমেন্ট ভেরিয়েবল হিসাবে সংরক্ষণ করতে পারেন এবং তারপরে এটিকে এইরকম কোডে ব্যবহারের জন্য প্রস্তুত রাখতে পারেন।


 openai.api_key = os.environ["OPENAI"]


অথবা আপনি যদি Colab এনভায়রনমেন্ট ব্যবহার করে থাকেন তাহলে আপনি এরকম কিছু করতে পারেন।


 import openai from getpass import getpass openai.api_key = getpass("Enter your key here: ")


এবং তারপর, যখন আপনি সেই কমান্ডটি চালান তখন এটি একটি ইনপুট সেল প্রদর্শন করবে যেখানে আপনি কী পেস্ট করতে পারেন।


এখন, আপনি নিশ্চিত করতে পারেন যে এই কোডের টুকরোটির সাথে বর্তমানে উপলব্ধ মডেলগুলি তালিকাবদ্ধ করে কী কাজ করে৷


 models = openai.Model.list() for model in models['data]: print(model['root'])


আমাদের কী সঠিকভাবে কাজ করে, আমরা এগিয়ে যেতে পারি এবং GPT-3 API এ কল করতে পারি।


কিন্তু কিছু গুরুত্বপূর্ণ বিষয় আছে যা আমাদের প্রথমে বিবেচনায় নিতে হবে। এবং এটি সম্পর্কিত যা আমি "টোকেন" সম্পর্কে আগে উল্লেখ করেছি।


যেহেতু ধারণাটি হল AI মডেলে পডকাস্ট ট্রান্সক্রিপ্ট পাস করা এবং এটির একটি সারাংশ ফিরে পাওয়া, আমাদের জানতে হবে কতগুলি "টোকেন" এটি গ্রহণ করতে সক্ষম।


AI শব্দ বা অক্ষর গণনা করে না বরং টোকেন ব্যবহার করে। এই কারণেই "প্রসঙ্গ উইন্ডো" ধারণাটি বিদ্যমান।


আমরা প্রসঙ্গ উইন্ডোর দৈর্ঘ্য অতিক্রম করলে, আমাদের ট্রান্সক্রিপ্টটি কেটে যেতে পারে এবং আমরা অসম্পূর্ণ ডেটা থেকে একটি সারাংশ পাব। (পডকাস্ট পর্ব বেছে নেওয়ার আরেকটি কারণ যা খুব দীর্ঘ নয়।)

সৌভাগ্যবশত, GPT-3 মডেলের 2টি সংস্করণ রয়েছে। একটি প্রসারিত প্রসঙ্গ উইন্ডো সহ ঐতিহ্যগত এক এবং অন্য।


আপনি যদি OpenAI ডক্স চেক করেন, আপনি তাদের মধ্যে পার্থক্য দেখতে পাবেন।



আর এর জন্যই `টিকটোকেন` লাইব্রেরি। ট্রান্সক্রিপ্টে কতগুলি টোকেন আছে তা জানতে এটি আমাদের সাহায্য করবে, এইভাবে আমরা জানতে পারি সারাংশের জন্য কোন মডেলটি ব্যবহার করতে হবে।


আমরা নিম্নলিখিত কোড দিয়ে সেই হিসাব করতে পারি।


 import tiktoken enc = tiktoken.encoding_for_model(“gpt-3.5-turbo”) print(“Number of tokens in the input ”, len(enc.encode(podcast_transcript)))


যদি ফলাফলে টোকেনের পরিমাণ 4,097-এর বেশি হয়, তাহলে আমাদের মডেলটির '16k' সংস্করণ ব্যবহার করতে হবে।



এটি জানার পরে, আমরা পরিস্থিতির জন্য উপযুক্ত মডেল ব্যবহার করে অবশেষে API এ কল করতে পারি।


প্রথমে, চলুন একটি ভেরিয়েবলে মডেলে পাঠানো প্রম্পটটি সংরক্ষণ করি। আপনি আপনার নিজের প্রম্পট দিয়ে পরীক্ষা করতে পারেন, কিন্তু এখানে একটি উদাহরণ:


 prompt = """ You are an expert marketer responsible for the growth of several popular podcasts. You are now tasked with summarizing an episode in a way that is concise and covers the main points of the episode for others to understand. The transcript of the episode is provided below. """ request = prompt + podcast_transcript



এখন, নিচের কোডটি ব্যবহার করে API-তে কল করা যাক।


 chatOutput = openai.ChatCompletion.create(model="gpt-3.5-turbo-16k",    messages=[{"role": "system", "content": "You are a helpful assistant."},                        {"role": "user", "content": request}                        ]    )


এবং তারপর এর API থেকে প্রতিক্রিয়া চেক করা যাক.


 chatOutput.choices[0].messages.content


সেখানে আপনি এটা আছে! আমরা হুইস্পার ব্যবহার করে যে প্রতিলিপি তৈরি করেছি তার উপর ভিত্তি করে পডকাস্ট পর্বের সারাংশ।


আপনি পর্বের প্রধান হাইলাইটগুলি বের করতে এই একই প্রক্রিয়াটি ব্যবহার করতে পারেন। সম্ভাব্য শ্রোতাকে কথোপকথনের মধ্যে উঁকি দেওয়ার মতো একটি উপায়।


এটি করার উপায় খুব অনুরূপ। একমাত্র অংশ যা পরিবর্তন করে তা হল প্রম্পট যা মডেলটি পাবে। একটি সারাংশের জন্য জিজ্ঞাসা করার পরিবর্তে, আপনি এটিকে একটি তালিকা বিন্যাসে সবচেয়ে গুরুত্বপূর্ণ পয়েন্টগুলি বের করতে বলতে পারেন। ফলাফল প্রম্পট সহ আপনার সৃজনশীলতার উপর নির্ভর করে।



এখন আমরা জানি যে এটি কাজ করে, আমরা স্থানীয়ভাবে চালানোর জন্য একটি ফাংশনে সমস্ত কোড রাখতে পারি।


সুতরাং, এর এগিয়ে যান এবং যে ফাংশন তৈরি করা যাক.


 def transcribe_podcast(file_path):    print("Starting podcast transcription")    # Load the Whisper model    import os    import Whisper    print("Loading the Whisper model")    model = whisper.load_model("medium")    print(model.device)    # Do the transcription    print("Starting the transcription")    result = model.transcribe(file_path)       # Return the transcribed text     print("Transcription completed, returning results...")    return result


আপনি সেই ফাংশনটিকে কল করতে পারেন, এটি একটি অডিও ফাইলের পথ পাঠাতে এবং বিনিময়ে একটি প্রতিলিপি পেতে পারেন।


এখানে আপনি এটি করতে হবে কিভাবে একটি উদাহরণ.


 output = transcribe_podcast('path_to_audio_file')


এবং তারপর প্রতিলিপি বিষয়বস্তু মধ্যে উঁকি.


 output[text][:1000]


ঠিক আছে, এখন পর্যন্ত খুব ভাল.


এখন যেহেতু এটি স্থানীয়ভাবে কাজ করে, এটি ক্লাউডে আপলোড করা দুর্দান্ত হবে যাতে আপনি এটি অন্যদের দেখাতে পারেন এবং আপনার l33t h4xx0r কোডিং দক্ষতা দিয়ে বন্ধু ও পরিবারকে প্রভাবিত করতে পারেন৷ 😆


কিন্তু সত্যিই না, এটি একটি অনলাইন পরিষেবাতে স্থাপন করা একটি ভাল পছন্দ যাতে অন্যরা এটি চেষ্টা করতে পারে৷


এবং আমরা পার্ট 2 এ এটি করতে যাচ্ছি। একটি ক্লাউড ফাংশন তৈরি করা যা অনুরোধগুলি গ্রহণ করতে পারে এবং সেই ফাংশনের ফলাফলগুলি কল্পনা করার জন্য একটি দ্রুত ফ্রন্টএন্ড করা (যেমন পডকাস্ট পর্বের সারাংশ এবং হাইলাইট)।



চলবে…

আমরা আপাতত যে এটা ছেড়ে দেব.


এখন পর্যন্ত আপনার অ্যাপটি স্থানীয়ভাবে কাজ করছে এবং আপনি বিভিন্ন দৈর্ঘ্যের এপিসোড দিয়ে এটি পরীক্ষা করতে পারেন এবং ট্রান্সক্রিপশন তৈরি করতে হুইস্পারের গড় সময় দেখতে পারেন।


এই পর্যন্ত পড়ার জন্য আপনাকে ধন্যবাদ।


এবং আমি পার্ট 2 এর জন্য আবার দেখা করার আশা করি।

হ্যাকারনুন-এ আমাকে সাবস্ক্রাইব করতে ভুলবেন না যাতে আপনি আসন্ন নিবন্ধগুলি মিস না করেন।