paint-brush
ক্রোমে এম্বেডেড এআই সহ একটি ভয়েস নিয়ন্ত্রিত ওয়েবসাইটদ্বারা@tyingshoelaces
345 পড়া
345 পড়া

ক্রোমে এম্বেডেড এআই সহ একটি ভয়েস নিয়ন্ত্রিত ওয়েবসাইট

দ্বারা tyingshoelaces.com12m2024/06/30
Read on Terminal Reader

অতিদীর্ঘ; পড়তে

আমি সম্প্রতি Chrome বিল্ট-ইন AI (প্রম্পট API) এর প্রাথমিক পূর্বরূপ প্রোগ্রামে আমন্ত্রিত হয়েছি। অন্তর্নির্মিত AI হল অনুসন্ধানমূলক কাজ যা সম্ভবত এমবেডেড AI-এর জন্য একটি ক্রস-ব্রাউজার স্ট্যান্ডার্ড হয়ে উঠবে৷ এটি ডিভাইসে জেমিনি ন্যানো ব্যবহার করে; এর মানে হল যে এটি আপনার ওয়েব ব্রাউজারে বান্ডিল করা হয়েছে এবং এলএলএম জেনারেশন আপনার স্থানীয় ব্রাউজার পরিবেশে ঘটে।
featured image - ক্রোমে এম্বেডেড এআই সহ একটি ভয়েস নিয়ন্ত্রিত ওয়েবসাইট
tyingshoelaces.com HackerNoon profile picture
0-item

ভূমিকা

প্রারম্ভিক পূর্বরূপ Chrome প্রম্পট API।


আমি সম্প্রতি Chrome বিল্ট-ইন AI (প্রম্পট API) এর প্রাথমিক পূর্বরূপ প্রোগ্রামে আমন্ত্রিত হয়েছি। অন্তর্নির্মিত AI হল অনুসন্ধানমূলক কাজ যা সম্ভবত এমবেডেড AI-এর জন্য একটি ক্রস-ব্রাউজার স্ট্যান্ডার্ড হয়ে উঠবে৷ এটি ডিভাইসে জেমিনি ন্যানো ব্যবহার করে যার অর্থ হল এটি আপনার ওয়েব ব্রাউজারে বান্ডিল করা হয়েছে এবং এলএলএম জেনারেশন আপনার স্থানীয় ব্রাউজার পরিবেশে ঘটে।

সুবিধা

ভাল, সহজ, দ্রুত, এবং বিনামূল্যে.


আমাদের ব্রাউজারগুলির জন্য এমবেডেড AI চাওয়ার তিনটি প্রাথমিক কারণ রয়েছে। গতি, খরচ, এবং ব্যবহারযোগ্যতা. একটি নেটিভ ব্রাউজার API হিসাবে, এটি ব্যবহার করা সহজ। প্রম্পট API অ্যাক্সেস করা কোডের এই দুটি লাইনের মতোই সহজ।


 const session = await window.ai.createTextSession(); const result = await session.prompt( "Tyingshoelaces.com are writing a really cool blog about you. What do you think about that then?" );


ব্রাউজারে যেখানে আমাদের প্রয়োজন সেখানে জেনারেটিভ এআই ফলাফল পাওয়া সহজ হতে পারে না। আমি মৃত্যুদন্ড কার্যকর করার সময় পরীক্ষা করার জন্য কয়েকটি পরীক্ষা চালিয়েছি। যদিও আমি হতাশ হয়েছিলাম যে আমরা একটি একক সেশনে সীমাবদ্ধ ছিলাম (কোনও কনকারেন্সি নেই), জটিল দীর্ঘ পাঠ্য প্রজন্মের জন্য পারফরম্যান্স ভাল ছিল।


মনে রাখবেন, কোনো লেটেন্সিও নেই, তাই এক্সিকিউশন টাইম আক্ষরিক অর্থে মিলিসেকেন্ড থেকে আমরা আমাদের ব্রাউজারে আমাদের কোডে ফলাফল ব্যবহার করার অনুরোধ করেছি।


 VM975:32 Execution Time 1: 0h 0m 3s 47ms VM975:32 Execution Time 2: 0h 0m 3s 870ms VM975:32 Execution Time 3: 0h 0m 2s 355ms VM975:32 Execution Time 4: 0h 0m 3s 176ms VM975:32 Execution Time 5: 0h 0m 7s 103ms VM975:44 Average Session Execution Time: 0h 0m 3s 910.1999999999998ms );


বিল্ট-ইন AI-তে 5টি চেইনযুক্ত অনুরোধের জন্য গড় কার্যকর করার সময় দীর্ঘ টেক্সট জেনারেশন প্রম্পটের জন্য সম্পূর্ণ অনুরোধ প্রতি 3-4 সেকেন্ডের মধ্যে। আমি এটি বেশ কয়েকবার চালিয়েছি (স্ক্রিপ্টটি GitHub রেপোতে অন্তর্ভুক্ত করা হয়েছে), এবং যদিও এটি ডিভাইস অনুসারে পরিবর্তিত হয়, আমি এপিআই অপ্টিমাইজ করা হলে এটির উন্নতিও আশা করব। আমি লক্ষ্য করেছি যে ছোট JSON প্রজন্মের কাজগুলি অনেক দ্রুত (200-400ms)।


এটি বেশিরভাগ ব্যবহারের ক্ষেত্রে গ্রহণযোগ্যতার চেয়ে বেশি। আমরা আমাদের এলএলএম-এর জন্য স্কেলের সমস্যাটিও ক্রাউডসোর্স করেছি। যেখানে শিল্প-স্কেল API ব্যবহার কুখ্যাতভাবে ব্যয়বহুল, প্রতিটি LLM অনুরোধ একটি পরীক্ষামূলক ব্রাউজার API এর মাধ্যমে পরিচালনা করা হয়। এটা সত্যিই সুন্দর বোধ করে এবং সম্ভাবনার একটি জগত খুলে দেয়।


ক্রোম ব্যবহারকারীরা তাদের ব্রাউজারে মডেলটি এম্বেড করার মাধ্যমে, আমাদের কাছে একটি ডিস্ট্রিবিউশন মেকানিজম রয়েছে যেখানে প্রিলোডেড জেনারেটিভ এআই মডেলগুলি ব্যবহার করার সময় এবং বড় সার্ভারের প্রয়োজন ছাড়াই। এটি WebLLM- এর মতই কিন্তু একটি উল্লেখযোগ্য সুবিধার সাথে যে মডেলগুলি আমাদের ব্রাউজারে প্রিলোড করা এবং বান্ডিল করা হয়।


এর মানে হল যে আমরা একটি বিক্রেতা-নির্দিষ্ট মডেল ডাউনলোড করতে বাধ্য হওয়ার পরিবর্তে 'ইন্টারনেট' জুড়ে ব্যবহারের জন্য একটি একক মডেল ডাউনলোড করতে পারি।


এই পরীক্ষামূলক ব্রাউজার API-এর বিশাল ইতিবাচক দিকগুলি গ্রহণের জন্য শক্তিশালী যুক্তি; এটি দ্রুত, এটি বিনামূল্যে (বা ভোক্তাদের দ্বারা অর্থ প্রদান করা হয়), এবং ব্যবহার করা সত্যিই সহজ৷


কিন্তু ট্রেডঅফ কি?

খরচ

দ্রুত এবং বিনামূল্যে. কিন্তু কি খরচ?


API শুধুমাত্র পরীক্ষার জন্য অপ্রস্তুতভাবে প্রস্তুত, উৎপাদন ব্যবহারের জন্য নয়। ফলস্বরূপ, আউটপুট অনেক কম পরিমার্জিত আমরা আরো পরিপক্ক এবং হোস্ট করা মডেলের জন্য আশা করা হবে. মডেলের সাধারণ প্রকৃতির পাশাপাশি আকারের সীমাবদ্ধতার অর্থ হল আমাদের পালিশ আউটপুট নেই।


এটি হতাশার দিকে নিয়ে যায় যা আমাদের জেনারেটিভ AI API-এর প্রথম দিনগুলিতে নিয়ে যায়। নির্ভরযোগ্য JSON প্রতিক্রিয়া পেতে আমি নিজেকে অনেক প্রম্পট ইঞ্জিনিয়ারিং এবং বৈধতা যুক্তি ব্যবহার করে দেখতে পেয়েছি। প্রতি কয়েক অনুরোধ, API অ-প্রতিক্রিয়াশীল বলে মনে হচ্ছে, মডেল বোমা আউট কোন ক্ষেত্রে প্রতিক্রিয়া বিভ্রান্ত করা বেশ সহজ।


এই মডেল ব্রাউজারে এমবেড করা হয়েছে যে দেওয়া যে সত্য উল্লেখ আছে; এটি একটি 'ব্যক্তিগত' মডেল হিসাবে কিছু মান উন্মুক্ত করে। আমি নিশ্চিত নই যে এটি বেশিরভাগ ব্যবহারের ক্ষেত্রে প্রাসঙ্গিক, কারণ সর্বজনীন-মুখী ওয়েবসাইটগুলি এখনও তাদের সার্ভারের সাথে ইন্টারঅ্যাক্ট করবে এবং গড় ব্যবহারকারীর জন্য, এটি নিশ্চিত হওয়া কঠিন যে ডেটা কখনই স্থানীয় পরিবেশ ছেড়ে যাচ্ছে না। বলা হয়েছে যে, অভ্যন্তরীণ ব্যবহার এবং অ-পাবলিক ফেসিং সিস্টেমগুলির জন্য যা ব্রাউজারের মাধ্যমে কাজ করে (উদাহরণস্বরূপ কর্পোরেট পরিবেশ), এটি একটি বোনাস পয়েন্ট হতে পারে।


ছোট মডেলের কারণে প্রতিক্রিয়াগুলিতে পরিশীলিততার অভাবের অর্থ হল আমরা যে কাজগুলির জন্য এটি ব্যবহার করি সেগুলি সম্পর্কে আমাদের খুব সতর্ক থাকতে হবে। ভবিষ্যতের স্থাপত্যগুলি সঠিক কাজের জন্য সঠিক ওজন (এবং তাই, খরচ) ব্যবহার করার জন্য তাদের জেনারেটিভ এআই বাস্তবায়নকে অপ্টিমাইজ করবে। আমি একাধিক ছোট, উচ্চ সুরযুক্ত, এবং টাস্ক-ভিত্তিক LLMs কল্পনা করি, প্রতিটি একটি নির্দিষ্ট আউটপুটের জন্য ব্যবহৃত হচ্ছে।


বলা হয়েছে যে, সবই ক্ষমাযোগ্য, বিশেষ করে যেহেতু API স্পষ্টভাবে পরীক্ষা-নিরীক্ষার জন্য ডিজাইন করা হয়েছে, উৎপাদন ব্যবহারের জন্য নয়।


ভাল
-খরচ
-স্কেল
-গতি
-ব্যবহারযোগ্যতা
-ব্যক্তিগত

খারাপ জন
-গুণে বলিদান
- বাস্তবায়ন খরচ

উদাহরণ হিসেবে, যদি আমরা বর্তমান বিষয়গুলির গভীর বিশ্লেষণ করতে চাই, তাহলে আউটপুট জানানোর জন্য আমাদের একটি বড় প্রসঙ্গ উইন্ডো এবং পরিশীলিত RAG প্রবাহের প্রয়োজন হবে; এমবেডেড এআই প্রায় অবশ্যই সঠিক পদ্ধতি নয়। গুগল তার সংস্থানগুলিতে এটির ইঙ্গিত দেয়।


কিন্তু আমার একটি তত্ত্ব আছে যা আমি পরীক্ষা করতে চেয়েছিলাম; একটি খরগোশ, পাগল, এবং অসাধারণ মজার তত্ত্ব; এবং একটি মাইক্রো ব্রাউজার হোস্ট করা এলএলএম এটি করার জন্য উপযুক্ত জায়গা ছিল।

একটি নতুন উপায় চিন্তা

নিউরন, মস্তিষ্ক নয়


একটু চুলকানি হয়েছে আমি কিছুক্ষণের জন্য স্ক্র্যাচ করতে চাইছি। আমরা যদি সব ভুল LLM ব্যবহার করছি? আসলে, আমরা যদি ধারণাগত মডেল ভুল পেয়ে থাকি?


প্রসারিত প্রশিক্ষণ ডেটার সাথে আমরা সবসময় বৃহত্তর কনটেক্সট উইন্ডোর জন্য রেস করছি, আমরা জেনারেটিভ এআইকে উল্লম্বভাবে স্কেল করার চেষ্টা করছি। বড়, শক্তিশালী, দ্রুত, ভাল। আমার চোয়াল ছিটকে যায় যখন আমি দেখছি যে লোকেরা অনুগ্রহ করে পুরো ইন্টারনেটে প্লাগ করার জন্য যথেষ্ট বড় কনটেক্সট উইন্ডোর জন্য জিজ্ঞাসা করছে, এবং তারপরে মাঝখানের অ্যালগরিদমকে বলুন দয়া করে এই বিশাল হ্রদ থেকে আমরা যে তথ্য এবং আউটপুট চাই তা বেছে নিতে। এবং দ্রুত।


আমরা একটি LLM-এর প্রতিটি ইনপুটকে API হিসাবে বিবেচনা করি, পাঠ্য প্রবেশ করে, যাদু ঘটে এবং পাঠ্য বেরিয়ে আসে। মাঝখানের এই জাদুকে আমরা বলি বুদ্ধি। যত বেশি পাঠ্য, তত জোরে যাদু, এবং ফলাফল তত ভাল। এই আমাদের বর্তমান পথ এগিয়ে.


আমরা ভুল স্কেল বা জুমের উপর দৃষ্টি নিবদ্ধ করছি কিনা তা ভেবে আমি সাহায্য করতে পারি না, জ্ঞানের একটি ভুল ব্যাখ্যা।


সাধারণভাবে চিন্তা করার বিষয়, বিশেষ করে সৃজনশীল আউটপুট (যা ঠিক টেক্সট জেনারেশন কী), তা হল এটি এত সহজ প্রক্রিয়া নয়। এটা একক থ্রেড না. আমরা ইতিমধ্যেই নতুন মডেলগুলিতে এটি দেখতে পাচ্ছি; উদাহরণস্বরূপ , Claude 3.5 সনেট সিস্টেম প্রম্পটের আমার ব্রেকডাউনে , আমরা দেখতে পাই যে LLM আউটপুটে সাম্প্রতিক অগ্রগতির অনেকগুলি সম্ভবত অ্যালগরিদমের সাথে সম্পর্কিত নয়, তবে পরিকাঠামো, সিস্টেম এবং টিউনিং যা প্রাসঙ্গিকভাবে আউটপুটকে নির্দেশ করে।


আমি ছোট, দ্রুত সংযোগের একটি ধারণা ব্যবহার করে দেখতে চাইছি যাতে বড় কিছু তৈরি করা যায়। শেষ পর্যন্ত, 100k-এর একটি প্রসঙ্গ উইন্ডো 1k - 100 বার একই। আমি সন্দেহ করি যে এমনকি আমরা গ্র্যান্ডিয়োজের দিকে মনোনিবেশ করি, চাবিকাঠিটি ছোট এবং সুনির্দিষ্ট বিবরণে একত্রিত হয়ে আরও বড় কিছু তৈরি করে। এটি একটি সংবেদনশীল মেশিন 'মস্তিষ্ক' এর চেয়ে অনেক বেশি বুদ্ধিমত্তার আমার মানসিক দৃষ্টান্তের সাথে খাপ খায়।


সাধারণভাবে মডেলগুলির আপেক্ষিক অদক্ষতা এবং নিষিদ্ধ খরচের কারণে এটি এখন পর্যন্ত সম্ভব হয়নি। অ্যাকাউন্টে ববকে কল্পনা করুন যে আমরা তাকে বলি যে আমরা ChatGPT-এর কাছে অনুরোধের সংখ্যা 100 গুণ করতে যাচ্ছি কারণ আমরা তত্ত্ব দিয়েছি যে একটি মেশ আর্কিটেকচারে মাইক্রো ট্রানজ্যাকশন আমাদের AI সিস্টেমের গুণমানকে উন্নত করবে। আমি মনে করি না বব ওপেনএআই-এ কাজ করে, কিন্তু আমাদের বাকিদের জন্য, এটা সম্ভব নয়।


এমনকি ব্রাউজারে একটি ছোট এবং দক্ষ এমবেডেড মডেল আমার থিওরাইজিং পরিচালনা করার জন্য সত্যিই প্রস্তুত নয়। এটি যথেষ্ট দ্রুত নয় এবং সমসাময়িক অনুরোধগুলিকে সক্ষম করে না (সমসাময়িক চিন্তাভাবনা!), তবে এটি সঠিক দিকের একটি পদক্ষেপ, এবং আমরা প্রতিটি অনুরোধের জন্য বিশাল ফি চার্জ করে ক্লাউড-হোস্টেড API থেকে অনেক দূরে চলে এসেছি। আমি কার্যকরী স্থাপত্য দেখতে পাচ্ছি না, তবে আমি এটির দিকে পথ দেখতে পাচ্ছি।


এই তত্ত্বটি পরীক্ষা করার জন্য, আমি আমার প্রোগ্রামিং গ্লাভস বন্ধ করে দিয়েছি, একটি ব্রাউজার খুলেছি এবং 1000টি মাল্টিথ্রেডেড অনুরোধের সাথে একটি জাল আর্কিটেকচারে আমার মহাকাব্য যাত্রা শুরু করেছি।


ফলাফল জাদুকর ছিল.

আপনার মস্তিষ্ক, তাদের নয়

একটি মস্তিষ্ক স্থানীয়, তাই আমাদের API গুলি হওয়া উচিত।


আমি ভয়েস ভালোবাসি. আমি মনে করি কীবোর্ড এবং ইঁদুরগুলি আমাদের বানরের মস্তিষ্কের সম্প্রসারণে পরিণত হয়েছে, তবে এগুলি মানব সংক্রামক এবং তাই একটি ইন্টারফেস হিসাবে আরও সামগ্রিকভাবে সীমাবদ্ধ। প্রযুক্তির উন্নতির সাথে সাথে ইন্টারফেসগুলিও হবে, এবং কিছু সময়ে, কীবোর্ড, মাউস এবং এমনকি স্ক্রিনগুলি আমাদের পূর্বপুরুষদের কাছে অপ্রচলিত হবে যেমন তেলের বাতি এবং বাহক পায়রা আমাদের কাছে।


তাই, আমি যা তৈরি করতে চেয়েছিলাম তা ভয়েস-নিয়ন্ত্রিত হতে হবে। ভাগ্যক্রমে, এর জন্য একটি ব্রাউজার API আছে।


  1. স্পিচ রিকগনিশন API (স্পিচ টু টেক্সট সহ)
  2. STT API
  3. প্রম্পট API
  4. ইন্টারনেট (একটি ব্রাউজারের মাধ্যমে অ্যাক্সেস করা হয়েছে)


আমি যা তৈরি করতে চেয়েছিলাম তা ছিল একটি ব্রাউজার-নিয়ন্ত্রিত ভয়েস ইন্টারঅ্যাকশন ডেমো। একটি বুদ্ধিমান ওয়েবসাইট যা আমার ভয়েস ছাড়া অন্য কিছু ব্যবহার করে ব্রাউজার প্রসঙ্গ এবং ইনপুটের উপর ভিত্তি করে নেভিগেট করে, প্রতিক্রিয়া জানায় এবং পরিবর্তন করে। কীবোর্ড নেই। মাউস নেই। আমি, আমার ভয়েস, একটি ব্রাউজার এবং প্রম্পট API। ” আমার শোনা সবচেয়ে খারাপ শিশুদের গল্পের মত শোনাচ্ছে। আমি সম্ভবত আরও খারাপ লিখেছি।


ধারণাগতভাবে, খরগোশ ডিভাইস বা হিউম্যান এআই পিনের সাথে খুব মিল। এই দুটিই উচ্চাভিলাষী উদ্যোগ, কিন্তু তারা যে সমস্যাটি ভাগ করে তা হল তারা একটি 'AI OS' তৈরি করার চেষ্টা করছে। সফ্টওয়্যারটিতে একটি নতুন এআই-চালিত ইন্টারফেস। আমি লক্ষ্যটিকে খুব মহৎ মনে করি, মূলত AI এর ছিটিয়ে ইন্টারনেটে একটি নতুন ইন্টারফেস তৈরি করার চেষ্টা করছি।


উদ্ভাবন হল পুনরাবৃত্তি সম্পর্কে, এবং 2024 সালে ইন্টারনেট সর্বব্যাপী এবং মৌলিকভাবে ব্রাউজারের সাথে জড়িত। একটি মানব-বান্ধব AI OS ইন্টারফেস উদ্ভাবনের চেষ্টা করা ইন্টারনেটকে পুনরায় উদ্ভাবনের চেষ্টা করার অনুরূপ প্রচেষ্টা। লোকেরা ইতিমধ্যে জিজ্ঞাসা করছে, 'আমি এমন কী করতে পারি যা আমি ইতিমধ্যে আমার মোবাইল ফোন দিয়ে পারি না, তবে আরও ভাল'...


উদ্ভাবনের জন্য নতুন এবং অ-পরীক্ষিত কিন্তু দৃঢ় এবং প্রমাণিত ভিত্তির মিশ্রণ প্রয়োজন। অত্যধিক অস্থিরতা এবং ফলাফল পাগল বিজ্ঞানী অঞ্চল হবে, কিন্তু প্রমাণিত এবং পরীক্ষামূলক ভারসাম্য ঠিক অধিকার পেতে, এবং কখনও কখনও, ঠিক কখনও কখনও, বিশেষ কিছু ঘটে।


ব্রাউজার AI প্রম্পট API-এর স্ক্রিনশট কাজ করছে

বেশিরভাগ এলএলএম ব্যবহারের ক্ষেত্রে আমরা যে জ্ঞানীয় দৃষ্টান্তটি ভুল পেয়েছি, তা হল আমরা হ্যান্ডশেক হিসাবে একটি ব্যস্ততাকে বিবেচনা করি। ইনপুট ← এলএলএম → আউটপুট। ইনপুট ইন, আউটপুট আউট. যাইহোক, বাস্তব মানুষের মিথস্ক্রিয়াগুলির সাথে, আমাদের বহুমাত্রিক প্রক্রিয়া রয়েছে যা বিভিন্ন চিন্তাভাবনা এবং ক্রিয়াকলাপে বিভক্ত হতে পারে।


"
স্টোর অ্যাটেনডেন্ট গ্রাহককে শুভেচ্ছা জানায় ->

[চিন্তা]

তারা কি পরছে, তাদের শৈলী তাদের কেনার ধরণকে কীভাবে প্রভাবিত করে

তাদের জনসংখ্যা কী, তাদের বয়স কীভাবে তাদের কেনার ধরণকে প্রভাবিত করে

কিভাবে লিঙ্গ তাদের কেনার ধরণ প্রভাবিত করবে

তারা কি ধরনের মেজাজ/সামাজিক সংকেত দিচ্ছে

তারা আসলে কি বলেছে যা তাদের পছন্দকে প্রভাবিত করবে

[কর্ম]

শুভ সকাল স্যার, কেমন আছেন


"
গ্রাহক পরিচারককে অভিবাদন জানায় ->

[চিন্তা]

তাড়াতাড়ি কর, আমি ব্যস্ত

আশা করি আমি যা চাই তা তাদের আছে (আমার মন পড়ে!)

তারা কি রিটার্ন গ্রহণ করবে?

[কর্ম]

শুভ সকাল, আমি এক জোড়া জুতা খুঁজছি।


আমরা কম্পিউটার বিজ্ঞানের এত গভীরে গিয়েছি যে শৃঙ্খলার চারপাশে আমাদের চিন্তা প্রক্রিয়াগুলি বাইনারি হয়ে গেছে। আমরা ইনপুট এবং আউটপুট, সত্য এবং মিথ্যা চিন্তা করি। সত্য হল যে মানুষের মিথস্ক্রিয়া এবং চিন্তাগুলি জটিল এবং সংক্ষিপ্ত, আমরা বাইনারিতে কমাতে বা সরল করতে পারি না।


কিন্তু আমরা যা করতে পারি তা হল এই বিস্ময়কর প্রযুক্তিকে নতুন এবং সৃজনশীল উপায়ে মেশ করা, আউটপুটকে একত্রিত করা এবং ইন্টারনেটকে স্লারিতে পরিণত করা বাধাগুলি ভেঙে ফেলা। ইন্টারনেটকে স্লারিতে পরিণত করা

অনেকের এক, অনেকের এক

আসুন Gen AI মিথস্ক্রিয়াকে বহু-থ্রেডেড এবং সূক্ষ্ম করে তুলি


পরীক্ষার জন্য আমার প্রস্তাব সামাজিক এবং মানুষের মিথস্ক্রিয়া মিরর অন্তর্নির্মিত AI ব্যবহার করে. আমার পেশী মেমরি আছে যে একটি উদাহরণ ব্যবহার করা যাক; ই-কমার্সের জন্য একটি সুপারিশ অ্যালগরিদম তৈরি করা।


 Thread 1: Social Cues, sentiment analysis – How long has it taken for user to interact? – Is their browsing behavior aggressive, slow, calm, controlled – Have they arrived from particular source, or looking for something specific? Thread 2: Behavior Cues, interpretation user input – How have they begun the conversation? A greeting? – What tone are they using? Thread 3: User context, data we have about similar demographics and their preferences – What age group do they belong to? How does this influence preferences? – How do they identify? How does this influence preferences? Thread 4: Site context, data we have how other users are using the site and trends – What are the trending products?


এতগুলি ডেটা পয়েন্ট ব্যাখ্যা করার জন্য কোনও সিলভার বুলেট নেই এবং কখনই হবে না। এলএলএম একটি প্লাগইন নয় "সেন্টিমেন্ট অ্যানালাইজার, এন্টিটি ক্লাসিফায়ার, জ্যাক অফ অল ট্রেড"। এলএলএম হল জেনারেটিভ অ্যালগরিদম যা সৃজনশীল এবং যৌক্তিকভাবে ইনপুটগুলিকে ব্যাখ্যা করতে পারে। লক্ষ্য করুন যে থ্রেডের প্রতিটি সংকেত আউটপুট নয়, সেগুলি প্রশ্ন।


চিন্তাভাবনা এবং জেনারেটিভ এআই জানাতে, আমাদের উত্তর দেওয়ার চেয়ে অনেক বেশি প্রশ্ন জিজ্ঞাসা করতে হবে। কীভাবে আমাদের সমস্ত ডেটা পয়েন্ট পেতে হয় সে সম্পর্কে আমাদের পরিশীলিত হতে হবে, এবং আমরা আমাদের এলএলএম-এ এইগুলিকে যেভাবে ফিড করি সেভাবে কাঠামোবদ্ধ। সুতরাং, একটি উদাহরণ হিসাবে আচরণ এবং সামাজিক সংকেত ব্যবহার করতে, আমাদের নিম্নলিখিতগুলি করতে হবে:


  1. অনুভূতির বিশ্লেষণ
  2. ব্রাউজার আচরণ বনাম সাইট এবং বিশ্বব্যাপী গড় জন্য ডেটা বিশ্লেষণ
  3. অনুরোধ থেকে রেফারেল ডেটা বের করুন


এই সমস্ত ডেটা আমাদের এলএলএম-এ যাওয়ার অনেক আগেই প্রস্তুত এবং প্রক্রিয়া করা হবে। কিন্তু, একবার প্রস্তুত হলে, আমরা একটি প্রম্পট দিয়ে জানাতে সাহায্য করতে পারি যেমন:



ব্যবহারকারী A হল একজন রিটার্ন ভিজিটর যা কিছুটা বিরক্ত হওয়ার লক্ষণ দেখাচ্ছে। আপনি তাদের সাথে ডিল করার সময় এটি মনে রাখবেন, তাদের আশ্বস্ত করতে নিশ্চিত করুন যে আমাদের একটি রিটার্ন সিস্টেম আছে। [অ্যাকশন]: আমাদের রিটার্ন নীতি এবং জনপ্রিয় পণ্যের লিঙ্ক।


একটি বিকল্প হবে:


"
ব্যবহারকারী B অধৈর্য হওয়ার লক্ষণ দেখাচ্ছে এবং সরাসরি প্রোডাক্ট X খুঁজছে। তাদের প্রোডাক্ট পেজে নিয়ে যান এবং কার্টে যোগ করার প্রস্তাব দিন। [অ্যাকশন]: সরাসরি X পৃষ্ঠায় নেভিগেট করুন এবং পণ্যটিকে কার্টে যোগ করুন।


LLM, এই অর্থে, আমাদের এজেন্ট এবং দোভাষী, কিন্তু লোকেরা যে ভুলটি করছে তা হল "অ্যালগরিদম" হল মানসম্মত আউটপুটের সমাধান। প্রকৃত এজেন্টদের মতোই, আমাদের রায় কেবলমাত্র ডেটা এবং সংকেতের মতো নির্ভরযোগ্য যা আমাদের তাদের জানাতে হবে। আপনি উত্তর প্রদান করার চেয়ে আরো প্রশ্ন জিজ্ঞাসা করুন.


এটি একটি অপরিবর্তনীয় সামাজিক সত্য এবং কেন এলএলএম সম্পর্কে আমাদের বর্তমান প্রত্যাশা এতটাই অপ্রীতিকর এবং এজেন্টরা অনেককে মোহভঙ্গের দিকে নিয়ে যাচ্ছে। আবর্জনা ভিতরে, আবর্জনা আউট. অ্যালগরিদম কতটা ভাল তা বিবেচ্য নয়।


শুধুমাত্র আমাদের সুপারিশ অ্যালগরিদমের জন্য দুটি গ্রুপের সংকেত পেতে, আমাদের বিশেষজ্ঞ সরঞ্জাম এবং AI পরিকাঠামোর একটি অ্যারের উপর নির্ভর করতে হবে যা গ্রহের কয়েকটি প্ল্যাটফর্ম বাদে সকলের ক্ষমতার বাইরে। কিন্তু আমরা আমাদের LLM-কে খাওয়ানোর পরিকাঠামোতে সূক্ষ্মতা, থ্রেড এবং পরিশীলিততা তৈরি করে পুনরাবৃত্তভাবে সেখানে পৌঁছতে পারি।


এবং এখন, তারা ব্রাউজারে আছে; ভবিষ্যত এত কাছাকাছি ছিল না.


অ্যাকশন পার্ট দুই এ ব্রাউজার AI প্রম্পট API এর স্ক্রিনশট

আমি সামাজিক সংকেত এবং ইনপুটগুলিকে উপহাস করে একটি সাধারণ প্রোটোটাইপ ছাড়া কিছুই তৈরি করিনি৷ ব্যবহারকারীর ডেটার একটি বিট ছিটিয়ে দেয় এবং তারপরে প্রম্পট API কে চিন্তা ও কর্মের সংমিশ্রণে আমার ভয়েসের প্রতিক্রিয়া জানাতে বলে। এটি এমন কিছুর দৃষ্টিভঙ্গি ছাড়া আর কিছুই নয় যা 'কাজ করতে পারে'। কিন্তু আমাদের প্রম্পট API-এ দানাদার, বিশদ এবং নিয়ন্ত্রিত ইনপুট প্রদান করে, আমরা বুদ্ধিমান, চিন্তাশীল এবং নিয়ন্ত্রিত প্রতিক্রিয়া পাই। এটি একটি জাল পরিকাঠামোর একটি দৃষ্টিভঙ্গি কারণ মাইক্রো-থ্রেডগুলি গতিশীলভাবে শিখতে, শক্তিশালী করতে এবং একে অপরকে জানাতে পারে।


এটা এখনও কাজ করবে না. তবে এটি কোনও দিন কাজ করতে পারে, এবং ভয়েস ইনপুট সহ প্রম্পট ইঞ্জিনিয়ারিং যাদুকর বলে মনে হয়। এটি একটি গন্তব্যের দিকে ড্রাইভিং মূল্য.

উপসংহার

ভবিষ্যৎ আগের চেয়ে অনেক কাছাকাছি।


আমরা এখনও LLM-এর প্রাথমিক পর্যায়ে রয়েছি, এবং আমি ভবিষ্যদ্বাণী করছি যে অগ্রগতি প্রত্যাশার চেয়ে ধীর হবে এবং AGI (যেকোন যুক্তিসঙ্গত সংজ্ঞা অনুসারে) প্রজন্মের জন্য আসবে না। কিন্তু রাস্তার প্রতিটি পদক্ষেপের সাথে, সুযোগের একটি জগত দেখা দেয়। অত্যন্ত দক্ষ, সুচিন্তিত এবং সংজ্ঞায়িত পরিকাঠামো তৈরি করা আমাদের এলএলএম থেকে আউটপুটের গুণমানকে ব্যাপকভাবে উন্নত করে, মডেলের আকার বা অ্যালগরিদমের গুণমান নির্বিশেষে।


LLMগুলিকে ব্রাউজারে স্থানান্তরিত করাকে LLMগুলিকে ইন্টারনেটে সরানো হিসাবেও বোঝা যায়৷ এটা সস্তা, খেলা সহজ, এবং ব্যবহার এবং পরীক্ষা করা হবে. লোককে ছোট ভাবতে বাধ্য করা, আরও দক্ষতার সাথে তৈরি করা, এবং তাদের সমাধানগুলিতে গভীরতা এবং সূক্ষ্মতা যোগ করা একটি ভাল জিনিস, তাই আমি 'মাইক্রো' মডেলগুলি নিয়ে খুব বেশি চিন্তিত নই। পরিশীলিততা শুধুমাত্র টুল নিজেই ব্যবহার করা হয় না, তাই এটি একটি বিশাল লাফ এগিয়ে.


আমি আমার ডেমো সংযুক্ত করেছি; এটি থ্রো-অ্যাওয়ে কোড যা ধারণার প্রমাণের দিকে তাকিয়ে, একটি অনুসন্ধানমূলক AI এর উপর নির্মিত যা শুধুমাত্র ডেমো উদ্দেশ্যে উপযুক্ত।


এবং এটি শুধুমাত্র কখনও কখনও কাজ করে।


তবুও, এটি ভবিষ্যতের একটি বিস্ময়কর দৃষ্টিভঙ্গি।

লিঙ্ক

আরও সম্পদ।


Github রেপো

মূলত প্রকাশিত


আপনি জমা দেওয়ার সময় এই CTA রাখুন:

আপনি এই প্রশ্নের কিছু উত্তর একটি ছুরিকাঘাত নিতে চান? টেমপ্লেটের জন্য লিঙ্ক হল এখানে . আমাদের লেখা প্রম্পট সব থেকে বিষয়বস্তু পড়তে আগ্রহী? ক্লিক এখানে .