প্রারম্ভিক পূর্বরূপ Chrome প্রম্পট API।
আমি সম্প্রতি Chrome বিল্ট-ইন AI (প্রম্পট API) এর প্রাথমিক পূর্বরূপ প্রোগ্রামে আমন্ত্রিত হয়েছি। অন্তর্নির্মিত AI হল অনুসন্ধানমূলক কাজ যা সম্ভবত এমবেডেড AI-এর জন্য একটি ক্রস-ব্রাউজার স্ট্যান্ডার্ড হয়ে উঠবে৷ এটি ডিভাইসে জেমিনি ন্যানো ব্যবহার করে যার অর্থ হল এটি আপনার ওয়েব ব্রাউজারে বান্ডিল করা হয়েছে এবং এলএলএম জেনারেশন আপনার স্থানীয় ব্রাউজার পরিবেশে ঘটে।
ভাল, সহজ, দ্রুত, এবং বিনামূল্যে.
আমাদের ব্রাউজারগুলির জন্য এমবেডেড AI চাওয়ার তিনটি প্রাথমিক কারণ রয়েছে। গতি, খরচ, এবং ব্যবহারযোগ্যতা. একটি নেটিভ ব্রাউজার API হিসাবে, এটি ব্যবহার করা সহজ। প্রম্পট API অ্যাক্সেস করা কোডের এই দুটি লাইনের মতোই সহজ।
const session = await window.ai.createTextSession(); const result = await session.prompt( "Tyingshoelaces.com are writing a really cool blog about you. What do you think about that then?" );
ব্রাউজারে যেখানে আমাদের প্রয়োজন সেখানে জেনারেটিভ এআই ফলাফল পাওয়া সহজ হতে পারে না। আমি মৃত্যুদন্ড কার্যকর করার সময় পরীক্ষা করার জন্য কয়েকটি পরীক্ষা চালিয়েছি। যদিও আমি হতাশ হয়েছিলাম যে আমরা একটি একক সেশনে সীমাবদ্ধ ছিলাম (কোনও কনকারেন্সি নেই), জটিল দীর্ঘ পাঠ্য প্রজন্মের জন্য পারফরম্যান্স ভাল ছিল।
মনে রাখবেন, কোনো লেটেন্সিও নেই, তাই এক্সিকিউশন টাইম আক্ষরিক অর্থে মিলিসেকেন্ড থেকে আমরা আমাদের ব্রাউজারে আমাদের কোডে ফলাফল ব্যবহার করার অনুরোধ করেছি।
VM975:32 Execution Time 1: 0h 0m 3s 47ms VM975:32 Execution Time 2: 0h 0m 3s 870ms VM975:32 Execution Time 3: 0h 0m 2s 355ms VM975:32 Execution Time 4: 0h 0m 3s 176ms VM975:32 Execution Time 5: 0h 0m 7s 103ms VM975:44 Average Session Execution Time: 0h 0m 3s 910.1999999999998ms );
বিল্ট-ইন AI-তে 5টি চেইনযুক্ত অনুরোধের জন্য গড় কার্যকর করার সময় দীর্ঘ টেক্সট জেনারেশন প্রম্পটের জন্য সম্পূর্ণ অনুরোধ প্রতি 3-4 সেকেন্ডের মধ্যে। আমি এটি বেশ কয়েকবার চালিয়েছি (স্ক্রিপ্টটি GitHub রেপোতে অন্তর্ভুক্ত করা হয়েছে), এবং যদিও এটি ডিভাইস অনুসারে পরিবর্তিত হয়, আমি এপিআই অপ্টিমাইজ করা হলে এটির উন্নতিও আশা করব। আমি লক্ষ্য করেছি যে ছোট JSON প্রজন্মের কাজগুলি অনেক দ্রুত (200-400ms)।
এটি বেশিরভাগ ব্যবহারের ক্ষেত্রে গ্রহণযোগ্যতার চেয়ে বেশি। আমরা আমাদের এলএলএম-এর জন্য স্কেলের সমস্যাটিও ক্রাউডসোর্স করেছি। যেখানে শিল্প-স্কেল API ব্যবহার কুখ্যাতভাবে ব্যয়বহুল, প্রতিটি LLM অনুরোধ একটি পরীক্ষামূলক ব্রাউজার API এর মাধ্যমে পরিচালনা করা হয়। এটা সত্যিই সুন্দর বোধ করে এবং সম্ভাবনার একটি জগত খুলে দেয়।
ক্রোম ব্যবহারকারীরা তাদের ব্রাউজারে মডেলটি এম্বেড করার মাধ্যমে, আমাদের কাছে একটি ডিস্ট্রিবিউশন মেকানিজম রয়েছে যেখানে প্রিলোডেড জেনারেটিভ এআই মডেলগুলি ব্যবহার করার সময় এবং বড় সার্ভারের প্রয়োজন ছাড়াই। এটি WebLLM- এর মতই কিন্তু একটি উল্লেখযোগ্য সুবিধার সাথে যে মডেলগুলি আমাদের ব্রাউজারে প্রিলোড করা এবং বান্ডিল করা হয়।
এর মানে হল যে আমরা একটি বিক্রেতা-নির্দিষ্ট মডেল ডাউনলোড করতে বাধ্য হওয়ার পরিবর্তে 'ইন্টারনেট' জুড়ে ব্যবহারের জন্য একটি একক মডেল ডাউনলোড করতে পারি।
এই পরীক্ষামূলক ব্রাউজার API-এর বিশাল ইতিবাচক দিকগুলি গ্রহণের জন্য শক্তিশালী যুক্তি; এটি দ্রুত, এটি বিনামূল্যে (বা ভোক্তাদের দ্বারা অর্থ প্রদান করা হয়), এবং ব্যবহার করা সত্যিই সহজ৷
কিন্তু ট্রেডঅফ কি?
দ্রুত এবং বিনামূল্যে. কিন্তু কি খরচ?
API শুধুমাত্র পরীক্ষার জন্য অপ্রস্তুতভাবে প্রস্তুত, উৎপাদন ব্যবহারের জন্য নয়। ফলস্বরূপ, আউটপুট অনেক কম পরিমার্জিত আমরা আরো পরিপক্ক এবং হোস্ট করা মডেলের জন্য আশা করা হবে. মডেলের সাধারণ প্রকৃতির পাশাপাশি আকারের সীমাবদ্ধতার অর্থ হল আমাদের পালিশ আউটপুট নেই।
এটি হতাশার দিকে নিয়ে যায় যা আমাদের জেনারেটিভ AI API-এর প্রথম দিনগুলিতে নিয়ে যায়। নির্ভরযোগ্য JSON প্রতিক্রিয়া পেতে আমি নিজেকে অনেক প্রম্পট ইঞ্জিনিয়ারিং এবং বৈধতা যুক্তি ব্যবহার করে দেখতে পেয়েছি। প্রতি কয়েক অনুরোধ, API অ-প্রতিক্রিয়াশীল বলে মনে হচ্ছে, মডেল বোমা আউট কোন ক্ষেত্রে প্রতিক্রিয়া বিভ্রান্ত করা বেশ সহজ।
এই মডেল ব্রাউজারে এমবেড করা হয়েছে যে দেওয়া যে সত্য উল্লেখ আছে; এটি একটি 'ব্যক্তিগত' মডেল হিসাবে কিছু মান উন্মুক্ত করে। আমি নিশ্চিত নই যে এটি বেশিরভাগ ব্যবহারের ক্ষেত্রে প্রাসঙ্গিক, কারণ সর্বজনীন-মুখী ওয়েবসাইটগুলি এখনও তাদের সার্ভারের সাথে ইন্টারঅ্যাক্ট করবে এবং গড় ব্যবহারকারীর জন্য, এটি নিশ্চিত হওয়া কঠিন যে ডেটা কখনই স্থানীয় পরিবেশ ছেড়ে যাচ্ছে না। বলা হয়েছে যে, অভ্যন্তরীণ ব্যবহার এবং অ-পাবলিক ফেসিং সিস্টেমগুলির জন্য যা ব্রাউজারের মাধ্যমে কাজ করে (উদাহরণস্বরূপ কর্পোরেট পরিবেশ), এটি একটি বোনাস পয়েন্ট হতে পারে।
ছোট মডেলের কারণে প্রতিক্রিয়াগুলিতে পরিশীলিততার অভাবের অর্থ হল আমরা যে কাজগুলির জন্য এটি ব্যবহার করি সেগুলি সম্পর্কে আমাদের খুব সতর্ক থাকতে হবে। ভবিষ্যতের স্থাপত্যগুলি সঠিক কাজের জন্য সঠিক ওজন (এবং তাই, খরচ) ব্যবহার করার জন্য তাদের জেনারেটিভ এআই বাস্তবায়নকে অপ্টিমাইজ করবে। আমি একাধিক ছোট, উচ্চ সুরযুক্ত, এবং টাস্ক-ভিত্তিক LLMs কল্পনা করি, প্রতিটি একটি নির্দিষ্ট আউটপুটের জন্য ব্যবহৃত হচ্ছে।
বলা হয়েছে যে, সবই ক্ষমাযোগ্য, বিশেষ করে যেহেতু API স্পষ্টভাবে পরীক্ষা-নিরীক্ষার জন্য ডিজাইন করা হয়েছে, উৎপাদন ব্যবহারের জন্য নয়।
ভাল
-খরচ
-স্কেল
-গতি
-ব্যবহারযোগ্যতা
-ব্যক্তিগত
খারাপ জন
-গুণে বলিদান
- বাস্তবায়ন খরচ
উদাহরণ হিসেবে, যদি আমরা বর্তমান বিষয়গুলির গভীর বিশ্লেষণ করতে চাই, তাহলে আউটপুট জানানোর জন্য আমাদের একটি বড় প্রসঙ্গ উইন্ডো এবং পরিশীলিত RAG প্রবাহের প্রয়োজন হবে; এমবেডেড এআই প্রায় অবশ্যই সঠিক পদ্ধতি নয়। গুগল তার সংস্থানগুলিতে এটির ইঙ্গিত দেয়।
কিন্তু আমার একটি তত্ত্ব আছে যা আমি পরীক্ষা করতে চেয়েছিলাম; একটি খরগোশ, পাগল, এবং অসাধারণ মজার তত্ত্ব; এবং একটি মাইক্রো ব্রাউজার হোস্ট করা এলএলএম এটি করার জন্য উপযুক্ত জায়গা ছিল।
নিউরন, মস্তিষ্ক নয়
একটু চুলকানি হয়েছে আমি কিছুক্ষণের জন্য স্ক্র্যাচ করতে চাইছি। আমরা যদি সব ভুল LLM ব্যবহার করছি? আসলে, আমরা যদি ধারণাগত মডেল ভুল পেয়ে থাকি?
প্রসারিত প্রশিক্ষণ ডেটার সাথে আমরা সবসময় বৃহত্তর কনটেক্সট উইন্ডোর জন্য রেস করছি, আমরা জেনারেটিভ এআইকে উল্লম্বভাবে স্কেল করার চেষ্টা করছি। বড়, শক্তিশালী, দ্রুত, ভাল। আমার চোয়াল ছিটকে যায় যখন আমি দেখছি যে লোকেরা অনুগ্রহ করে পুরো ইন্টারনেটে প্লাগ করার জন্য যথেষ্ট বড় কনটেক্সট উইন্ডোর জন্য জিজ্ঞাসা করছে, এবং তারপরে মাঝখানের অ্যালগরিদমকে বলুন দয়া করে এই বিশাল হ্রদ থেকে আমরা যে তথ্য এবং আউটপুট চাই তা বেছে নিতে। এবং দ্রুত।
আমরা একটি LLM-এর প্রতিটি ইনপুটকে API হিসাবে বিবেচনা করি, পাঠ্য প্রবেশ করে, যাদু ঘটে এবং পাঠ্য বেরিয়ে আসে। মাঝখানের এই জাদুকে আমরা বলি বুদ্ধি। যত বেশি পাঠ্য, তত জোরে যাদু, এবং ফলাফল তত ভাল। এই আমাদের বর্তমান পথ এগিয়ে.
আমরা ভুল স্কেল বা জুমের উপর দৃষ্টি নিবদ্ধ করছি কিনা তা ভেবে আমি সাহায্য করতে পারি না, জ্ঞানের একটি ভুল ব্যাখ্যা।
সাধারণভাবে চিন্তা করার বিষয়, বিশেষ করে সৃজনশীল আউটপুট (যা ঠিক টেক্সট জেনারেশন কী), তা হল এটি এত সহজ প্রক্রিয়া নয়। এটা একক থ্রেড না. আমরা ইতিমধ্যেই নতুন মডেলগুলিতে এটি দেখতে পাচ্ছি; উদাহরণস্বরূপ , Claude 3.5 সনেট সিস্টেম প্রম্পটের আমার ব্রেকডাউনে , আমরা দেখতে পাই যে LLM আউটপুটে সাম্প্রতিক অগ্রগতির অনেকগুলি সম্ভবত অ্যালগরিদমের সাথে সম্পর্কিত নয়, তবে পরিকাঠামো, সিস্টেম এবং টিউনিং যা প্রাসঙ্গিকভাবে আউটপুটকে নির্দেশ করে।
আমি ছোট, দ্রুত সংযোগের একটি ধারণা ব্যবহার করে দেখতে চাইছি যাতে বড় কিছু তৈরি করা যায়। শেষ পর্যন্ত, 100k-এর একটি প্রসঙ্গ উইন্ডো 1k - 100 বার একই। আমি সন্দেহ করি যে এমনকি আমরা গ্র্যান্ডিয়োজের দিকে মনোনিবেশ করি, চাবিকাঠিটি ছোট এবং সুনির্দিষ্ট বিবরণে একত্রিত হয়ে আরও বড় কিছু তৈরি করে। এটি একটি সংবেদনশীল মেশিন 'মস্তিষ্ক' এর চেয়ে অনেক বেশি বুদ্ধিমত্তার আমার মানসিক দৃষ্টান্তের সাথে খাপ খায়।
সাধারণভাবে মডেলগুলির আপেক্ষিক অদক্ষতা এবং নিষিদ্ধ খরচের কারণে এটি এখন পর্যন্ত সম্ভব হয়নি। অ্যাকাউন্টে ববকে কল্পনা করুন যে আমরা তাকে বলি যে আমরা ChatGPT-এর কাছে অনুরোধের সংখ্যা 100 গুণ করতে যাচ্ছি কারণ আমরা তত্ত্ব দিয়েছি যে একটি মেশ আর্কিটেকচারে মাইক্রো ট্রানজ্যাকশন আমাদের AI সিস্টেমের গুণমানকে উন্নত করবে। আমি মনে করি না বব ওপেনএআই-এ কাজ করে, কিন্তু আমাদের বাকিদের জন্য, এটা সম্ভব নয়।
এমনকি ব্রাউজারে একটি ছোট এবং দক্ষ এমবেডেড মডেল আমার থিওরাইজিং পরিচালনা করার জন্য সত্যিই প্রস্তুত নয়। এটি যথেষ্ট দ্রুত নয় এবং সমসাময়িক অনুরোধগুলিকে সক্ষম করে না (সমসাময়িক চিন্তাভাবনা!), তবে এটি সঠিক দিকের একটি পদক্ষেপ, এবং আমরা প্রতিটি অনুরোধের জন্য বিশাল ফি চার্জ করে ক্লাউড-হোস্টেড API থেকে অনেক দূরে চলে এসেছি। আমি কার্যকরী স্থাপত্য দেখতে পাচ্ছি না, তবে আমি এটির দিকে পথ দেখতে পাচ্ছি।
এই তত্ত্বটি পরীক্ষা করার জন্য, আমি আমার প্রোগ্রামিং গ্লাভস বন্ধ করে দিয়েছি, একটি ব্রাউজার খুলেছি এবং 1000টি মাল্টিথ্রেডেড অনুরোধের সাথে একটি জাল আর্কিটেকচারে আমার মহাকাব্য যাত্রা শুরু করেছি।
ফলাফল জাদুকর ছিল.
একটি মস্তিষ্ক স্থানীয়, তাই আমাদের API গুলি হওয়া উচিত।
আমি ভয়েস ভালোবাসি. আমি মনে করি কীবোর্ড এবং ইঁদুরগুলি আমাদের বানরের মস্তিষ্কের সম্প্রসারণে পরিণত হয়েছে, তবে এগুলি মানব সংক্রামক এবং তাই একটি ইন্টারফেস হিসাবে আরও সামগ্রিকভাবে সীমাবদ্ধ। প্রযুক্তির উন্নতির সাথে সাথে ইন্টারফেসগুলিও হবে, এবং কিছু সময়ে, কীবোর্ড, মাউস এবং এমনকি স্ক্রিনগুলি আমাদের পূর্বপুরুষদের কাছে অপ্রচলিত হবে যেমন তেলের বাতি এবং বাহক পায়রা আমাদের কাছে।
তাই, আমি যা তৈরি করতে চেয়েছিলাম তা ভয়েস-নিয়ন্ত্রিত হতে হবে। ভাগ্যক্রমে, এর জন্য একটি ব্রাউজার API আছে।
আমি যা তৈরি করতে চেয়েছিলাম তা ছিল একটি ব্রাউজার-নিয়ন্ত্রিত ভয়েস ইন্টারঅ্যাকশন ডেমো। একটি বুদ্ধিমান ওয়েবসাইট যা আমার ভয়েস ছাড়া অন্য কিছু ব্যবহার করে ব্রাউজার প্রসঙ্গ এবং ইনপুটের উপর ভিত্তি করে নেভিগেট করে, প্রতিক্রিয়া জানায় এবং পরিবর্তন করে। কীবোর্ড নেই। মাউস নেই। আমি, আমার ভয়েস, একটি ব্রাউজার এবং প্রম্পট API। ” আমার শোনা সবচেয়ে খারাপ শিশুদের গল্পের মত শোনাচ্ছে। আমি সম্ভবত আরও খারাপ লিখেছি।
ধারণাগতভাবে, খরগোশ ডিভাইস বা হিউম্যান এআই পিনের সাথে খুব মিল। এই দুটিই উচ্চাভিলাষী উদ্যোগ, কিন্তু তারা যে সমস্যাটি ভাগ করে তা হল তারা একটি 'AI OS' তৈরি করার চেষ্টা করছে। সফ্টওয়্যারটিতে একটি নতুন এআই-চালিত ইন্টারফেস। আমি লক্ষ্যটিকে খুব মহৎ মনে করি, মূলত AI এর ছিটিয়ে ইন্টারনেটে একটি নতুন ইন্টারফেস তৈরি করার চেষ্টা করছি।
উদ্ভাবন হল পুনরাবৃত্তি সম্পর্কে, এবং 2024 সালে ইন্টারনেট সর্বব্যাপী এবং মৌলিকভাবে ব্রাউজারের সাথে জড়িত। একটি মানব-বান্ধব AI OS ইন্টারফেস উদ্ভাবনের চেষ্টা করা ইন্টারনেটকে পুনরায় উদ্ভাবনের চেষ্টা করার অনুরূপ প্রচেষ্টা। লোকেরা ইতিমধ্যে জিজ্ঞাসা করছে, 'আমি এমন কী করতে পারি যা আমি ইতিমধ্যে আমার মোবাইল ফোন দিয়ে পারি না, তবে আরও ভাল'...
উদ্ভাবনের জন্য নতুন এবং অ-পরীক্ষিত কিন্তু দৃঢ় এবং প্রমাণিত ভিত্তির মিশ্রণ প্রয়োজন। অত্যধিক অস্থিরতা এবং ফলাফল পাগল বিজ্ঞানী অঞ্চল হবে, কিন্তু প্রমাণিত এবং পরীক্ষামূলক ভারসাম্য ঠিক অধিকার পেতে, এবং কখনও কখনও, ঠিক কখনও কখনও, বিশেষ কিছু ঘটে।
বেশিরভাগ এলএলএম ব্যবহারের ক্ষেত্রে আমরা যে জ্ঞানীয় দৃষ্টান্তটি ভুল পেয়েছি, তা হল আমরা হ্যান্ডশেক হিসাবে একটি ব্যস্ততাকে বিবেচনা করি। ইনপুট ← এলএলএম → আউটপুট। ইনপুট ইন, আউটপুট আউট. যাইহোক, বাস্তব মানুষের মিথস্ক্রিয়াগুলির সাথে, আমাদের বহুমাত্রিক প্রক্রিয়া রয়েছে যা বিভিন্ন চিন্তাভাবনা এবং ক্রিয়াকলাপে বিভক্ত হতে পারে।
"
স্টোর অ্যাটেনডেন্ট গ্রাহককে শুভেচ্ছা জানায় ->
[চিন্তা]
তারা কি পরছে, তাদের শৈলী তাদের কেনার ধরণকে কীভাবে প্রভাবিত করে
তাদের জনসংখ্যা কী, তাদের বয়স কীভাবে তাদের কেনার ধরণকে প্রভাবিত করে
কিভাবে লিঙ্গ তাদের কেনার ধরণ প্রভাবিত করবে
তারা কি ধরনের মেজাজ/সামাজিক সংকেত দিচ্ছে
তারা আসলে কি বলেছে যা তাদের পছন্দকে প্রভাবিত করবে
[কর্ম]
শুভ সকাল স্যার, কেমন আছেন
"
গ্রাহক পরিচারককে অভিবাদন জানায় ->
[চিন্তা]
তাড়াতাড়ি কর, আমি ব্যস্ত
আশা করি আমি যা চাই তা তাদের আছে (আমার মন পড়ে!)
তারা কি রিটার্ন গ্রহণ করবে?
[কর্ম]
শুভ সকাল, আমি এক জোড়া জুতা খুঁজছি।
আমরা কম্পিউটার বিজ্ঞানের এত গভীরে গিয়েছি যে শৃঙ্খলার চারপাশে আমাদের চিন্তা প্রক্রিয়াগুলি বাইনারি হয়ে গেছে। আমরা ইনপুট এবং আউটপুট, সত্য এবং মিথ্যা চিন্তা করি। সত্য হল যে মানুষের মিথস্ক্রিয়া এবং চিন্তাগুলি জটিল এবং সংক্ষিপ্ত, আমরা বাইনারিতে কমাতে বা সরল করতে পারি না।
কিন্তু আমরা যা করতে পারি তা হল এই বিস্ময়কর প্রযুক্তিকে নতুন এবং সৃজনশীল উপায়ে মেশ করা, আউটপুটকে একত্রিত করা এবং ইন্টারনেটকে স্লারিতে পরিণত করা বাধাগুলি ভেঙে ফেলা। ইন্টারনেটকে স্লারিতে পরিণত করা
আসুন Gen AI মিথস্ক্রিয়াকে বহু-থ্রেডেড এবং সূক্ষ্ম করে তুলি
পরীক্ষার জন্য আমার প্রস্তাব সামাজিক এবং মানুষের মিথস্ক্রিয়া মিরর অন্তর্নির্মিত AI ব্যবহার করে. আমার পেশী মেমরি আছে যে একটি উদাহরণ ব্যবহার করা যাক; ই-কমার্সের জন্য একটি সুপারিশ অ্যালগরিদম তৈরি করা।
Thread 1: Social Cues, sentiment analysis – How long has it taken for user to interact? – Is their browsing behavior aggressive, slow, calm, controlled – Have they arrived from particular source, or looking for something specific? Thread 2: Behavior Cues, interpretation user input – How have they begun the conversation? A greeting? – What tone are they using? Thread 3: User context, data we have about similar demographics and their preferences – What age group do they belong to? How does this influence preferences? – How do they identify? How does this influence preferences? Thread 4: Site context, data we have how other users are using the site and trends – What are the trending products?
এতগুলি ডেটা পয়েন্ট ব্যাখ্যা করার জন্য কোনও সিলভার বুলেট নেই এবং কখনই হবে না। এলএলএম একটি প্লাগইন নয় "সেন্টিমেন্ট অ্যানালাইজার, এন্টিটি ক্লাসিফায়ার, জ্যাক অফ অল ট্রেড"। এলএলএম হল জেনারেটিভ অ্যালগরিদম যা সৃজনশীল এবং যৌক্তিকভাবে ইনপুটগুলিকে ব্যাখ্যা করতে পারে। লক্ষ্য করুন যে থ্রেডের প্রতিটি সংকেত আউটপুট নয়, সেগুলি প্রশ্ন।
চিন্তাভাবনা এবং জেনারেটিভ এআই জানাতে, আমাদের উত্তর দেওয়ার চেয়ে অনেক বেশি প্রশ্ন জিজ্ঞাসা করতে হবে। কীভাবে আমাদের সমস্ত ডেটা পয়েন্ট পেতে হয় সে সম্পর্কে আমাদের পরিশীলিত হতে হবে, এবং আমরা আমাদের এলএলএম-এ এইগুলিকে যেভাবে ফিড করি সেভাবে কাঠামোবদ্ধ। সুতরাং, একটি উদাহরণ হিসাবে আচরণ এবং সামাজিক সংকেত ব্যবহার করতে, আমাদের নিম্নলিখিতগুলি করতে হবে:
এই সমস্ত ডেটা আমাদের এলএলএম-এ যাওয়ার অনেক আগেই প্রস্তুত এবং প্রক্রিয়া করা হবে। কিন্তু, একবার প্রস্তুত হলে, আমরা একটি প্রম্পট দিয়ে জানাতে সাহায্য করতে পারি যেমন:
ব্যবহারকারী A হল একজন রিটার্ন ভিজিটর যা কিছুটা বিরক্ত হওয়ার লক্ষণ দেখাচ্ছে। আপনি তাদের সাথে ডিল করার সময় এটি মনে রাখবেন, তাদের আশ্বস্ত করতে নিশ্চিত করুন যে আমাদের একটি রিটার্ন সিস্টেম আছে। [অ্যাকশন]: আমাদের রিটার্ন নীতি এবং জনপ্রিয় পণ্যের লিঙ্ক।
একটি বিকল্প হবে:
"
ব্যবহারকারী B অধৈর্য হওয়ার লক্ষণ দেখাচ্ছে এবং সরাসরি প্রোডাক্ট X খুঁজছে। তাদের প্রোডাক্ট পেজে নিয়ে যান এবং কার্টে যোগ করার প্রস্তাব দিন। [অ্যাকশন]: সরাসরি X পৃষ্ঠায় নেভিগেট করুন এবং পণ্যটিকে কার্টে যোগ করুন।
LLM, এই অর্থে, আমাদের এজেন্ট এবং দোভাষী, কিন্তু লোকেরা যে ভুলটি করছে তা হল "অ্যালগরিদম" হল মানসম্মত আউটপুটের সমাধান। প্রকৃত এজেন্টদের মতোই, আমাদের রায় কেবলমাত্র ডেটা এবং সংকেতের মতো নির্ভরযোগ্য যা আমাদের তাদের জানাতে হবে। আপনি উত্তর প্রদান করার চেয়ে আরো প্রশ্ন জিজ্ঞাসা করুন.
এটি একটি অপরিবর্তনীয় সামাজিক সত্য এবং কেন এলএলএম সম্পর্কে আমাদের বর্তমান প্রত্যাশা এতটাই অপ্রীতিকর এবং এজেন্টরা অনেককে মোহভঙ্গের দিকে নিয়ে যাচ্ছে। আবর্জনা ভিতরে, আবর্জনা আউট. অ্যালগরিদম কতটা ভাল তা বিবেচ্য নয়।
শুধুমাত্র আমাদের সুপারিশ অ্যালগরিদমের জন্য দুটি গ্রুপের সংকেত পেতে, আমাদের বিশেষজ্ঞ সরঞ্জাম এবং AI পরিকাঠামোর একটি অ্যারের উপর নির্ভর করতে হবে যা গ্রহের কয়েকটি প্ল্যাটফর্ম বাদে সকলের ক্ষমতার বাইরে। কিন্তু আমরা আমাদের LLM-কে খাওয়ানোর পরিকাঠামোতে সূক্ষ্মতা, থ্রেড এবং পরিশীলিততা তৈরি করে পুনরাবৃত্তভাবে সেখানে পৌঁছতে পারি।
এবং এখন, তারা ব্রাউজারে আছে; ভবিষ্যত এত কাছাকাছি ছিল না.
আমি সামাজিক সংকেত এবং ইনপুটগুলিকে উপহাস করে একটি সাধারণ প্রোটোটাইপ ছাড়া কিছুই তৈরি করিনি৷ ব্যবহারকারীর ডেটার একটি বিট ছিটিয়ে দেয় এবং তারপরে প্রম্পট API কে চিন্তা ও কর্মের সংমিশ্রণে আমার ভয়েসের প্রতিক্রিয়া জানাতে বলে। এটি এমন কিছুর দৃষ্টিভঙ্গি ছাড়া আর কিছুই নয় যা 'কাজ করতে পারে'। কিন্তু আমাদের প্রম্পট API-এ দানাদার, বিশদ এবং নিয়ন্ত্রিত ইনপুট প্রদান করে, আমরা বুদ্ধিমান, চিন্তাশীল এবং নিয়ন্ত্রিত প্রতিক্রিয়া পাই। এটি একটি জাল পরিকাঠামোর একটি দৃষ্টিভঙ্গি কারণ মাইক্রো-থ্রেডগুলি গতিশীলভাবে শিখতে, শক্তিশালী করতে এবং একে অপরকে জানাতে পারে।
এটা এখনও কাজ করবে না. তবে এটি কোনও দিন কাজ করতে পারে, এবং ভয়েস ইনপুট সহ প্রম্পট ইঞ্জিনিয়ারিং যাদুকর বলে মনে হয়। এটি একটি গন্তব্যের দিকে ড্রাইভিং মূল্য.
ভবিষ্যৎ আগের চেয়ে অনেক কাছাকাছি।
আমরা এখনও LLM-এর প্রাথমিক পর্যায়ে রয়েছি, এবং আমি ভবিষ্যদ্বাণী করছি যে অগ্রগতি প্রত্যাশার চেয়ে ধীর হবে এবং AGI (যেকোন যুক্তিসঙ্গত সংজ্ঞা অনুসারে) প্রজন্মের জন্য আসবে না। কিন্তু রাস্তার প্রতিটি পদক্ষেপের সাথে, সুযোগের একটি জগত দেখা দেয়। অত্যন্ত দক্ষ, সুচিন্তিত এবং সংজ্ঞায়িত পরিকাঠামো তৈরি করা আমাদের এলএলএম থেকে আউটপুটের গুণমানকে ব্যাপকভাবে উন্নত করে, মডেলের আকার বা অ্যালগরিদমের গুণমান নির্বিশেষে।
LLMগুলিকে ব্রাউজারে স্থানান্তরিত করাকে LLMগুলিকে ইন্টারনেটে সরানো হিসাবেও বোঝা যায়৷ এটা সস্তা, খেলা সহজ, এবং ব্যবহার এবং পরীক্ষা করা হবে. লোককে ছোট ভাবতে বাধ্য করা, আরও দক্ষতার সাথে তৈরি করা, এবং তাদের সমাধানগুলিতে গভীরতা এবং সূক্ষ্মতা যোগ করা একটি ভাল জিনিস, তাই আমি 'মাইক্রো' মডেলগুলি নিয়ে খুব বেশি চিন্তিত নই। পরিশীলিততা শুধুমাত্র টুল নিজেই ব্যবহার করা হয় না, তাই এটি একটি বিশাল লাফ এগিয়ে.
আমি আমার ডেমো সংযুক্ত করেছি; এটি থ্রো-অ্যাওয়ে কোড যা ধারণার প্রমাণের দিকে তাকিয়ে, একটি অনুসন্ধানমূলক AI এর উপর নির্মিত যা শুধুমাত্র ডেমো উদ্দেশ্যে উপযুক্ত।
এবং এটি শুধুমাত্র কখনও কখনও কাজ করে।
তবুও, এটি ভবিষ্যতের একটি বিস্ময়কর দৃষ্টিভঙ্গি।
আরও সম্পদ।
আপনি জমা দেওয়ার সময় এই CTA রাখুন:
আপনি এই প্রশ্নের কিছু উত্তর একটি ছুরিকাঘাত নিতে চান? টেমপ্লেটের জন্য লিঙ্ক হল