2015 সালে, ক ওপেনএআই নামক "বিস্তৃতভাবে এবং সমানভাবে বিতরণ করা" এআই তৈরি করার জন্য গঠিত হয়েছিল। দ্রুত এগিয়ে 2024, এবং OpenAI সম্পূর্ণ-অন-লাভের মোডে রূপান্তরিত হয়েছে, একটি লেনদেনমূলক API পরিষেবার পিছনে LLM-এ অ্যাক্সেস জমা করে। অতি সম্প্রতি, তারা একটি খুঁজছেন . অলাভজনক $100 বিলিয়ন মূল্যায়ন AI অগ্রগতির বিগত দশকে Google, Meta, এবং OpenAI-এর মতো বড় প্রযুক্তি কোম্পানিগুলির দ্বারা প্রাধান্য পেয়েছে যা সর্বদা বৃহত্তর মালিকানাধীন ভাষার মডেলগুলি প্রকাশ করে। Bard এবং Claude থেকে GPT-4 পর্যন্ত, প্রাকৃতিক ভাষা প্রক্রিয়াকরণে অত্যাধুনিক (NLP) বেশিরভাগ কিছু গবেষণা ল্যাবের হাতে কেন্দ্রীভূত রয়ে গেছে। যাইহোক, AI-এর দীর্ঘমেয়াদী ভবিষ্যত আরও বেশি ব্যক্তিগত বড় মডেলের মধ্যে নিহিত যা শুধুমাত্র API-এর মাধ্যমে পরিবেশন করা হয়, বরং সম্প্রদায়ের পাশাপাশি উন্মুক্তভাবে নির্মিত ওপেন-সোর্স ভাষার মডেলগুলির মধ্যে রয়েছে। ওপেন-সোর্স ভাষার মডেল সাম্প্রতিক বছরগুলিতে, মুষ্টিমেয় কিছু স্টার্টআপ, বিশ্ববিদ্যালয় এবং নিবেদিত ব্যক্তিরা ভাষা মডেল বিকাশের এই উন্মুক্ত মডেলটিকে অগ্রগামী করতে সহায়তা করেছে৷ এই ওপেন-সোর্স বংশের সর্বশেষ মডেলটি হল । 1.8 বিলিয়ন প্যারামিটারে ওজনের, দানিউব আশ্চর্যজনক ক্ষমতা প্রদর্শন করে এমনকি অন্যান্য সর্বজনীনভাবে উপলব্ধ মডেলগুলির তুলনায় এর আকারের বহুগুণ বেশি। টিম যত্ন সহকারে পরিকল্পিত, প্রশিক্ষিত এবং সম্পূর্ণ স্বচ্ছভাবে দানিউবকে বৈধ করেছে, সম্পূর্ণ প্রতিবেদন এ উপলব্ধ। H2O-Danube-1.8B H2O.ai arXiv- হোর্ডিং অ্যাক্সেসের পরিবর্তে, দানিউবের সম্পূর্ণ প্যারামিটার এবং প্রশিক্ষণ কোড প্রকাশ্যে HuggingFace-এ প্রকাশ করেছে। প্রাথমিক ঘোষণার কয়েকদিনের মধ্যে, কৌতূহলী বিকাশকারীরা মডেলটির সাথে অবাধে পরীক্ষা-নিরীক্ষা শুরু করে, মালিকানাধীন মডেলগুলির সাথে সহজভাবে সম্ভব নয় দ্রুত উদ্ভাবন প্রজন্ম প্রদর্শন করে। লেখা পর্যন্ত, সম্পূর্ণ h2o-danube-1.8b-চ্যাট মডেলটি HuggingFace-এ 500 বারের বেশি ডাউনলোড করা হয়েছে। H2O.ai h2o এর HuggingFace রেপোর সৌজন্যে নিচের কোডটি অনুসরণ করে যে কেউ লাইব্রেরির সাথে মডেলটি ব্যবহার করতে পারেন: transformers import torch from transformers import pipeline pipe = pipeline( "text-generation", model="h2oai/h2o-danube-1.8b-chat", torch_dtype=torch.bfloat16, device_map="auto", ) # We use the HF Tokenizer chat template to format each message # https://huggingface.co/docs/transformers/main/en/chat_templating messages = [ {"role": "user", "content": "Why is drinking water so healthy?"}, ] prompt = pipe.tokenizer.apply_chat_template( messages, tokenize=False, add_generation_prompt=True, ) res = pipe( prompt, max_new_tokens=256, ) print(res[0]["generated_text"]) # <|prompt|>Why is drinking water so healthy?</s><|answer|> Drinking water is healthy for several reasons: [...] H2O বিশ্বাস করে যে প্রকাশ্যে সহযোগিতা করা AI-তে অ্যাক্সেসকে গণতন্ত্রীকরণের জন্য চূড়ান্ত চাবিকাঠি হিসাবে রয়ে গেছে এবং অল্প কিছুর জন্য সম্পদের পরিবর্তে অনেকের জন্য সুবিধাগুলি আনলক করা। অন্যান্য ওপেন-সোর্স ল্যাঙ্গুয়েজ মডেল ওপেন-সোর্স AI ইকোসিস্টেম বিশ্বব্যাপী ভাগ করা মডেলগুলিতে সহযোগিতা করে বিকাশকারীদের সাথে প্রসারিত হচ্ছে। H2O-Danube-1.8B এর বাইরে, অসংখ্য উল্লেখযোগ্য উদ্যোগের লক্ষ্য প্রাচীর ঘেরা বাগানের মধ্যে জ্ঞানের ঘনত্ব রোধ করা। এমপিটি স্টার্টআপ MosaicML দ্বারা তৈরি, দক্ষতা উন্নত করতে বিশেষজ্ঞদের সমান্তরালকরণ এবং প্রসঙ্গ দৈর্ঘ্য এক্সট্রাপোলেশনের মতো কৌশলগুলিকে অন্তর্ভুক্ত করে। মেশিন প্রোগ্রামিং ট্রান্সফরমার (MPT) ফ্যালকন ফ্যালকনের সবচেয়ে বড় ওপেন সোর্স এলএলএম হল বিস্ট, যা পছন্দগুলিকে ছাড়িয়ে যাচ্ছে , , , এবং 180-বিলিয়ন প্যারামিটার LLaMA-2 স্টেবলএলএম লালপাজামা এমপিটি সেই আকারে, মডেলটি চালানোর জন্য 400 গিগাবাইট উপলব্ধ মেমরি থাকা বাঞ্ছনীয়৷ মিস্ট্রাল প্রাক্তন Googlers এবং মেটা গবেষকদের দ্বারা প্রতিষ্ঠিত, Mistral 2022 সালের সেপ্টেম্বরে 7 বিলিয়ন প্যারামিটার প্রকাশ করেছে৷ Mistral 7B নমুনা মানের ক্ষেত্রে প্রায় বন্ধ GPT-3-এর সাথে মেলে খোলা মডেলগুলির মধ্যে প্রতিযোগিতামূলক কর্মক্ষমতা অর্জন করে৷ Mistral 7B মডেল উত্তরাধিকার মডেল নতুন লঞ্চ হওয়া মডেলের বাইরে, আগের ওপেন-সোর্স মডেলগুলি বিকাশকারীদের ক্ষমতায়ন করে চলেছে। OpenAI থেকে GPT2 এবং EleutherAI থেকে GPT-J উভয়ই আধুনিক স্থাপত্যের থেকে পিছিয়ে থাকা সত্ত্বেও ঐতিহাসিক গুরুত্ব বহন করে। এবং BERT-এর মতো ট্রান্সফর্মারগুলি বিশ্বব্যাপী শক্তি প্রদানকারী পণ্যগুলির NLP সাফল্যের একটি সম্পূর্ণ উপশ্রেণীর জন্ম দিয়েছে। গণতন্ত্রীকরণের আখ্যান শুধুমাত্র উত্সাহী সম্প্রদায়গুলিকে উদারভাবে তাদের সৃষ্টিগুলিকে জ্ঞানের সাধারণ পুলে ফিরিয়ে দেওয়ার জন্য ধন্যবাদকে শক্তিশালী করে। আরও ন্যায়সঙ্গত ভবিষ্যত বিভিন্ন উপায়ে, মালিকানাধীন ভাষার মডেলগুলি প্রযুক্তি শিল্পের সাথে কুস্তি চালিয়ে যাওয়া অনেক বৈষম্য পুনরুদ্ধারের ঝুঁকি রাখে। ধনী সংস্থার মধ্যে জ্ঞানকে কেন্দ্রীভূত করা ছোট দলগুলিকে অগ্রগতি গঠন থেকে বাদ দেয়। এবং পরে লেনদেনমূলক API-এর মাধ্যমে বিশুদ্ধভাবে উপলব্ধ একবার একীকরণকে নিষিদ্ধ করে ব্যয়বহুল করে তোলে। ওপেন সোর্স মডেলগুলি আরও ন্যায়সঙ্গতভাবে এগিয়ে যাওয়ার জন্য গুরুত্বপূর্ণ। একটি যেখানে এজেন্সি বিভিন্ন সম্প্রদায়ের কাছাকাছি আসলে কংক্রিট এআই অ্যাপ্লিকেশন তৈরি করে। অগ্রগতির দীর্ঘ চাপ তখনই ন্যায়বিচারের দিকে ঝুঁকে যায় যখন মানুষ একত্রিত হয়ে প্রযুক্তির পিছনে একত্রিত হয়, বরং এটিকে নিয়ন্ত্রণ করতে চাওয়া কোনো একটি সংস্থা। দানিউব এবং উন্মুক্ত দৃষ্টান্ত এটি অফার উপস্থাপন করে কিন্তু একটি বিকল্প দৃষ্টিভঙ্গির এক ঝলক। একটি স্বল্পমেয়াদী লাভ বা প্রতিপত্তি দ্বারা চালিত নয় বরং সর্বত্র বিকাশকারীদের ক্ষমতায়ন করে একে অপরের কাঁধে স্বাধীনভাবে গড়ে তোলার জন্য। মালিকানামূলক কাজের জন্য সর্বদা জায়গা থাকবে, তবে AI এর প্রকৃত ভবিষ্যত খোলা রয়েছে। সম্প্রদায়-চালিত উদ্ভাবন ওপেন-সোর্স মডেল প্রকাশ করা ডেভেলপার এবং গবেষকদের একটি অনুপ্রাণিত সম্প্রদায়ের কাছ থেকে অবদান রাখে। খোলা জায়গায় কাজ করার এই সহযোগিতামূলক শৈলী অনন্য সুযোগগুলি আনলক করে। প্রতিষ্ঠান জুড়ে বিশেষজ্ঞরা কৌশল যাচাই করার জন্য একে অপরের কাজ পর্যালোচনা করতে পারেন। গবেষকরা চাকাটি পুনরায় উদ্ভাবনের পরিবর্তে সহজেই প্রতিলিপি এবং নতুন ধারণা প্রসারিত করতে পারেন। এবং সফ্টওয়্যার প্রকৌশলীরা গ্রাহকের অফারগুলিতে দ্রুত সংহত এবং উদ্ভাবন স্থাপন করতে পারে। সম্ভবত সবচেয়ে আশাব্যঞ্জকভাবে, উন্মুক্ত দৃষ্টান্তটি বিশেষ সম্প্রদায়গুলিকে নির্দিষ্ট ব্যবহারের ক্ষেত্রে মডেলগুলি কাস্টমাইজ করার চারপাশে জড়ো হতে দেয়। টিমগুলি ওষুধ, আইন বা অর্থের মতো নির্দিষ্ট বিষয়গুলির জন্য তৈরি সংস্করণগুলি তৈরি করতে পারে যা জেনেরিক মডেলগুলিকে ছাড়িয়ে যায়। এই বিশেষ মডেলগুলি তারপরে সম্প্রদায়ের বাকি অংশগুলিকে উপকৃত করার জন্য আবার ভাগ করা হয়৷ একসাথে, গোষ্ঠীগুলি সম্মিলিত অগ্রগতি করে যে কোনও একক বন্ধ ল্যাবের মধ্যে সম্ভব নয়।