paint-brush
ওপেনএআই এর সোরা কি এখনও সমস্যায় আছে?দ্বারা@lukaszwronski
1,879 পড়া
1,879 পড়া

ওপেনএআই এর সোরা কি এখনও সমস্যায় আছে?

দ্বারা Lukasz Wronski7m2024/06/17
Read on Terminal Reader

অতিদীর্ঘ; পড়তে

লুমা ড্রিম মেশিন জেনারেটিভ এআই বিশ্বের সর্বশেষ সংবেদন। পিকা এবং রানওয়ে এমএল-এর মতো প্রতিযোগীদের পরাজিত করে ছবি থেকে ভিডিও তৈরি করার জন্য এটি সেরা টুল। কিন্তু রহস্যময় সোরার সাথে এর তুলনা হয় কিভাবে? যেহেতু আমরা Sora ব্যবহার করতে পারি না, তাই আমরা Luma Dream মেশিন যা করতে পারে তার সাথে OpenAI-এর পাবলিক ডেমোর তুলনা করব।
featured image - ওপেনএআই এর সোরা কি এখনও সমস্যায় আছে?
Lukasz Wronski HackerNoon profile picture
0-item
1-item
2-item

আপনি কি জেনারেটিভ এআই বিশ্বের সর্বশেষ সংবেদন, লুমা ড্রিম মেশিন সম্পর্কে শুনেছেন? একে বলা হচ্ছে ওপেনএআই এর সোরার সবচেয়ে বড় প্রতিদ্বন্দ্বী। কিন্তু এটা কি সত্যিই ভালো?


তাদের তুলনা করা কঠিন কারণ ড্রিম মেশিন সবার জন্য উপলব্ধ, যখন সোরা নয়। কিন্তু দেখা যাক আমরা কি জানতে পারি। এই মুহূর্তে অস্বীকার করা কঠিন, ড্রিম মেশিন নেতৃত্ব দিচ্ছে কারণ আমরা আসলে এটি ব্যবহার করতে পারি। পিকা এবং রানওয়ে এমএল-এর মতো প্রতিযোগীদের পরাজিত করার জন্য ছবি থেকে ভিডিও তৈরি করার জন্য এটি সেরা টুল। কিন্তু রহস্যময় সোরার সাথে এর তুলনা হয় কিভাবে?

যেহেতু আমরা Sora ব্যবহার করতে পারি না, তাই Luma Dream Machine যা করতে পারে তার সাথে OpenAI এর পাবলিক ডেমোর তুলনা করব। এই হল পরিকল্পনা: আমরা OpenAI এর ডেমো ভিডিও থেকে প্রথম ফ্রেম নেব এবং লুমার ড্রিম মেশিনের সাথে একই প্রম্পট ব্যবহার করব। এটি আমাদের দেখাবে কতটা ভালোভাবে ড্রিম মেশিন সোরার মতো একই পদার্থবিদ্যা, গতিবিধি এবং স্থান কপি করতে পারে। এমনকি যদি ওপেনএআই-এর ডেমোগুলি চেরি-বাছাই করা হয়, আমরা এখনও বিশদগুলি তুলনা করতে পারি এবং দেখতে পারি যে উভয় মডেল কীভাবে কাজ করে।


নীচে, আমি কিছু ভিডিও তুলনা একসাথে রেখেছি। প্রতিটি সেট তিনটি উদাহরণ আছে. প্রথম ভিডিওটি সোরার ওয়েবসাইটে OpenAI এর ডেমো থেকে। দ্বিতীয়টি ড্রিম মেশিনের ইমেজ-টু-ভিডিও বৈশিষ্ট্যের সাথে তৈরি করা হয়েছে, একই প্রম্পট ব্যবহার করে এবং সোরার ডেমোর প্রথম ফ্রেমটি একটি গাইড হিসাবে। তৃতীয়টি দেখায় কিভাবে লুমার টুল শুধু প্রম্পটের সাথে কাজ করে। এটি আকর্ষণীয় কারণ সোরা এবং ড্রিম মেশিন উভয়ই টেক্সট-টু-ভিডিও ব্যবহার করে, তাই আমরা তাদের সৃজনশীলতা এবং তারা কতটা ভালোভাবে প্রম্পট অনুসরণ করে তা তুলনা করতে পারি।


সুতরাং, আর কোন ঝামেলা ছাড়াই, আসুন উদাহরণগুলি পরীক্ষা করে দেখি এবং দেখি কোন টুলটি উপরে আসে।

টোকিও ওয়াক


লুমা ড্রিম মেশিনের সাথে OpenAI এর ডেমো তুলনা করা যাক। প্রথম তুলনাতে, ড্রিম মেশিন চিত্তাকর্ষক ক্যামেরা আন্দোলন দেখায় এবং প্রধান ব্যক্তির ক্রিয়াগুলি মসৃণ এবং স্বাভাবিক। যাইহোক, ক্লিপ জুড়ে অস্বাভাবিক নিদর্শন এবং বস্তু এবং মানুষের অসামঞ্জস্যপূর্ণ চেহারা নিয়ে সমস্যা রয়েছে। OpenAI এর ভিডিওর বিপরীতে, ভিডিওর অগ্রগতির সাথে সাথে পটভূমির ভিড় গলে যায় এবং আকৃতি পরিবর্তন হতে দেখা যায়।


প্রধান চরিত্রের মুখও অপ্রাকৃতভাবে পরিবর্তিত হয়, ভিডিওটিকে স্পষ্টতই জাল দেখায়, সোরার কোন সমস্যা নেই।


টেক্সট-টু-ভিডিও উদাহরণে, ড্রিম মেশিনের ভিডিও খারাপ নয়, কিন্তু বস্তুর অস্বাভাবিক রূপায়ন লক্ষণীয়। উদাহরণস্বরূপ, কোথাও থেকে পথচারীর হাতে একটি ছাতা দেখা যাচ্ছে, যা স্পষ্টভাবে AI প্রজন্মকে নির্দেশ করে। এটি রয়্যালটি-মুক্ত স্টক ক্লিপগুলির জন্য কোনও প্রতিযোগিতা করে না। Sora এর প্রজন্ম সম্ভবত হতে পারে যে একটি জিনিস.


যাইহোক, ড্রিম মেশিন প্রম্পটের সাথে ভালভাবে লেগে থাকে: কালো জ্যাকেট, লাল পোষাক, লিপস্টিক, সানগ্লাস, প্রতিফলিত রাস্তা, পথচারী এবং নিয়ন লাইট সবই রয়েছে। সুতরাং, বিস্তারিত অনুসরণ করা ভাল!

গোল্ড রাশ


ওপেনএআই-এর সাথে লুমার ইমেজ-টু-ভিডিও ফলাফলের তুলনা করার সময়, এটি ভয়ানক নয়। যাইহোক, ক্যামেরা মুভমেন্ট টোকিও ভিডিওর মতো মসৃণ নয়, হঠাৎ বন্ধ হয়ে দৃশ্যটিকে কঠোর করে তোলে। সবচেয়ে খারাপ দিক হল ক্লিপের শেষে চরিত্রের নড়াচড়া, যা অপ্রাকৃতিক এবং এলোমেলো দেখায়। অতিরিক্তভাবে, বাম দিকের বিল্ডিংগুলি প্রতিটি ফ্রেমের সাথে বাস্তববাদে অবনমিত হয়, সোরার উদাহরণে এমন একটি সমস্যা দেখা যায় নি।


আগের ক্লিপের মতোই, অনেকগুলি শিল্পকর্ম সহ স্থিতিশীলতা এবং ধারাবাহিকতার অভাব রয়েছে৷ কম ফ্রেম রেট এবং সামগ্রিক ওল্ড-স্কুল মানের সাথে ক্লিপটিকে ভিনটেজ দেখাতেও সোরা পারদর্শী, পরামর্শ দেয় যে এটি প্রম্পট অনুসারে এর আউটপুটকে স্টাইলাইজ করতে পারে, যা ড্রিম মেশিন এখানে অর্জন করতে পারেনি।


একটি সংক্ষিপ্ত এবং উন্মুক্ত প্রম্পট সহ পাঠ্য থেকে ভিডিও উদাহরণে, লুমার মডেল সোনার রাশ ইতিহাস থেকে একটি ভিন্ন দৃশ্য বেছে নিয়েছে৷ সঠিক রঙ এবং আলো ব্যবহার করে এটি যুগের সাথে শৈলীতে আরও বেশি মনে হয়। যাইহোক, মরফিং এফেক্ট এবং অপ্রাকৃতিক আন্দোলন পুরো ক্লিপটিকে নষ্ট করে দেয়, ভিডিও প্রজেক্টে এটি ব্যবহার করার অযোগ্য করে তোলে।

ধুলোয় SUV


OpenAI এর ওয়েবসাইটে এই ভিডিওটি আমার প্রিয়। চমৎকার আলো, ছায়া এবং গতিশীলতার সাথে গাড়িটি খুব স্বাভাবিকভাবে চলে। এটি একটি বাস্তব ভিডিও থেকে আলাদা করা যায় না, এটি বিষয়বস্তু নির্মাতাদের জন্য নিখুঁত করে তোলে৷ বিপরীতে, ড্রিম মেশিনের ক্যামেরা মুভমেন্ট সঠিক, কিন্তু বস্তুগুলি অস্বাভাবিকভাবে কুঁচকে যায় এবং ছিন্নভিন্ন হয়ে যায়। ক্লিপটির দ্বিতীয় অংশে, দৃষ্টিকোণটি ব্যাপকভাবে বিকৃত হয়ে যায়, স্পষ্টভাবে একটি এআই প্রজন্মের মতো দেখায়।


টেক্সট-টু-ভিডিও উদাহরণের জন্য, ফলাফলটি আসলে বেশ সুন্দর—আমি লুমার পণ্য থেকে পাওয়া সেরাগুলির মধ্যে একটি। এটি প্রথমটির তুলনায় কম গতিশীল কিন্তু বেশ প্রাকৃতিক দেখায়। যাইহোক, এটি একটি ভিন্ন সমস্যায় ভোগে। প্রম্পটটি বিস্তৃত ছিল, নির্দিষ্ট করে যে SUV কে পিছন থেকে টায়ার থেকে ধুলো উঠতে দেখা উচিত। ড্রিম মেশিন এটিকে ভিন্নভাবে ব্যাখ্যা করেছে।


এটি এআই বিষয়বস্তু জেনারেটরগুলির একটি মূল দিক তুলে ধরে: সুনির্দিষ্ট প্রম্পট ব্যাখ্যা ছাড়াই, আমরা আমাদের দৃষ্টিভঙ্গি বা প্রয়োজনের সাথে খাপ খায় না এমন বৈচিত্র তৈরি করতে ঘন্টা নষ্ট করতে পারি।

যাদুঘর


জাদুঘরের উদাহরণ হল একটি ভিন্ন ধরনের জন্তু। ঠিক আছে, আসলে পশু নয় - এটি আরও সূক্ষ্ম, শান্ত এবং কম গতিশীল। একটি স্থির ক্যামেরা সহ একটি সাধারণ হাঁটা। OpenAI এর সংস্করণ সঠিক। এটি উত্তেজনাপূর্ণ নয়, তবে এতে বাস্তবতার অভাব নেই। লুমার সংস্করণটি একটি ভিন্ন ক্যামেরা মুভমেন্ট উপস্থাপন করে তবে অন্যান্য ক্লিপগুলিতে দেখা বিকৃতি ছাড়াই দেখতেও ভাল। মূল সমস্যা হল যে ছবিগুলি মূল ছবির অংশ নয় সেগুলি অস্পষ্ট এবং সংজ্ঞার অভাব দেখায়। সামগ্রিকভাবে, ভিডিওটি ভাল, এবং কয়েকটি পরিবর্তনের সাথে, আমরা একটি সঠিক ফলাফল পেতে পারি।


দ্বিতীয় ভিডিওতেও কোন সুস্পষ্ট চাক্ষুষ ত্রুটি নেই। গ্যালারি ভাল দেখায়. আমার সবচেয়ে বড় সমস্যা হল প্রথম অংশে ক্যামেরা আন্দোলনের পছন্দ, যা খুব বাস্তবসম্মত নয়। মজার বিষয় হল, ড্রিম মেশিন একটি প্রম্পটের জন্য দুটি দৃশ্য তৈরি করেছে, যার মাঝখানে একটি কাটা যাদুঘরের একটি ভিন্ন ঘর দেখায়। এটি আকর্ষণীয় যে মডেল এটি করার সিদ্ধান্ত নিয়েছে। দ্বিতীয় অংশে আরও ভাল ক্যামেরা মুভমেন্ট রয়েছে, এটি চোখের কাছে আরও আনন্দদায়ক করে তোলে।

ব্যাকওয়ার্ড জগার


এই উদাহরণটি আকর্ষণীয় কারণ, সোরার পৃষ্ঠায়, এটি মডেলের সমস্যাগুলির একটি হিসাবে দেখানো হয়েছে: জগার ভুল পথে চলছে৷ কোনও ট্রেডমিল সেরকম কাজ করে না, তবে এআই বিশ্বে যে কোনও কিছু সম্ভব। এই স্বপ্ন মেশিনের চকমক করার সুযোগ? ইমেজ থেকে ভিডিও ফলাফল আসলে বেশ ভাল.


ইনপুট চিত্রের মতো জগার এখনও পিছনের দিকে দৌড়ায়, তবে ক্যামেরার গতিবিধি এবং জগারের আচরণ প্রায় নিখুঁত। কিছু ছোটখাটো বিকৃতি রয়েছে এবং সময়ের সাথে সাথে ক্যামেরার দৃষ্টিকোণটি একটু অদ্ভুত হয়ে যায়, তবে কিছুটা চেরি-পিকিংয়ের সাথে, আমরা আমাদের প্রযোজনার জন্য একটি শালীন ফলাফল পেতে পারি।


শুধু প্রম্পট দিয়ে তৈরি সংস্করণটিও আকর্ষণীয়। এটি খুব গতিশীল এবং কিছুটা বিকৃত, তবে এটি নির্দিষ্ট প্রযোজনার সাথে মানানসই হতে পারে, বিশেষ করে যদি একটি নড়বড়ে, স্কেচের মতো নান্দনিকতা পছন্দ করা হয়। মোটেও খারাপ না। অবশেষে, লুমার মডেল তার ভবিষ্যৎ প্রতিযোগীর কাছাকাছি হচ্ছে।

ইতালীয় কুকুরছানা


OpenAI সাইটের শেষ প্রধান উদাহরণে একটি রঙিন ইতালীয় শহরে একটি ডালমেশিয়ান রয়েছে। সোরার সাথে তৈরি আসল ভিডিওটি নিখুঁত নয়। একটি দীর্ঘ ক্লিপে, কুকুরটি কিছুটা অদ্ভুতভাবে অভিনয় শুরু করে এবং এর অ্যানিমেশন অন্যান্য শোকেস করা ভিডিওগুলির মতো স্বাভাবিক নয়৷ লুমার নতুন এআই কীভাবে এটি পরিচালনা করে?


মোটেও ভালো না। হতে পারে কারণ তাদের শুধুমাত্র একটি গ্রহণ ছিল (এবং জেনারেটরটি বেশ সীমিত হারে), কিন্তু আমরা যা দেখতে পাই তা হল ত্রুটি এবং অবাস্তব চিত্রের উৎসব। ভিডিওর অগ্রগতির সাথে সাথে কুকুরের টেক্সচার পরিবর্তিত হয়, বিল্ডিংগুলিকে দেখে মনে হচ্ছে সেগুলি প্লেডফ দিয়ে তৈরি, এবং শেষের দিকে আরেকটি কুকুরের মতো জঘন্য দৃশ্য দেখা যায়, যা এটিকে একটি বাস্তব ভিডিওর চেয়ে সালভাদর ডালির কাজের মতো দেখায়৷ এটি অবশ্যই এখন পর্যন্ত সবচেয়ে খারাপ উদাহরণ।


ড্রিম মেশিনের নিজস্ব সৃষ্টি আর ভালো নয়। এটি প্রম্পট অনুসরণ করেনি, ডালমেশিয়ানকে একেবারেই অন্তর্ভুক্ত করতে ব্যর্থ হয়েছে। কুকুরের বসার জন্য কোনও জানালা নেই, ভবনগুলি কার্টুনিশ দেখাচ্ছে এবং সামগ্রিক স্থাপত্যটি অযৌক্তিক। সবথেকে খারাপ হল ভারী বিকৃত বাইকে সাইকেল চালকরা, বিকৃত প্রাণীরা খালে ড্রাইভ করছে, অথবা কোনো কারণ ছাড়াই অন্য সাইকেল চালকদের সাথে মারফিং করছে। এটি প্রত্যাশার নিচে পড়ে।

রায়?

এখন জনসাধারণের কাছে যা উপলব্ধ, লুমার নতুন এআই সত্যিই চিত্তাকর্ষক। এটি সীমানাকে ঠেলে দেয়, সত্যিই চমৎকার ক্যামেরা মোশন তৈরি করে এবং প্রায়ই মানুষ এবং বস্তুর খুব বাস্তবসম্মত গতিবিধি তৈরি করে। একটি রেফারেন্স ইমেজ প্রদান করা হলে এটি আরও ভাল কাজ করে বলে মনে হয়, এটির বর্তমান প্রতিযোগিতার চেয়ে ভাল প্রভাব তৈরি করে।


কিন্তু এটা কি সোরার মতো ভালো? এটা থেকে দূরে মনে হয়, অন্তত এখন জন্য. অন্তত প্রথম নজরে সোরার সৃষ্টি বাস্তব ভিডিওর জন্য ভুল হতে পারে। শোকেসটি পরামর্শ দেয় যে সোরা স্টক ভিডিওগুলির সাথে প্রতিযোগিতা করতে পারে এবং চলচ্চিত্র নির্মাতা এবং বিষয়বস্তু নির্মাতাদের জীবনকে সহজ করে তুলতে পারে। অন্যদিকে, ড্রিম মেশিন প্রায়শই সমস্যা তৈরি করে এবং সবসময় সঠিকভাবে প্রম্পট অনুসরণ করে না।


এটি মডেলের উন্নতিতে আরেকটি ধাপ এগিয়েছে, কিন্তু এখনও ব্যাপক ব্যবহারের জন্য যথেষ্ট নির্ভরযোগ্য এবং স্থিতিশীল নয়।


এটা Sora জন্য একটি সত্যিকারের প্রতিদ্বন্দ্বী? এখনো না. যাইহোক, আমরা সোরার সাথে সরাসরি যোগাযোগ করিনি, এবং OpenAI-এর শোকেস সাবধানে কিউরেট করা হতে পারে। সোরা সম্ভবত লুমার মডেলের মতো একই রকম ভুল করতে পারে। সোরা সর্বজনীনভাবে উপলব্ধ না হওয়া পর্যন্ত, আমরা নিশ্চিত হতে পারি না।


ব্যক্তিগতভাবে, আমি খুশি যে আমাদের কাছে ড্রিম মেশিন আছে। এটি আমাদের নিখুঁত AI ভিডিও জেনারেটরের কাছাকাছি নিয়ে আসে। এটি কিছু ক্ষেত্রে দরকারী এবং সম্ভবত সময়ের সাথে উন্নতি করবে। ভিডিও ক্লিপগুলির জন্য জেনারেটিভ AI উপভোগ করার জন্য আমাদেরকে আরেকটি উপায় প্রদান করে লুমা এই টুলটি প্রকাশ করার জন্য আমি প্রশংসা করি।


অন্যদিকে, আমি আশা করি সোরা শোকেসে দেখানো মত কাজ করবে। যদি এটি করে তবে এটি একটি উল্লেখযোগ্য অগ্রগতি হবে। আমি এটি সর্বজনীনভাবে উপলব্ধ হওয়ার জন্য অধীর আগ্রহে অপেক্ষা করছি যাতে আমি নিজেই ফলাফলগুলি তুলনা করতে পারি৷