```html লেখকগণ: Jun Gao, NVIDIA, University of Toronto, Vector Institute (jung@nvidia.com) Tianchang Shen, NVIDIA, University of Toronto, Vector Institute (frshen@nvidia.com) Zian Wang, NVIDIA, University of Toronto, Vector Institute (zianw@nvidia.com) Wenzheng Chen, NVIDIA, University of Toronto, Vector Institute (wenzchen@nvidia.com) Kangxue Yin, NVIDIA (kangxuey@nvidia.com) Daiqing Li, NVIDIA (daiqingl@nvidia.com) Or Litany, NVIDIA (olitany@nvidia.com) Zan Gojcic, NVIDIA (zgojcic@nvidia.com) Sanja Fidler, NVIDIA, University of Toronto, Vector Institute (sfidler@nvidia.com) সারসংক্ষেপ যেহেতু বিভিন্ন শিল্প বিশাল 3D ভার্চুয়াল বিশ্ব মডেলিংয়ের দিকে অগ্রসর হচ্ছে, তাই 3D বিষয়বস্তুর পরিমাণ, গুণমান এবং বৈচিত্র্যের ক্ষেত্রে স্কেল করতে পারে এমন বিষয়বস্তু তৈরির সরঞ্জামগুলির প্রয়োজনীয়তা স্পষ্ট হয়ে উঠছে। আমাদের কাজে, আমরা পারফর্মার 3D জেনারেটিভ মডেলগুলিকে প্রশিক্ষণ দিতে চাই যা টেক্সচারযুক্ত মেশগুলি সংশ্লেষণ করে যা সরাসরি 3D রেন্ডারিং ইঞ্জিনগুলির দ্বারা ব্যবহার করা যেতে পারে, যা অবিলম্বে ডাউনস্ট্রিম অ্যাপ্লিকেশনগুলিতে ব্যবহারযোগ্য। 3D জেনারেটিভ মডেলিংয়ের পূর্ববর্তী কাজগুলিতে হয় জ্যামিতিক বিবরণের অভাব রয়েছে, মেশ টপোলজির ক্ষেত্রে তাদের সীমাবদ্ধতা রয়েছে যা তারা তৈরি করতে পারে, সাধারণত টেক্সচার সমর্থন করে না, অথবা সংশ্লেষণ প্রক্রিয়ায় নিউরাল রেন্ডারার ব্যবহার করে, যা সাধারণ 3D সফটওয়্যারগুলিতে তাদের ব্যবহারকে তুচ্ছ করে তোলে। এই কাজে, আমরা GET3D চালু করেছি, একটি enerative মডেল যা সরাসরি xplicit extured মেশ তৈরি করে জটিল টপোলজি, সমৃদ্ধ জ্যামিতিক বিবরণ এবং উচ্চ বিশ্বস্ততা টেক্সচার সহ। আমরা 2D ইমেজ সংগ্রহের উপর ভিত্তি করে আমাদের মডেলকে প্রশিক্ষণ দিতে ডিফারেনশিয়াল সারফেস মডেলিং, ডিফারেনশিয়াল রেন্ডারিং এবং 2D জেনারেটিভ অ্যাডভারসারিয়াল নেটওয়ার্কগুলিতে সাম্প্রতিক সাফল্যের সেতু তৈরি করেছি। GET3D উচ্চ-মানের 3D টেক্সচারযুক্ত মেশ তৈরি করতে সক্ষম, যা গাড়ি, চেয়ার, প্রাণী, মোটরবাইক এবং মানব চরিত্র থেকে শুরু করে ভবন পর্যন্ত বিস্তৃত, পূর্ববর্তী পদ্ধতিগুলির উপর উল্লেখযোগ্য উন্নতি অর্জন করে। আমাদের প্রকল্পের পৃষ্ঠা: G E T 3D https://nv-tlabs.github.io/GET3D ১. ভূমিকা বৈচিত্র্যময়, উচ্চ-মানের 3D বিষয়বস্তু গেমিং, রোবোটিক্স, স্থাপত্য এবং সামাজিক প্ল্যাটফর্ম সহ বিভিন্ন শিল্পের জন্য ক্রমবর্ধমান গুরুত্বপূর্ণ হয়ে উঠছে। যাইহোক, 3D সম্পদগুলির ম্যানুয়াল সৃষ্টি অত্যন্ত সময়সাপেক্ষ এবং নির্দিষ্ট প্রযুক্তিগত জ্ঞান এবং শৈল্পিক মডেলিং দক্ষতার প্রয়োজন। প্রধান চ্যালেঞ্জগুলির মধ্যে একটি হল স্কেল – যদিও 3D মার্কেটপ্লেস যেমন Turbosquid [ ] বা Sketchfab [ ] এ 3D মডেল পাওয়া যায়, অনেক 3D মডেল তৈরি করা, যেমন একটি গেম বা সিনেমাকে ভিন্ন চেহারার 3D মডেল দিয়ে জনবহুল করা এখনও উল্লেখযোগ্য পরিমাণ শিল্পীর সময় নেয়। 4 3 বিষয়বস্তু তৈরির প্রক্রিয়াটিকে সহজতর করতে এবং এটিকে বিভিন্ন (নবীন) ব্যবহারকারীর কাছে অ্যাক্সেসযোগ্য করতে, উচ্চ-মানের এবং বৈচিত্র্যময় 3D সম্পদ তৈরি করতে সক্ষম জেনারেটিভ 3D নেটওয়ার্কগুলি সম্প্রতি গবেষণার একটি সক্রিয় ক্ষেত্র হয়ে উঠেছে [ , , , , , , , , , , ]। যাইহোক, বর্তমান বাস্তব-বিশ্বের অ্যাপ্লিকেশনগুলির জন্য ব্যবহারিক ভাবে উপযোগী হতে, 3D জেনারেটিভ মডেলগুলির আদর্শভাবে নিম্নলিখিত প্রয়োজনীয়তাগুলি পূরণ করা উচিত: তাদের অবশ্যই বিস্তারিত জ্যামিতি এবং নির্বিচার টপোলজি সহ আকার তৈরি করার ক্ষমতা থাকতে হবে, আউটপুট একটি টেক্সচারযুক্ত মেশ হওয়া উচিত, যা Blender [ ] এবং Maya [ ] এর মতো স্ট্যান্ডার্ড গ্রাফিক্স সফটওয়্যার প্যাকেজগুলি দ্বারা ব্যবহৃত একটি প্রাথমিক উপস্থাপনা, এবং আমাদের 2D চিত্রগুলি সুপারভিশন হিসাবে ব্যবহার করতে সক্ষম হওয়া উচিত, কারণ এগুলি সুস্পষ্ট 3D আকারের চেয়ে বেশি সহজলভ্য। 5 14 43 46 53 68 75 60 59 69 23 (ক) (খ) 15 1 (গ) 3D জেনারেটিভ মডেলিংয়ের পূর্ববর্তী কাজগুলি উপরের প্রয়োজনীয়তার উপসেটগুলির উপর দৃষ্টি নিবদ্ধ করেছে, কিন্তু আজ পর্যন্ত কোনও পদ্ধতিই সেগুলি পূরণ করে না (সারণী )। উদাহরণস্বরূপ, 3D পয়েন্ট ক্লাউড [ , 68, 75] তৈরি করা পদ্ধতিগুলি সাধারণত টেক্সচার তৈরি করে না এবং পোস্ট-প্রসেসিংয়ে মেশে রূপান্তরিত করতে হয়। 1 5 ভোক্সেল তৈরি করা পদ্ধতিগুলিতে প্রায়শই জ্যামিতিক বিবরণের অভাব থাকে এবং টেক্সচার তৈরি করে না [ , , , ]। নিউরাল ফিল্ডগুলিতে [ , ] ভিত্তি করে জেনারেটিভ মডেলগুলি জ্যামিতি নিষ্কাশনের উপর দৃষ্টি নিবদ্ধ করে তবে টেক্সচার উপেক্ষা করে। এইগুলির মধ্যে বেশিরভাগের জন্য সুস্পষ্ট 3D সুপারভিশনও প্রয়োজন। পরিশেষে, টেক্সচারযুক্ত 3D মেশগুলি সরাসরি আউটপুট করে এমন পদ্ধতিগুলি [ , ] সাধারণত পূর্ব-নির্ধারিত আকৃতির টেমপ্লেটগুলির প্রয়োজন হয় এবং জটিল টপোলজি বা পরিবর্তনশীল জেনাসের আকার তৈরি করতে পারে না। 66 20 27 40 43 14 54 53 সাম্প্রতিককালে, নিউরাল ভলিউম রেন্ডারিং [ ] এবং 2D জেনারেটিভ অ্যাডভারসারিয়াল নেটওয়ার্ক (GANs) [ , , , , ] এ দ্রুত অগ্রগতি 3D-সচেতন চিত্র সংশ্লেষণের উত্থান ঘটিয়েছে [ , , , , , ]। তবে, এই কাজের লাইনটি সংশ্লেষণ প্রক্রিয়ায় নিউরাল রেন্ডারিং ব্যবহার করে মাল্টি-ভিউ সামঞ্জস্যপূর্ণ চিত্র তৈরি করার লক্ষ্য রাখে এবং অর্থপূর্ণ 3D আকার তৈরি করা যেতে পারে তা নিশ্চিত করে না। যদিও একটি মেশ পর্যায়ক্রমে নিউরাল ফিল্ড উপস্থাপনা থেকে মার্চিং কিউব অ্যালগরিদম [ ] ব্যবহার করে প্রাপ্ত করা যেতে পারে, তবে সংশ্লিষ্ট টেক্সচার নিষ্কাশন তুচ্ছ নয়। 45 34 35 33 29 52 7 57 8 49 51 25 39 এই কাজে, আমরা একটি নতুন পদ্ধতির পরিচয় দিচ্ছি যা একটি ব্যবহারিক 3D জেনারেটিভ মডেলের সমস্ত প্রয়োজনীয়তা পূরণের লক্ষ্য রাখে। নির্দিষ্টভাবে, আমরা GET3D প্রস্তাব করি, 3D আকারগুলির জন্য একটি enerative মডেল যা সরাসরি xplicit extured মেশ আউটপুট করে উচ্চ জ্যামিতিক এবং টেক্সচার বিবরণ এবং নির্বিচার মেশ টপোলজি সহ। আমাদের পদ্ধতির কেন্দ্রে একটি জেনারেটিভ প্রক্রিয়া রয়েছে যা একটি ডিফারেনশিয়াল সারফেস নিষ্কাশন পদ্ধতি [ ] এবং একটি ডিফারেনশিয়াল রেন্ডারিং কৌশল [ , ] ব্যবহার করে। প্রাক্তন আমাদের নির্বিচার টপোলজি সহ সরাসরি টেক্সচারযুক্ত 3D মেশগুলি অপ্টিমাইজ এবং আউটপুট করতে সক্ষম করে, যখন পরেরটি আমাদের 2D চিত্রগুলির সাথে আমাদের মডেলকে প্রশিক্ষণ দিতে দেয়, এইভাবে 2D চিত্র সংশ্লেষণের জন্য তৈরি শক্তিশালী এবং পরিপক্ক ডিসক্রিমিনেটরগুলিকে কাজে লাগায়। যেহেতু আমাদের মডেল সরাসরি মেশ তৈরি করে এবং একটি অত্যন্ত দক্ষ (ডিফারেনশিয়াল) গ্রাফিক্স রেন্ডারার ব্যবহার করে, আমরা সহজেই আমাদের মডেলকে চিত্র সহ প্রশিক্ষণের জন্য স্কেল করতে পারি G E T 3D explicit 60 47 37 1024 × 1024 পর্যন্ত রেজোলিউশন, যা আমাদের উচ্চ-মানের জ্যামিতিক এবং টেক্সচার বিবরণ শিখতে দেয়। আমরা ShapeNet [ ], Turbosquid [ ] এবং Renderpeople [ ] থেকে গাড়ি, চেয়ার, প্রাণী, মানব চরিত্র এবং ভবনগুলির মতো জটিল জ্যামিতি সহ একাধিক বিভাগের উপর আনকন্ডিশনাল 3D আকার প্রজন্মের জন্য স্টেট-অফ-দ্য-আর্ট পারফরম্যান্স প্রদর্শন করি। সুস্পষ্ট মেশ আউটপুট উপস্থাপনা হিসাবে, GET3D অত্যন্ত নমনীয় এবং সহজেই অন্যান্য কাজগুলিতে অভিযোজিত হতে পারে, যার মধ্যে রয়েছে: উন্নত ডিফারেনশিয়াল রেন্ডারিং [ ] ব্যবহার করে বিচ্ছিন্ন উপাদান এবং দৃশ্য-নির্ভর আলো প্রভাব তৈরি করতে শেখা, সুপারভিশন ছাড়াই, CLIP [ ] এমবেডিং ব্যবহার করে টেক্সট-নির্দেশিত 3D আকার তৈরি। 9 4 2 (ক) 12 (খ) 56 ২. সম্পর্কিত কাজ আমরা জ্যামিতি এবং উপস্থিতির জন্য 3D জেনারেটিভ মডেলগুলিতে সাম্প্রতিক অগ্রগতি, সেইসাথে 3D-সচেতন জেনারেটিভ চিত্র সংশ্লেষণের পর্যালোচনা করি। সাম্প্রতিক বছরগুলিতে, 2D জেনারেটিভ মডেলগুলি উচ্চ-রেজোলিউশন চিত্র সংশ্লেষণে ফটোরিয়ালিস্টিক গুণমান অর্জন করেছে [ , , , , , , ]। এই অগ্রগতি 3D বিষয়বস্তু প্রজন্মকেও অনুপ্রাণিত করেছে। প্রাথমিক পদ্ধতিগুলি 2D CNN জেনারেটরগুলিকে 3D ভক্সেল গ্রিডে [ , , , , ] প্রসারিত করার লক্ষ্য রাখে, কিন্তু উচ্চ রেজোলিউশনে 3D কনভলিউশনগুলির উচ্চ মেমরি পদচিহ্ন এবং কম্পিউটেশনাল জটিলতা প্রজন্ম প্রক্রিয়াকে বাধা দেয়। বিকল্প হিসাবে, অন্যান্য কাজগুলি পয়েন্ট ক্লাউড [ , , , ], ইমপ্লিসিট [ , ], বা অকট্রি [ ] উপস্থাপনাগুলি অন্বেষণ করেছে। যাইহোক, এই কাজগুলি প্রধানত জ্যামিতি তৈরির উপর দৃষ্টি নিবদ্ধ করে এবং উপস্থিতি উপেক্ষা করে। তাদের আউটপুট উপস্থাপনাগুলিকেও স্ট্যান্ডার্ড গ্রাফিক্স ইঞ্জিনগুলির সাথে সামঞ্জস্যপূর্ণ করার জন্য পোস্ট-প্রসেস করা প্রয়োজন। 3D জেনারেটিভ মডেল 34 35 33 52 29 19 16 66 20 27 40 62 5 68 75 46 43 14 30 আমাদের কাজের সাথে বেশি মিল, Textured3DGAN [ , ] এবং DIBR [ ] টেক্সচারযুক্ত 3D মেশ তৈরি করে, কিন্তু তারা টেমপ্লেট মেশের একটি বিকৃতির হিসাবে প্রজন্মকে ফর্মুলেট করে, যা তাদের জটিল টপোলজি বা পরিবর্তনশীল জেনাস সহ আকার তৈরি করতে বাধা দেয়, যা আমাদের পদ্ধতি করতে পারে। PolyGen [ ] এবং SurfGen [ ] নির্বিচার টপোলজি সহ মেশ তৈরি করতে পারে, তবে টেক্সচার তৈরি করে না। 54 53 11 48 41 নিউরাল ভলিউম রেন্ডারিং [ ] এবং ইমপ্লিসিট উপস্থাপনাগুলিতে [ , ] সাফল্যের দ্বারা অনুপ্রাণিত, সাম্প্রতিক কাজগুলি 3D-সচেতন চিত্র সংশ্লেষণের সমস্যাটিকে মোকাবেলা করতে শুরু করেছে [ , , , , , , , , , ]। যাইহোক, নিউরাল ভলিউম রেন্ডারিং নেটওয়ার্কগুলি সাধারণত কোয়েরি করতে ধীরগতিতে হয়, যার ফলে দীর্ঘ প্রশিক্ষণের সময় [ , ] হয় এবং সীমিত রেজোলিউশনের চিত্র তৈরি হয়। GIRAFFE [ ] এবং StyleNerf [ ] নিউরাল রেন্ডারিং কম রেজোলিউশনে সম্পাদন করে এবং তারপরে 2D CNN দিয়ে ফলাফলগুলি আপস্যাম্পল করে প্রশিক্ষণ এবং রেন্ডারিং দক্ষতা উন্নত করে। যাইহোক, পারফরম্যান্স লাভ মাল্টি-ভিউ সামঞ্জস্যতা হ্রাসের মূল্যে আসে। একটি ডাবল ডিসক্রিমিনেটর ব্যবহার করে, EG3D [ ] এই সমস্যাটিকে আংশিকভাবে প্রশমিত করতে পারে। তবুও, নিউরাল রেন্ডারিংয়ের উপর ভিত্তি করে পদ্ধতিগুলি থেকে একটি টেক্সচারযুক্ত পৃষ্ঠ নিষ্কাশন একটি তুচ্ছ প্রচেষ্টা। বিপরীতে, GET3D সরাসরি টেক্সচারযুক্ত 3D মেশগুলি আউটপুট করে যা স্ট্যান্ডার্ড গ্রাফিক্স ইঞ্জিনগুলিতে সহজেই ব্যবহার করা যেতে পারে। 3D-সচেতন জেনারেটিভ চিত্র সংশ্লেষণ 45 43 14 7 57 49 26 25 76 8 51 58 67 7 57 49 25 8 ৩. পদ্ধতি আমরা এখন টেক্সচারযুক্ত 3D আকার সংশ্লেষণের জন্য আমাদের GET3D ফ্রেমওয়ার্ক উপস্থাপন করি। আমাদের জেনারেশন প্রক্রিয়া দুটি অংশে বিভক্ত: একটি জ্যামিতি শাখা, যা নির্বিচার টপোলজির একটি সারফেস মেশকে ডিফারেনশিয়ালি আউটপুট করে, এবং একটি টেক্সচার শাখা যা একটি টেক্সচার ফিল্ড তৈরি করে যা রঙের আউটপুট পৃষ্ঠের পয়েন্টগুলিতে কোয়েরি করা যেতে পারে। পরেরটি অন্যান্য পৃষ্ঠের বৈশিষ্ট্যগুলির জন্য, যেমন উদাহরণস্বরূপ উপকরণগুলির জন্য (ধারা ) প্রসারিত করা যেতে পারে। প্রশিক্ষণের সময়, 2D উচ্চ-রেজোলিউশনের চিত্রগুলিতে তৈরি টেক্সচারযুক্ত মেশ রেন্ডার করতে একটি দক্ষ ডিফারেনশিয়াল রাস্টারাইজার ব্যবহার করা হয়। পুরো প্রক্রিয়াটি ডিফারেনশিয়াল, যা 2D ডিসক্রিমিনেটর থেকে 3D জেনারেটরগুলিতে গ্রেডিয়েন্টগুলি প্রচার করে চিত্রগুলি (একটি আগ্রহের বস্তুর নির্দেশক মাস্ক সহ) থেকে অ্যাডভারসারিয়াল প্রশিক্ষণের অনুমতি দেয়। আমাদের মডেল চিত্র এ চিত্রিত করা হয়েছে। নিম্নলিখিত, আমরা প্রথমে ধারা এ আমাদের 3D জেনারেটর উপস্থাপন করি, ধারা এ ডিফারেনশিয়াল রেন্ডারিং এবং লস ফাংশনগুলিতে যাওয়ার আগে। 4.3.1 2 3.1 3.2 ৩.১. 3D টেক্সচার্ড মেশের জেনারেটিভ মডেল আমরা একটি 3D জেনারেটর = ( ) শিখতে লক্ষ্য রাখি যা একটি গাউসিয়ান ডিস্ট্রিবিউশন থেকে একটি নমুনাকে M, E G z ∈ N (0*,* ) একটি মেশ টেক্সচার সহ ম্যাপ করে। z I M E যেহেতু একই জ্যামিতির বিভিন্ন টেক্সচার থাকতে পারে, এবং একই টেক্সচার বিভিন্ন জ্যামিতিতে প্রয়োগ করা যেতে পারে, আমরা দুটি র্যান্ডম ইনপুট ভেক্টর 1 ∈ R512 এবং 2 ∈ R512 স্যাম্পল করি। StyleGAN [ , , ] অনুসরণ করে, আমরা তখন নন-লিনিয়ার ম্যাপিং নেটওয়ার্ক geo এবং tex ব্যবহার করি 1 এবং 2 কে মধ্যবর্তী ল্যাটেন্ট ভেক্টর 1 = geo( 1) এবং 2 = tex( 2) তে ম্যাপ করতে যা 3D আকার এবং টেক্সচার তৈরির নিয়ন্ত্রণকারী তৈরি করতে ব্যবহৃত হয়। আমরা ধারা এ জ্যামিতির জন্য জেনারেটর এবং ধারা এ টেক্সচার জেনারেটরকে আনুষ্ঠানিকভাবে উপস্থাপন করি। z z 34 35 33 f f z z w f z w f z স্টাইল 3.1.1 3.1.2 ৩.১.১. জ্যামিতি জেনারেটর আমরা DMTet [ ] অন্তর্ভুক্ত করার জন্য আমাদের জ্যামিতি জেনারেটর ডিজাইন করি, যা সম্প্রতি প্রস্তাবিত একটি ডিফারেনশিয়াল সারফেস উপস্থাপনা। DMTet জ্যামিতিকে একটি ডিফারেনশিয়াল টেট্রাহেড্রাল গ্রিডে সংজ্ঞায়িত একটি সাইনড ডিসটেন্স ফিল্ড (SDF) হিসাবে উপস্থাপন করে [ , ], যেখান থেকে সারফেস ডিফারেনশিয়ালি মার্চিং টেট্রাহেড্রা [ ] এর মাধ্যমে পুনরুদ্ধার করা যায়। গ্রিডের শীর্ষবিন্দুগুলি সরিয়ে গ্রিডকে বিকৃত করলে এর রেজোলিউশনের উন্নত ব্যবহার হয়। সারফেস নিষ্কাশনের জন্য DMTet গ্রহণ করে, আমরা নির্বিচার টপোলজি এবং জেনাস সহ সুস্পষ্ট মেশ তৈরি করতে পারি। আমরা পরবর্তীতে DMTet-এর একটি সংক্ষিপ্ত সারসংক্ষেপ প্রদান করি এবং আরও তথ্যের জন্য মূল কাগজের দিকে নির্দেশ করি। 60 22 24 17 ধরা যাক ( ) সম্পূর্ণ 3D স্থান যা বস্তুটি অবস্থিত, যেখানে হল টেট্রাহেড্রাল গ্রিড এর শীর্ষবিন্দুগুলি। প্রতিটি টেট্রাহেড্রন ∈ চারটি শীর্ষবিন্দু { } ব্যবহার করে সংজ্ঞায়িত হয়, যেখানে ∈ {1*, . . . , K*}, যেখানে হল মোট টেট্রাহেড্রনের সংখ্যা, এবং ∈ ∈ R3। এর 3D স্থানাঙ্ক ছাড়াও, প্রতিটি শীর্ষবিন্দু তে SDF মান ∈ R এবং এর প্রাথমিক ক্যানোনিকাল স্থানাঙ্ক থেকে শীর্ষবিন্দুর বিকৃতি ∆ ∈ R3 থাকে। এই উপস্থাপনাটি ডিফারেনশিয়াল মার্চিং টেট্রাহেড্রা [ ] এর মাধ্যমে সুস্পষ্ট মেশ পুনরুদ্ধার করতে দেয়, যেখানে অবিচ্ছিন্ন স্থানে SDF মানগুলি বিকৃত শীর্ষবিন্দু ′ = + ∆ -এর উপর তাদের মান এর বেরিসেন্ট্রিক ইন্টারপোলেশনের মাধ্যমে গণনা করা হয়। VT , T VT T Tk T v ak , v bk , v ck , v dk k K v ik VT , v ik i v i si v i 60 v v i v i si আমরা 1 ∈ R512 কে প্রতিটি শীর্ষবিন্দু তে SDF মান এবং বিকৃতিতে শর্তযুক্ত 3D কনভলিউশনাল এবং সম্পূর্ণ সংযুক্ত স্তরগুলির একটি সিরিজ মাধ্যমে ম্যাপ করি। নির্দিষ্টভাবে, আমরা প্রথমে 1 এর উপর শর্তযুক্ত একটি ফিচার ভলিউম তৈরি করতে 3D কনভলিউশনাল স্তরগুলি ব্যবহার করি। তারপরে আমরা বেরিসেন্ট্রিক ইন্টারপোলেশন ব্যবহার করে প্রতিটি শীর্ষবিন্দু ∈ তে ফিচার কোয়েরি করি এবং এটিকে MLPs-এ ফিড করি যা SDF মান এবং বিকৃতি ∆ আউটপুট করে। উচ্চ-রেজোলিউশনে মডেলিংয়ের প্রয়োজন হলে (যেমন, চাকার পাতলা কাঠামোর সাথে মোটরবাইক), আমরা আরও [ ] অনুসরণ করে ভলিউম সাবডিভিশন ব্যবহার করি। নেটওয়ার্ক আর্কিটেকচার w v i w v i VT si v i 60 সমস্ত শীর্ষবিন্দুর জন্য এবং ∆ পাওয়ার পরে, আমরা সুস্পষ্ট মেশ নিষ্কাশন করতে ডিফারেনশিয়াল মার্চিং টেট্রাহেড্রা অ্যালগরিদম ব্যবহার করি। মার্চিং টেট্রাহেড্রা টেট্রাহেড্রনের মধ্যে সারফেস টপোলজি নির্ধারণ করে এর চিহ্নের উপর ভিত্তি করে। নির্দিষ্টভাবে, যখন sign( ) /= sign( ), যেখানে টেট্রাহেড্রনের প্রান্তের শীর্ষবিন্দুগুলির সূচকগুলি বোঝায়, তখন একটি মেশ ফেস নিষ্কাশিত হয়, এবং সেই ফেসের শীর্ষবিন্দুগুলি একটি রৈখিক ইন্টারপোলেশন হিসাবে mi,j = v 0 i sj−v 0 j si sj−si দ্বারা নির্ধারিত হয়। মনে রাখবেন যে উপরের সমীকরণটি কেবল তখনই মূল্যায়ন করা হয় যখন si 6= sj, তাই এটি ডিফারেনশিয়াল, এবং mi,j থেকে গ্রেডিয়েন্ট SDF মান si এবং বিকৃতি ∆vi তে ব্যাক-প্রোপাগেটেড হতে পারে। এই উপস্থাপনা সহ, নির্বিচার টপোলজি সহ আকারগুলি si এর বিভিন্ন চিহ্নের ভবিষ্যদ্বাণী করে সহজেই তৈরি করা যেতে পারে। ডিফারেনশিয়াল মেশ নিষ্কাশন si v i si si sj i, j m i,j ৩.১.২. টেক্সচার জেনারেটর আউটপুট মেশের সাথে সামঞ্জস্যপূর্ণ একটি টেক্সচার ম্যাপ সরাসরি তৈরি করা তুচ্ছ নয়, কারণ তৈরি করা আকৃতির একটি নির্বিচার জেনাস এবং টপোলজি থাকতে পারে। তাই আমরা টেক্সচারকে একটি টেক্সচার ফিল্ড [ ] হিসাবে প্যারামিটারাইজ করি। 50 নির্দিষ্টভাবে, আমরা একটি টেক্সচার ফিল্ডকে ফাংশন দিয়ে মডেল করি যা একটি পৃষ্ঠের পয়েন্টের 3D অবস্থান ∈ R3, 2 এর শর্তে, সেই অবস্থানে RGB রঙ ∈ R3 এ ম্যাপ করে। যেহেতু টেক্সচার ফিল্ড জ্যামিতির উপর নির্ভর করে, আমরা অতিরিক্তভাবে এই ম্যাপিংকে জ্যামিতি ল্যাটেন্ট কোড 1 এর উপর শর্তযুক্ত করি, যাতে = ( *,* 1 ⊕ 2) হয়, যেখানে ⊕ সংযোগ বোঝায়। ft p w c w c ft p w w আমরা আমাদের টেক্সচার ফিল্ডকে একটি ট্রাই-প্লেন উপস্থাপনা ব্যবহার করে উপস্থাপন করি, যা 3D বস্তু [ ] পুনরুদ্ধার এবং 3D-সচেতন চিত্র [ ] তৈরি করার ক্ষেত্রে দক্ষ এবং অভিব্যক্তিপূর্ণ। নির্দিষ্টভাবে, আমরা [ , ] অনুসরণ করি এবং ল্যাটেন্ট কোড 1 ⊕ 2 কে × × ( × 3) আকারের তিনটি অক্ষ-সরলীকৃত অর্থোগোনাল ফিচার প্লেনে ম্যাপ করতে একটি শর্তযুক্ত 2D কনভলিউশনাল নিউরাল নেটওয়ার্ক ব্যবহার করি, যেখানে = 256 স্থানিক রেজোলিউশন এবং = 32 চ্যানেল সংখ্যা বোঝায়। নেটওয়ার্ক আর্কিটেকচার 55 8 8 35 w w N N C N C ফিচার প্লেনগুলি দেওয়া হলে, পৃষ্ঠের পয়েন্ট p এর ফিচার ভেক্টর f t ∈ R 32 কে f t = P e ρ(πe(p)) হিসাবে পুনরুদ্ধার করা যেতে পারে, যেখানে πe(p) হল পয়েন্ট p এর ফিচার প্লেন e তে অভিক্ষেপ এবং ρ(·) হল ফিচারগুলির বিলিনিয়ার ইন্টারপোলেশন। একটি অতিরিক্ত সম্পূর্ণ সংযুক্ত স্তর তারপরে একত্রিত ফিচার ভেক্টর f t কে RGB রঙ c এ ম্যাপ করতে ব্যবহৃত হয়। মনে রাখবেন যে, 3D-সচেতন চিত্র সংশ্লেষণ [8, 25, 7, 57] এর অন্যান্য কাজগুলির বিপরীতে যা নিউরাল ফিল্ড উপস্থাপনাও ব্যবহার করে, আমাদের কেবল পৃষ্ঠের পয়েন্টগুলির অবস্থানে টেক্সচার ফিল্ড স্যাম্পল করার প্রয়োজন (একটি রশ্মি বরাবর ঘন স্যাম্পলের বিপরীতে)। এটি উচ্চ-রেজোলিউশন চিত্র রেন্ডার করার জন্য কম্পিউটেশনাল জটিলতা যথেষ্ট কমিয়ে দেয় এবং নির্মাণ অনুসারে মাল্টি-ভিউ সামঞ্জস্যপূর্ণ চিত্র তৈরি করার গ্যারান্টি দেয়। ৩.২. ডিফারেনশিয়াল রেন্ডারিং এবং প্রশিক্ষণ প্রশিক্ষণের সময় আমাদের মডেলকে সুপারভাইজ করার জন্য, আমরা Nvdiffrec [ ] থেকে অনুপ্রেরণা গ্রহণ করি যা একটি ডিফারেনশিয়াল রেন্ডারার ব্যবহার করে মাল্টি-ভিউ 3D অবজেক্ট রিকনস্ট্রাকশন সম্পাদন করে। নির্দিষ্টভাবে, আমরা ডিফারেনশিয়াল রেন্ডারার [ ] ব্যবহার করে নিষ্কাশিত 3D মেশ এবং টেক্সচার ফিল্ডকে 2D চিত্রগুলিতে রেন্ডার করি এবং 2D ডিসক্রিমিনেটর দিয়ে আমাদের নেটওয়ার্ককে সুপারভাইজ করি, যা চিত্রটিকে একটি বাস্তব বস্তু বা তৈরি করা বস্তু থেকে রেন্ডার করা চিত্র থেকে আলাদা করার চেষ্টা করে। 47 37 আমরা ধরে নিই যে ডেটাসেটে চিত্রগুলি অধিগ্রহণ করতে ব্যবহৃত ক্যামেরা বিতরণ C জানা আছে। তৈরি করা আকারগুলি রেন্ডার করতে, আমরা C থেকে একটি ক্যামেরা র্যান্ডমলি স্যাম্পল করি এবং 3D মেশকে একটি 2D সিলুয়েট হিসাবে রেন্ডার করতে একটি অত্যন্ত অপ্টিমাইজড ডিফারেনশিয়াল রাস্টারাইজার Nvdiffrast [ ] ব্যবহার করি, সেইসাথে একটি চিত্র যেখানে প্রতিটি পিক্সেল মেশ পৃষ্ঠের সংশ্লিষ্ট 3D ডিফারেনশিয়াল রেন্ডারিং c 37 পয়েন্টের স্থানাঙ্ক ধারণ করে। এই স্থানাঙ্কগুলি RGB মানগুলি পেতে টেক্সচার ফিল্ড কোয়েরি করতে আরও ব্যবহার করা হয়। যেহেতু আমরা সরাসরি নিষ্কাশিত মেশে কাজ করি, আমরা উচ্চ দক্ষতার সাথে উচ্চ-রেজোলিউশন চিত্র রেন্ডার করতে পারি, যা আমাদের মডেলকে 1024 × 1024 পর্যন্ত চিত্র রেজোলিউশন সহ প্রশিক্ষণ দিতে দেয়। আমরা একটি অ্যাডভারসারিয়াল উদ্দেশ্য ব্যবহার করে আমাদের মডেলকে প্রশিক্ষণ দিই। আমরা StyleGAN [ ] থেকে ডিসক্রিমিনেটর আর্কিটেকচার গ্রহণ করি এবং R1 রেগুলারাইজেশন [ ] সহ একই নন-স্যাচুরেটিং GAN উদ্দেশ্য ব্যবহার করি। আমরা পরীক্ষামূলকভাবে খুঁজে পাই যে দুটি পৃথক ডিসক্রিমিনেটর ব্যবহার করা, একটি RGB চিত্রগুলির জন্য এবং অন্যটি সিলুয়েটগুলির জন্য, উভয়ের উপর চালিত একটি একক ডিসক্রিমিনেটরের চেয়ে ভাল ফলাফল দেয়। ধরা যাক ডিসক্রিমিনেটরকে বোঝায়, যেখানে হয় একটি RGB চিত্র বা একটি সিলুয়েট। অ্যাডভারসারিয়াল উদ্দেশ্য তখন নিম্নরূপ সংজ্ঞায়িত করা হয়: ডিসক্রিমিনেটর ও উদ্দেশ্য 34 42 Dx x যেখানে ( ) কে ( ) = − log(1 +exp(− )) হিসাবে সংজ্ঞায়িত করা হয়, বাস্তব চিত্রগুলির ডিস্ট্রিবিউশন, রেন্ডারিং বোঝায়, এবং একটি হাইপারপ্যারামিটার। যেহেতু ডিফারেনশিয়াল, গ্রেডিয়েন্টগুলি 2D চিত্র থেকে আমাদের 3D জেনারেটরগুলিতে ব্যাক-প্রোপাগেটেড হতে পারে। g u g u u px R λ R কোনও ভিউতে দৃশ্যমান নয় এমন অভ্যন্তরীণ ভাসমান ফেসগুলি সরাতে, আমরা অতিরিক্তভাবে প্রতিবেশী শীর্ষবিন্দুগুলির SDF মানগুলির মধ্যে সংজ্ঞায়িত একটি ক্রস-এনট্রপি লস দিয়ে জ্যামিতি জেনারেটরকে রেগুলারাইজ করি [ ]: রেগুলারাইজেশন 47 যেখানে বাইনারি ক্রস-এনট্রপি লস বোঝায় এবং সিগময়েড ফাংশন বোঝায়। সমীকরণ এর সমষ্টি টেট্রাহেড্রাল গ্রিডের অনন্য প্রান্ত S এর সেটের উপর সংজ্ঞায়িত, যার জন্য sign( ) /= sign( )। H σ 2 e si sj সামগ্রিক লস ফাংশন তখন সংজ্ঞায়িত হয়: যেখানে একটি হাইপারপ্যারামিটার যা রেগুলারাইজেশনের মাত্রা নিয়ন্ত্রণ করে। µ ৪. পরীক্ষা আমরা আমাদের মডেলকে মূল্যায়ন করার জন্য ব্যাপক পরীক্ষা চালাই। আমরা প্রথমে ShapeNet [ ] এবং Turbosquid [ ] ডেটাসেট ব্যবহার করে GET3D দ্বারা তৈরি 3D টেক্সচার্ড মেশগুলির গুণমান তুলনা করি। পরবর্তীকালে, আমরা ধারা এ আমাদের ডিজাইন পছন্দগুলি পরীক্ষা করি। অবশেষে, আমরা ধারা এ ডাউনস্ট্রিম অ্যাপ্লিকেশনগুলিতে এটিকে 9 4 4.2 4.3