```html লেখকগণ: Jun Gao, NVIDIA, University of Toronto, Vector Institute (jung@nvidia.com) Tianchang Shen, NVIDIA, University of Toronto, Vector Institute (frshen@nvidia.com) Zian Wang, NVIDIA, University of Toronto, Vector Institute (zianw@nvidia.com) Wenzheng Chen, NVIDIA, University of Toronto, Vector Institute (wenzchen@nvidia.com) Kangxue Yin, NVIDIA (kangxuey@nvidia.com) Daiqing Li, NVIDIA (daiqingl@nvidia.com) Or Litany, NVIDIA (olitany@nvidia.com) Zan Gojcic, NVIDIA (zgojcic@nvidia.com) Sanja Fidler, NVIDIA, University of Toronto, Vector Institute (sfidler@nvidia.com) সারসংক্ষেপ যেহেতু বিভিন্ন শিল্প বিশাল 3D ভার্চুয়াল বিশ্ব মডেলিংয়ের দিকে অগ্রসর হচ্ছে, তাই 3D বিষয়বস্তুর পরিমাণ, গুণমান এবং বৈচিত্র্যের ক্ষেত্রে স্কেল করতে সক্ষম কন্টেন্ট তৈরির সরঞ্জামগুলির প্রয়োজনীয়তা স্পষ্ট হয়ে উঠছে। আমাদের কাজে, আমরা পারফরম্যান্ট 3D জেনারেটিভ মডেল প্রশিক্ষণের লক্ষ্য রাখি যা টেক্সচারযুক্ত মেশ তৈরি করে যা সরাসরি 3D রেন্ডারিং ইঞ্জিন দ্বারা ব্যবহার করা যেতে পারে, ফলে ডাউনস্ট্রিম অ্যাপ্লিকেশনগুলিতে তাৎক্ষণিকভাবে ব্যবহারযোগ্য হয়। 3D জেনারেটিভ মডেলিংয়ের উপর পূর্ববর্তী কাজগুলিতে হয় জ্যামিতিক বিশদ বিবরণের অভাব রয়েছে, তারা যে মেশ টপোলজি তৈরি করতে পারে তাতে সীমিত, সাধারণত টেক্সচার সমর্থন করে না, অথবা সংশ্লেষণ প্রক্রিয়ায় নিউরাল রেন্ডারার ব্যবহার করে, যা সাধারণ 3D সফ্টওয়্যারে তাদের ব্যবহারকে অ-তুচ্ছ করে তোলে। এই কাজে, আমরা GET3D চালু করছি, একটি enerative মডেল যা সরাসরি xplicit extured মেশ তৈরি করে যাতে জটিল টপোলজি, সমৃদ্ধ জ্যামিতিক বিশদ এবং উচ্চ বিশ্বস্ততার টেক্সচার রয়েছে। আমরা 2D ইমেজ সংগ্রহ থেকে আমাদের মডেলকে প্রশিক্ষণের জন্য ডিফারেনসিয়েবল সারফেস মডেলিং, ডিফারেনসিয়েবল রেন্ডারিং এবং 2D জেনারেটিভ অ্যাডভারসারিয়াল নেটওয়ার্কগুলিতে সাম্প্রতিক সাফল্যকে কাজে লাগাচ্ছি। GET3D গাড়ি, চেয়ার, প্রাণী, মোটরসাইকেল এবং মানব চরিত্র থেকে শুরু করে বিল্ডিং পর্যন্ত উচ্চ-মানের 3D টেক্সচারযুক্ত মেশ তৈরি করতে সক্ষম, যা পূর্ববর্তী পদ্ধতির তুলনায় উল্লেখযোগ্য উন্নতি অর্জন করেছে। আমাদের প্রজেক্ট পেজ: G E T 3D https://nv-tlabs.github.io/GET3D 1 ভূমিকা গেমিং, রোবোটিক্স, স্থাপত্য এবং সামাজিক প্ল্যাটফর্ম সহ বিভিন্ন শিল্পের জন্য বৈচিত্র্যময়, উচ্চ-মানের 3D বিষয়বস্তু ক্রমবর্ধমান গুরুত্বপূর্ণ হয়ে উঠছে। যাইহোক, 3D সম্পদগুলির ম্যানুয়াল সৃষ্টি অত্যন্ত সময়সাপেক্ষ এবং নির্দিষ্ট প্রযুক্তিগত জ্ঞান এবং শৈল্পিক মডেলিং দক্ষতার প্রয়োজন। প্রধান চ্যালেঞ্জগুলির মধ্যে একটি হল স্কেল - যদিও টার্বোসুইড [ ] বা স্কেচফ্যাব [ ] এর মতো 3D মার্কেটপ্লেসে 3D মডেল খুঁজে পাওয়া যায়, অনেক 3D মডেল তৈরি করা, ধরা যাক, একটি গেম বা মুভিকে একটি ভিন্ন চেহারার চরিত্রের ভিড়ে পূর্ণ করার জন্য এখনও উল্লেখযোগ্য পরিমাণ শিল্পীর সময় লাগে। 4 3 বিষয়বস্তু তৈরির প্রক্রিয়াটিকে সহজতর করতে এবং এটিকে বিভিন্ন (শিক্ষানবিস) ব্যবহারকারীর কাছে অ্যাক্সেসযোগ্য করতে, উচ্চ-মানের এবং বৈচিত্র্যময় 3D সম্পদ তৈরি করতে সক্ষম জেনারেটিভ 3D নেটওয়ার্কগুলি সম্প্রতি গবেষণার একটি সক্রিয় ক্ষেত্র হয়ে উঠেছে [ , , , , , , , , , , ]। তবে, বর্তমান বাস্তব-বিশ্বের অ্যাপ্লিকেশনগুলির জন্য কার্যত উপযোগী হতে, 3D জেনারেটিভ মডেলগুলির আদর্শভাবে নিম্নলিখিত প্রয়োজনীয়তাগুলি পূরণ করা উচিত: তাদের জটিল জ্যামিতি এবং নির্বিচারে টপোলজি সহ আকার তৈরি করার ক্ষমতা থাকা উচিত, আউটপুট একটি টেক্সচারযুক্ত মেশ হওয়া উচিত, যা ব্লেন্ডার [ ] এবং মায়া [ ] এর মতো স্ট্যান্ডার্ড গ্রাফিক্স সফ্টওয়্যার প্যাকেজগুলির দ্বারা ব্যবহৃত একটি প্রাথমিক উপস্থাপনা, এবং আমরা 2D চিত্রগুলি তত্ত্বাবধানের জন্য ব্যবহার করতে পারি, কারণ সেগুলি স্পষ্ট 3D আকারের চেয়ে বেশি সহজলভ্য। 5 14 43 46 53 68 75 60 59 69 23 (ক) (খ) 15 1 (গ) 3D জেনারেটিভ মডেলিংয়ের উপর পূর্ববর্তী কাজগুলি উপরের প্রয়োজনীয়তার উপসেটগুলিতে মনোনিবেশ করেছে, কিন্তু আজ পর্যন্ত কোনও পদ্ধতি সেগুলি পূরণ করে না (সারণী। )। উদাহরণস্বরূপ, 3D পয়েন্ট ক্লাউড [ , 68, 75] তৈরি করে এমন পদ্ধতিগুলি সাধারণত টেক্সচার তৈরি করে না এবং পোস্ট-প্রসেসিংয়ে মেশে রূপান্তরিত করতে হয়। 1 5 ভক্সেল তৈরি করে এমন পদ্ধতিগুলিতে প্রায়শই জ্যামিতিক বিশদ বিবরণের অভাব থাকে এবং টেক্সচার তৈরি করে না [ , , , ]। নিউরাল ফিল্ডগুলিতে [ , ] ভিত্তি করে জেনারেটিভ মডেলগুলি জ্যামিতি নিষ্কাশনের উপর ফোকাস করে কিন্তু টেক্সচার উপেক্ষা করে। এর মধ্যে বেশিরভাগের জন্য স্পষ্ট 3D তত্ত্বাবধানের প্রয়োজন হয়। অবশেষে, সরাসরি টেক্সচারযুক্ত 3D মেশ [ , ] তৈরি করে এমন পদ্ধতিগুলির সাধারণত পূর্ব-সংজ্ঞায়িত আকৃতি টেমপ্লেটগুলির প্রয়োজন হয় এবং জটিল টপোলজি এবং পরিবর্তনশীল জেনাসের আকার তৈরি করতে পারে না। 66 20 27 40 43 14 54 53 সম্প্রতি, নিউরাল ভলিউম রেন্ডারিং [ ] এবং 2D জেনারেটিভ অ্যাডভারসারিয়াল নেটওয়ার্ক (GANs) [ , , , , ] এ দ্রুত অগ্রগতি 3D-সচেতন চিত্র সংশ্লেষণের উত্থান ঘটিয়েছে [ , , , , , ]। যাইহোক, এই কাজের লক্ষ্য হল নিউরাল রেন্ডারিং সংশ্লেষণ প্রক্রিয়ায় মাল্টি-ভিউ ধারাবাহিক চিত্র তৈরি করা এবং এটি নিশ্চিত করে না যে অর্থপূর্ণ 3D আকার তৈরি করা যেতে পারে। যদিও একটি মেশ সম্ভাব্যভাবে মার্চিং কিউব অ্যালগরিদম [ ] ব্যবহার করে অন্তর্নিহিত নিউরাল ফিল্ড উপস্থাপনা থেকে প্রাপ্ত হতে পারে, তবে সংশ্লিষ্ট টেক্সচার বের করা অ-তুচ্ছ। 45 34 35 33 29 52 7 57 8 49 51 25 39 এই কাজে, আমরা একটি নতুন পদ্ধতির পরিচয় দিচ্ছি যা একটি কার্যত দরকারী 3D জেনারেটিভ মডেলের সমস্ত প্রয়োজনীয়তা মোকাবেলা করার লক্ষ্য রাখে। নির্দিষ্টভাবে, আমরা GET3D চালু করছি, 3D আকারগুলির জন্য একটি enerative মডেল যা সরাসরি xplicit extured মেশ আউটপুট করে যা উচ্চ জ্যামিতিক এবং টেক্সচার বিশদ এবং নির্বিচারে মেশ টপোলজি সহ। আমাদের পদ্ধতির কেন্দ্রে একটি জেনারেটিভ প্রক্রিয়া রয়েছে যা একটি ডিফারেনসিয়েবল *explicit* সারফেস নিষ্কাশন পদ্ধতি [ ] এবং একটি ডিফারেনসিয়েবল রেন্ডারিং কৌশল [ , ] ব্যবহার করে। পূর্বেরটি আমাদের নির্বিচারে টপোলজি সহ টেক্সচারযুক্ত 3D মেশ অপ্টিমাইজ এবং আউটপুট করতে সক্ষম করে, যখন পরবর্তীটি আমাদের 2D চিত্রগুলির সাথে আমাদের মডেলকে প্রশিক্ষণ দিতে দেয়, এইভাবে 2D চিত্র সংশ্লেষণের জন্য তৈরি শক্তিশালী এবং পরিপক্ক ডিসক্রিমিনেটরগুলিকে কাজে লাগায়। যেহেতু আমাদের মডেল সরাসরি মেশ তৈরি করে এবং একটি অত্যন্ত কার্যকর (ডিফারেনসিয়েবল) গ্রাফিক্স রেন্ডারার ব্যবহার করে, আমরা আমাদের মডেলকে ইমেজ রেজোলিউশন 1024 × 1024 পর্যন্ত প্রশিক্ষণ দিতে সহজেই স্কেল আপ করতে পারি, যা আমাদের উচ্চ-মানের জ্যামিতিক এবং টেক্সচার বিশদ শিখতে দেয়। G E T 3D 60 47 37 আমরা ShapeNet [ ], Turbosquid [ ] এবং Renderpeople [ ] থেকে গাড়ি, চেয়ার, মোটরসাইকেল, মানব চরিত্র এবং বিল্ডিংগুলির মতো জটিল জ্যামিতি সহ একাধিক বিভাগে শর্তহীন 3D আকার তৈরির ক্ষেত্রে অত্যাধুনিক পারফরম্যান্স প্রদর্শন করি। স্পষ্ট মেশ আউটপুট উপস্থাপনা হিসাবে, GET3D অত্যন্ত নমনীয় এবং সহজেই অন্যান্য কাজের সাথে অভিযোজিত হতে পারে, যার মধ্যে রয়েছে: উন্নত ডিফারেনসিয়েবল রেন্ডারিং [ ] ব্যবহার করে বিযোজিত উপাদান এবং ভিউ-নির্ভর আলোর প্রভাব তৈরি করতে শেখা, তত্ত্বাবধান ছাড়াই, CLIP [ ] এমবেডিং ব্যবহার করে টেক্সট-গাইডেড 3D আকার তৈরি। 9 4 2 (ক) 12 (খ) 56 2 সম্পর্কিত কাজ আমরা জ্যামিতি এবং উপস্থিতির জন্য 3D জেনারেটিভ মডেলগুলিতে সাম্প্রতিক অগ্রগতি, সেইসাথে 3D-সচেতন জেনারেটিভ ইমেজ সংশ্লেষণ পর্যালোচনা করি। সাম্প্রতিক বছরগুলিতে, 2D জেনারেটিভ মডেলগুলি উচ্চ-রেজোলিউশন চিত্র সংশ্লেষণে ফটোরিয়ালিস্টিক গুণমান অর্জন করেছে [ , , , , , , ]। এই অগ্রগতি 3D বিষয়বস্তু তৈরির ক্ষেত্রেও অনুপ্রেরণা জুগিয়েছে। প্রথম দিকের পদ্ধতিগুলি 2D CNN জেনারেটরগুলিকে 3D ভক্সেল গ্রিডে [ , , , , ] প্রসারিত করার লক্ষ্য ছিল, কিন্তু উচ্চ রেজোলিউশনে 3D কনভোলিউশনের উচ্চ মেমরি ফুটপ্রিন্ট এবং কম্পিউটেশনাল জটিলতা জেনারেশন প্রক্রিয়াকে বাধা দেয়। বিকল্প হিসাবে, অন্যান্য কাজগুলি পয়েন্ট ক্লাউড [ , , , ], ইমপ্লিসিট [ , ], বা অক্ট্রি [ ] উপস্থাপনাগুলি অন্বেষণ করেছে। তবে, এই কাজগুলি প্রধানত জ্যামিতি তৈরির উপর দৃষ্টি নিবদ্ধ করে এবং চেহারা উপেক্ষা করে। তাদের আউটপুট উপস্থাপনাগুলি স্ট্যান্ডার্ড গ্রাফিক্স ইঞ্জিনগুলির সাথে সামঞ্জস্যপূর্ণ করার জন্য পোস্ট-প্রসেস করাও প্রয়োজন। 3D জেনারেটিভ মডেল 34 35 33 52 29 19 16 66 20 27 40 62 5 68 75 46 43 14 30 আমাদের কাজের সাথে আরও বেশি সাদৃশ্যপূর্ণ, টেক্সচার্ড3ডগ্যান [ , ] এবং ডিআইবিআর [ ] টেক্সচারযুক্ত 3D মেশ তৈরি করে, কিন্তু তারা একটি টেমপ্লেট মেশের একটি বিকৃতি হিসাবে প্রজন্মকে প্রণয়ন করে, যা তাদের জটিল টপোলজি বা পরিবর্তনশীল জেনাসের আকার তৈরি করতে বাধা দেয়, যা আমাদের পদ্ধতি করতে পারে। পলিগেন [ ] এবং সার্ফজেন [ ] নির্বিচারে টপোলজি সহ মেশ তৈরি করতে পারে, তবে টেক্সচার তৈরি করে না। 54 53 11 48 41 নিউরাল ভলিউম রেন্ডারিং [ ] এবং ইমপ্লিসিট উপস্থাপনাগুলির [ , ] সাফল্যের দ্বারা অনুপ্রাণিত, সাম্প্রতিক কাজগুলি 3D-সচেতন চিত্র সংশ্লেষণের সমস্যা মোকাবেলা শুরু করেছে [ , , , , , , , , , ]। তবে, নিউরাল ভলিউম রেন্ডারিং নেটওয়ার্কগুলি সাধারণত কোয়েরি করতে ধীরগতির হয়, যা দীর্ঘ প্রশিক্ষণের সময় [ , ] এর দিকে নিয়ে যায় এবং সীমিত রেজোলিউশনের চিত্র তৈরি করে। GIRAFFE [ ] এবং StyleNerf [ ] নিউরাল রেন্ডারিং একটি নিম্ন রেজোলিউশনে সম্পাদন করে এবং তারপরে 2D CNN দিয়ে ফলাফলগুলি আপস্যাম্পল করে প্রশিক্ষণ এবং রেন্ডারিংয়ের দক্ষতা উন্নত করে। যাইহোক, পারফরম্যান্সের লাভ একটি হ্রাস মাল্টি-ভিউ ধারাবাহিকতার মূল্যে আসে। একটি ডুয়াল ডিসক্রিমিনেটর ব্যবহার করে, EG3D [ ] এই সমস্যাটিকে আংশিকভাবে কমাতে পারে। তা সত্ত্বেও, নিউরাল রেন্ডারিংয়ের উপর ভিত্তি করে পদ্ধতিগুলি থেকে একটি টেক্সচারযুক্ত পৃষ্ঠ বের করা একটি অ-তুচ্ছ প্রচেষ্টা। বিপরীতে, GET3D সরাসরি টেক্সচারযুক্ত 3D মেশ আউটপুট করে যা স্ট্যান্ডার্ড গ্রাফিক্স ইঞ্জিনগুলিতে সহজেই ব্যবহার করা যেতে পারে। 3D-Aware জেনারেটিভ ইমেজ সিন্থেসিস 45 43 14 7 57 49 26 25 76 8 51 58 67 7 57 49 25 8 3 পদ্ধতি আমরা এখন টেক্সচারযুক্ত 3D আকার তৈরির জন্য আমাদের GET3D ফ্রেমওয়ার্ক উপস্থাপন করছি। আমাদের জেনারেশন প্রক্রিয়া দুটি অংশে বিভক্ত: একটি জ্যামিতি শাখা, যা নির্বিচারে টপোলজির একটি সারফেস মেশ ডিফারেনসিয়েবলভাবে আউটপুট করে, এবং একটি টেক্সচার শাখা যা একটি টেক্সচার ফিল্ড তৈরি করে যা রঙের উত্পাদন করার জন্য সারফেস পয়েন্টগুলিতে কোয়েরি করা যেতে পারে। পরবর্তীটি অন্যান্য সারফেস বৈশিষ্ট্যগুলির জন্য প্রসারিত হতে পারে যেমন উদাহরণস্বরূপ উপকরণ (ধারা )। প্রশিক্ষণের সময়, 2D উচ্চ-রেজোলিউশন চিত্রগুলিতে তৈরি টেক্সচারযুক্ত মেশ রেন্ডার করার জন্য একটি কার্যকর ডিফারেনসিয়েবল রেস্টেরাইজার ব্যবহার করা হয়। পুরো প্রক্রিয়াটি ডিফারেনসিয়েবল, চিত্রগুলি থেকে অ্যাডভারসারিয়াল প্রশিক্ষণের অনুমতি দেয় (একটি নির্দিষ্ট বস্তুর মাস্ক সহ) 2D ডিসক্রিমিনেটর থেকে উভয় জেনারেটর শাখায় গ্রেডিয়েন্টগুলি প্রচার করে। আমাদের মডেল চিত্র এ চিত্রিত করা হয়েছে। নিম্নলিখিতগুলিতে, আমরা প্রথমে আমাদের 3D জেনারেটর ধারা এ পরিচয় করিয়ে দিচ্ছি, তারপরে ধারা এ ডিফারেনসিয়েবল রেন্ডারিং এবং লস ফাংশনগুলির দিকে অগ্রসর হচ্ছি। 4.3.1 2 3.1 3.2 3.1 3D টেক্সচারযুক্ত মেশের জেনারেটিভ মডেল আমরা একটি 3D জেনারেটর = ( ) শিখতে লক্ষ্য রাখি যা একটি গাউসিয়ান ডিস্ট্রিবিউশন থেকে একটি নমুনাকে ম্যাপ করে M, E G z ∈ N (0*,* ) একটি মেশ টেক্সচার সহ। z I M E যেহেতু একই জ্যামিতির বিভিন্ন টেক্সচার থাকতে পারে এবং একই টেক্সচার বিভিন্ন জ্যামিতিতে প্রয়োগ করা যেতে পারে, আমরা দুটি র্যান্ডম ইনপুট ভেক্টর 1 ∈ R512 এবং 2 ∈ R512 নমুনা করি। StyleGAN [ , , ] অনুসরণ করে, আমরা তখন নন-লিনিয়ার ম্যাপিং নেটওয়ার্ক geo এবং tex ব্যবহার করি 1 এবং 2 কে মধ্যবর্তী ল্যাটেন্ট ভেক্টর 1 = geo( 1) এবং 2 = tex( 2) তে ম্যাপ করতে যা 3D আকার এবং টেক্সচার তৈরির নিয়ন্ত্রণকারী *স্টাইল* তৈরি করতে ব্যবহৃত হয়। আমরা ধারা এ জ্যামিতির জন্য জেনারেটর এবং ধারা এ টেক্সচার জেনারেটরকে আনুষ্ঠানিকভাবে পরিচয় করিয়ে দিচ্ছি। z z 34 35 33 f f z z w f z w f z 3.1.1 3.1.2 3.1.1 জ্যামিতি জেনারেটর আমরা DMTet [ ] অন্তর্ভুক্ত করার জন্য আমাদের জ্যামিতি জেনারেটর ডিজাইন করেছি, একটি সম্প্রতি প্রস্তাবিত ডিফারেনসিয়েবল সারফেস উপস্থাপনা। DMTet জ্যামিতিকে একটি ডিফারেনসিয়েবল ডিফর্মেবল টেট্রাহেড্রাল গ্রিডে [ , ] সংজ্ঞায়িত সাইনড ডিসটেন্স ফিল্ড (SDF) হিসাবে উপস্থাপন করে, যেখান থেকে মার্চিং টেট্রাহেড্রা [ ] এর মাধ্যমে ডিফারেনসিয়েবলভাবে সারফেস পুনরুদ্ধার করা যেতে পারে। এর রেজোলিউশনের একটি ভাল ব্যবহার নিশ্চিত করার জন্য গ্রিডের ভার্টিসেসগুলি সরিয়ে বিকৃত করা হয়। সারফেস নিষ্কাশনের জন্য DMTet গ্রহণ করে, আমরা নির্বিচারে টপোলজি এবং জেনাস সহ স্পষ্ট মেশ তৈরি করতে পারি। আমরা DMTet এর একটি সংক্ষিপ্ত সারসংক্ষেপ প্রদান করছি এবং আরও তথ্যের জন্য মূল কাগজের দিকে নির্দেশ করছি। 60 22 24 17 ধরা যাক ( ) বস্তুটি যে পূর্ণ 3D স্থানটিতে অবস্থিত তা বোঝায়, যেখানে হল টেট্রাহেড্রাল গ্রিড এর ভার্টিসেস। প্রতিটি টেট্রাহেড্রন ∈ চারটি ভার্টিসেস { } দ্বারা সংজ্ঞায়িত, যেখানে ∈ {1*, . . . , K*}, হল টেট্রাহেড্রনের মোট সংখ্যা, এবং ∈ ∈ R3। এর 3D স্থানাঙ্ক ছাড়াও, প্রতিটি ভার্টেক্স SDF মান ∈ R এবং প্রাথমিক ক্যানোনিকাল স্থানাঙ্ক থেকে ভার্টেক্সটির বিকৃতি ∆ ∈ R3 ধারণ করে। এই উপস্থাপনা ডিফারেনসিয়েবল মার্চিং টেট্রাহেড্রা [ ] এর মাধ্যমে স্পষ্ট মেশ পুনরুদ্ধার করতে দেয়, যেখানে অবিচ্ছিন্ন স্থানে SDF মানগুলি বিকৃত ভার্টিসেস ′ = + ∆ এর উপর তাদের মান এর ব্যারি-সেন্ট্রিক ইন্টারপোলেশন দ্বারা গণনা করা হয়। VT , T VT T Tk T v ak , v bk , v ck , v dk k K v ik VT , v ik i v i si v i 60 v v i v i si আমরা 1 ∈ R512 কে প্রতিটি ভার্টেক্স এর জন্য SDF মান এবং বিকৃতির সাথে শর্তযুক্ত 3D কনভোলিউশনাল এবং সম্পূর্ণ সংযুক্ত স্তরগুলির একটি সিরিজের মাধ্যমে ম্যাপ করি। নির্দিষ্টভাবে, আমরা প্রথমে 1 এর উপর শর্তযুক্ত একটি বৈশিষ্ট্য ভলিউম তৈরি করতে 3D কনভোলিউশনাল স্তরগুলি ব্যবহার করি। তারপরে আমরা ট্রাইলিনিয়ার ইন্টারপোলেশন ব্যবহার করে প্রতিটি ভার্টেক্স নেটওয়ার্ক আর্কিটেকচার w v i w v i ∈ এ বৈশিষ্ট্যটি কোয়েরি করি এবং এটি এমএলপিগুলিতে ফিড করি যা SDF মান এবং বিকৃতি ∆ আউটপুট করে। উচ্চ-রেজোলিউশনে মডেলিংয়ের প্রয়োজন হলে (যেমন, চাকার পাতলা কাঠামোর মোটরসাইকেল), আমরা আরও [ ] অনুসরণ করে ভলিউম সাবডিভিশন ব্যবহার করি। VT si v i 60 সমস্ত ভার্টিসেসের জন্য এবং ∆ পাওয়ার পর, আমরা স্পষ্ট মেশ বের করার জন্য ডিফারেনসিয়েবল মার্চিং টেট্রাহেড্রা অ্যালগরিদম ব্যবহার করি। মার্চিং টেট্রাহেড্রা এর চিহ্নের উপর ভিত্তি করে প্রতিটি টেট্রাহেড্রনের মধ্যে সারফেস টপোলজি নির্ধারণ করে। নির্দিষ্টভাবে, যখন sign( ) /= sign( ), যেখানে টেট্রাহেড্রনের প্রান্তের ভার্টিসেসের সূচকগুলি বোঝায়, তখন একটি মেশ মুখ বের করা হয়, এবং সেই মুখের ভার্টিসেস একটি লিনিয়ার ইন্টারপোলেশন হিসাবে mi,j = v 0 i sj−v 0 j si sj−si হিসাবে নির্ধারিত হয়। মনে রাখবেন যে উপরের সমীকরণটি কেবল তখনই মূল্যায়ন করা হয় যখন si 6= sj, তাই এটি ডিফারেনসিয়েবল, এবং mi,j থেকে গ্রেডিয়েন্ট SDF মান si এবং বিকৃতি ∆vi তে ব্যাক-প্রোপাগেট করা যেতে পারে। এই উপস্থাপনা সহ, এর বিভিন্ন চিহ্ন ভবিষ্যদ্বাণী করে নির্বিচারে টপোলজি সহ আকারগুলি সহজে তৈরি করা যেতে পারে। ডিফারেনসিয়েবল মেশ নিষ্কাশন si v i si si sj i, j m i,j si 3.1.2 টেক্সচার জেনারেটর আউটপুট মেশের সাথে সামঞ্জস্যপূর্ণ একটি টেক্সচার ম্যাপ সরাসরি তৈরি করা সহজ নয়, কারণ তৈরি করা আকারের নির্বিচারে জেনাস এবং টপোলজি থাকতে পারে। আমরা তাই টেক্সচারকে একটি টেক্সচার ফিল্ড [ ] হিসাবে প্যারামিটারাইজ করি। 50 নির্দিষ্টভাবে, আমরা একটি ফাংশন দিয়ে টেক্সচার ফিল্ড মডেল করি যা একটি সারফেস পয়েন্ট ∈ R3 এর 3D অবস্থানকে, 2 এর শর্তে, সেই অবস্থানে RGB রঙের ∈ R3 তে ম্যাপ করে। যেহেতু টেক্সচার ফিল্ড জ্যামিতির উপর নির্ভর করে, আমরা অতিরিক্তভাবে এই ম্যাপিংকে জ্যামিতি ল্যাটেন্ট কোড 1 এর উপর শর্তযুক্ত করি, যাতে = ( *,* 1 ⊕ 2), যেখানে ⊕ কনক্যাটেনেশনকে বোঝায়। ft p w c w c ft p w w আমরা একটি ট্রাই-প্লেন উপস্থাপনা ব্যবহার করে আমাদের টেক্সচার ফিল্ড উপস্থাপন করি, যা 3D অবজেক্ট [ ] পুনরুদ্ধার এবং 3D-সচেতন ছবি [ ] তৈরিতে কার্যকর এবং অভিব্যক্তিপূর্ণ। নির্দিষ্টভাবে, আমরা [ , ] অনুসরণ করি এবং ল্যাটেন্ট কোড 1 ⊕ 2 কে তিনটি অক্ষ-অ্যালাইনড অর্থোগোনাল বৈশিষ্ট্য প্লেনগুলিতে × × ( × 3) আকারের একটি কন্ডিশনাল 2D কনভোলিউশনাল নিউরাল নেটওয়ার্ক ব্যবহার করি, যেখানে = 256 স্থানিক রেজোলিউশন এবং = 32 চ্যানেলগুলির সংখ্যা বোঝায়। নেটওয়ার্ক আর্কিটেকচার 55 8 8 35 w w N N C N C বৈশিষ্ট্য প্লেনগুলি প্রদত্ত, একটি সারফেস পয়েন্ট p এর বৈশিষ্ট্য ভেক্টর f t ∈ R 32 কে f t = P e ρ(πe(p)) হিসাবে পুনরুদ্ধার করা যেতে পারে, যেখানে πe(p) হল বৈশিষ্ট্য প্লেন e তে পয়েন্ট p এর প্রক্ষেপণ এবং ρ(·) বৈশিষ্ট্যগুলির বাইলিনিয়ার ইন্টারপোলেশন বোঝায়। অতিরিক্তভাবে একটি সম্পূর্ণ সংযুক্ত স্তর ব্যবহার করা হয় অ্যাগ্রিগেটেড বৈশিষ্ট্য ভেক্টর f t কে RGB রঙ c তে ম্যাপ করার জন্য। মনে রাখবেন, 3D-সচেতন চিত্র সংশ্লেষণ [8, 25, 7, 57] এর অন্যান্য কাজের থেকে ভিন্ন যা একটি নিউরাল ফিল্ড উপস্থাপনাও ব্যবহার করে, আমাদের কেবল সারফেস পয়েন্টগুলির অবস্থানগুলিতে টেক্সচার ফিল্ড নমুনা করতে হবে (একটি ঘন নমুনা রেয়ের পাশাপাশি)। এটি উচ্চ-রেজোলিউশন চিত্রগুলি রেন্ডার করার জন্য কম্পিউটেশনাল জটিলতা উল্লেখযোগ্যভাবে হ্রাস করে এবং নির্মাণ দ্বারা মাল্টি-ভিউ ধারাবাহিক চিত্র তৈরি করার নিশ্চয়তা দেয়। 3.2 ডিফারেনসিয়েবল রেন্ডারিং এবং প্রশিক্ষণ প্রশিক্ষণের সময় আমাদের মডেলকে সুপারভাইজ করার জন্য, আমরা Nvdiffrec [ ] থেকে অনুপ্রেরণা নিই যা একটি ডিফারেনসিয়েবল রেন্ডারার ব্যবহার করে মাল্টি-ভিউ 3D অবজেক্ট রিকনস্ট্রাকশন সম্পাদন করে। নির্দিষ্টভাবে, আমরা একটি ডিফারেনসিয়েবল রেন্ডারার [ ] ব্যবহার করে নিষ্কাশিত 3D মেশ এবং টেক্সচার ফিল্ডকে 2D চিত্রগুলিতে রেন্ডার করি এবং একটি 2D ডিসক্রিমিনেটর সহ আমাদের নেটওয়ার্ককে সুপারভাইজ করি, যা আসল বস্তু থেকে বা তৈরি করা বস্তু থেকে রেন্ডার করা চিত্রটিকে আলাদা করার চেষ্টা করে। 47 37 আমরা ধরে নিচ্ছি যে ক্যামেরা ডিস্ট্রিবিউশন C যা ডেটাসেটে চিত্রগুলি অর্জনের জন্য ব্যবহৃত হয়েছিল তা পরিচিত। তৈরি করা আকারগুলি রেন্ডার করার জন্য, আমরা C থেকে একটি ক্যামেরা র্যান্ডমভাবে নমুনা করি, এবং 2D সিলুয়েট হিসাবে 3D মেশ রেন্ডার করার জন্য একটি অত্যন্ত অপ্টিমাইজড ডিফারেনসিয়েবল রেস্টেরাইজার Nvdiffrast [ ] ব্যবহার করি, সেইসাথে একটি চিত্র যেখানে প্রতিটি পিক্সেল মেশ পৃষ্ঠের সংশ্লিষ্ট 3D পয়েন্টের স্থানাঙ্ক ধারণ করে। এই স্থানাঙ্কগুলি RGB মানগুলি পেতে টেক্সচার ফিল্ড কোয়েরি করার জন্য আরও ব্যবহৃত হয়। যেহেতু আমরা সরাসরি নিষ্কাশিত মেশের উপর কাজ করি, আমরা উচ্চ দক্ষতার সাথে উচ্চ-রেজোলিউশন চিত্রগুলি রেন্ডার করতে পারি, যা আমাদের মডেলকে 1024 × 1024 পর্যন্ত চিত্র রেজোলিউশনের সাথে প্রশিক্ষণের অনুমতি দেয়। ডিফারেনসিয়েবল রেন্ডারিং c 37 আমরা একটি অ্যাডভারসারিয়াল উদ্দেশ্য ব্যবহার করে আমাদের মডেল প্রশিক্ষণ দিই। আমরা StyleGAN [ ] থেকে ডিসক্রিমিনেটর আর্কিটেকচার গ্রহণ করি এবং R1 রেগুলারাইজেশন [ ] সহ একই নন-স্যাচুরেটিং GAN উদ্দেশ্য ব্যবহার করি। আমরা পরীক্ষামূলকভাবে খুঁজে পেয়েছি যে দুটি পৃথক ডিসক্রিমিনেটর ব্যবহার করা, একটি RGB চিত্রের জন্য এবং অন্যটি সিলুয়েটের জন্য, উভয়টির উপর পরিচালিত একটি একক ডিসক্রিমিনেটরের চেয়ে ভাল ফলাফল দেয়। ধরা যাক ডিসক্রিমিনেটরকে বোঝায়, যেখানে হয় একটি RGB চিত্র বা একটি সিলুয়েট। অ্যাডভারসারিয়াল উদ্দেশ্য তখন নিম্নলিখিত হিসাবে সংজ্ঞায়িত করা হয়: ডিসক্রিমিনেটর & উদ্দেশ্য 34 42 Dx x যেখানে ( ) কে ( ) = − log(1 +exp(− )) হিসাবে সংজ্ঞায়িত করা হয়, হল বাস্তব চিত্রগুলির ডিস্ট্রিবিউশন, রেন্ডারিং বোঝায়, এবং একটি হাইপারপ্যারামিটার। যেহেতু ডিফারেনসিয়েবল, গ্রেডিয়েন্টগুলি 2D চিত্রগুলি থেকে আমাদের 3D জেনারেটরগুলিতে ব্যাক-প্রোপাগেট করা যেতে পারে। g u g u u px R λ R কোনও ভিউতে দৃশ্যমান নয় এমন অভ্যন্তরীণ ভাসমান মুখগুলি সরাতে, আমরা অতিরিক্তভাবে প্রতিবেশী ভার্টিসেসের SDF মানগুলির মধ্যে সংজ্ঞায়িত ক্রস-এন্ট্রপি লস সহ জ্যামিতি জেনারেটরকে রেগুলারাইজ করি [ ]: রেগুলারাইজেশন 47 যেখানে বাইনারি ক্রস-এন্ট্রপি লস বোঝায় এবং সিগময়েড ফাংশন বোঝায়। সমীকরণ এর যোগফল টেট্রাহেড্রাল গ্রিডের অনন্য প্রান্ত S এর সেটের উপর সংজ্ঞায়িত করা হয়, যার জন্য sign( ) /= sign( )। H σ 2 e si sj সামগ্রিক লস ফাংশন তখন সংজ্ঞায়িত করা হয়: যেখানে হল একটি হাইপারপ্যারামিটার যা রেগুলারাইজেশনের মাত্রা নিয়ন্ত্রণ করে। µ