paint-brush
ডেটা-লোডার ল্যান্ডস্কেপের একটি ওভারভিউ: উপসংহার, স্বীকৃতি এবং রেফারেন্সদ্বারা@serialization

ডেটা-লোডার ল্যান্ডস্কেপের একটি ওভারভিউ: উপসংহার, স্বীকৃতি এবং রেফারেন্স

দ্বারা The Serialization Publication6m2024/06/04
Read on Terminal Reader

অতিদীর্ঘ; পড়তে

এই গবেষণাপত্রে, গবেষকরা এমএল প্রশিক্ষণের উন্নতির চাবিকাঠি হিসাবে ডেটালোডারগুলিকে হাইলাইট করে, কার্যকারিতা, ব্যবহারযোগ্যতা এবং কর্মক্ষমতার জন্য লাইব্রেরির তুলনা করে।
featured image - ডেটা-লোডার ল্যান্ডস্কেপের একটি ওভারভিউ: উপসংহার, স্বীকৃতি এবং রেফারেন্স
The Serialization Publication HackerNoon profile picture
0-item

লেখক:

(1) ইয়াসন ওফিডিস, ইলেকট্রিক্যাল ইঞ্জিনিয়ারিং বিভাগ, এবং ইয়েল ইনস্টিটিউট ফর নেটওয়ার্ক সায়েন্স, ইয়েল ইউনিভার্সিটি, নিউ হ্যাভেন {সমান অবদান};

(2) ডিয়েগো কিডানস্কি, ইলেকট্রিক্যাল ইঞ্জিনিয়ারিং বিভাগ, এবং ইয়েল ইনস্টিটিউট ফর নেটওয়ার্ক সায়েন্স, ইয়েল ইউনিভার্সিটি, নিউ হ্যাভেন {সমান অবদান};

(3) Leandros TassiulasLevon Ghukasyan, Activeloop, Mountain View, CA, USA, ডিপার্টমেন্ট অফ ইলেকট্রিক্যাল ইঞ্জিনিয়ারিং, এবং ইয়েল ইনস্টিটিউট ফর নেটওয়ার্ক সায়েন্স, ইয়েল ইউনিভার্সিটি, নিউ হ্যাভেন।

লিঙ্কের টেবিল

7. উপসংহার

এই কাগজে, আমরা পাইটর্চ লাইব্রেরির বর্তমান ল্যান্ডস্কেপ অন্বেষণ করেছি যা মেশিন লার্নিং অনুশীলনকারীদের তাদের মডেলগুলিতে তাদের ডেটাসেট লোড করার অনুমতি দেয়। এই লাইব্রেরিগুলি বর্ধিত গতি, ডেটার শুধুমাত্র একটি উপসেটের ভিউ তৈরি করে এবং দূরবর্তী স্টোরেজ থেকে ডেটা লোড করা থেকে বিস্তৃত বৈশিষ্ট্যগুলি অফার করে। আমরা বিশ্বাস করি যে রিমোট লোডিং এই সমস্ত বৈশিষ্ট্যগুলির জন্য সর্বাধিক প্রতিশ্রুতি ধারণ করে কারণ এটি ডেটা স্টোরেজ এবং মডেল প্রশিক্ষণের ডি-কাপলিংকে সক্ষম করে। যদিও পাবলিক ইন্টারনেটে লোডিং গতি স্থানীয় ডিস্কের তুলনায় স্বাভাবিকভাবেই ধীর, কিছু লাইব্রেরি, যেমন ডিপ লেক, অসাধারণ ফলাফল দেখিয়েছে (সময়ে মাত্র 13% বৃদ্ধি)। বেশিরভাগ অংশে, আমরা মাল্টি-জিপিইউ-এর জন্য FFCV এবং নেটওয়ার্ক লোডিংয়ের জন্য ডিপ লেক ব্যতীত লাইব্রেরি জুড়ে পারফরম্যান্সে উল্লেখযোগ্য পার্থক্য খুঁজে পাইনি, যা অসাধারণভাবে পারফর্ম করেছে। যাইহোক, আমরা লক্ষ্য করেছি যে এই লাইব্রেরিগুলির বেশিরভাগের জন্য ডকুমেন্টেশন সহজে উপলব্ধ বা ব্যাপক নয়, যার ফলে ভুল কনফিগার করা সেটআপ হতে পারে। যেহেতু ভাল অনুশীলনগুলি খুঁজে পাওয়া কঠিন, একজন প্রোগ্রামার একটি ভিন্ন ডেটালোডারে যা ভাল কাজ করে তা ব্যবহার করতে পারে, যার নতুন লাইব্রেরিতে কাজ করার প্রয়োজন নেই। এই মুহুর্তে, কর্মক্ষমতা লাভগুলি ছোট থেকে মাঝারি কাজের জন্য বিদ্যমান কোড বেসগুলির স্থানান্তরকে ন্যায্যতা দেওয়ার জন্য যথেষ্ট বড় বলে মনে হচ্ছে না। বৃহত্তর কাজের জন্য, দ্রুত লাইব্রেরিগুলির একটিতে স্যুইচ করার জন্য উল্লেখযোগ্য খরচ হ্রাস হতে পারে। অবশেষে, আমরা বিশ্বাস করি যে মেশিন লার্নিং অ্যাপ্লিকেশনের জন্য ডিজাইন করা একটি উদ্ভাবনী ক্যাশিং সিস্টেম সত্যিকারের ডিকপলড ডেটাসেট মডেল সিস্টেমের দৃষ্টিভঙ্গি বাস্তবায়নের চূড়ান্ত অংশ হতে পারে। এই ধরনের যেকোন পদ্ধতির জন্য ডেটাসেট সংক্ষিপ্তকরণ এবং সক্রিয় শিক্ষার উপর বিদ্যমান জ্ঞান তৈরি করতে হবে।

স্বীকৃতি

লেখকরা এই প্রকল্পের বিকাশের সময় তাদের সমর্থন এবং অন্তর্দৃষ্টির জন্য Activeloop টিমকে ধন্যবাদ জানাতে চাই। লেখক কিছু পরীক্ষা চালানোর জন্য তাদের সংস্থানগুলির জন্য Tryolabs এবং Activeloop উভয়কেই ধন্যবাদ জানাতে চান।

তথ্যসূত্র

Abadi, M., Agarwal, A., Barham, P., Brevdo, E., Chen, Z., Citro, C., Corrado, GS, Davis, A., Dean, J., Devin, M., Ghemawat , S., Goodfellow, I., Harp, A., Irving, G., Isard, M., Jia, Y., Jozefowicz, R., Kaiser, L., Kudlur, M., Levenberg, J., Mane , D., Monga, R., Moore, S., Murray, D., ´ Olah, C., Schuster, M., Shlens, J., Steiner, B., Sutskever, I., Talwar, K., Tucker, P., Vanhoucke, V., Vasudevan, V., Viegas, F., Vinyals, O., Warden, P., Wattenberg, M., ´ Wicke, M., Yu, Y., and Zheng, X টেনসরফ্লো: ভিন্নধর্মী সিস্টেমে বড় আকারের মেশিন লার্নিং, 2015। URL https://www.tensorflow.org/। tensorflow.org থেকে সফ্টওয়্যার উপলব্ধ।


অ্যাডলফ, আর., রামা, এস., রেগেন, বি., ওয়েই, জি.-ওয়াই., এবং ব্রুকস, ডি. ফ্যাথম: আধুনিক গভীর শিক্ষার পদ্ধতির জন্য রেফারেন্স ওয়ার্কলোড। 2016 সালে IEEE ইন্টারন্যাশনাল সিম্পোজিয়াম অন ওয়ার্কলোড ক্যারেক্টারাইজেশন (IISWC), pp. 1-10। IEEE, 2016।


Baidu-গবেষণা. ডিপবেঞ্চ, 2020। URL https:// github.com/baidu-research/DeepBench।


Ben-Nun, T., Besta, M., Huber, S., Ziogas, AN, Peter, D., এবং Hoefler, T. উচ্চ-কর্মক্ষমতা এবং পুনরুত্পাদনযোগ্য গভীর শিক্ষার জন্য একটি মডুলার বেঞ্চমার্কিং অবকাঠামো। 2019 সালে IEEE ইন্টারন্যাশনাল প্যারালাল অ্যান্ড ডিস্ট্রিবিউটেড প্রসেসিং সিম্পোজিয়াম (IPDPS), pp. 66–77। IEEE, 2019।


Bianco, S., Cadene, R., Celona, L., এবং Napoletano, P. প্রতিনিধি গভীর নিউরাল নেটওয়ার্ক আর্কিটেকচারের বেঞ্চমার্ক বিশ্লেষণ। IEEE অ্যাক্সেস, 6:64270–64277, 2018


Buslaev, A., Iglovikov, VI, Khvedchenya, E., Parinov, A., Druzhinin, M., and Kalinin, AA অ্যালবামমেন্টেশন: দ্রুত এবং নমনীয় চিত্র বৃদ্ধি। তথ্য, 11(2): 125, 2020।


Coleman, C., Kang, D., Narayanan, D., Nardi, L., Zhao, T., Zhang, J., Bailis, P., Olukotun, K., Re, C., এবং Zaharia, ´ M ডনবেঞ্চের বিশ্লেষণ, একটি সময়-টু-নির্ভুলতা মেশিন লার্নিং পারফরম্যান্স বেঞ্চমার্ক। ACM SIGOPS অপারেটিং সিস্টেম রিভিউ, 53(1):14–25, 2019।


গাও, ডব্লিউ., টাং, এফ., ঝান, জে., ল্যান, সি., লুও, সি., ওয়াং, এল., দাই, জে., কাও, জেড., জিয়াং, এক্স., জিয়াং, জেড., ইত্যাদি আইবেঞ্চ: একটি চটপটে ডোমেন-নির্দিষ্ট বেঞ্চমার্কিং পদ্ধতি এবং একটি এআই বেঞ্চমার্ক স্যুট। arXiv প্রিপ্রিন্ট arXiv:2002.07162, 2020।


Hadidi, R., Cao, J., Xie, Y., Asgari, B., কৃষ্ণা, T., এবং Kim, H. বাণিজ্যিক প্রান্তের ডিভাইসগুলিতে গভীর নিউরাল নেটওয়ার্ক স্থাপনের বৈশিষ্ট্য। 2019 সালে IEEE ইন্টারন্যাশনাল সিম্পোজিয়াম অন ওয়ার্কলোড ক্যারেক্টারাইজেশন (IISWC), পৃষ্ঠা 35-48। IEEE, 2019।


হামবার্ডজুমিয়ান, এস., তুলি, এ., ঘুকাসিয়ান, এল., রহমান, এফ., টপচিয়ান, এইচ., ইসায়ান, ডি., হারুটিউনিয়ান, এম., হাকোবিয়ান, টি., স্ট্র্যানিক, আই., এবং বুনিয়াতিয়ান, ডি। গভীর হ্রদ: গভীর শিক্ষার জন্য একটি লেকহাউস, 2022। URL https://arxiv.org/ abs/2209.10785।


HKBU, D. DLBench, 2017-এ Heterogeneous Computing Lab. URL https://github.com/hclhkbu/ dlbench.


Hinton, G., শ্রীবাস্তব, N., এবং Swersky, K. মেশিন লার্নিং লেকচারের জন্য নিউরাল নেটওয়ার্ক 6a মিনি-ব্যাচ গ্রেডিয়েন্ট ডিসেন্টের ওভারভিউ। উদ্ধৃত, 14(8):2, 2012।


Hu, H., Jiang, C., Zhong, Y., Peng, Y., Wu, C., Zhu, Y., Lin, H., এবং Guo, C. dpro: এর জন্য একটি জেনেরিক কর্মক্ষমতা নির্ণয় এবং অপ্টিমাইজেশান টুলকিট বিতরণ করা ডিএনএন প্রশিক্ষণ ত্বরান্বিত করা। মেশিন লার্নিং এবং সিস্টেমের কার্যপ্রণালী, 4:623–637, 2022।


Ignatov, A., Timofte, R., Chou, W., Wang, K., Wu, M., Hartley, T., এবং Van Gool, L. Ai বেঞ্চমার্ক: অ্যান্ড্রয়েড স্মার্টফোনে গভীর নিউরাল নেটওয়ার্ক চালানো। কম্পিউটার ভিশন (ECCV) কর্মশালার উপর ইউরোপীয় সম্মেলনের কার্যক্রমে, pp. 0–0, 2018।


Krizhevsky, A., Hinton, G., et al. ছোট ছবি থেকে বৈশিষ্ট্যের একাধিক স্তর শেখা। 2009।


কুমার, এভি এবং শিবাথানু, এম. কুইভার: গভীর শিক্ষার জন্য একটি তথ্য স্টোরেজ ক্যাশে। 18তম ইউসেনিক্স কনফারেন্স অন ফাইল অ্যান্ড স্টোরেজ টেকনোলজিস (ফাস্ট 20), পিপি 283-296, সান্তা ক্লারা, সিএ, ফেব্রুয়ারি 2020। ইউসেনিক্স অ্যাসোসিয়েশন। আইএসবিএন 978-1-939133-12-0। URL https://www.usenix.org/conference/ fast20/presentation/kumar.


Leclerc, G., Ilyas, A., Engstrom, L., Park, SM, Salman, H., and Madry, A. ffcv. https://github.com/ libffcv/ffcv/, 2022. xxxxxxx কমিট করুন।


Li, S., Zhao, Y., Varma, R., Salpekar, O., Noordhuis, P., Li, T., Paszke, A., Smith, J., Vaughan, B., Damania, P., ইত্যাদি পাইটর্চ বিতরণ: ডেটা সমান্তরাল প্রশিক্ষণ ত্বরান্বিত করার অভিজ্ঞতা। arXiv প্রিপ্রিন্ট arXiv:2006.15704, 2020।


Lin, T.-Y., Maire, M., Belongie, S., Hays, J., Perona, P., Ramanan, D., Dollar, P., এবং Zitnick, CL Microsoft coco: ´ প্রেক্ষাপটে সাধারণ বস্তু . কম্পিউটার ভিশনের উপর ইউরোপীয় সম্মেলনে, পৃষ্ঠা 740-755। স্প্রিংগার, 2014।


Liu, L., Wu, Y., Wei, W., Cao, W., Sahin, S., এবং Zhang, Q. বেঞ্চমার্কিং গভীর শিক্ষার কাঠামো: নকশা বিবেচনা, মেট্রিক্স এবং তার বাইরে। 2018 সালে IEEE 38তম ইন্টারন্যাশনাল কনফারেন্স অন ডিস্ট্রিবিউটেড কম্পিউটিং সিস্টেম (ICDCS), pp. 1258–1269। IEEE, 2018।


Mattson, P., Cheng, C., Diamos, G., Coleman, C., Micikevicius, P., Patterson, D., Tang, H., Wei, G.-Y., Bailis, P., Bittorf, ভি., এট আল। Mlperf প্রশিক্ষণের বেঞ্চমার্ক। মেশিন লার্নিং এবং সিস্টেমের কার্যপ্রণালী, 2:336–349, 2020।


মোহন, জে., ফণীশায়ী, এ., রানীওয়ালা, এ., এবং চিদাম্বরম, ভি. ডিএনএন প্রশিক্ষণে ডেটা স্টল বিশ্লেষণ এবং প্রশমিত করা, 2020। URL https://arxiv.org/abs/ 2007.06775।


Paszke, A., Gross, S., Massa, F., Lerer, A., Bradbury, J., Chanan, G., Killeen, T., Lin, Z., Gimelshein, N., Antiga, L., ইত্যাদি পাইটর্চ: একটি অপরিহার্য শৈলী, উচ্চ-কার্যক্ষমতা সম্পন্ন গভীর শিক্ষার লাইব্রেরি। নিউরাল ইনফরমেশন প্রসেসিং সিস্টেমে অগ্রগতি, 32, 2019।


পাইটর্চ কোর টিম। PyTorch: PyTorch ডক্স। পাইটর্চ।


Shi, S., Wang, Q., Xu, P., এবং Chu, X. বেঞ্চমার্কিং অত্যাধুনিক গভীর শিক্ষার সফটওয়্যার টুলস। 2016 সালে ক্লাউড কম্পিউটিং এবং বিগ ডেটা (CCBD) এর উপর 7 তম আন্তর্জাতিক সম্মেলন, পৃষ্ঠা 99-104। IEEE, 2016।


Tao, J.-H., Du, Z.-D., Guo, Q., Lan, H.-Y., Zhang, L., Zhou, S.-Y., Xu, L.-J., Liu, C., Liu, H.-F., Tang, S., et al. বেঞ্চিপ: বেঞ্চমার্কিং ইন্টেলিজেন্স প্রসেসর। কম্পিউটার সায়েন্স অ্যান্ড টেকনোলজির জার্নাল, 33(1):1–23, 2018।


দল, AD হাব: ai-এর জন্য একটি ডেটাসেট বিন্যাস। যেকোন আকারের AI ডেটাসেট তৈরি, সঞ্চয়, সহযোগিতা এবং স্কেলে এমএল ফ্রেমওয়ার্কগুলিতে স্ট্রিম করার জন্য একটি সাধারণ এপিআই। গিটহাব। দ্রষ্টব্য: https://github.com/activeloopai/Hub, 2022a।


টিম, SD কাঠবিড়ালী: একটি পাইথন লাইব্রেরি যা মিলি দলগুলিকে সহযোগিতামূলক, নমনীয় এবং দক্ষ উপায়ে ডেটা ভাগ করতে, লোড করতে এবং রূপান্তর করতে সক্ষম করে৷ গিটহাব। দ্রষ্টব্য: https://github.com/merantix-momentum/squirrelcore, 2022b। doi: 10.5281/zenodo.6418280.


টর্চডেটা। টর্চডেটা: সহজে নমনীয় এবং কার্যকরী ডেটা পাইপলাইন নির্মাণের জন্য সাধারণ মডুলার ডেটা লোডিং আদিমগুলির একটি প্রোটোটাইপ লাইব্রেরি। https://github.com/pytorch/data, 2021।


Wang, Y., Wei, G.-Y., এবং Brooks, D. গভীর শিক্ষার হার্ডওয়্যার এবং সফ্টওয়্যার প্ল্যাটফর্মের বিশ্লেষণের জন্য একটি পদ্ধতিগত পদ্ধতি। মেশিন লার্নিং এবং সিস্টেমের কার্যপ্রণালী, 2:30–43, 2020।


ওয়েবডেটাসেট। ওয়েবডেটাসেট বিন্যাস। https://github. com/webdataset/webdataset, 2013।


Wu, Y., Cao, W., Sahin, S., এবং Liu, L. গভীর শিক্ষার কাঠামোর পরীক্ষামূলক বৈশিষ্ট্য এবং বিশ্লেষণ। 2018 সালে IEEE ইন্টারন্যাশনাল কনফারেন্স অন বিগ ডেটা (বিগ ডেটা), পিপি 372–377। IEEE, 2018।


Wu, Y., Liu, L., Pu, C., Cao, W., Sahin, S., Wei, W., এবং Zhang, Q. একটি পরিষেবা কাঠামো হিসাবে গভীর শিক্ষার তুলনামূলক পরিমাপ অধ্যয়ন। IEEE লেনদেন অন সার্ভিস কম্পিউটিং, 2019।


Zhang, W., Wei, W., Xu, L., Jin, L., এবং Li, C. Ai ম্যাট্রিক্স: আলিবাবা ডেটা সেন্টারের জন্য একটি গভীর শিক্ষার মানদণ্ড৷ arXiv প্রিপ্রিন্ট arXiv:1909.10562, 2019।


Zhu, H., Akrout, M., Zheng, B., Pelegris, A., Fanishaye, A., Schroeder, B., and Pekhimenko, G. Tbd: বেঞ্চমার্কিং এবং গভীর নিউরাল নেটওয়ার্ক প্রশিক্ষণ বিশ্লেষণ। arXiv প্রিপ্রিন্ট arXiv:1803.06905, 2018।


এই কাগজটি CC 4.0 লাইসেন্সের অধীনে arxiv-এ উপলব্ধ