Apabila OpenAI melancarkan ChatGPT pada akhir 2022, ia mencetuskan kegembiraan dan kebimbangan. AI Generatif menunjukkan potensi yang luar biasa—membuat esei, menyelesaikan masalah pengekodan, dan juga mencipta seni. Tetapi ia juga menimbulkan penggera di kalangan ahli alam sekitar, penyelidik, dan teknologi. Kebimbangan terbesar? Penggunaan tenaga besar yang diperlukan untuk melatih dan menjalankan Model Bahasa Besar (LLM), menimbulkan persoalan tentang kemampanan jangka panjangnya. Memandangkan LLM terus membentuk semula industri seperti pendidikan dan penjagaan kesihatan, impaknya tidak boleh diabaikan. Makalah ini menimbulkan persoalan penting: Bolehkah sistem pintar ini mengoptimumkan diri mereka sendiri untuk mengurangkan penggunaan kuasa dan meminimumkan jejak alam sekitar mereka? Dan jika ya, bagaimana ini boleh mengubah landskap AI? Kami akan memecahkan cabaran tenaga LLM, daripada latihan kepada inferens, dan meneroka strategi penalaan kendiri yang inovatif yang boleh menjadikan AI lebih mampan. Memahami Cabaran Tenaga AI Latihan lwn Inferens Latihan Google untuk model bahasa besar seperti GPT-4 atau PaLM memerlukan sejumlah besar sumber pengiraan. Sebagai contoh, latihan GPT-3 mengambil beribu-ribu GPU berjalan selama berminggu-minggu, menggunakan tenaga sebanyak beratus-ratus isi rumah AS dalam setahun. Jejak karbon bergantung pada campuran tenaga yang menjanakan pusat data. Walaupun selepas latihan, fasa inferens—di mana model mengendalikan tugas dunia sebenar—menambah penggunaan tenaga. Walaupun tenaga yang diperlukan untuk satu pertanyaan adalah kecil, apabila kami menganggap bahawa terdapat berbilion-bilion interaksi sedemikian berlaku merentasi pelbagai platform setiap hari, ia menjadi masalah yang ketara. Mengapa LLM Mengambil Tenaga Terlalu Banyak? LLM hari ini adalah sensitif parameter; mereka mempunyai berbilion malah bertrilion parameter yang memerlukan banyak sumber untuk diproses, dikemas kini dan disimpan. Saiz Model: Penggunaan cip berasaskan silikon dihadkan oleh kapasiti pemprosesannya dan oleh itu keperluan untuk kelompok GPU atau TPU untuk meningkatkan penggunaan tenaga secara eksponen. Kekangan Perkakasan: Pusat data yang menyokong beban kerja pengiraan tinggi adalah hangat dan sistem penyejukan boleh menggunakan sebanyak 40% kuasa jika ia tidak cekap tenaga. Keperluan Penyejukan: Tol Alam Sekitar dan Ekonomi Kos dari segi alam sekitar termasuk pelepasan karbon serta penggunaan air dalam penyejukan manakala perbelanjaan operasi menjadi masalah bagi syarikat AI yang lebih kecil. Kos tahunan mungkin mencecah berbilion-bilion, yang menjadikan kelestarian penting bukan sahaja isu alam sekitar tetapi juga ekonomi. Pecahan Penggunaan Tenaga Model AI Untuk memahami cara LLM menggunakan tenaga, mari kita pecahkan: Operasi AI Penggunaan Tenaga (%) Fasa Latihan 60% Inferens (Pertanyaan Menjalankan) 25% Penyejukan Pusat Data 10% Operasi Perkakasan 5% Fasa latihan kekal sebagai penyumbang terbesar kepada penggunaan kuasa. Pengambilan Utama: Strategi untuk Pengoptimuman Kendiri Penyelidik sedang meneliti cara LLM boleh mengoptimumkan penggunaan tenaga mereka, menggabungkan kerja perisian dengan perubahan perkakasan. Pemangkasan Model dan Kuantiti Parameter berlebihan yang menjejaskan ketepatan pada tahap terhad dialih keluar, mengakibatkan pengurangan saiz model tanpa menjejaskan ketepatan. Pemangkasan: Ini mengurangkan ketepatan (cth, daripada 32-bit kepada 8-bit) data, yang mengurangkan keperluan memori dan pengiraan. Pengkuantitian: Pengkuantitian dan Pemangkasan berguna tetapi apabila digunakan dengan gelung maklum balas di mana model dapat menentukan bahagian mana yang penting dan bahagian mana yang boleh dikuantisasi maka ia menjadi agak berkesan. Ini adalah kawasan baharu, tetapi potensi wujud dalam rangkaian mengoptimumkan diri. Inferens Dinamik (Pengiraan Bersyarat) Idea pengiraan bersyarat membolehkan model hanya menggunakan neuron atau lapisan yang berkaitan dengan tugasan tertentu. Sebagai contoh, pendekatan Campuran Pakar (MoE) Google membahagikan rangkaian kepada subrangkaian khusus yang meningkatkan latihan dan pengurangan penggunaan tenaga dengan mengehadkan bilangan parameter aktif. Pembelajaran Pengukuhan untuk Penalaan Pembelajaran pengukuhan boleh mengoptimumkan hiperparameter seperti kadar pembelajaran dan saiz kelompok, mengimbangi ketepatan dan penggunaan tenaga untuk memastikan model beroperasi dengan cekap. Pengoptimuman Pelbagai Objektif Selain mengoptimumkan ketepatan, LLM juga boleh mengoptimumkan untuk objektif lain: ketepatan, kependaman dan penggunaan kuasa, menggunakan alatan seperti Google Vizier atau Ray Tune. Baru-baru ini, kecekapan tenaga telah menjadi objektif penting dalam rangka kerja ini. Inovasi Perkakasan dan Reka Bentuk Bersama AI Cip tujuan khas untuk meningkatkan kecekapan dalam pelaksanaan tugas AI. Litar Bersepadu Khusus Aplikasi (ASIC): Cip yang diilhamkan oleh otak, masih dalam pembangunan untuk meminimumkan penggunaan kuasa apabila melakukan pengiraan rangkaian saraf sedang dalam pembangunan. Pengkomputeran Neuromorphic: Pengiraan menggunakan cahaya boleh mengatasi batasan sistem elektronik untuk mengurangkan penggunaan kuasa sistem. Pengkomputeran Optik: Sistem AI yang dicipta melalui reka bentuk bersama perkakasan dengan perisian membolehkan pelarasan serentak algoritma perisian dan sumber perkakasan. Membandingkan Teknik Pengoptimuman Tenaga AI Teknik Pengurangan Tenaga (%) Faedah Utama Pemangkasan Model 30% Mengurangkan parameter model yang tidak diperlukan Kuantisasi 40% Merendahkan ketepatan pengiraan Pengiraan Bersyarat (KPM) 25% Aktifkan model yang diperlukan sahaja Pembelajaran Pengukuhan 15% Melaraskan penggunaan kuasa secara dinamik Pengkomputeran Neuromorfik 50% Meniru kecekapan otak Reka Bentuk Bersama Perkakasan (ASIC, Cip Optik) 35% Membangunkan perkakasan khusus AI untuk kecekapan maksimum Model AI masa depan berkemungkinan akan menggabungkan pelbagai teknik untuk mencapai 60-70% pengurangan tenaga keseluruhan. Cabaran untuk Mengoptimumkan Kendiri AI : Sesetengah ciri, seperti pemangkasan dan pengkuantitian, mungkin menjejaskan sedikit ketepatan. Pertukaran Ketepatan Kami masih beroperasi di bawah andaian pergantungan pada cip silikon yang tidak cekap. Had Infrastruktur Pusat Data: Pada masa ini tiada standard universal untuk menjejak kecekapan tenaga. Jurang Pengukuran Prestasi Tenaga: Peraturan kemampanan yang ketat mungkin memaksa penggunaan model yang cekap. Peraturan Kerajaan: Implikasi Masa Depan LLM yang mengoptimumkan sendiri boleh mengurangkan penggunaan tenaga sebanyak 20% atau lebih untuk berbilion-bilion pertanyaan, yang akan membawa kepada penjimatan kos dan pelepasan yang sangat besar. Ini selaras dengan sasaran sifar bersih global dan memberi kesan kepada beberapa sektor: : LLM cekap tenaga boleh meningkatkan penggunaan dalam perkhidmatan pelanggan dan analitis. Perusahaan : Inisiatif sumber terbuka seperti Hugging Face boleh mempercepatkan lagi inovasi. Penyelidikan : Piawaian mengenai ketelusan tenaga boleh mendorong pengoptimuman kendiri sebagai satu norma. Dasar Kesimpulan LLM telah membawa tahap kecanggihan baharu dalam pemprosesan bahasa tetapi masalah penggunaan tenaga mereka adalah kebimbangan utama. Walau bagaimanapun, kecerdasan yang sama yang menimbulkan model ini menyediakan penyelesaiannya. Teknik seperti pemangkasan, pengkuantitian, pengiraan bersyarat dan reka bentuk bersama perkakasan menunjukkan bahawa adalah mungkin untuk mereka bentuk LLM yang mengurus penggunaan tenaga mereka sendiri. Apabila penyelidikan semakin maju, isu menjadi kurang sama ada AI yang mampan adalah mungkin dan lebih kepada seberapa cepat industri teknologi boleh bersatu untuk mencapainya-tanpa mengorbankan inovasi untuk alam sekitar. Rujukan Brown, T., et al. (2020). "Model Bahasa adalah Pelajar Sedikit Ditangkap." , 33, 1877-1901. (Sumber hipotesis untuk data latihan GPT-3.) Kemajuan dalam Sistem Pemprosesan Maklumat Neural Strubell, E., Ganesh, A., & McCallum, A. (2019). "Pertimbangan Tenaga dan Dasar untuk Pembelajaran Mendalam dalam NLP." , 3645-3650. (Sumber ilustrasi tentang kos tenaga AI.) Prosiding Mesyuarat Tahunan ke-57 ACL Fedus, W., et al. (2021). "Tukar Transformers: Menskalakan kepada Trilion Model Parameter dengan Keterlaluan yang Mudah dan Cekap." . (Asas untuk perbincangan Campuran Pakar.) pracetak arXiv arXiv:2101.03961 Patterson, D., et al. (2021). "Pelepasan Karbon dan Latihan Rangkaian Neural Besar." . (Sumber untuk anggaran tenaga latihan.) pracetak arXiv arXiv:2104.10350 Penyelidikan Google. (2023). "Wazir: Perkhidmatan untuk Pengoptimuman Kotak Hitam." . (Rujukan alat ilustrasi.) Blog AI Google