Metode Kompresi LLM Ekstrem Baru: AQLM dan PV-Tuning Kurangi Ukuran Model 8x dengan Mempertahankan Kualitas 95%

Metode-metode ini bertujuan untuk mengoptimalkan sumber daya dan meningkatkan efisiensi dalam menjalankan model bahasa yang besar.

Agung Pratnyawan

Posted: Kamis, 25 Juli 2024 | 10:04 WIB
Yandex Research

Yandex Research

Hitekno.com - Tim Riset Yandex berkolaborasi dengan para peneliti dari Institute of Science and ology Austria, NeuralMagic, dan KAUST dalam pengembangan dua metode kompresi inovatif untuk large language model (LLM): Additive Quantization of Language Models (AQLM) dan PV-Tuning.

Jika digabungkan, metode-metode ini memungkinkan pengurangan ukuran model hingga 8 kali lipat sekaligus mempertahankan kualitas respons hingga 95%.

Metode-metode ini bertujuan untuk mengoptimalkan sumber daya dan meningkatkan efisiensi dalam menjalankan model bahasa yang besar. Artikel penelitian yang merinci pendekatan ini telah ditampilkan di International Conference on Machine Learning (ICML) yang saat ini sedang berlangsung di Wina, Austria.

Fitur utama AQLM dan PV-Tuning

Sistem AQLM memanfaatkan pendekatan kuantisasi aditif atau pendekatan dalam memetakan himpunan besar menjadi himpunan kecil untuk melakukan kompresi LLM. Pendekatan ini sesungguhnya secara tradisional biasa digunakan untuk pengambilan informasi.

Metode yang dihasilkan mampu mempertahankan dan bahkan meningkatkan akurasi model di bawah kompresi ekstrem, sehingga memungkinkan pemanfaatan LLM pada perangkat sehari-hari seperti komputer di rumah dan smartphone. Bahkan penggunaan memori bisa berkurang secara signifikan.

PV-Tuning mengatasi kesalahan yang mungkin timbul selama proses kompresi model. Apabila digabungkan, AQLM dan PV-Tuning memberikan hasil yang optimal sehingga model mampu memberikan respons berkualitas tinggi, bahkan pada sumber daya penyimpanan yang terbatas.

Evaluasi dan pengenalan metode

Penilaian atau asesmen atas efektivitas metode ini dilakukan secara ketat menggunakan model-model sumber terbuka yang populer seperti Llama 2, Llama 3, Mistral, dan lainnya.

Para peneliti melakukan kompresi atas LLM ini dan mengevaluasi kualitas jawaban yang dihasilkan berdasarkan tolok ukur bahasa Inggris - WikiText2 dan C4 - dan hasilnya menunjukkan bahwa metode ini mampu mempertahankan kualitas jawaban 95% secara mengesankan karena model-model tersebut dikompresi sebanyak 8 kali.

Baca Juga: Universitas Indonesia dan Yandex Gelar Seminar AI yang Komprehensif

Siapa yang bisa mengambil manfaat dari AQLM dan PV-Tuning?

Metode baru ini menawarkan penghematan sumber daya yang substansial bagi perusahaan yang terlibat dalam pengembangan dan penggunaan model bahasa berpemilik maupun LLM sumber terbuka.

Sebagai contoh, model Llama 2 dengan 13 miliar parameter, setelah dikompresi, kini dapat berjalan hanya dengan 1 GPU, bukan 4 GPU. Dengan demikian, biaya perangkat keras bisa dikurangi hingga 8 kali lipat.

Ini berarti bahwa perusahaan rintisan, peneliti perorangan, dan penggemar LLM dapat menjalankan LLM tingkat lanjut seperti Llama di komputer mereka sehari-hari.

Menjelajahi aplikasi LLM baru

AQLM dan PV-Tuning memungkinkan untuk menggunakan model pada perangkat dengan sumber daya penyimpanan yang terbatas, sehingga memungkinkan penggunaan dan aplikasi baru seperti smartphone, speaker canggih, dan berbagai perangkat sehari-hari lainnya.

Dengan LLM canggih yang terintegrasi di dalamnya, pengguna dapat menggunakan pembuatan teks dan gambar, bantuan suara, rekomendasi yang bisa dipersonalisasi, dan bahkan terjemahan bahasa secara real-time - semuanya tanpa memerlukan koneksi internet aktif.

Selain itu, model yang dikompresi menggunakan metode ini dapat beroperasi hingga 4 kali lebih cepat, karena memerlukan lebih sedikit komputasi.

Implementasi dan akses

Para pengembang dan peneliti di seluruh dunia sudah dapat menggunakan AQLM dan PV-Tuning, yang tersedia di GitHub. Materi pelatihan yang disediakan oleh penulis memberikan panduan dalam mempelajari LLM yang dikompresi secara efektif untuk berbagai aplikasi.

Selain itu, para pengembang dapat mengunduh model-model sumber terbuka populer yang telah dikompresi menggunakan metode-metode tersebut.

×
Zoomed
Berita Terkait Berita Terkini

Xiaomi adalah merek utama yang menghadirkan produk dengan desain elegan, fitur inovatif, dan rentang harga bervariasi mu...

gadget | 13:00 WIB

Simak perbandingan lengkap Vivo V60 vs Oppo Reno 14. Mulai dari desain, layar, kamera, performa, baterai, hingga harga t...

gadget | 12:15 WIB

Agar kalian tak salah beli simak lima rekomendasi HP gaming Rp3 jutaan di bawah ini. Ada Infinix GT 20 Pro hingga Realme...

gadget | 11:21 WIB

Agar tidak salah beli sebaiknya simak terlebih dahulu deretan rekomendasi HP Samsung Rp1 jutaan terbaik di bawah ini....

gadget | 10:45 WIB

iPhone Rp2 jutaan jadi nyata pasca rilis iPhone 17. Analisis lengkap duel sengit iPhone 7, 8, SE (Gen 1), hingga 8 Plus....

gadget | 23:54 WIB