Optimalisasi LLM: Peran Penting Pruning & Distillation
- Rita Puspita Sari
- •
- 27 Mei 2025 19.42 WIB

Ilustrasi Pruning LLM
Model Bahasa Besar atau Large Language Models (LLM) telah menjadi motor penggerak revolusi kecerdasan buatan (AI) modern. Mereka adalah otak di balik banyak teknologi pintar saat ini, mulai dari chatbot seperti ChatGPT, sistem rekomendasi pintar, hingga analisis data otomatis. Namun, di balik kecanggihan ini, tersembunyi tantangan besar: ukuran dan kompleksitas model yang sangat tinggi, serta kebutuhan komputasi yang luar biasa mahal.
Untuk menjawab tantangan ini, dua pendekatan penting mulai diadopsi secara luas oleh para peneliti dan pengembang AI, yaitu teknik pruning dan distillation. Kedua metode ini memungkinkan LLM tetap cerdas namun dengan jejak digital yang jauh lebih kecil, lebih cepat, dan lebih hemat daya.
Awal Mula Perkembangan LLM dan Tantangannya
Sejak diperkenalkan pertama kali oleh OpenAI pada tahun 2022, LLM telah berkembang pesat. Perusahaan besar seperti Google, Meta, Microsoft, hingga startup seperti DeepSeek dari Tiongkok turut serta dalam perlombaan menciptakan model LLM yang paling unggul. Namun, ada satu tantangan besar yang dihadapi semua pihak: biaya dan daya komputasi yang sangat besar.
Misalnya, model GPT-3.5 Turbo dikabarkan membutuhkan infrastruktur GPU senilai lebih dari $20 juta hanya untuk melatihnya. Selain biaya, model sebesar ini juga membutuhkan waktu lama untuk memproses input, sehingga kurang ideal untuk penggunaan real-time atau pada perangkat kecil seperti smartphone atau edge device.
Inilah alasan mengapa efisiensi menjadi fokus penting dalam pengembangan LLM modern. Dan di sinilah peran pruning dan distillation menjadi sangat vital.
Apa Itu Pruning dalam Large Language Model (LLM)?
Pruning secara harfiah berarti memangkas, seperti saat kita memangkas cabang pohon yang tumbuh liar agar pohon bisa tumbuh lebih sehat dan terarah. Dalam dunia teknologi, khususnya pada Large Language Model (LLM) seperti ChatGPT, BERT, atau LLaMA, pruning adalah sebuah teknik untuk memangkas atau menghapus bagian-bagian dari model yang dianggap tidak terlalu penting atau tidak memberikan kontribusi besar terhadap hasil akhir.
Bagian-bagian yang dipangkas ini bisa berupa:
- Bobot (weights) pada jaringan neural,
- Neuron yang jarang aktif,
- Lapisan (layers) tertentu dalam arsitektur model,
- atau bahkan attention heads, yang merupakan bagian penting dalam model transformer.
Tujuan Pruning
Pruning bukan sekadar mengurangi ukuran model, tapi punya beberapa tujuan penting, di antaranya:
- Mengurangi jumlah parameter dalam model, sehingga model menjadi lebih ringkas.
- Membuat model lebih ringan dan cepat saat digunakan (inferensi).
- Menghemat konsumsi daya dan memori, yang sangat penting saat dijalankan di perangkat terbatas.
- Menurunkan biaya penggunaan, terutama pada layanan cloud atau edge devices seperti smartphone, Raspberry Pi, dan perangkat IoT lainnya.
Jenis-Jenis Pruning pada LLM
Terdapat beberapa jenis pruning yang umum digunakan dalam optimasi model berbasis neural network, terutama pada LLM:
-
Weight Pruning
Weight pruning dilakukan dengan menghapus bobot (weights) dalam jaringan neural yang nilainya sangat kecil atau mendekati nol. Bobot ini dianggap tidak terlalu berpengaruh pada hasil akhir. Dengan menghapus bobot-bobot ini, model menjadi lebih “jarang” (sparse), tetapi tetap bisa berfungsi secara efektif.Contoh: Jika sebuah bobot hanya memberikan pengaruh 0,0001 pada output, maka mungkin ia bisa diabaikan tanpa memengaruhi performa model secara signifikan.
-
Neuron Pruning
Dalam pendekatan ini, neuron atau saluran dalam jaringan yang jarang aktif atau kontribusinya sangat rendah akan dihapus. Biasanya dilakukan setelah menganalisis aktivitas neuron pada berbagai skenario input.Neuron yang jarang menyala dalam proses training atau inferensi dianggap tidak terlalu berguna dan bisa dihapus.
-
Layer Pruning
Layer pruning lebih ekstrem karena melibatkan penghapusan satu atau beberapa lapisan (layers) dari model neural network. Ini dilakukan jika lapisan tersebut tidak terbukti memberikan peningkatan akurasi yang signifikan.Contohnya, jika suatu lapisan dense atau transformer block tidak memberikan peningkatan kualitas output, maka bisa dihilangkan untuk menyederhanakan model.
-
Attention Head Pruning
Teknik ini sangat spesifik untuk model berbasis transformer, seperti GPT atau BERT. Di dalam arsitektur transformer, ada beberapa "kepala" (heads) dalam mekanisme attention yang memproses informasi berbeda-beda. Namun, tidak semua attention head punya kontribusi yang sama.Dengan menghapus attention head yang tidak penting, kita bisa mengurangi kompleksitas komputasi tanpa mengorbankan performa model secara keseluruhan.
Keuntungan Pruning
Berikut beberapa keuntungan nyata dari menerapkan teknik pruning pada LLM:
- Ukuran model berkurang drastis, sehingga lebih mudah diunduh, disimpan, dan dipasang di berbagai perangkat.
- Kecepatan inferensi meningkat, karena model hanya memproses informasi penting saja.
- Lebih ramah lingkungan, karena penggunaan daya komputasi dan listrik berkurang.
- Cocok untuk deployment di perangkat dengan keterbatasan sumber daya, seperti smartphone, edge device, hingga perangkat IoT.
Risiko dan Tantangan dalam Pruning
Meski terdengar menarik, pruning tidak bisa dilakukan secara sembarangan. Ada beberapa risiko dan tantangan yang perlu diperhatikan:
- Pengurangan akurasi
Jika pruning dilakukan terlalu agresif, bagian penting dari model bisa terhapus, yang menyebabkan penurunan performa dalam memahami atau menghasilkan teks. - Analisis kompleks
Diperlukan pemahaman dan analisis mendalam untuk mengetahui komponen mana yang bisa dihapus dengan aman tanpa berdampak besar pada kinerja. - Perlu pelatihan ulang (fine-tuning)
Setelah proses pruning selesai, model biasanya perlu dilatih kembali menggunakan dataset tertentu agar bisa menyesuaikan diri dengan struktur baru yang lebih ramping. - Efek tak langsung terhadap interpretabilitas model
Dalam beberapa kasus, pruning bisa membuat perilaku model menjadi lebih sulit diprediksi jika dilakukan tanpa pendekatan yang hati-hati.
Pruning dalam Praktik Nyata
Teknik pruning telah digunakan secara luas oleh perusahaan-perusahaan teknologi besar untuk mengoptimalkan large language model mereka agar bisa digunakan di berbagai platform. Misalnya:
- Meta menggunakan teknik pruning pada LLaMA agar bisa dijalankan di perangkat lokal.
- OpenAI mengandalkan efisiensi model untuk penggunaan ChatGPT di perangkat seluler.
- Google memanfaatkan model pruned untuk fitur real-time terjemahan atau pengetikan prediktif di Android.
Pruning juga menjadi kunci dalam pengembangan model edge AI, yaitu kecerdasan buatan yang dijalankan langsung di perangkat seperti kamera, sensor, atau robot tanpa perlu koneksi ke cloud.
Apa Itu Distillation dalam LLM?
Dalam dunia Large Language Model (LLM), kita sering mendengar istilah pruning dan distillation sebagai teknik kompresi model. Bila pruning bekerja dengan cara memangkas atau menghapus bagian-bagian tertentu dari model untuk mengurangi ukurannya, maka distillation mengambil pendekatan berbeda. Distillation tidak membuang, melainkan mentransfer pengetahuan dari model besar ke model yang lebih kecil.
Teknik ini dikenal dengan sebutan knowledge distillation dan sangat penting untuk membuat LLM dapat dijalankan pada perangkat dengan sumber daya terbatas, seperti smartphone, sensor IoT, atau robot kecil, tanpa kehilangan performa secara signifikan.
Cara Kerja Distillation
Proses distillation terdiri dari dua aktor utama:
- Model besar (Teacher/Guru)
- Model kecil (Student/Murid)
Berikut langkah-langkah umumnya:
- Pelatihan Model Teacher
Model besar (teacher model) dilatih terlebih dahulu dengan dataset penuh. Ia menghasilkan output berkualitas tinggi dan representasi internal yang kompleks. Model ini adalah versi terbaik dari model yang ingin ditiru. - Pelatihan Model Student
Setelah model teacher selesai, giliran model student dilatih. Namun alih-alih hanya belajar dari data mentah seperti biasa, model student belajar langsung dari output dan perilaku model teacher. Ia mencoba meniru bagaimana teacher membuat keputusan. - Penyesuaian dan Evaluasi
Model student perlahan-lahan belajar meniru hasil akhir, distribusi probabilitas, dan bahkan fitur internal dari teacher. Hasil akhirnya adalah model dengan ukuran dan kompleksitas lebih kecil, tetapi masih mempertahankan performa mendekati teacher.
Pendekatan-Pendekatan dalam Distillation
Ada beberapa metode yang digunakan untuk mentransfer pengetahuan secara efektif. Berikut beberapa pendekatan yang paling umum:
- Logit Matching
Model student belajar dari logit yang dihasilkan teacher, yaitu nilai mentah sebelum fungsi softmax mengubahnya menjadi probabilitas. Logit memberikan sinyal pembelajaran yang lebih kaya, karena menyimpan informasi tentang ketidakpastian dan hubungan antar kelas. - Feature-Based Distillation
Dalam metode ini, student tidak hanya meniru hasil akhir (prediksi), tetapi juga meniru representasi fitur internal dari teacher, misalnya aktivasi neuron dalam lapisan tertentu. Hal ini memungkinkan transfer pengetahuan yang lebih mendalam, karena model kecil memahami bagaimana proses berpikir model besar. - Data-Free Distillation
Kadang, data pelatihan asli tidak tersedia (karena alasan privasi atau ukuran data terlalu besar). Dalam kasus ini, digunakan teknik data sintetis baik dari generator khusus maupun teknik augmentasi untuk tetap melatih student. Ini membuat distillation dapat dilakukan tanpa menyentuh data sensitif. - Structured Distillation
Di sini, transfer dilakukan dengan memperhatikan struktur internal teacher, seperti pola koneksi antar neuron atau arsitektur blok dalam model. Student dilatih untuk meniru struktur tersebut agar tidak hanya hasilnya yang sama, tapi juga proses berpikirnya.
Keuntungan Menggunakan Distillation
Distillation membawa banyak manfaat dalam pengembangan dan penerapan LLM, terutama dalam konteks efisiensi dan deployment. Berikut beberapa kelebihannya:
- Ukuran Model Lebih Ringan dan Cepat
Model student bisa jauh lebih kecil (bahkan hingga 10–100x lebih kecil dari teacher), membuatnya cocok untuk dijalankan di perangkat edge. - Cocok untuk Deployment di Perangkat Terbatas
Distillation sangat berguna untuk menghadirkan AI canggih ke perangkat seperti smartphone, kamera pintar, alat rumah tangga, bahkan robot industri mini. - Tetap Akurat
Meski lebih kecil, model student sering kali memiliki akurasi tinggi karena langsung belajar dari output terbaik model teacher. - Efisiensi Energi
Model yang lebih kecil berarti lebih hemat energi dan lebih cepat diproses, penting untuk skenario edge computing.
Keterbatasan Distillation
Namun, distillation bukan tanpa tantangan. Berikut beberapa kekurangannya:
- Pengetahuan Tidak Selalu Bisa Ditiru Sempurna
Model teacher mungkin memiliki pengetahuan yang terlalu kompleks atau tidak eksplisit, sehingga sulit untuk ditiru secara utuh oleh student. - Kualitas Sangat Bergantung pada Teacher
Jika teacher punya kelemahan, misalnya bias atau error tertentu, hal itu bisa ikut ditransfer ke student. - Pelatihan Tetap Butuh Sumber Daya Besar
Untuk melatih teacher model dan melakukan proses distillation, dibutuhkan sumber daya komputasi besar. Ini bisa menjadi kendala awal. - Parameter Distillation Sangat Sensitif
Misalnya, pengaturan suhu (temperature) dalam softmax saat transfer logit bisa memengaruhi hasil akhir secara signifikan. Salah sedikit bisa membuat proses distillation tidak efektif.
Secara keseluruhan, distillation adalah teknik fundamental yang memungkinkan teknologi seperti ChatGPT, Gemini, atau Claude digunakan pada perangkat kecil tanpa perlu komputasi kelas server. Ia menjadi jembatan penting untuk membawa kecerdasan model raksasa ke dalam bentuk yang lebih praktis dan efisien.
Dengan distillation, kita dapat menikmati kekuatan AI modern di mana saja—dari ponsel pintar, speaker pintar, kendaraan otonom, hingga drone kecil—tanpa harus selalu terhubung ke pusat data besar. Inilah yang menjadikan distillation sebagai fondasi penting dalam perkembangan AI berkelanjutan dan terdistribusi.
Kombinasi Pruning dan Distillation: Solusi Cerdas untuk LLM yang Efisien
Dalam pengembangan Large Language Models (LLM), dua teknik kompresi utama sering digunakan untuk mengecilkan ukuran dan mempercepat performa model: pruning dan distillation. Menariknya, para peneliti dan pengembang kini tidak hanya memilih salah satu, tetapi justru menggabungkan keduanya demi menciptakan model yang lebih efisien, ringan, dan siap digunakan di berbagai perangkat dengan keterbatasan sumber daya.
Bagaimana Kombinasi Ini Bekerja?
- Langkah Pertama: Pruning (Pemangkasan)
Model besar (seperti BERT atau GPT) pertama-tama mengalami proses pruning. Pada tahap ini, bagian-bagian model yang dianggap tidak terlalu berkontribusi terhadap performa seperti neuron atau koneksi dengan bobot kecil akan dihapus secara selektif. Tujuannya adalah untuk mengurangi kompleksitas tanpa mengorbankan akurasi secara drastis. - Langkah Kedua: Distillation (Penyulingan Pengetahuan)
Setelah model dipangkas, hasilnya digunakan sebagai teacher model dalam proses distillation. Model baru yang lebih kecil disebut student model kemudian dilatih untuk meniru perilaku dan output dari model teacher tersebut.
Dengan kombinasi ini, student model tidak hanya lebih kecil dan ringan berkat pruning, tetapi juga memiliki kualitas dan kecerdasan yang tetap tinggi berkat distillation.
Keuntungan dari Pendekatan Gabungan Ini
Menggabungkan pruning dan distillation memberikan efisiensi yang maksimal, terutama untuk aplikasi dunia nyata. Beberapa keuntungan yang paling menonjol meliputi:
- Model Lebih Ringan dan Cepat
Proses inferensi (menjawab pertanyaan, menerjemahkan teks, dsb.) bisa dilakukan jauh lebih cepat karena jumlah parameter yang lebih sedikit. - Biaya Deployment Lebih Rendah
Karena tidak butuh infrastruktur server besar atau GPU mahal, model hasil kombinasi ini lebih hemat dari sisi biaya operasional. - Mudah Diterapkan di Berbagai Perangkat
Model dapat berjalan dengan baik di perangkat dengan keterbatasan hardware, seperti smartphone, kamera pintar, atau IoT sensor. - Skalabilitas Tinggi
Model yang lebih kecil memungkinkan deployment secara masif, misalnya untuk aplikasi edukasi di sekolah-sekolah atau chatbot di layanan publik.
Kapan dan Mengapa Kita Membutuhkan Pruning dan Distillation?
Berikut ini beberapa skenario penting di mana teknik ini sangat berguna:
- Menjalankan LLM di Perangkat Berkekuatan Rendah
- Asisten Virtual di Ponsel: Model besar tidak cocok dijalankan langsung di smartphone. Dengan distillation dan pruning, kita bisa menjalankan model ringan untuk pengenalan suara, terjemahan, atau rekomendasi personal.
- Perangkat IoT dan Edge Computing: IoT seperti kamera keamanan atau sensor pintar memerlukan model AI ringan yang tidak bergantung pada cloud. Distilled model memungkinkan ini.
- Optimalisasi Aplikasi Real-Time
- Chatbot dan Asisten Digital: Respons cepat sangat penting. Model hasil distillation bisa menjawab lebih cepat karena latensi rendah.
- Layanan Pelanggan: Waktu adalah uang. Model yang cepat dan hemat biaya memungkinkan perusahaan melayani lebih banyak pelanggan secara efisien.
- Mengurangi Biaya Komputasi Cloud
- Penggunaan oleh Startup atau UKM: Perusahaan kecil mungkin tidak mampu membayar server mahal. Model yang sudah di-prune atau didistill memungkinkan adopsi AI dengan biaya lebih rendah.
- Skalabilitas Mudah: Model kecil bisa diperbanyak dan digunakan di berbagai lokasi atau departemen tanpa infrastruktur besar.
- Penggunaan dalam Sektor yang Diatur Ketat
- Kesehatan: Data medis sangat sensitif. Menjalankan LLM di perangkat lokal (on-premise) menjaga privasi. Model yang lebih kecil mempermudah ini.
- Keuangan: Model yang berjalan di server lokal menjaga kerahasiaan data transaksi atau nasabah, sekaligus menghindari risiko keamanan dari penyimpanan cloud.
Contoh Nyata Model Hasil Pruning dan Distillation
Berikut adalah beberapa contoh model nyata yang berhasil menggunakan teknik Pruning dan Distillation:
-
DistilBERT
DistilBERT adalah versi ringan dari model BERT (Bidirectional Encoder Representations from Transformers), yang terkenal dalam dunia natural language processing (NLP). Dengan menggunakan teknik knowledge distillation, DistilBERT berhasil memangkas ukuran model menjadi hanya 60% dari ukuran BERT asli.Meski lebih kecil, DistilBERT tetap mempertahankan sekitar 97% akurasi performa BERT, menjadikannya pilihan ideal untuk berbagai tugas NLP seperti:
- Analisis sentimen
- Klasifikasi teks
- Sistem tanya jawab (Question Answering)
DistilBERT sangat cocok digunakan dalam aplikasi yang membutuhkan kecepatan inferensi tinggi, namun tetap mengutamakan akurasi.
-
TinyLlama
TinyLlama adalah hasil kombinasi antara distillation dan pruning dari model LLaMA (Large Language Model Meta AI). Model ini dirancang khusus untuk perangkat dengan kapasitas memori rendah, seperti:- Smartphone
- Perangkat edge (seperti sensor pintar atau IoT device)
Walaupun ukuran model jauh lebih kecil dibandingkan LLaMA asli, TinyLlama tetap mampu menjalankan berbagai tugas NLP secara efisien. Ini membuktikan bahwa pengurangan ukuran model tidak selalu berarti kehilangan kualitas.
-
Minitron
Minitron adalah contoh lain dari penerapan gabungan knowledge distillation dan model pruning. Pada proses pengembangannya, model ini pertama-tama mempelajari pengetahuan dari model besar (disebut teacher model) melalui proses distilasi. Setelah itu, ukuran Minitron dipangkas lebih jauh lagi menggunakan teknik pruning.
Hasil akhirnya adalah:- Efisien dari sisi memori dan kecepatan
- Tetap akurat dalam tugas NLP
Sangat cocok untuk penggunaan pada perangkat mobile atau aplikasi dengan keterbatasan sumber daya
Alat dan Framework Populer untuk Pruning dan Distillation
Agar proses distillation dan pruning dapat berjalan efektif, banyak pengembang memanfaatkan berbagai framework dan library yang mendukung teknik-teknik optimisasi ini. Berikut adalah beberapa alat paling umum dan andal yang digunakan:
-
Hugging Face Transformers
Hugging Face adalah library open-source yang sangat populer di dunia NLP. Selain menyediakan berbagai model siap pakai seperti BERT, GPT-2, dan DistilBERT, Hugging Face juga mendukung proses fine-tuning, pruning, dan distillation.Fitur unggulan:
Trainer
: Digunakan untuk melatih model dengan mudah.KnowledgeDistillationTrainer
: Digunakan untuk melatih model pelajar (student model) dari model guru (teacher model).
Komunitas yang besar dan dokumentasi lengkap memudahkan adopsi oleh pengembang dari berbagai level.
-
DeepSpeed (Microsoft)
DeepSpeed adalah library dari Microsoft yang dirancang untuk mengoptimalkan efisiensi pelatihan model besar. DeepSpeed mendukung berbagai teknik optimisasi seperti:- Model pruning
- Sparse training (melatih hanya sebagian bobot)
- Quantization (mengubah presisi data, misalnya dari 32-bit ke 8-bit)
Keunggulannya terletak pada kemampuannya untuk mengurangi kebutuhan memori dan mempercepat pelatihan model besar di GPU.
-
TensorRT (NVIDIA)
TensorRT adalah inference optimizer buatan NVIDIA yang dirancang khusus untuk mempercepat kinerja model AI pada perangkat GPU NVIDIA.Keunggulan utama:
- Mendukung optimisasi model untuk inference (pengambilan hasil dari model yang sudah dilatih)
- Sangat ideal untuk LLM yang dijalankan pada server, data center, maupun perangkat edge berbasis GPU
- Mengurangi latensi dan konsumsi daya
TensorRT sangat cocok untuk organisasi yang ingin menyebarkan LLM ke lingkungan produksi dengan kebutuhan kecepatan tinggi.
-
OpenVINO (Intel)
OpenVINO adalah toolkit dari Intel yang fokus pada percepatan inferensi AI di perangkat keras Intel, mulai dari CPU, GPU, hingga edge devices.Fitur utama:
- Mengoptimalkan model dari berbagai framework seperti TensorFlow, PyTorch, ONNX
- Mendukung eksekusi model AI yang hemat daya dan cepat
- Sangat cocok digunakan pada aplikasi edge seperti kamera pintar, drone, atau robot
Dengan OpenVINO, pengembang dapat menjalankan model yang telah di-prune atau di-distill pada perangkat-perangkat ringan tanpa mengorbankan kecepatan.
-
ONNX Runtime
ONNX (Open Neural Network Exchange) Runtime adalah sebuah runtime engine lintas-platform yang mendukung eksekusi model dari berbagai framework AI.Kelebihan ONNX Runtime:
- Mendukung interoperabilitas antar framework seperti PyTorch, TensorFlow, dan scikit-learn
- Bisa digunakan untuk menjalankan model yang sudah di-prune atau di-distill secara efisien
- Cocok untuk integrasi lintas platform, mulai dari server hingga perangkat edge
- Mendukung berbagai akselerator hardware seperti CPU, GPU, dan bahkan FPGA
ONNX Runtime adalah solusi ideal bagi pengembang yang ingin fleksibilitas dalam menyebarkan model AI lintas sistem dan perangkat.
Tantangan dan Hal yang Perlu Diperhatikan
Walau menjanjikan, pruning dan distillation juga memiliki tantangan:
-
Menjaga Keseimbangan Ukuran dan Akurasi
Terlalu banyak memangkas bisa menurunkan kualitas model.
Solusi: gunakan strategi pruning bertahap dan distillation bersamaan untuk mempertahankan performa. -
Tugas-Sentris
Tidak semua jenis pruning cocok untuk semua tugas.
Misalnya, untuk klasifikasi cocok menggunakan weight pruning, sementara untuk terjemahan lebih baik menggunakan attention-head pruning. -
Kebutuhan Pelatihan Ulang
Setelah pruning atau distillation, model sering kali perlu dilatih ulang agar stabil.
Latihan ulang dengan data spesifik (misalnya, data dari pelanggan perusahaan) akan meningkatkan akurasi. -
Risiko Keamanan
Model yang lebih kecil bisa lebih rentan terhadap serangan adversarial.
Perlindungan: gunakan adversarial training dan pelatihan sadar-quantization untuk meningkatkan ketahanan.
Kesimpulan
LLM telah mengubah lanskap teknologi dan kecerdasan buatan. Namun, tantangan praktis terkait ukuran, biaya, latensi, dan konsumsi energi membuat penggunaannya sulit dalam skala luas.
Solusinya adalah menggunakan pruning dan distillation. Dengan kedua teknik ini, model dapat diringankan tanpa kehilangan performa signifikan. Kita bisa menjalankan AI pada perangkat sederhana, mengurangi biaya cloud, mempercepat respons, dan yang paling penting: menjaga keberlanjutan lingkungan.
Rekomendasi Praktis:
- Gunakan framework seperti Hugging Face, TensorRT, atau OpenVINO untuk kompresi dan deploy model.
- Fokus pada edge deployment: LLM bisa digunakan dalam bidang pendidikan, pertanian, kesehatan, hingga perangkat rumah tangga pintar.
- Pertimbangkan dampak lingkungan dari pelatihan dan penggunaan model besar, dan pilih pendekatan kompresi sebagai bagian dari strategi ramah lingkungan.
Dengan pendekatan yang tepat, LLM bisa diakses oleh lebih banyak orang, digunakan secara lebih efisien, dan membawa manfaat yang lebih luas di berbagai sektor.