Qwen3-Next: Inovasi AI yang Hemat Biaya dan Super Efisien

Rita Puspita Sari
•
18 Sep 2025 15.53 WIB

Perkembangan kecerdasan buatan (AI), khususnya dalam ranah Large Language Model (LLM), terus melaju pesat. Model-model besar dengan parameter ratusan miliar kini menjadi tulang punggung berbagai aplikasi, mulai dari asisten virtual, penerjemah otomatis, penulisan konten, hingga analisis data tingkat lanjut. Namun, di balik kecanggihan tersebut, ada tantangan besar: bagaimana membuat model dengan parameter raksasa tetap efisien, baik dalam pelatihan (training) maupun saat digunakan (inferensi)?

Di sinilah hadir Qwen3-Next, sebuah arsitektur baru yang dikembangkan dengan tujuan utama meningkatkan efisiensi tanpa mengorbankan kualitas. Qwen3-Next menjadi penerus dari Qwen3, namun dengan sederet inovasi yang membuatnya jauh lebih unggul. Artikel ini akan membahas mengenai Qwen3-Next: mulai dari arsitektur, fitur utama, mekanisme pelatihan, hingga performa pasca pelatihan.

Mengapa Qwen3-Next Dibutuhkan?

Tren utama dalam pengembangan model besar saat ini berfokus pada dua hal penting:

Context Length Scaling: memperpanjang konteks yang bisa dipahami model. Semakin panjang konteks, semakin baik model dalam memahami hubungan antar informasi, misalnya membaca dokumen panjang atau percakapan multi-langkah.
Total Parameter Scaling: memperbesar jumlah parameter dalam model. Semakin banyak parameter, semakin kompleks kemampuan model, tetapi konsekuensinya adalah biaya pelatihan dan inferensi yang membengkak.

Tantangan besar muncul ketika kedua tren ini diterapkan bersamaan. Model menjadi sangat mahal untuk dilatih dan lambat saat digunakan. Qwen3-Next hadir untuk menjawab tantangan tersebut dengan pendekatan baru.

Arsitektur Baru: Perbedaan dari Qwen3

Dibandingkan dengan Qwen3, versi Next membawa empat inovasi utama:

Hybrid Attention, kombinasi cerdas antara kecepatan linear attention dan akurasi standard attention.
Ultra-Sparse MoE (Mixture of Experts), hanya sebagian kecil parameter yang aktif saat inferensi, membuat proses lebih hemat sumber daya.
Desain yang ramah stabilitas pelatihan, mencegah masalah umum seperti attention sink dan aktivasi berlebihan.
Multi-Token Prediction (MTP), mampu memprediksi beberapa token sekaligus, mempercepat proses inferensi.

Berkat inovasi ini, Qwen3-Next mampu menjalankan 80 miliar parameter, tetapi saat inferensi hanya mengaktifkan sekitar 3 miliar parameter saja. Artinya, model ini lebih hemat 90% biaya pelatihan dibandingkan pendahulunya, namun tetap mampu bersaing dari sisi kualitas.

Fitur Utama Qwen3-Next

Hybrid Attention: Gated DeltaNet + Gated Attention
Salah satu inovasi paling penting adalah hybrid attention.
- Linear Attention → cepat dan hemat, cocok untuk teks panjang, tetapi sering kurang akurat dalam mengingat detail.
- Standard Attention → akurat, tetapi mahal secara komputasi.
Qwen3-Next menggabungkan keduanya dengan rasio 3:1:
- 75% lapisan menggunakan Gated DeltaNet (variasi linear attention yang lebih cerdas).
- 25% lapisan tetap menggunakan standard attention untuk menjaga akurasi.
Selain itu, ada peningkatan teknis yang membuat standard attention lebih stabil, misalnya output gating mechanism untuk mengurangi permasalahan low-rank dan peningkatan ukuran dimensi per head dari 128 menjadi 256.
Ultra-Sparse MoE: Hanya 3,7% Parameter Aktif
MoE atau Mixture of Experts adalah teknik di mana model memiliki banyak “ahli” (expert) yang hanya sebagian kecil dipanggil sesuai kebutuhan.
- Pada Qwen3 lama → 128 expert total, dengan 8 digunakan.
- Pada Qwen3-Next → meningkat drastis menjadi 512 expert, tetapi hanya 10 expert + 1 expert bersama yang aktif saat inferensi.
Hasilnya: dari total 80 miliar parameter, hanya sekitar 3 miliar yang benar-benar aktif di setiap langkah inferensi. Hal ini membuat efisiensi meningkat drastis tanpa menurunkan kualitas hasil.
Stabilitas Pelatihan yang Lebih Baik
Masalah umum dalam model besar adalah instabilitas saat pelatihan. Qwen3-Next mengatasi hal ini dengan beberapa trik:
- Menggunakan Zero-Centered RMSNorm alih-alih QK-Norm.
- Menambahkan weight decay untuk mencegah bobot membesar tak terkendali.
- Normalisasi parameter router MoE sejak awal agar setiap expert memiliki kesempatan yang adil.
- Attention output gating untuk menghindari masalah Attention Sink.
Dengan desain ini, pelatihan skala besar bisa berjalan lebih lancar dan konsisten.
Multi-Token Prediction (MTP)
Berbeda dari model tradisional yang hanya memprediksi satu token per langkah, Qwen3-Next mampu memprediksi beberapa token sekaligus.

Manfaat MTP:
- Inferensi lebih cepat.
- Speculative Decoding lebih efektif (memprediksi beberapa kemungkinan lalu memverifikasi).
- Hasil teks lebih natural tanpa mengorbankan kecepatan.

Efisiensi Pelatihan dan Inferensi

Qwen3-Next dilatih menggunakan subset seimbang dari 15 triliun token. Biayanya jauh lebih rendah:

Hanya <80% biaya GPU jam dari Qwen3-30B.
Hanya 9,3% biaya GPU jam dari Qwen3-32B.

Namun hasilnya justru lebih baik dari keduanya.

Performa Inferensi

Prefill Stage (tahap awal input):
- Pada konteks 4K token → throughput 7x lebih tinggi dari Qwen3-32B.
- Pada konteks di atas 32K → throughput >10x lebih cepat.
Decode Stage (tahap generasi output):
- Pada konteks 4K → throughput hampir 4x lebih cepat.
- Pada konteks ultra-panjang (256K) → tetap unggul lebih dari 10x.

Performa Model Dasar

Qwen3-Next-80B-A3B-Base hanya mengaktifkan sepersepuluh parameter dibandingkan Qwen3-32B-Base, namun secara mengejutkan justru mengungguli performanya di banyak benchmark. Bahkan dibandingkan Qwen3-30B-A3B, hasilnya jauh lebih baik.

Hal ini menunjukkan bahwa efisiensi tidak harus mengorbankan kualitas.

Performa Model Pasca Pelatihan (Post-Training)
Setelah melalui tahap post-training, Qwen3-Next hadir dalam dua varian utama:

Performa Instruct Model
Varian ini unggul pada tugas instruksi umum seperti penulisan, penerjemahan, dan ringkasan.
- Jauh lebih baik daripada Qwen3-30B-Instruct.
- Mendekati performa Qwen3-235B-A22B-Instruct (model raksasa dengan biaya jauh lebih tinggi).
- Pada benchmark RULER, model ini mampu menangani konteks ultra-panjang hingga 256K token, bahkan lebih baik daripada Qwen3-235B pada kasus tertentu.
Performa Thinking Model
Varian Thinking dirancang untuk penalaran kompleks, seperti logika, matematika, atau analisis mendalam.
- Mengalahkan Qwen3-30B-Thinking dan Qwen3-32B-Thinking.
- Lebih baik daripada model komersial Gemini-2.5-Flash-Thinking.
- Hampir menyamai performa Qwen3-235B-Thinking, padahal menggunakan sumber daya jauh lebih sedikit.

Ketersediaan

Qwen3-Next kini sudah tersedia di berbagai platform, antara lain:

Hugging Face
ModelScope
Alibaba Cloud Model Studio
NVIDIA API Catalog

Hal ini memudahkan pengembang maupun perusahaan untuk langsung mencoba dan mengintegrasikan Qwen3-Next ke dalam sistem mereka.

Panduan Pengembangkan Aplikasi dengan Qwen3-Next

Qwen3-Next-80B-A3B-Instruct kini bisa langsung digunakan oleh para pengembang untuk membangun berbagai aplikasi cerdas, mulai dari chatbot, agen pintar, hingga sistem analisis data otomatis.

Integrasi dengan Hugging Face Transformers
Qwen3-Next sudah terintegrasi ke dalam Hugging Face Transformers, sehingga pengembang bisa langsung memanggil model ini seperti menggunakan model populer lainnya.

Namun, ada beberapa hal penting yang perlu diperhatikan:
- Multi-Token Prediction (MTP) belum tersedia secara penuh di Hugging Face Transformers. Artinya, untuk saat ini fitur prediksi banyak token sekaligus belum bisa dimanfaatkan secara optimal.
- Efisiensi inferensi sangat tergantung pada framework yang digunakan. Jika hanya mengandalkan Transformers standar, hasilnya mungkin belum secepat yang diharapkan.
Untuk inferensi, disarankan menggunakan framework khusus seperti SGLang atau vLLM karena keduanya lebih dioptimalkan untuk kecepatan dan efisiensi.
SGLang: Framework Serving Cepat
SGLang adalah framework untuk menyajikan model LLM maupun Vision-Language Model (VLM) dengan cepat. Dengan SGLang, pengembang bisa menjalankan server API yang kompatibel dengan standar OpenAI API, sehingga memudahkan integrasi ke berbagai aplikasi.

Namun, ada catatan penting:
- Panjang konteks bawaan Qwen3-Next di SGLang adalah 256K token.
- Jika server gagal berjalan karena keterbatasan memori, panjang konteks bisa dikurangi, misalnya ke 32.768 token.
Framework ini sangat cocok jika Anda ingin membangun aplikasi real-time yang membutuhkan respons cepat dari model.
vLLM: Efisiensi Memori & Throughput Tinggi
Alternatif lain adalah vLLM, yang terkenal dengan penggunaan memori efisien dan throughput tinggi. Sama seperti SGLang, vLLM juga dapat meluncurkan server dengan API kompatibel OpenAI.

Panjang konteks default tetap 256K token, tetapi jika terjadi error, sebaiknya dikurangi ke 32.768 token. Framework ini ideal bagi pengembang yang ingin memaksimalkan penggunaan sumber daya GPU tanpa harus mengorbankan performa.
Pemanfaatan Agen dengan Qwen-Agent
Salah satu kekuatan Qwen3 adalah kemampuannya dalam tool calling, yaitu menghubungkan model dengan alat eksternal seperti mesin pencari, kalkulator, atau API khusus. Untuk memudahkan integrasi, tersedia Qwen-Agent, yang sudah dilengkapi dengan:
- Template siap pakai.
- Parser untuk memanggil alat eksternal.
- Dukungan konfigurasi yang fleksibel.
Pengembang bisa menentukan tool dengan tiga cara:
1. Menggunakan file konfigurasi MCP.
2. Menggunakan tool bawaan Qwen-Agent.
3. Mengintegrasikan tool eksternal sesuai kebutuhan.
Dengan Qwen-Agent, proses coding menjadi jauh lebih sederhana karena struktur pemanggilan alat sudah ditangani secara otomatis.
Pemrosesan Teks Ultra-Panjang
Qwen3-Next mendukung panjang konteks hingga 262.144 token secara bawaan. Namun, pada kasus tertentu, pengguna mungkin membutuhkan pemrosesan lebih panjang, misalnya analisis dokumen dengan jutaan kata.Untuk hal ini, digunakan teknik RoPE scaling. Salah satu metode yang sudah diuji adalah YaRN, yang memungkinkan pemrosesan hingga 1 juta token.
Namun, perlu diingat:
- Semua framework open-source saat ini masih menggunakan static YaRN, sehingga faktor scaling tetap sama meskipun panjang input berbeda. Hal ini bisa memengaruhi performa pada teks pendek.
- Konfigurasi rope_scaling hanya ditambahkan jika benar-benar perlu memproses konteks ultra-panjang.
- Pengaturan faktor scaling harus disesuaikan dengan rata-rata panjang konteks aplikasi. Misalnya, jika aplikasi sering memproses 524.288 token, maka atur faktor scaling ke 2.0.

Kesimpulan

Qwen3-Next membuktikan bahwa efisiensi dan performa tinggi bisa berjalan seiring. Dengan arsitektur baru yang memadukan hybrid attention, ultra-sparse MoE, stabilitas pelatihan, dan multi-token prediction, model ini berhasil menghadirkan: