🧠 Intel dan Weizmann Institute Percepat Proses AI Lewat Teknik Speculative Decoding Baru

Ahmandonk

1 day ago

Intel bersama Weizmann Institute of Science memperkenalkan metode baru dalam dunia AI bernama speculative decoding, yang mampu meningkatkan kecepatan inferensi model bahasa besar (LLM) hingga 3 kali lipat tanpa mengorbankan akurasi.

Dalam makalah riset terbaru yang dipresentasikan di International Conference on Machine Learning (ICML), kolaborasi antara Intel Labs dan Weizmann Institute berhasil menemukan cara untuk mempercepat proses text generation oleh LLM seperti ChatGPT dan Llama. Teknik ini dinamakan Lookahead Decoding (LAD) — sebuah pendekatan baru dalam speculative decoding.

Apa Itu Speculative Decoding?

Pada dasarnya, model bahasa besar (LLM) biasanya menghasilkan satu token per iterasi, membuat prosesnya lambat. Speculative decoding mencoba memprediksi beberapa token ke depan secara paralel, lalu mengonfirmasi hasilnya dengan model utama — mempercepat proses tanpa kehilangan akurasi.

Fitur dan Keunggulan Lookahead Decoding (LAD):

Lebih Cepat: Mencapai peningkatan hingga 3x kecepatan dibandingkan decoding konvensional.
Model Tak Berubah: Bisa langsung diterapkan tanpa perlu melatih ulang LLM yang ada.
Efisien: Menggunakan metode prediksi paralel dari model pembantu (draft model), lalu dikonfirmasi oleh model utama.
Universal: Telah diuji pada berbagai model besar seperti Llama 2, OPT, dan Mistral, dengan hasil konsisten.

LAD menggabungkan teknik lookahead, perbandingan probabilitas, dan prediksi multi-token, sehingga jauh lebih fleksibel dan efisien dibanding pendekatan speculative decoding sebelumnya.

Dampak Potensial

Mempercepat chatbot dan aplikasi AI real-time lainnya.
Mengurangi beban pemrosesan di cloud atau edge AI.
Memungkinkan pengalaman pengguna yang lebih responsif tanpa butuh GPU besar.

Cocok Untuk:

Peneliti dan developer AI
Perusahaan teknologi yang mengembangkan produk berbasis LLM
Pengembang sistem AI edge dengan keterbatasan komputasi

Sumber

TechPowerUp