Samsung Perkenalkan TRUEBench: Benchmark AI Produktivitas Dunia Nyata – GPT-5 Raih Posisi Teratas

Samsung Electronics melalui Samsung Research resmi meluncurkan TRUEBench (Trustworthy Real-world Usage Evaluation Benchmark), tolok ukur baru yang dirancang khusus untuk menilai produktivitas AI dalam skenario kerja nyata. Berbeda dari benchmark konvensional yang cenderung berfokus pada question-answer sederhana dan dominan berbahasa Inggris, TRUEBench menghadirkan evaluasi multibahasa, multi-skenario, dan berorientasi pada aplikasi produktivitas di dunia kerja.
Evaluasi Produktivitas AI yang Lebih Realistis
TRUEBench menilai performa Large Language Models (LLMs) dalam 10 kategori dan 46 sub-kategori, mencakup:
- Generasi konten
- Analisis data
- Ringkasan dokumen
- Penerjemahan lintas bahasa
Benchmark ini menggunakan 2.485 set pengujian dengan panjang teks mulai dari 8 karakter hingga 20.000 karakter, merepresentasikan tugas sederhana hingga kompleks seperti peringkasan dokumen panjang.
Selain itu, TRUEBench mendukung 12 bahasa (termasuk Inggris, Korea, Jepang, Prancis, Jerman, Rusia, Portugis, Spanyol, Italia, Polandia, Vietnam, dan Mandarin), dengan skenario lintas bahasa untuk mencerminkan kebutuhan perusahaan global.

Standar Evaluasi yang Ketat
TRUEBench menerapkan metode evaluasi berbasis kolaborasi manusia dan AI:
- Human annotators menyusun kriteria evaluasi.
- AI meninjau untuk mendeteksi kesalahan atau batasan yang tidak perlu.
- Manusia kembali menyempurnakan hasil agar lebih presisi.
Proses berulang ini menghasilkan standar evaluasi yang jelas, objektif, dan minim bias. Setiap jawaban AI harus memenuhi semua kondisi agar dinilai lolos, sehingga skor akhir benar-benar mencerminkan akurasi sekaligus kesesuaian dengan kebutuhan implisit pengguna.
GPT-5 Pimpin Papan Skor
Dalam uji coba perdana, GPT-5 tercatat sebagai model AI dengan performa tertinggi di TRUEBench, unggul dalam akurasi, pemahaman konteks, serta efisiensi respons. Hal ini menandai tonggak penting dalam adopsi AI produktivitas, terutama bagi perusahaan yang ingin memanfaatkan AI untuk mendukung pekerjaan sehari-hari.
Ketersediaan Terbuka
Data sampel dan papan peringkat (leaderboard) TRUEBench tersedia melalui platform open-source Hugging Face, memungkinkan pengguna membandingkan hingga lima model AI sekaligus. Informasi tambahan termasuk panjang rata-rata respons juga dipublikasikan untuk menilai efisiensi selain performa.
Sumber: Samsung








