fost-nepal.org – Masalah infrastruktur terkait memori menjadi perhatian serius saat AI bertipe agentic mulai beroperasi pada beban kerja produksi nyata. Para ahli menyoroti bahwa perangkat GPU saat ini tidak memiliki kapasitas memori yang cukup untuk menyimpan cache Key-Value (KV) yang diperlukan oleh agen AI canggih untuk mempertahankan konteks. Hal ini mengakibatkan banyak pekerjaan yang terbuang sia-sia, peningkatan biaya cloud, dan penurunan kinerja.
Dalam diskusi pada acara VentureBeat AI Impact Series, Shimon Ben-David, CTO WEKA, menjelaskan bahwa masalah ini dikenal sebagai “dinding memori”. Ia menekankan bahwa tidak hanya masalah siklus GPU, tetapi lebih kepada tantangan kapasitas memori GPU yang terbatas. Model transformer, yang menjadi dasar AI, membutuhkan KV cache untuk menyimpan informasi kontekstual dari setiap token dalam percakapan. Ketika konteks bertambah panjang, kebutuhan memori pun melonjak.
Ben-David menyebutkan bahwa memori GPU teratas hanya mencapai 288GB, yang harus membagi ruang dengan model itu sendiri. Dalam lingkungan inferensi nyata, seperti pengembangan kode dan pemrosesan pengembalian pajak, masalah ini muncul ketika kapasitas KV cache telah terisi penuh, memaksa sistem untuk menghapus data penting.
Ben-David juga mengungkapkan bahwa limbah akibat perhitungan ulang GPU dapat mencapai 40% dari total beban kerja, yang berimplikasi pada pengalaman pengguna yang buruk. WEKA memperkenalkan solusi berbasis memori teraugmentasi dan penyimpanan token, yang memungkinkan data cache KV disimpan secara efisien di luar memori GPU.
Seiring kebutuhan inferensi AI yang meningkat, perusahaan-perusahaan perlu memprioritaskan pengelolaan memori agar tetap kompetitif. Daman memori tidak dapat diatasi hanya dengan menambah anggaran, melainkan memerlukan pendekatan baru untuk infrastruktur AI.