Optimalkan Pelatihan AI Besar: Rajin Buat Checkpoint Dari Awal dan Sering Pakai Multi-Tier Checkpointing

Pelatihan model AI besar yang canggih, seperti Large Language Models (LLM), membutuhkan sumber daya komputasi yang sangat besar dan seringkali berjalan selama berhari-hari atau bahkan berminggu-minggu di klaster yang terdiri dari ribuan akselerator. Durasi pelatihan yang panjang ini menimbulkan tantangan signifikan terkait reliabilitas.

Tantangan dalam Pelatihan AI Skala Besar

Salah satu masalah utama dalam pelatihan model AI besar adalah tingginya kemungkinan terjadinya kegagalan node atau hardware lainnya selama proses berjalan. Ketika kegagalan terjadi, seluruh kemajuan pelatihan sejak terakhir kali model disimpan bisa hilang, menyebabkan jam atau bahkan hari kerja terbuang sia-sia. Mengingat biaya komputasi untuk skala ini, pemborosan waktu menjadi sangat mahal.

Pentingnya Mekanisme Checkpointing

Untuk mengatasi risiko kehilangan data dan waktu akibat kegagalan, checkpointing menjadi praktik standar dalam pelatihan AI skala besar. Checkpointing adalah proses menyimpan state model secara berkala (termasuk bobot model, optimizer state, dan parameter pelatihan lainnya) ke lokasi penyimpanan yang tahan lama. Dengan adanya checkpoint, jika terjadi kegagalan, pelatihan dapat dilanjutkan dari titik penyimpanan terakhir, bukan memulai dari awal.

Keterbatasan Checkpointing Tradisional

Meskipun checkpointing penting, implementasinya pada skala model triliunan parameter menjadi tantangan tersendiri. Ukuran model dapat mencapai multi-terabyte. Menyimpan state model berukuran besar ini langsung ke penyimpanan tahan lama yang jauh (seperti Google Cloud Storage) memerlukan waktu yang signifikan – bisa memakan waktu hingga beberapa jam per checkpoint. Interval penyimpanan yang jarang (karena waktu simpan yang lama) berarti bahwa, jika kegagalan terjadi di antara dua titik penyimpanan, masih ada jendela waktu yang besar di mana kemajuan bisa hilang. Di sisi lain, terlalu sering menyimpan ke penyimpanan jarak jauh akan memperlambat laju pelatihan secara keseluruhan.

Solusi: Multi-Tier Checkpointing

Untuk mengoptimalkan proses penyimpanan checkpoint pada pelatihan model AI besar, pendekatan multi-tier checkpointing (checkpointing multi-tingkat) diusulkan. Metode ini menggabungkan kecepatan penyimpanan lokal dengan ketahanan penyimpanan jarak jauh untuk meminimalkan pemborosan waktu dan memaksimalkan efisiensi pemulihan.

Tier Pertama: Penyimpanan Lokal Cepat

Tingkat pertama melibatkan penyimpanan checkpoint secara frekuentif (misalnya, setiap beberapa menit atau puluhan menit) ke penyimpanan lokal yang sangat cepat pada node pelatihan, seperti SSD NVMe. Penyimpanan lokal ini menawarkan latensi rendah dan throughput tinggi, memungkinkan proses simpan checkpoint berlangsung cepat dan tidak mengganggu jalannya pelatihan secara signifikan. Checkpoint lokal ini berperan sebagai cadangan cepat untuk pemulihan instan jika terjadi kegagalan node.

Tier Kedua: Penyimpanan Pusat yang Tahan Lama

Tingkat kedua melibatkan penyimpanan checkpoint dari tingkat pertama ke penyimpanan cloud yang tahan lama dan terpusat (misalnya, Google Cloud Storage). Proses sinkronisasi dari penyimpanan lokal ke penyimpanan cloud ini dilakukan secara asinkron dan lebih jarang (misalnya, setiap beberapa jam atau harian). Meskipun lebih lambat, penyimpanan cloud menawarkan durabilitas data yang tinggi dan dapat diakses dari node komputasi mana pun, menjadikannya cadangan yang andal untuk kegagalan klaster atau pemulihan jangka panjang.

Manfaat Multi-Tier Checkpointing

Implementasi multi-tier checkpointing memberikan beberapa keuntungan krusial untuk pelatihan model AI besar:

Pemulihan Lebih Cepat: Jika terjadi kegagalan node, pelatihan dapat segera dilanjutkan dari checkpoint lokal terakhir yang paling baru, mengurangi waktu henti secara drastis dibandingkan menunggu pemulihan dari penyimpanan jarak jauh yang lebih lama.
Mengurangi Waktu yang Terbuang: Dengan interval checkpoint lokal yang sering, jumlah kemajuan pelatihan yang hilang akibat kegagalan diminimalkan.
Peningkatan Efisiensi Pelatihan: Proses simpan checkpoint frekuentif tidak menghambat pelatihan secara signifikan karena menggunakan penyimpanan lokal yang cepat.
Reliabilitas Jangka Panjang: Checkpoint yang disimpan di penyimpanan cloud memastikan data model aman dan dapat diakses untuk pemulihan bahkan jika seluruh klaster mengalami masalah.

Dengan menggabungkan kecepatan penyimpanan lokal untuk checkpoint frekuentif dan durabilitas penyimpanan cloud untuk cadangan jangka panjang, pendekatan multi-tier checkpointing secara efektif meningkatkan reliabilitas dan efisiensi pelatihan model AI besar pada infrastruktur skala petabyte seperti yang digunakan di Google Cloud, memastikan bahwa upaya komputasi yang mahal tidak sia-sia.

Sumber: https://cloud.google.com/blog/products/ai-machine-learning/using-multi-tier-checkpointing-for-large-ai-training-jobs/