Cloud alternatif sedang booming karena perusahaan mencari akses yang lebih murah ke GPU

Permintaan terhadap cloud alternatif kini semakin besar.

Contoh kasus: CoreWeave, penyedia infrastruktur GPU yang memulai kehidupannya sebagai operasi penambangan mata uang kripto, minggu ini mengumpulkan dana baru sebesar $1,1 miliar dari investor termasuk Coatue, Fidelity, dan Altimeter Capital. Putaran ini menjadikan valuasinya menjadi $19 miliar pasca-uang, dan total utang dan ekuitasnya meningkat menjadi $5 miliar – angka yang luar biasa untuk perusahaan yang berusia kurang dari sepuluh tahun.

Ini bukan hanya CoreWeave.

Lambda Labs, yang juga menawarkan serangkaian instance GPU yang dihosting di cloud, pada awal April mendapatkan “kendaraan pembiayaan bertujuan khusus” hingga $500 juta, beberapa bulan setelah menyelesaikan putaran Seri C senilai $320 juta. Voltase Park nirlaba, yang didukung oleh miliarder kripto Jed McCaleb, pada Oktober lalu mengumumkan bahwa mereka menginvestasikan $500 juta di pusat data yang didukung GPU. Dan Together AI, host GPU cloud yang juga melakukan penelitian AI generatif, pada bulan Maret menghasilkan $106 juta dalam putaran yang dipimpin Salesforce.

Jadi mengapa semua antusiasme – dan uang mengalir ke – ruang cloud alternatif?

Jawabannya, seperti yang Anda duga, adalah AI generatif.

Seiring dengan berlanjutnya masa booming AI generatif, permintaan terhadap perangkat keras untuk menjalankan dan melatih model AI generatif dalam skala besar juga meningkat. GPU, secara arsitektural, adalah pilihan logis untuk pelatihan, penyesuaian, dan menjalankan model karena GPU berisi ribuan inti yang dapat bekerja secara paralel untuk menjalankan persamaan aljabar linier yang membentuk model generatif.

Tapi memasang GPU itu mahal. Jadi sebagian besar pengembang dan organisasi beralih ke cloud.

Perusahaan lama di bidang komputasi awan – Amazon Web Services (AWS), Google Cloud, dan Microsoft Azure – tidak kekurangan GPU dan perangkat keras khusus yang dioptimalkan untuk beban kerja AI generatif. Namun setidaknya untuk beberapa model dan proyek, cloud alternatif bisa jadi lebih murah — dan memberikan ketersediaan yang lebih baik.

Di CoreWeave, menyewa Nvidia A100 40GB — salah satu pilihan populer untuk pelatihan model dan inferensi — biayanya $2,39 per jam, yang berarti $1,200 per bulan. Di Azure, GPU yang sama berharga $3,40 per jam, atau $2,482 per bulan; di Google Cloud, biayanya $3,67 per jam, atau $2.682 per bulan.

Mengingat beban kerja AI generatif biasanya dilakukan pada cluster GPU, delta biaya meningkat dengan cepat.

“Perusahaan seperti CoreWeave berpartisipasi dalam pasar yang kami sebut sebagai penyedia cloud khusus ‘GPU sebagai layanan’,” Sid Nag, VP layanan dan teknologi cloud di Gartner, mengatakan kepada TechCrunch. “Mengingat tingginya permintaan akan GPU, mereka menawarkan alternatif terhadap hyperscaler, di mana mereka telah menggunakan GPU Nvidia dan menyediakan jalur lain untuk memasarkan dan mengakses GPU tersebut.”

Nag menunjukkan bahwa bahkan beberapa perusahaan teknologi besar sudah mulai mengandalkan penyedia cloud alternatif karena mereka menghadapi tantangan kapasitas komputasi.

Juni lalu, CNBC dilaporkan bahwa Microsoft telah menandatangani kesepakatan bernilai miliaran dolar dengan CoreWeave untuk memastikan bahwa OpenAI, pembuat ChatGPT dan mitra dekat Microsoft, akan memiliki kekuatan komputasi yang memadai untuk melatih model AI generatifnya. Nvidia, penyedia sebagian besar chip CoreWeave, melihat ini sebagai tren yang diinginkan, mungkin karena alasan leverage; dikatakan telah memberikan beberapa penyedia cloud alternatif akses preferensial ke GPU-nya.

Lee Sustar, analis utama di Forrester, melihat keberhasilan vendor cloud seperti CoreWeave sebagian karena mereka tidak memiliki “beban” infrastruktur yang harus dihadapi oleh penyedia layanan lama.

“Mengingat dominasi hyperscaler di pasar cloud publik secara keseluruhan, yang menuntut investasi besar dalam infrastruktur dan berbagai layanan yang menghasilkan sedikit atau tanpa pendapatan, penantang seperti CoreWeave memiliki peluang untuk berhasil dengan fokus pada layanan AI premium tanpa beban tingkat hypercaler. investasi secara keseluruhan,” katanya.

Namun apakah pertumbuhan ini berkelanjutan?

Sustar mempunyai keraguan. Ia percaya bahwa perluasan penyedia cloud alternatif akan ditentukan oleh apakah mereka dapat terus menghadirkan GPU online dalam volume tinggi, dan menawarkannya dengan harga yang kompetitif dan rendah.

Persaingan dalam hal harga mungkin menjadi sebuah tantangan karena perusahaan lama seperti Google, Microsoft, dan AWS meningkatkan investasi pada perangkat keras khusus untuk menjalankan dan melatih model. Google menawarkan TPU-nya; Microsoft baru-baru ini meluncurkan dua chip khusus, Azure Maia dan Azure Cobalt; dan AWS memiliki Trainium, Inferentia, dan Graviton.

“Hypercaler akan memanfaatkan silikon khusus mereka untuk mengurangi ketergantungan mereka pada Nvidia, sementara Nvidia akan mengandalkan CoreWeave dan cloud AI yang berpusat pada GPU lainnya,” kata Sustar.

Selain itu, terdapat fakta bahwa, meskipun banyak beban kerja AI generatif berjalan paling baik di GPU, tidak semua beban kerja memerlukannya — terutama jika beban kerja tersebut tidak sensitif terhadap waktu. CPU dapat menjalankan penghitungan yang diperlukan, tetapi biasanya lebih lambat dibandingkan GPU dan perangkat keras khusus.

Lebih jauh lagi, terdapat ancaman pecahnya gelembung AI generatif, yang akan menyebabkan penyedia layanan memiliki tumpukan GPU dan tidak cukup banyak pelanggan yang memintanya. Namun masa depan tampak cerah dalam jangka pendek, kata Sustar dan Nag, keduanya memperkirakan aliran awan baru akan terus terjadi.

“Startup cloud yang berorientasi pada GPU akan memberikan [incumbents] banyak persaingan, terutama di antara pelanggan yang sudah menggunakan multi-cloud dan dapat menangani kompleksitas manajemen, keamanan, risiko, dan kepatuhan di berbagai cloud,” kata Sustar. “Pelanggan cloud seperti ini merasa nyaman untuk mencoba cloud AI baru jika cloud tersebut memiliki kepemimpinan yang kredibel, dukungan finansial yang kuat, dan GPU yang tidak memerlukan waktu tunggu.”