Ringkasan penyimpanan dalam cache di Cloud Storage FUSE

Halaman ini memberikan detail tentang opsi caching yang tersedia untuk Cloud Storage FUSE dan cara mengonfigurasi setiap jenis cache.

Untuk membantu meningkatkan performa pengambilan data, Cloud Storage FUSE menawarkan empat jenis caching opsional:

Pertimbangan

  • Mengaktifkan caching file, caching stat, caching jenis, atau caching daftar dapat meningkatkan performa, tetapi mengurangi konsistensi, yang biasanya terjadi saat Anda mengakses bucket yang sama menggunakan beberapa klien dengan tingkat perubahan yang tinggi. Untuk mengurangi dampak pada konsistensi, sebaiknya pasang bucket sebagai hanya baca. Untuk mempelajari lebih lanjut perilaku caching, lihat dokumentasi semantik Cloud Storage FUSE di GitHub.

  • Jika entri cache file belum habis masa berlakunya berdasarkan waktu aktif (TTL) dan file ada dalam cache, operasi baca ke file tersebut akan ditayangkan dari cache klien lokal tanpa permintaan apa pun yang dikeluarkan ke Cloud Storage.

  • Jika entri cache file telah berakhir berdasarkan TTL-nya, panggilan metadata GET akan dilakukan terlebih dahulu ke Cloud Storage, dan jika file tidak ada di cache, file akan diambil dari Cloud Storage. Kedua operasi tunduk pada latensi jaringan. Jika entri metadata telah dibatalkan, tetapi file ada dalam cache, dan pembuatan objeknya tidak berubah, file akan disajikan dari cache hanya setelah panggilan metadata GET dilakukan untuk memeriksa apakah data valid.

  • Jika klien Cloud Storage FUSE mengubah file yang di-cache atau metadatanya, maka file tersebut akan langsung dibatalkan dan konsistensi dipastikan dalam pembacaan berikutnya oleh klien yang sama. Namun, jika klien yang berbeda mengakses file yang sama atau metadatanya, dan entrinya di-cache, maka versi file atau metadata yang di-cache akan dibaca, bukan versi yang diperbarui, hingga file tersebut dibatalkan oleh setelan TTL klien tertentu.

  • Untuk menghindari pengosongan cache, pastikan seluruh set data Anda sesuai dengan kapasitas cache. Selain itu, pertimbangkan kapasitas dan performa maksimum yang dapat disediakan media cache Anda. Jika Anda mencapai performa maksimum, batas kapasitas, atau keduanya, pada cache yang disediakan, sebaiknya baca langsung dari Cloud Storage yang memiliki batas jauh lebih tinggi daripada Cloud Storage FUSE.

Jalur baca untuk data dalam cache

Cache Cloud Storage FUSE mempercepat pembacaan berulang setelah data dimasukkan ke cache. Pembacaan pertama dan cache miss langsung menuju Cloud Storage dan tunduk pada latensi jaringan Cloud Storage normal. Untuk meningkatkan performa baca pertama kali, lihat Mengisi cache metadata terlebih dahulu.

Ringkasan penyimpanan file dalam cache

Cache file Cloud Storage FUSE adalah cache baca berbasis klien yang melayani pembacaan file berulang dari penyimpanan cache yang didukung oleh sistem file lokal Anda. Untuk mempelajari lebih lanjut penyimpanan file dalam cache, lihat halaman Penyimpanan file dalam cache.

Download paralel

Saat Anda mengaktifkan penyiapan file, download paralel akan diaktifkan secara otomatis di Cloud Storage FUSE versi 2.12 dan yang lebih baru. Download paralel mempercepat performa baca untuk file besar berukuran lebih dari 1 GB, termasuk pembacaan pertama kali, menggunakan beberapa pekerja untuk mendownload file secara paralel menggunakan direktori cache file sebagai buffer pengambilan data. Download paralel dapat digunakan untuk mengoptimalkan performa untuk workload kecerdasan buatan (AI) dan machine learning (ML), seperti inferensi model, pemulihan titik pemeriksaan, dan pelatihan pada objek besar. Untuk mengetahui informasi selengkapnya tentang download paralel, lihat Download paralel.

Mengonfigurasi caching file

Untuk mempelajari cara mengonfigurasi caching file, lihat Menggunakan caching file Cloud Storage FUSE.

Ringkasan penyimpanan cache statistik

Cache statis Cloud Storage FUSE adalah cache untuk metadata objek yang meningkatkan performa untuk operasi khusus atribut file seperti ukuran, waktu modifikasi, atau izin. Menggunakan cache stat meningkatkan latensi dengan menggunakan data yang di-cache untuk melakukan operasi, bukan mengirim permintaan objek stat ke Cloud Storage. Untuk mempelajari lebih lanjut penyiapan cache stat, lihat dokumentasi Semantik di GitHub.

Mengonfigurasi cache statistik

Cache stat diaktifkan secara default dan dapat dikonfigurasi menggunakan file konfigurasi Cloud Storage FUSE. Ukuran maksimum cache dikontrol menggunakan salah satu metode berikut:

Untuk mengetahui informasi selengkapnya tentang nilai default dan yang direkomendasikan untuk mengonfigurasi cache stat, lihat halaman Opsi CLI dan file konfigurasi Cloud Storage FUSE.

Mengonfigurasi caching statistik negatif

Cloud Storage FUSE juga menawarkan kemampuan caching stat negatif, yang memungkinkan Anda menetapkan TTL untuk entri cache stat untuk file yang tidak ada, atau hasil negatif. TTL cache statistik negatif dikontrol menggunakan salah satu metode berikut:

Ringkasan penyimpanan ke cache font

Cache jenis Cloud Storage FUSE adalah cache metadata yang mempercepat performa untuk operasi metadata khusus keberadaan file atau direktori. Penggunaan cache jenis meningkatkan latensi dengan mengurangi jumlah permintaan yang dibuat ke Cloud Storage untuk memeriksa apakah file atau direktori ada dengan menyimpan informasi ini secara lokal. Untuk mempelajari lebih lanjut jenis caching, lihat dokumentasi Semantik di GitHub.

Mengonfigurasi caching jenis

Cache jenis diaktifkan secara default dan dapat dikonfigurasi menggunakan file konfigurasi Cloud Storage FUSE atau Cloud Storage FUSE CLI. Ukuran maksimum cache dikontrol menggunakan salah satu metode berikut:

Untuk mengetahui informasi selengkapnya tentang jenis caching dan nilai yang direkomendasikan, lihat halaman Opsi CLI atau file konfigurasi.

TTL cache dikontrol menggunakan salah satu metode berikut:

Ringkasan penyimpanan ke cache daftar

Cache daftar Cloud Storage FUSE adalah untuk daftar direktori dan file, atau ls, respons yang meningkatkan kecepatan operasi daftar. Pencadangan daftar sangat berguna untuk workload yang mengulangi listingan direktori lengkap sebagai bagian dari eksekusi, seperti menjalankan pelatihan AI/ML.

Cache daftar disimpan dalam memori di cache halaman, yang dikontrol oleh kernel berdasarkan ketersediaan memori, berbeda dengan cache stat dan jenis, yang disimpan dalam memori mesin Anda dan dikontrol oleh Cloud Storage FUSE.

Mengonfigurasi caching daftar

Anda dapat mengaktifkan penayangan cache daftar menggunakan salah satu metode berikut:

Untuk mengaktifkan dan mengonfigurasi caching daftar, lihat file konfigurasi Cloud Storage FUSE atau halaman opsi CLI Cloud Storage FUSE.

Mengonfigurasi pembatalan validasi cache file, stat, dan jenis

Bagian berikut menjelaskan cara mengonfigurasi pembatalan cache untuk semua jenis cache.

Untuk cache file, stat, dan jenis, gunakan salah satu metode berikut untuk menentukan TTL dalam detik untuk berapa lama metadata yang di-cache digunakan sejak diambil dari Cloud Storage hingga habis masa berlakunya dan perlu diperbarui:

Jika Anda menentukan nilai yang lebih besar dari 0, metadata untuk cache file akan tetap valid hanya selama jangka waktu yang Anda tentukan. Untuk penayangan file dalam cache, sebaiknya tingkatkan nilai berdasarkan perkiraan waktu di antara pembacaan berulang sambil menyeimbangkan kebutuhan konsistensi. Berdasarkan kepentingan dan frekuensi perubahan data, sebaiknya tetapkan nilai setinggi yang memungkinkan workload Anda. Jika entri metadata menjadi tidak valid, pembacaan berikutnya akan dikueri dari Cloud Storage.

Selain menerima nilai yang merepresentasikan TTL tertentu dalam detik sebelum metadata yang di-cache Anda berakhir dan perlu di-refresh, Anda dapat menggunakan nilai berikut untuk menentukan cara file Anda dibaca:

  • 0: memastikan file dengan data terbaru dibaca dengan mengeluarkan panggilan metadata GET ke Cloud Storage yang memeriksa file yang ditayangkannya untuk memastikan cache konsisten. Jika file dalam cache sudah terbaru, file tersebut akan ditayangkan langsung dari cache. Menentukan nilai selain 0 dapat menyebabkan penurunan performa karena panggilan harus selalu dilakukan ke Cloud Storage untuk memeriksa metadata terlebih dahulu. Jika file ada di cache dan belum berubah, file akan ditayangkan dari cache dengan konsistensi setelah panggilan metadata GET.

  • -1: memastikan file selalu dibaca dari cache jika tersedia, tanpa memeriksa konsistensi. Menayangkan file tanpa memeriksa konsistensi dapat menayangkan data yang tidak konsisten, dan hanya boleh digunakan untuk sementara waktu untuk workload yang berjalan dalam tugas dengan data yang tidak berubah. Misalnya, penggunaan nilai -1 berguna untuk pelatihan machine learning, di mana data yang sama dibaca di beberapa epoch tanpa perubahan.

Pembatalan validasi cache daftar

Pembatalan validasi cache daftar ditetapkan dengan menentukan nilai yang lebih besar dari 0 menggunakan salah satu metode berikut:

  • Opsi --kernel-list-cache-ttl-secs CLI
  • Kolom file-system:kernel-list-cache-ttl-secs

Respons daftar direktori disimpan dalam cache halaman kernel dan tetap valid selama jangka waktu yang Anda tentukan. Jika Anda menentukan nilai -1, Cloud Storage FUSE akan menonaktifkan masa berlaku cache daftar dan menampilkan respons daftar dari cache saat tersedia. Menentukan nilai 0 akan menonaktifkan cache daftar.

Langkah berikutnya