Menggunakan caching file Cloud Storage FUSE

Fitur cache file Cloud Storage FUSE adalah cache baca berbasis klien yang memungkinkan pembacaan file berulang ditayangkan dari penyimpanan cache yang lebih cepat sesuai pilihan Anda. Halaman ini menjelaskan cara mengaktifkan dan menggunakan penyimpanan dalam cache file Cloud Storage FUSE. Untuk ringkasan penyimpanan ke dalam cache file, penyimpanan ke dalam cache statistik, atau penyimpanan ke dalam cache jenis, lihat Ringkasan penyimpanan ke dalam cache.

Sebelum memulai

Cache file memerlukan jalur direktori yang akan digunakan untuk meng-cache file. Anda dapat membuat direktori baru di sistem file yang ada atau membuat sistem file baru di penyimpanan yang disediakan. Jika Anda menyediakan penyimpanan baru untuk digunakan, gunakan petunjuk berikut untuk membuat sistem file baru:

  1. Untuk Google Cloud Hyperdisk, lihat Membuat volume Google Cloud Hyperdisk baru.

  2. Untuk Persistent Disk, lihat Membuat volume Persistent Disk baru.

  3. Untuk SSD Lokal, lihat Menambahkan SSD Lokal ke VM.

  4. Untuk disk RAM dalam memori, lihat Membuat disk RAM dalam memori.

Mengaktifkan dan mengonfigurasi perilaku penyimpanan dalam cache file

Aktifkan dan konfigurasikan penyimpanan dalam cache file menggunakan file konfigurasi Cloud Storage FUSE atau opsi Cloud Storage FUSE CLI:

  1. Tentukan direktori cache yang ingin Anda gunakan menggunakan kolom file-cache:cache-dir atau opsi --cache-dir, yang digunakan untuk mengaktifkan cache file.

  2. Opsional: jika Anda ingin membatasi kapasitas total yang dapat digunakan cache Cloud Storage FUSE dalam direktori yang dipasang, sesuaikan properti max-size-mb, yang secara otomatis ditetapkan ke -1 saat Anda menetapkan properti cache-dir.

  3. Opsional: tingkatkan TTL entri yang di-cache dengan menetapkan opsi ttl-secs ke nilai berdasarkan waktu yang diharapkan antara pembacaan berulang sekaligus menyeimbangkan kebutuhan konsistensi. Sebaiknya tetapkan nilai ttl-secs setinggi mungkin sesuai dengan beban kerja Anda. Untuk mengetahui informasi selengkapnya tentang cara menetapkan TTL untuk entri yang di-cache, lihat Time to live.

    Misalnya, file konfigurasi berikut mengaktifkan penyimpanan dalam cache file, penyimpanan dalam cache statis, dan penyimpanan dalam cache jenis dengan TTL 3600 detik dan direktori cache ditetapkan ke /path/to/a/directory/.

    file-cache:
      max-size-mb: -1
      cache-file-for-range-read: false
    
    metadata-cache:
      stat-cache-max-size-mb: 32
      ttl-secs: 3600
      type-cache-max-size-mb: 4
    
    cache-dir: /path/to/a/directory
    
  4. Opsional: konfigurasikan statistik caching dan jenis caching menggunakan metadata-cache. Untuk mempelajari cache statis dan jenis lebih lanjut, lihat Ringkasan caching jenis atau Ringkasan caching statis.

  5. Opsional: percepat pembacaan file besar, termasuk pembacaan pertama kali, dengan mengaktifkan properti enable-parallel-downloads yang menggunakan beberapa pekerja untuk mendownload file besar secara paralel menggunakan direktori cache file sebagai buffering pengambilan data. Untuk informasi selengkapnya tentang download paralel dan cara mengonfigurasi properti pendukungnya, lihat Meningkatkan performa baca menggunakan download paralel.

  6. Jalankan perintah ls -R secara manual di bucket yang dipasang sebelum menjalankan workload untuk mengisi metadata terlebih dahulu guna memastikan cache jenis diisi sebelum pembacaan pertama dalam metode batch yang lebih cepat. Untuk mengetahui informasi selengkapnya tentang cara meningkatkan performa pembacaan pertama kali, lihat Meningkatkan pembacaan pertama kali.

Menggunakan download paralel untuk mendownload beberapa file secara paralel

Anda dapat meningkatkan performa baca dengan mengaktifkan dan mengonfigurasi fitur download paralel, yang menggunakan beberapa pekerja untuk mendownload file secara paralel menggunakan direktori cache file sebagai buffering pengambilan data. Sebaiknya gunakan download paralel untuk skenario pembacaan single-thread yang memuat file besar seperti penayangan model dan pemulihan titik pemeriksaan.

Sebelum Anda mengaktifkan download paralel, pertimbangkan hal berikut:

  • Jika aplikasi Anda melakukan paralelisme baca tinggi di atas delapan thread, Anda mungkin mengalami sedikit penurunan performa.

  • Sebaiknya jangan gunakan download paralel untuk beban kerja pelatihan karena paralelisme bacanya yang tinggi.

  • Untuk menggunakan download paralel, Anda harus mengaktifkan dan mengonfigurasi cache file terlebih dahulu.

  • File yang dibaca harus sesuai dengan kapasitas direktori cache file yang tersedia yang dapat dikontrol menggunakan properti max-size-mb.

Mengonfigurasi download paralel

  1. Dalam file konfigurasi Cloud Storage FUSE, tetapkan properti enable-parallel-downloads ke true dan secara opsional konfigurasikan setelan pendukung berikut:

    • parallel-downloads-per-file: jumlah pekerja maksimum yang dapat dibuat per file untuk mendownload objek dari Cloud Storage ke dalam cache file. Nilai defaultnya adalah 16.

    • max-parallel-downloads: jumlah pekerja maksimum yang dapat dibuat pada waktu tertentu di semua tugas download file. Setelan default ditetapkan ke dua kali jumlah core CPU di komputer Anda. Untuk menentukan tidak ada batas, masukkan nilai -1.

    • download-chunk-size-mb: ukuran setiap permintaan baca dalam MiB yang dibuat setiap pekerja ke Cloud Storage saat mendownload objek ke cache file. Ukuran default-nya adalah 50 MiB. Perhatikan bahwa download paralel hanya dipicu jika file yang dibaca adalah ukuran yang ditentukan.

Langkah berikutnya