Fungsi ML.LABEL_ENCODER
Dokumen ini menjelaskan fungsi ML.LABEL_ENCODER
, yang dapat Anda gunakan untuk mengenkode ekspresi string ke nilai INT64
dalam [0, <number of categories>]
.
Kosakata encoding diurutkan sesuai abjad. Nilai dan kategori NULL
yang tidak ada dalam kosakata dienkode ke 0
.
Saat digunakan dalam klausa TRANSFORM
, nilai kosakata yang dihitung selama pelatihan, beserta nilai k teratas dan batas minimum frekuensi yang Anda tentukan, akan otomatis digunakan dalam prediksi.
Sintaks
ML.LABEL_ENCODER(string_expression [, top_k] [, frequency_threshold]) OVER()
ML.LABEL_ENCODER
menggunakan argumen berikut:
string_expression
: ekspresiSTRING
yang akan dienkode.top_k
: nilaiINT64
yang menentukan jumlah kategori yang disertakan dalam kosakata encoding. Fungsi ini memilih kategoritop_k
yang paling banyak dalam data dan menggunakannya; kategori di bawah batas ini dienkode ke0
. Nilai ini harus kurang dari1,000,000
untuk menghindari masalah karena dimensi yang tinggi. Nilai defaultnya adalah32,000
.frequency_threshold
: nilaiINT64
yang membatasi kategori yang disertakan dalam kosakata encoding berdasarkan frekuensi kategori. Fungsi ini menggunakan kategori yang frekuensinya lebih besar dari atau sama denganfrequency_threshold
; kategori di bawah batas ini dienkode ke0
. Nilai defaultnya adalah5
.
Output
ML.LABEL_ENCODER
menampilkan nilai INT64
yang mewakili ekspresi string yang dienkode.
Contoh
Contoh berikut melakukan encoding label pada sekumpulan ekspresi string. Metode ini membatasi kosakata encoding menjadi dua kategori yang paling sering muncul dalam data dan juga terjadi dua kali atau lebih.
SELECT f, ML.LABEL_ENCODER(f, 2, 2) OVER () AS output FROM UNNEST([NULL, 'a', 'b', 'b', 'c', 'c', 'c', 'd', 'd']) AS f ORDER BY f;
Outputnya terlihat mirip dengan yang berikut ini:
+------+--------+ | f | output | +------+--------+ | NULL | 0 | | a | 0 | | b | 1 | | b | 1 | | c | 2 | | c | 2 | | c | 2 | | d | 0 | | d | 0 | +------+--------+
Langkah selanjutnya
- Untuk mengetahui informasi tentang prapemrosesan fitur, lihat Ringkasan prapemrosesan fitur.
- Untuk mengetahui informasi tentang pernyataan dan fungsi SQL yang didukung untuk setiap jenis model, lihat Perjalanan pengguna menyeluruh untuk setiap model.