Présentation de la recherche en texte intégral

Cette page décrit ce qu'est la recherche en texte intégral et comment elle fonctionne.

La recherche en texte intégral vous permet de créer une application capable de rechercher des mots, des expressions ou des nombres dans un tableau, au lieu de se limiter à la recherche de correspondances exactes dans des champs structurés. Les recherches en texte intégral renvoient les dernières données validées transactionnellement cohérentes à votre application. Les fonctionnalités de recherche en texte intégral de Spanner incluent également la correction orthographique, la détection automatique de la langue de la requête de recherche et le classement des résultats de recherche. Spanner étend automatiquement les recherches de texte pour inclure les correspondances approximatives de mots.

Vous devez créer un index de recherche sur toutes les colonnes que vous souhaitez rendre disponibles pour les recherches en texte intégral. Spanner analyse les données de ces colonnes pour identifier les mots individuels à ajouter à l'index de recherche. Spanner met à jour l'index de recherche avec les données nouvelles ou modifiées dès qu'elles sont validées dans la base de données.

  • Recherche de texte de base : recherche du contenu à l'aide de tout ou partie d'un mot ou d'une expression pour obtenir des résultats fiables. Exemples de prédicats de requête :
    • Tous les mots [terrier tricolore]
    • Mot ou expression exacts ["rat terrier"]
    • L'un des mots suivants : [miniature OR standard]
    • Mot à proximité [world AROUND(3) cup]
    • Sous-chaîne [start*]
  • Recherche numérique : effectue des recherches d'égalité et d'inégalité numériques. Les recherches d'égalité correspondent à un nombre. Les recherches par plage et par inégalité correspondent à un nombre dans une plage spécifique.
  • Recherche basée sur les n-grammes : met en correspondance les mots présentant des variantes orthographiques, y compris les noms propres. Ce type de recherche permet également de faire correspondre le texte de la requête avec des noms mal orthographiés, des noms avec des orthographes alternatives et du texte avec d'autres variantes orthographiques.
  • Recherches Soundex : elles permettent de trouver les mots qui ont une prononciation similaire.

Fonctionnalités de recherche en texte intégral

La recherche en texte intégral de Spanner présente les caractéristiques suivantes :

  • Résultats de recherche classés : calcule un score pour évaluer la pertinence d'une requête par rapport à un document (par exemple, en accordant un poids plus important à column_A). Utilisez des expressions SQL pour personnaliser le classement.
  • Extraits : met en évidence le texte correspondant dans le résultat de recherche.
  • Compatibilité mondiale : la tokenisation est automatiquement compatible avec différentes langues, y compris la segmentation CJK. La spécification manuelle de la langue vous permet d'effectuer des ajustements supplémentaires.
  • Gouvernance : trouve chaque occurrence de mots spécifiques.
  • Correction orthographique : corrige automatiquement les mots mal orthographiés dans les requêtes pour qu'ils correspondent aux mots correctement orthographiés stockés. Par exemple, si l'utilisateur recherche "girafe", la recherche trouve les documents contenant "girafe".
  • Ajout de synonymes contextuels, y compris de mots vides : ajoute automatiquement des synonymes contextuellement pertinents pour augmenter le rappel. Par exemple, "la maison" correspond à "cette maison" et "photo de chat" correspond à "photo de chaton".
  • Traduction contextuelle des nombres vers et depuis le texte : fait correspondre la version textuelle d'un nombre à sa représentation numérique et inversement. Par exemple, "cinq chats" correspond à "5 chats".
  • Conversion automatique au pluriel : la requête "chat" correspond à "chats".

Concepts de recherche en texte intégral

La recherche en texte intégral repose sur les concepts clés suivants :

  • Un document fait référence aux données pouvant faire l'objet d'une recherche dans une ligne donnée.
  • Un jeton fait référence à chaque mot d'un document stocké dans un index de recherche.
  • Le processus de tokenisation divise un document en jetons.
  • Un tokeniseur est une fonction SQL utilisée pour la tokenisation.
  • Un index inversé stocke les jetons. Utilisez des requêtes SQL pour effectuer des recherches dans l'index inversé.

Pour comprendre la recherche en texte intégral, examinons une application qui utilise une base de données pour stocker les titres de chaque chanteur. Chaque ligne correspond à un titre. Chaque chanson contient des colonnes telles que le titre, les paroles, l'artiste et l'album. L'application utilise la recherche en texte intégral pour permettre à un utilisateur de rechercher un titre à l'aide de requêtes en langage naturel :

  • La recherche est compatible avec les requêtes qui utilisent l'opérateur OR, comme Prince OR Camille. Les applications peuvent directement insérer l'entrée de l'utilisateur final dans le champ de recherche dans la fonction SQL SEARCH (à l'aide de la syntaxe rquery). Pour en savoir plus, consultez Interroger un index de recherche.
  • Spanner utilise des index de recherche pour rechercher des documents correspondants dans différents champs. Par exemple, une application peut émettre une requête pour rechercher "cry" dans le titre, "so cold" dans les paroles et "Prince" comme chanteur.

Autres utilisations des index de recherche

Les index de recherche ont de nombreux usages en plus de la recherche en texte intégral, comme les suivants :

  • Indexation des éléments dans les colonnes de tableau. Prenons l'exemple d'une application qui utilise une colonne de tableau pour stocker les tags associés à un élément. Grâce aux index de recherche, l'application peut rechercher efficacement les lignes contenant un tag spécifique. Pour en savoir plus, consultez Tokenisation de tableaux.

  • Rechercher des données qui se trouvent à l'intersection d'un ensemble de conditions de requête. Par exemple, vous pouvez utiliser un ensemble arbitraire d'attributs (couleur, taille, marque, note, etc.) pour rechercher un produit dans un catalogue.

  • Utiliser des conditions de recherche numériques, seules ou en combinaison avec des conditions de texte intégral. Voici quelques exemples de cas où un index de recherche est utile pour les recherches numériques :

    • lorsqu'il est associé à une application de texte intégral. Par exemple, pour trouver un e-mail dont l'objet est Image et dont la taille est supérieure à 1 Mo.
    • Lorsqu'il fait partie d'une intersection de conditions décrites précédemment. Par exemple, pour trouver les produits où color = "yellow" AND size = 14 AND rating >= 4.5.
    • Lorsque vous recherchez l'intersection de colonnes numériques. Par exemple, considérons une table stockant les heures de début et de fin des événements. Les index de recherche peuvent implémenter efficacement une requête qui recherche des événements ayant eu lieu à un moment précis : start_time <= @p AND end_time > @p.

    Pour en savoir plus, consultez Index numériques.

Étapes de la recherche en texte intégral

Dans Spanner, la recherche en texte intégral nécessite les étapes suivantes :

  1. Tokenisez un document à l'aide des fonctions de tokenisation Spanner, telles que TOKENIZE_SUBSTRING. Pour en savoir plus, consultez Tokenization.
  2. Créez un index de recherche pour contenir les jetons à l'aide de l'instruction LDD CREATE SEARCH INDEX. Pour en savoir plus, consultez Index de recherche.
  3. Interrogez les documents de l'index de recherche à l'aide de la fonction SEARCH de Spanner. Pour en savoir plus, consultez la section Présentation des requêtes.
  4. Classez les résultats de la requête à l'aide de la fonction Spanner SCORE. Pour en savoir plus, consultez Classer les résultats de recherche.

Limites

Tarifs

Spanner ne facture pas de frais supplémentaires lorsque vous utilisez la recherche en texte intégral. Toutefois, l'implémentation de la recherche en texte intégral augmente les coûts en raison du besoin de ressources de calcul et de stockage supplémentaires.

Pour en savoir plus, consultez la page Tarifs de Spanner.

Étapes suivantes