La recherche Google est tellement magique que l'on oublie parfois la part de technologie qu'elle implique. Votre requête donne immédiatement des résultats, même si votre description de ce que vous cherchez est très vague !
Il est amusant de constater que la recherche du dernier rapport de vente ou d'une clause juridique particulière dans la base de données de votre entreprise ne fonctionne pas de la même manière. La grande différence ? La recherche sémantique !
Dans cet article de blog, nous aborderons la recherche sémantique d'un point de vue commercial et la manière dont elle peut apporter de la valeur à différents types d'entreprises. Nous répondrons à la question de savoir quand et pourquoi vous avez besoin d'une recherche sémantique et comment un moteur de recherche sémantique peut être mis en œuvre et utilisé.
Vous trouverez également des exemples de différents secteurs, tels que le secteur juridique, le recrutement, les médias et le secteur médical et des sciences de la vie, qui utilisent la recherche sémantique pour soutenir leurs processus d'entreprise.
Commençons par définir ce qu'est un moteur de recherche. Il s'agit essentiellement d'un outil qui vous permet de rechercher des données rapidement et intuitivement à l'aide de la parole naturelle. Il s'agit probablement d'une évidence, mais les exemples les plus connus sont les sites web tels que Google, Yahoo, Yandex, Baidu, Bing et DuckDuckGo. Les moteurs de recherche de ce type permettent de trouver facilement le bon site web et/ou les informations publiquement disponibles sur l'internet pour une recherche spécifique. Nous sommes tous d'accord pour dire qu'ils fonctionnent de manière assez efficace et que, la plupart du temps, il ne faut pas beaucoup de temps pour trouver l'information recherchée.
Cependant, les choses deviennent beaucoup plus difficiles lorsqu'il s'agit de trouver des informations stockées sur votre ordinateur ou dans les bases de données de votre entreprise. Si ces dernières ont une structure de dossiers claire, vous pouvez trouver rapidement l'information que vous recherchez. Dans le cas contraire, vous aurez probablement recours à des moyens simples, comme l'outil de recherche intégré de votre système d'exploitation ou de votre fournisseur de services en ligne. La plupart de ces outils vous demandent de taper un ou plusieurs mots, puis vous obtiendrez un large éventail de résultats avec des documents dans lesquels ce mot spécifique est couramment répertorié. Et soyons honnêtes, combien de fois vous arrive-t-il d'avoir besoin de l'un des premiers fichiers proposés ici ? Pas très souvent, en effet. Heureusement, nous avons la solution pour accélérer votre efficacité.
Pourquoi est-il plus facile de trouver des informations sur Google ou Bing que dans le dossier commercial de votre entreprise ? Il y a plusieurs raisons à cela. Cet article de blog approfondira l'une des plus importantes : l'utilisation de la recherche sémantique.
La recherche sémantique ajoute un contexte à la fois à votre requête de recherche et aux fichiers que vous scannez. Qu'entendons-nous par "contexte" ? Il est souvent crucial de comprendre le sens exact du ou des mots utilisés, car de nombreuses langues utilisent des synonymes, des homonymes et des figures de style. Lorsque vous cherchez "python", parlez-vous de l'animal ou du langage de programmation ? Lorsque vous recherchez un "manuel Python", vous vous attendez à des résultats expliquant comment programmer en Python plutôt qu'à un guide sur la manière de manipuler le serpent. Vous ne pouvez le savoir que si vous comprenez également le contexte de la phrase dans laquelle vous utilisez ces mots.
Pour donner un autre exemple, si votre requête est "résultats des ventes de l'année dernière", vous ne souhaitez pas trouver des fichiers contenant souvent les mots "dernier", "année", "ventes" et "résultats", mais des fichiers datant de l'année dernière ou dans lesquels les dates de l'année dernière sont souvent indiquées ET qui contiennent du texte sur les résultats des ventes.
Comment la recherche sémantique procède-t-elle ? En bref, elle donne des valeurs numériques(embeddings) au texte afin de quantifier la similarité ou la dissemblance, ce qui permet de déterminer quel texte est étroitement lié et lequel ne l'est pas.
La définition de ces valeurs numériques (embeddings) est d'abord effectuée pour les mots individuels. Pour donner un exemple simple, les mots "roi" et "reine" seront, d'une certaine manière, étroitement liés en raison de l'aspect royal, mais auront des valeurs de genre opposées. L'intégration de ces mots reflétera numériquement ces différents aspects.
Ensuite, les embeddings sont ajoutés aux phrases et aux paragraphes. Pour reprendre l'exemple des "ventes de l'année dernière", il est essentiel de savoir si c'est tout un dossier qui parle des résultats des ventes de l'année dernière ou seulement un petit paragraphe. Il est également important de savoir si les résultats des ventes de l'année dernière constituent le sujet principal du paragraphe ou s'il s'agit simplement d'un élément mentionné.
Si vous souhaitez comprendre les aspects techniques plus profonds du fonctionnement de la recherche sémantique, je vous renvoie volontiers à notre article de blog technique sur la recherche sémantique, que vous pouvez trouver ici.
Pourquoi voudriez-vous créer un moteur de recherche dans votre organisation ? L'aspect essentiel reste le contexte. Supposons que vous recherchiez principalement des fichiers ou des documents sur la base de mots-clés exacts ou de la fréquence de présence d'un mot-clé spécifique dans un document. Dans ce cas, la recherche sémantique peut s'avérer excessive et vous obtiendrez probablement déjà d'excellents résultats en utilisant un moteur de recherche lexical traditionnel. Vous en tireriez probablement une certaine valeur, mais pas suffisamment par rapport aux coûts.
Toutefois, si vous recherchez souvent des documents liés les uns aux autres et que vous souhaitez des outils de recherche plus larges, un moteur de recherche sémantique peut s'avérer beaucoup plus utile. La prochaine question à se poser est celle de la quantité de jargon spécifique que vous utilisez. Un moteur de recherche sémantique général apportera déjà une certaine valeur ajoutée, mais il n'est pas formé pour traiter des terminologies très spécifiques. Dans ce cas, je conseillerais de le développer sur mesure, en fonction de vos besoins et de votre secteur.
La recherche sémantique peut être utilisée dans la plupart des situations où vous disposez d'une grande quantité de données textuelles, mais examinons plus en détail quelques exemples concrets de la manière dont vous pouvez l'utiliser.
Il n'y a pas beaucoup de secteurs où il y a plus de paperasserie que dans le domaine juridique. Pour la plupart d'entre nous qui ne sont pas actifs dans ce domaine, la quantité de documents qu'il faut consulter pour préparer un procès est insondable. Il en va de même lorsqu'il s'agit de se préparer à un audit, de rédiger les documents et contrats nécessaires, ...
Il en résulte une perte de temps considérable pour trouver les documents nécessaires et plusieurs personnes effectuant le même travail parce qu'elles n'ont pas pu trouver des documents similaires à utiliser comme base pour le travail qu'elles vont effectuer.
Les médias peuvent utiliser la recherche sémantique pour faciliter la vie des personnes qui recherchent le bon article dans les archives numériques. Ce moteur de recherche sémantique placé au-dessus d'une archive numérique peut aider deux publics.
Tout d'abord, il pourrait offrir un moteur de recherche sémantique à ses abonnés afin de leur faciliter la vie lorsqu'ils recherchent les bons articles dans une archive numérique. Ensuite, il améliore la vie des journalistes en leur permettant de retrouver plus facilement les informations correctes en interne (par exemple, des travaux non publiés, de vieilles notes de (ex-)collègues, ...).
Par ailleurs, l'IA peut également être d'une grande aide lors du développement de ces archives numériques en permettant aux outils OCR (reconnaissance optique de caractères - technique utilisée pour reconnaître du texte dans une image numérique) de mieux gérer une grande partie du jargon technique.
Dans le secteur médical, la recherche sémantique et les filtres plus traditionnels se justifient tous deux, en fonction de la situation. Lorsque des médecins recherchent des dossiers contenant des noms très spécifiques de maladies, de parties du corps, etc., la recherche d'un mot-clé exact est la meilleure solution, car une recherche sémantique aboutira à des résultats similaires.
Cependant, lorsque vous essayez de trouver ou de rassembler des informations à partir de notes prises par des praticiens médicaux et/ou de documents de recherche, une recherche sémantique a beaucoup plus de sens. Cela pourrait permettre d'accélérer la recherche universitaire, les essais cliniques, le développement de médicaments, ...
Le secteur du recrutement est réputé pour être très axé sur les mots-clés. Un responsable du recrutement ou un client recherche un ensemble de compétences ou une expertise spécifique et demande au recruteur de rechercher des personnes correspondant à cette demande. Il en résulte alors une recherche dans un énorme volume de CV provenant de partout (base de données interne, sites d'emploi, LinkedIn, ...) où le recruteur essaie de trouver des candidats potentiels ayant des mots-clés spécifiques dans leur CV.
C'est là qu'un moteur de recherche sémantique peut faire une énorme différence, car il poussera également les candidats à faire figurer sur leur CV des expériences plus pertinentes, mais sans aucun des mots-clés nécessaires.
À un niveau très élevé, vous devez d'abord déterminer si la recherche sémantique vous sera utile. Dans l'affirmative, vous devez vérifier le type de données dont vous disposez. Est-ce que tout est numérique ou devez-vous également commencer l'OCR des documents papier ? L'étape suivante consiste à déterminer si vous disposez d'un volume de données suffisamment important. Des dizaines de milliers de documents sont certainement préférables à quelques milliers de documents.
Curieux d'en savoir plus sur la recherche sémantique d'un point de vue plus technique ? Consultez l'article de blog de notre expert en NLP Mathias Leys sur ce sujet.
Voulez-vous savoir si ML6 peut vous aider à tirer davantage de valeur de vos données en mettant en place des moteurs de recherche dans votre organisation ? N'hésitez pas à nous contacter!