Guide complet : préparer sa CVthèque pour l'IA
Structuration des données, nettoyage des doublons, enrichissement des profils — tout ce qu'il faut faire pour que votre CVthèque devienne un actif exploitable par l'IA.
Votre CVthèque est peut-être le plus précieux actif de votre département RH. Des années de sourcing, des milliers d’euros investis en chasses et en sourcing, des centaines de milliers de CV collectés. Pourtant, dans la plupart des organisations, cette mine d’or dort. On estime que moins de 10% des CVthèques d’entreprises sont activement réinterrogées.
L’IA sémantique peut changer cela — à condition que votre CVthèque soit dans un état exploitable. Ce guide vous donne les étapes concrètes pour y parvenir.
Étape 1 : Auditer l’état de votre CVthèque
Avant de penser à l’IA, il faut savoir ce que vous avez vraiment. Un audit RH de votre base de données s’impose.
Questions clés à se poser :
- Quelle est la part de profils datant de plus de 3 ans ? (Souvent 40 à 60% dans les CVthèques non entretenues)
- Y a-t-il des doublons ? Un même candidat peut avoir postulé sous des adresses e-mail différentes
- Les CV sont-ils dans des formats exploitables ? PDF, Word — ou des scans image impossibles à indexer ?
- Les données structurées (poste actuel, localisation, disponibilité) sont-elles renseignées et fiables ?
Cet audit vous donnera une mesure précise du travail de nettoyage nécessaire avant d’aller plus loin.
Étape 2 : Nettoyer les données
Le nettoyage est l’étape la plus fastidieuse, mais c’est elle qui conditionne la qualité de vos résultats de recherche IA.
Déduplication des profils. Commencez par identifier les doublons. La plupart des ATS modernes ont des outils de déduplication basés sur l’email ou le numéro de téléphone. Pour les cas complexes (même personne, deux emails différents), des outils spécialisés de data quality RH peuvent aider.
Normalisation des titres de poste. Les titres de poste sont souvent incohérents dans les CVthèques car ils reprennent exactement ce qu’a écrit le candidat. « Dev front », « Développeur Frontend », « Front-end Engineer » et « Ingénieur logiciel UI » désignent potentiellement la même chose. Une normalisation taxonomique permet à l’IA de mieux regrouper les profils similaires.
Gestion des CV en format image. Si vous avez des CV scannés (fréquent pour les candidatures papier d’avant 2015), ils doivent passer par un moteur OCR avant d’être exploitables. Des solutions comme AWS Textract ou Google Document AI font cela efficacement.
Archivage des profils obsolètes. Les profils de plus de 5 ans sans interaction récente polluent vos résultats. Créez un segment « archives » séparé de votre base active. Certaines réglementations RGPD imposent d’ailleurs des limites de conservation — voir plus loin.
Étape 3 : Enrichir les profils
Un CV net est bien. Un CV enrichi est mieux. L’enrichissement consiste à compléter les informations manquantes ou à ajouter des métadonnées qui améliorent la pertinence de la recherche.
Extraction de compétences structurées. Si votre ATS stocke les CV comme des fichiers PDF sans extraction de skills, vous perdez énormément de signal. Les outils de parsing CV (Sovren, Textkernel, ou les parsers intégrés à Workday/Greenhouse) extraient automatiquement les compétences, diplômes et expériences en données structurées.
Ajout de tags recruteur. Les notes laissées par les recruteurs après entretien sont extrêmement précieuses pour l’IA. « Très bon communiquant », « profil atypique intéressant », « candidat passif à relancer » — ces annotations humaines enrichissent le profil de dimensions que le CV ne capture pas.
Mise à jour des disponibilités. Un champ « disponibilité estimée » tenu à jour (même approximativement : « cherche activement », « ouvert à des opportunités », « en poste stable ») améliore considérablement la pertinence des résultats quand vous avez un besoin urgent.
Enrichissement via LinkedIn. Si vos processus le permettent et que vous avez le consentement approprié, l’enrichissement des profils via des API LinkedIn peut compléter des CVthèques où beaucoup de candidats n’ont fourni qu’un CV partiel.
Étape 4 : Structurer pour l’IA
Les modèles d’IA sémantique fonctionnent mieux avec un texte riche et bien organisé. Voici comment optimiser la structure de vos données pour la vectorisation.
Consolidez les informations en un seul document par profil. Le CV + la lettre de motivation + les notes recruteur + les résultats d’évaluation devraient idéalement être fusionnés en un document structuré unique. Cela donne à l’IA une vision complète du candidat.
Évitez la troncature. Certains ATS tronquent les CV à un nombre de caractères maximum lors de l’import. Vérifiez que vos profils ne sont pas coupés au milieu d’une expérience importante.
Utilisez des séparateurs clairs. Si vous construisez vous-même les documents profils, utilisez des titres de section clairs (Expériences professionnelles, Compétences techniques, Formation) plutôt qu’un texte continu. L’IA comprend mieux les documents structurés.
Étape 5 : Mettre en place une hygiène de données continue
Un nettoyage ponctuel ne suffit pas. La qualité de votre CVthèque dégrade naturellement avec le temps si vous n’instaurez pas de bonnes pratiques continues.
Automatisez les relances de mise à jour. Un email automatique aux candidats inactifs depuis 18 mois leur proposant de mettre à jour leur profil coûte peu et rapporte beaucoup. Les outils comme Beamery ou Phenom ont des fonctionnalités natives pour cela.
Formez les recruteurs à la saisie. La qualité des données entrantes dépend des comportements des utilisateurs. Un guide de bonnes pratiques (comment renseigner les titres de poste, quand ajouter des tags, comment documenter un entretien) maintient la qualité à la source.
Planifiez des audits trimestriels. Définissez des KPIs de qualité de données (taux de profils avec email valide, taux de profils avec compétences extraites, taux de doublons) et suivez-les dans le temps.
Une CVthèque bien préparée est un avantage concurrentiel durable. Les entreprises qui investissent dans la qualité de leurs données de candidats créent un actif qui s’apprécie dans le temps — à condition de le cultiver. RelaSync peut fonctionner avec une CVthèque imparfaite, mais il donnera ses meilleurs résultats avec une base propre, structurée et régulièrement mise à jour.
Prêt à tester RelaSync ?
3 recherches gratuites par mois, sans carte bancaire.
Rejoindre la liste d'attente