DICAMES logo

Veuillez utiliser cette adresse pour citer ce document : https://hdl.handle.net/20.500.12177/10984
Titre: Explainable deep neural network for skills prediction from resumes
Auteur(s): Jiechieu Kameni, Florentin Flambeau
Directeur(s): Tchuente, Maurice
Tsopze, Norbert
Mots-clés: Déficit de compétence
Identification des Compétences
Classification Multi-étiquette
Intelligence Artificielle Explicable
Date de publication: 2021
Editeur: Université de Yaoundé I
Résumé: L’identification automatique des compétences dans les documents textes (CV, offres d’emploi, articles, etc) est une tâche du traitement automatique du langage naturel qui trouve son application dans la construction des systèmes de recommandation des offres d’emploi ou encore dans l’identification automatique des qualifications professionelles des chercheurs, employers ou demandeurs d’emploi; ceci dans la perspective de combler le "skills gap" que l’ATD (Association for Talent Development) définit comme étant l’écart entre les compétences détenues par la resource humaine d’une organisation et celles dont elle a besoin pour son développement. Plusieurs chercheurs ont proposé des méthodes pour identifier les compétences dans les documents textes. Mais ces méthodes pour certaines, ne permettent d’identifier que des compétences explicitement mentionnées dans les documents, et pour d’autres ne sont pas explicables. L’objectif de cette thèse est de concevoir un modèle d’intelligence artificielle à base de Réseaux de Neurones Convolutifs (RNC) capable d’identifier un ensemble de compétences que nous qualifierons de compétences de haut niveau dans la mesure où elles peuvent s’expliquer par des compétences plus basiques. Les compétences de haut niveau telles que perçues dans ce travail sont généralement des qualifications professionnelles comme "Administrateur réseau", "Gestionnaire de projet", "Dévelopeur web", etc. La première contribution de cette thèse est donc la conception d’une architecture de classification multi-étiquette basée sur les RNC et utilisant l’approche "binary relevance" pour prédire les compétences à partir des CV. Les CV en entrée du modèle sont transformés en matrices en utilisant un modèle de "word embedding" construit par nous mêmes et la matrice obtenue est soumise au RNC. Les expérimentations effectuées sur un corpus de 30000 CV d’informaticiens collectés et étiquetés automatiquement ont permis de démontrer l’effectivité de la méthode qui atteint 98,79% de rappel et 91,34% de précision. La deuxième contribution majeure se situe au niveau de l’explicabilité des modèles de RNC. Globalement, nous proposons une méthode permettant d’expliquer les predictions des modèles de RNC construits pour tout problème de classification de texte. Plus précisément, nous décrivons une méthode basée sur le principe de l’algorithme LRP (Layer-wise Relevance Backpropagation) et permettant de calculer les contributions des termes selectionnés par les filtres convolutifs aux valeurs prédites en sortie du modèle. En outre, nous mettons en évidence les limites de la méthode LRP de base et proposons une adapation de la formule de calcul des contributions. Enfin, nous proposons d’identifier les n-grams suffisants et les n-grams nécessaires afin de simplifier l’explication à fournir aux utilisateurs du modèle. La distribution des pertinences obtenues avec notre méthode est semblable à celle de LIME, un modèle de l’état de l’art très connu; et l’évaluation de la complexité des deux méthodes montre que la nôtre est nettement meilleure que celle de LIME. De plus, nous démontrons comment LIME attribue un score à des termes qui n’ont pourtant pas d’influence sur la sortie. Toutefois, LIME a l’avantage de s’appliquer indépendamment de la nature du modèle.
Pagination / Nombre de pages: 210
URI/URL: https://hdl.handle.net/20.500.12177/10984
Collection(s) :Thèses soutenues

Fichier(s) constituant ce document :
Fichier Description TailleFormat 
FS_These_BC_23_0139.pdf7.21 MBAdobe PDFMiniature
Voir/Ouvrir


Tous les documents du DICAMES sont protégés par copyright, avec tous droits réservés.