L’enrichissement joue un rôle fondamental dans les activités d’Europeana. Dans notre contexte, l'enrichissement peut être défini comme la génération de métadonnées à partir des données fournies par nos partenaires, ajoutant une valeur supplémentaire aux données que nous recevons. Nous utilisons la combinaison de métadonnées originales et enrichies pour indexer nos enregistrements, ce qui nous permet de créer des fonctionnalités qui permettent aux gens de rechercher et de parcourir nos collections et de recevoir des recommandations. La réalisation de l’enrichissement automatique à l’aide d’algorithmes d’apprentissage automatique est l’un des objectifs de la stratégie Europeana 2020-2025, qui déclenche des projets tels que Saint George on a Bike.
L'équipe R&D d'Europeana explore comment les techniques de vision par ordinateur (systèmes qui peuvent donner un sens aux données visuelles) peuvent améliorer l'enrichissement qu'Europeana conduit. Nous avons décidé de lancer un projet pilote sur la classification des images, dans le cadre duquel nous construisons un modèle capable de classer les images d'objets du patrimoine culturel numérisés en un ensemble de catégories prédéfinies. Nous pensons qu'un système formé avec les catégories sélectionnées s'avérerait utile pour enrichir nos collections.
Les techniques d'apprentissage profond, basées sur un certain type de modèle mathématique appelé réseaux de neurones, sont la méthode de choix pour ce type de problème. Afin de former un réseau neuronal, nous devons obtenir un ensemble de données d'entraînement contenant une grande quantité d'images déjà classées dans des catégories sélectionnées. En termes simples: si nous montrons à un modèle informatique des images de peintures et que nous disons au modèle que toutes ces images sont des peintures, nous formons ce modèle à reconnaître si les images qu'il n'a jamais vues sont une peinture ou non.
Les premières étapes nécessaires à l’élaboration du modèle de classification des images ont consisté à sélectionner un vocabulaire cible et à rassembler un ensemble de données d’entraînement à l’aide de l’API Europeana Search; Découvrez comment nous avons fait cela ci-dessous.
Définir un vocabulaire pour la classification
Les vocabulaires contrôlés sont des ensembles de concepts prédéfinis et identifiés de manière unique, qui peuvent être utilisés pour indexer les données et les rendre interopérables. L'utilisation de vocabulaires dans la recherche d'informations est un moyen pratique d'organiser et de référencer les connaissances.
Chez Europeana, nous utilisons des concepts de vocabulaires (identifiés par Uniform Resource Identifiers, URI) dans le cadre des métadonnées pour l'indexation des objets du patrimoine culturel. Pour ce projet, nous nous sommes concentrés sur une sélection de concepts de la collection Europeana Entity, qui ont des équivalences avec les concepts du Getty Art and Architecture Thesaurus (AAT). Ce vocabulaire a été initialement rassemblé pour organiser le sourcing de contenus pour nos collections thématiques. Nous avons inclus 20 catégories comme les photographies, les peintures, les sculptures, les vêtements et les bijoux.
Accéder aux données à l'aide de l'API Europeana Search
Une fois que nous avions notre vocabulaire, nous voulions accéder à des images appartenant aux différentes catégories pour former notre modèle. Nous l’avons fait grâce à l’API Europeana Search, l’une des nombreuses interfaces qui nous permettent de récupérer les objets du patrimoine culturel exposés sur europeana.eu. Compte tenu d'une requête et d'un ensemble de paramètres, l'API de recherche renverra une réponse lisible par machine contenant les métadonnées des objets résultants. La réponse API sert les données selon le modèle de données Europeana.
Dans notre contexte, nous avons considéré qu'il n'y avait qu'une seule catégorie possible pour chaque image. Cela nous a permis d'assembler un ensemble de données annotées en interrogeant l'API de recherche pour des images correspondant aux différents concepts de notre vocabulaire, et en utilisant ce concept comme étiquette. De cette façon, nous avons assemblé le jeu de données automatiquement et aucune annotation manuelle n'était nécessaire.
Puisque nous voulions que notre ensemble de données suive les principes FAIR (trouvable, accessible, interopérable et réutilisable), nous avons identifié de manière unique les concepts et les objets du patrimoine culturel récupérés, et nous n'avons utilisé que du contenu sous licence ouverte. Les métadonnées fournies par l'API de recherche sont soumises à une licence ouverte, tandis que le contenu des objets du patrimoine culturel peut être soumis au droit d'auteur. Pour ce projet pilote, nous n'avons considéré que les images libres de droits d'auteur en définissant le paramètre de réutilisabilité comme ouvert.
Dans notre cas, nous avons voulu récupérer des objets indexés avec les différents concepts du vocabulaire. Au lieu d'utiliser la version lisible par l'homme des concepts, nous avons fait une requête pour l'URI du concept directement en utilisant le paramètre skos_concept (l'un des paramètres de recherche de l'API).
Nous étions intéressés à garder une trace des objets utilisés pour assembler notre ensemble de données. Pour chaque objet récupéré, nous avons stocké les informations pertinentes dans un fichier CSV. Les images devront éventuellement être téléchargées et stockées sur disque pour former le modèle de classification des images.
En savoir plus
Le jeu de données d'entraînement à l'image peut maintenant être utilisé pour construire un modèle de classification d'image qui produira l'un des concepts du vocabulaire donné à une image d'entrée. Nous prévoyons de poursuivre notre travail en évaluant si cet ensemble de données contient suffisamment d'informations pour former un modèle de classification d'images et en évaluant si le modèle résultant est adapté à l'enrichissement automatique. Nous partagerons les mises à jour via les actualités d'Europeana Pro!
Nous espérons que cet article encourage les ingénieurs et les chercheurs intéressés par l'expérimentation du patrimoine culturel à utiliser notre API de recherche pour assembler des ensembles de données pour l'apprentissage automatique, et en particulier à utiliser nos collections pour la formation et l'application d'algorithmes de vision par ordinateur! N’hésitez pas à consulter le référentiel Github, où vous trouverez les vocabulaires utilisés, les ensembles de données collectés et le code pour la collecte de l’ensemble de données et la formation d’un modèle de classification d’images. N’oubliez pas de nous contacter à l’adresse [email protected] si vous avez des questions, des idées ou des expériences à partager!
Si vous souhaitez en savoir plus sur l’IA et le patrimoine culturel numérique, explorez notre thème de l’IA sur Europeana Pro.
