Eléments d'Intelligence Artificielle

Base de connaissance, agrégateurs de données

Rôle des agrégateurs de données dans les systèmes d'intelligence artificielle

Les agrégateurs de données sont au cœur de l'IA moderne, ils servent de base de connaissances essentielle pour les systèmes intelligents en fournissant des informations structurées et à jour dans leurs domaines respectifs. Certains, grâce à leur nature collaborative, permettent une mise à jour constante et une amélioration continue de la qualité des données. Voici pourquoi ils sont si importants:

Collecte massive de données: Les agrégateurs rassemblent des informations provenant de diverses sources, créant ainsi des ensembles de données vastes et diversifiés.
Structuration de l'information: Ils organisent les données brutes en formats utilisables, facilitant leur traitement par les algorithmes d'IA.
Enrichissement des connaissances: En combinant des données de multiples origines, les agrégateurs créent une base de connaissances plus riche et plus complète que des sources isolées.
Mise à jour continue: Les agrégateurs permettent une actualisation constante des informations, assurant que l'IA dispose toujours des données les plus récentes.

L'utilisation d'agrégateurs de données améliore significativement les capacités des systèmes d'IA:

Précision accrue: Plus la base de données est large et diversifiée, plus les prédictions et décisions de l'IA sont précises.
Adaptabilité: Avec une base de connaissances constamment mise à jour, l'IA peut s'adapter rapidement aux changements de son environnement.
Capacités de généralisation: Une base de données riche permet à l'IA de mieux généraliser ses apprentissages à de nouvelles situations.

Malgré leurs avantages, l'utilisation d'agrégateurs de données soulève des questions importantes:

Protection de la vie privée: La collecte massive de données, souvent personnelles, pose des défis en termes de confidentialité et de consentement.
Biais potentiels: Si les données agrégées contiennent des biais, ceux-ci peuvent se refléter dans les décisions de l'IA.
Transparence: L'utilisation d'agrégateurs peut rendre plus difficile la compréhension du processus décisionnel de l'IA, soulevant des questions d'explicabilité.

Principaux agrégateurs de données ouverts au croudsourcing

Voici une liste des principaux agrégateurs de données, auxquels il est possible de contribuer librement:

Wikidata
- Description: Base de données libre et collaborative centralisant des données structurées pour alimenter les projets Wikimedia
- Catégorie: Base de connaissances structurée
- Propriétaire: Fondation Wikimédia
- Contributeurs: Ouvert aux contributions du public, avec des contrôles communautaires
- Utilisé par: Google Knowledge Graph, Siri, Alexa, ChatGPT, Wikipédia (comme base de données structurée), Bing
- Langues: environ 300 langues
- Standard de données descriptives: RDF, JSON-LD
- Identifiant unique des entités: Q-number (Identifiant unique pour chaque entité dans Wikidata)
DBpedia
- Description: Données structurées accessibles via le web sémantique issues principalement de Wikipedia
- Catégorie: Knowledge graph et données liées
- Administration: Université de Leipzig de Mannheim, en collaboration avec OpenLink Software
- Contributeurs: Communauté des données ouvertes, chercheurs en informatique
- Utilisé par: Google Knowledge Graph, Bing, divers outils de recherche sémantique
- Langues: environ 20 langues
- Standard de données descriptives: RDF, SPARQL
- Identifiant unique des entités: DBpedia URI
OpenStreetMap (OSM)
- Description: Carte mondiale libre et collaborative
- Catégorie: Cartographie et données géographiques
- Administration: Fondation OpenStreetMap
- Contributeurs: Cartographes amateurs et professionnels
- Utilisé par: Apple Plans, Bing Maps, Snapchat, Mapbox, Facebook, Strava, OsmAnd
- Langues: environ 250 langues
- Standard de données descriptives: XML (au format .osm), GeoJSON, PBF (Protocolbuffer Binary Format)
- Identifiant unique des entités: OSM-ID (attribué aux objets géographiques : nœuds, chemins, relations)
Europeana
- Description: Agrège des millions d'œuvres d'art, livres, objets culturels, vidéos et sons d'institutions européennes;
- Catégorie: Patrimoine culturel et historique
- Administration: Union Européenne
- Contributeurs: Institutions culturelles, bibliothèques, musées, archives;
- Utilisé par: Google Arts & Culture;
- Langues: 24 langues européennes
- Standard de données descriptives: EDM (Europeana Data Model), Dublin Core, XML, RDF;
- Identifiant unique des entités: Europeana Identifier.
Open Library
- Description: Base de données librement accessible sur Internet visant à cataloguer tous les livres publiés, quelle que soit leur langue
- Catégorie: Livres
- Contributeurs: Bibliothécaires, auteurs, lecteurs
- Administration: Internet Archive
- Utilisé par: Internet Archive, Google Books, Goodreads
- Standard de données descriptives: MARC21, RDF, JSON-LD, ONIX, XML
- Identifiant unique des entités: ISBN (International Standard Book Number), OCLC Number
Data.culture.gouv.fr
- Description: Espace de valorisation des ressources culturelles numériques (cartographie, graphique, data-visualisation, réutilisations)
- Catégorie: Données culturelles et patrimoniales
- Contributeurs: Citoyens, chercheurs, étudiants, journalistes, développeurs
- Administration: Ministère de la Culture, République Française
- Utilisé par: Google, Bing, Qwant, Wikidata, Open AI
- Standard de données descriptives: CSV, XML, RDF, JSON
- Identifiant unique des entités: Identifiant propre à la base
Data.gouv.fr
- Description: Plateforme dédiée à la centralisation et à la mise à disposition des données publiques françaises ouvertes
- Catégorie: Économie et finances, éducation et recherche, environnement et énergie, santé, transport, justice et sécurité
- Contributeurs: Ministères et administrations centrales, collectivités territoriales, établissements publics, entreprises et associations
- Administration: Etalab
- Utilisé par: Google Dataset Search, Microsoft Azure Open Datasets
- Langue: Français
- Standard de données descriptives: DCAT (Data Catalog Vocabulary)
- Identifiant unique des entités: dépend de la catégorie de donnée stockée

Autres agrégateurs de données

arXiv
- Catégorie: Prépublications scientifiques (principalement physique, mathématiques, informatique, biologie quantitative, finance quantitative, etc.)
- Contributeurs: Chercheurs et scientifiques
- Utilisé par: Google Scholar, Microsoft Academic, Semantic Scholar
- Standard de données descriptives: LaTeX, PDF, JSON, XML
- Identifiant unique des entités: arXiv-ID, parfois lié à un DOI (Digital Object Identifier) une fois l'article publié officiellement
GenBank
- Catégorie: Bases de données génétiques et biologie moléculaire
- Contributeurs: Chercheurs en génétique et biologie moléculaire
- Utilisé par: BLAST, Ensembl, UCSC Genome Browser, NCBI
- Standard de données descriptives: ASN.1, FASTA, GenBank flat file format
- Identifiant unique des entités: Accession number (numéro d'accession)
OpenWeatherMap
- Catégorie: Météorologie
- Contributeurs: Stations météo personnelles, amateurs, et professionnelles
- Utilisé par: Diverses applications météo, assistants vocaux (comme Siri, Google Assistant, Alexa)
- Standard de données descriptives: XML, JSON, CSV
- Identifiant unique des entités: Non applicable (les données sont principalement géolocalisées par coordonnées)
MusicBrainz (MB)
- Catégorie: Musique
- Contributeurs: Passionnés de musique et professionnels de l'industrie
- Utilisé par: Spotify, Last.fm, BBC Music, Shazam, Google Assistant
- Standard de données descriptives: XML, JSON, RDF
- Identifiant unique des entités: MBID (MusicBrainz Identifier), ISRC (International Standard Recording Code pour les enregistrements)
IMDb
- Catégorie: Cinéma et télévision
- Contributeurs: Cinéphiles, professionnels du cinéma, studios de production
- Utilisé par: Amazon Prime Video (IMDb appartient à Amazon), Google Search, assistants vocaux
- Standard de données descriptives: TSV (Tab-Separated Values), API REST
- Identifiant unique des entités: IMDb-ID
Yahoo Finance
- Catégorie: Données financières
- Contributeurs: Discussions ouvertes aux utilisateurs, données financières fournies par des entreprises et analystes professionnels
- Utilisé par: Nombreuses applications financières, assistants vocaux, analystes boursiers
- Standard de données descriptives: JSON, CSV, XML
- Identifiant unique des entités: Ticker Symbol (symbole boursier)
GitHub
- Catégorie: Dépôts de code source
- Contributeurs: Développeurs du monde entier
- Utilisé par: GitHub Copilot, diverses plateformes de développement, CI/CD, gestion de projets
- Standard de données descriptives: JSON, YAML (notamment pour les workflows), Markdown
- Identifiant unique des entités: SHA (Secure Hash Algorithm pour les commits), Repository ID (ID unique pour chaque dépôt)
Bibliothèque numérique mondiale (BDM)
- Description: Accès gratuit à des manuscrits, cartes, livres rares, photos et films historiques du monde entier;
- Catégorie: Patrimoine culturel et historique
- Contributeurs: Institutions culturelles, bibliothèques nationales et internationales;
- Utilisé par: Éducateurs, chercheurs, historiens, institutions culturelles;
- Standard de données descriptives: Dublin Core, METS (Metadata Encoding and Transmission Standard), XML;
- Identifiant unique des entités: WDL Identifier.

Conclusion

En conclusion, les agrégateurs de données sont un élément fondamental de l'IA moderne, fournissant la matière première nécessaire à son fonctionnement. Leur utilisation judicieuse, combinée aux autres composants de l'IA, permet de créer des systèmes intelligents de plus en plus performants, tout en soulevant des questions éthiques importantes qui doivent être adressées pour assurer un développement responsable de cette technologie.

Sources et Références:

Rechercher dans ce blog

ElMess-K