mercredi 21 janvier 2015

Google modifie son Knowledge Graph et renforce sa domination sur les Linked Data

Le  16 décembre dernier, Google surprenait en annonçant la fermeture du service Freebase pour juin 2015 et le transfert des informations sur le site Wikidata [1]. La semaine passée, le géant mondial indiquait avoir complètement revu son outil de test d'affichage des données structurées et balises sémantiques [2]. Bien que difficilement lisibles, ces deux évolutions notables pour l'outil sémantique de Google, le Knowledge Graph, suggèrent une volonté hégémonique pour le web de données.


Disparition programmée de Freebase, base de données sémantique open source


Souvent méconnu, le Knowledge Graph est pourtant utilisé quotidiennement. Lancé aux Etats-Unis en mai 2012 (puis en France 8 mois plus tard), il s'agit d'un outil sémantique qui permet, grâce aux données liées, l'affichage d'une véritable fiche d'identification dès la page de résultats d'un moteur de recherche (SERP en anglais).


Exemple de Knowledge Graph :


Actuellement, le système repose sur diverses sources (CIA World Factbook, Banque Mondiale...) et sur le service Freebase, une base de données d'entités nommées acquise par Google en 2010 auprès de la société Metaweb. Constituée de métadonnées culturelles, cette base est libre d'accès et distribuée sous licence Creative Commons. De nombreux professionnels du référencement naturel (SEO) agissent sur le Knowledge Graph en éditant leurs données au travers de Freebase.

Le 16 décembre dernier, à la suprise quasi-générale, Google annonçait que Freebase allait transférer ses données sur Wikidata (via un import prévu pour mars 2015) puis fermer en juin 2015. Parallèlement, Google ouvrira l'accès à son Knowledge Graph via une API qui se substituera à celle de Freebase (propriétaire) et au widget de suggestions.


Wikidata, futur bénéficiaire des données Freebase

Lancé au printemps 2013 par la Wikimedia Foundation, Wikidata est une base de données collaborative, commune à toutes les déclinaisons de Wikipedia.

À l'inverse de DBpedia, qui extrait des données de Wikipedia pour en proposer une version structurée au format du web sémantique, les données de Wikidata proviennent de la communauté et de sources externes (par exemple VIAF ou ORCID). Wikidata offre ainsi des données normalisées pour enrichir Wikipedia et en faciliter la mise à jour [4]. Pour visualiser les potentialités de Wikidata, l'exemple des items de Wikidata pour "John Sebastian Bach" est particulièrement éclairant [5].

Si, dès l'origine, Google finançait un quart du projet (Paul Allen, le cofondateur de Microsoft, apportant la moitié des fonds), un tel rapprochement marque une forme de reconnaissance pour le projet communautaire. 

Pour Wikidata, l'ajout des 40 millions d'entités (topics) de Freebase aux 12 millions déjà disponibles posera sans doute de sérieuses difficultés. Et la différence de culture entre les deux structures, par exemple pour la validation des données, présente un risque non négligeable. À l'inverse, la disparition progressive de DBpedia semble quasi inéluctable. Bien que ses URI soient encore largement utilisés comme lien de référence, DBPedia ne pourra en effet guère lutter contre une source aussi vaste, riche et vivante que Wikidata.


Comment interpréter la stratégie de Google ?

Le calendrier très court pour la migration des données comme pour le lancement d'une nouvelle API a surpris de nombreux acteurs du web de données. Ceux-ci s'interrogent sur le rôle de chevalier blanc des Linked Data dont se pare Google, qui devient le premier contributeur et usager de Wikidata.

Dans un article publié sur son blog Data Liberate, Richard Wallis considère la manœuvre de Google comme un symptôme de la maturité du Knowledge Graph, désormais essentiel à l'infrastructure Google : "Ils ont utilisé Freebase pour fertiliser le Knowledge Graph. Les semences ont donné un jeune arbre alimenté par les sources jumelles des recherches Google et par les riches nutriments tirés des données structurées Schema.org intégrées à des millions de pages web. Pour suivre l'analogie, le semis Freebase, comme un projet/marque autonome, ne correspond plus à l'arbre unifié des connaissances que Google est en train de bâtir." [6]

Google semble entretenir le flou sur la future API. Sera-t-elle fondée sur Wikidata ou bien directement sur le Knowledge Graph ? Aura-t-elle un langage de requêtes propriétaire comme Freebase ?
On peut supposer que le classement (ranking) des entités constitue l'essentiel de la valeur ajoutée de l'API Freebase actuelle. Même si l'algorithme du score de pertinence pourra probablement être proposé dans une API Wikidata alternative, il faudra bien passer par l'API Google pour bénéficier du ranking lié au "popularity score" [7]. Ici, rien de nouveau : la valeur ajoutée de Google fleurira sur les données produites par d'autres.

D'autre part, malgré les efforts redoublés de Google pour favoriser la structuration des données [8], Wikidata est sans doute le "Wolfram Alpha killer" idéal sur lequel s'appuyer [9].

Au final, loin d'indiquer un désintérêt de Google pour les Linked Data, l'interruption de Freebase montre combien le web de données est au centre de sa stratégie, avec une ambition hégémonique renforcée. Don't be evil ?




[1] Jason Douglas. Announcement: From Freebase to Wikidata. Google [en ligne]. 16 décembre 2014. Disponible à l'adresse : https://groups.google.com/forum/#!topic/freebase-discuss/s_BPoL92edc

[2] New Structured Data Testing Tool, documentation, and more. Google [en ligne]. 15 janvier 2015. Disponible à l'adresse : http://googlewebmastercentral.blogspot.fr/2015/01/new-structured-data-testing-tool.html

[3] Olivier Andrieu. Knowledge Graph : Google lance son outil sémantique en France. Abondance [en ligne]. 5 décembre 2012. Disponible à l'adresse : http://www.abondance.com/actualites/20121205-12097-knowledge-graph-google-lance-son-outil-semantique-en-france.html

[4] Julien L. Wikidata veut faciliter la mise à jour de Wikipédia. Numérama [en ligne]. 31 mars 2012. Disponible à l'adresse : http://www.numerama.com/magazine/22208-wikidata-veut-faciliter-la-mise-a-jour-de-wikipedia.html

[5] Outil Reasonator. [en ligne]. Consulté le 21 janvier 2015. Disponible à l'adresse : http://fr.wikipedia.org/wiki/Wikip%C3%A9dia:Reasonator

[6] (Traduction par le rédacteur). Richard Wallis. Google Sunsets Freebase – Good News For Wikidata? Data Liberate [en ligne]. 17 décembre 2014. Disponible à l'adresse : http://dataliberate.com/2014/12/google-sunsets-freebase-good-news-for-wikidata/

[7] Freebase API Search Cookbook. [en ligne]. Consulté le 21 janvier 2015. Disponible à l'adresse : https://developers.google.com/freebase/v1/search-cookbook#scoring-and-ranking

[8] New Structured Data Testing Tool, documentation, and more. Google [en ligne]. 15 janvier 2015. Disponible à l'adresse : http://googlewebmastercentral.blogspot.fr/2015/01/new-structured-data-testing-tool.html

[9] Anne-Claire Norot. Les moteurs de recherche auront-ils bientôt réponse à tout ? Les Inrocks [en ligne]. 23 juin 2012. Disponible à l'adresse : http://www.lesinrocks.com/2012/06/23/medias/les-moteurs-de-recherche-auront-ils-reponse-tout-11269861/
 

Aucun commentaire: