1 00:00:04,035 --> 00:00:05,945 Panel sur la qualité des données 2 00:00:05,945 --> 00:00:09,476 Bonjour à tous, bienvenue au groupe Qualité de Données. 3 00:00:10,288 --> 00:00:13,671 La qualité de données est importante car de plus en plus de gens 4 00:00:13,672 --> 00:00:19,289 se basent sur nos bonnes données et donc, nous allons parler de qualité. 5 00:00:20,029 --> 00:00:26,000 Il y aura quatre orateurs qui présenteront des introductions 6 00:00:26,000 --> 00:00:29,539 sur des sujets concernant la qualité de données suivies de questions-réponses. 7 00:00:30,130 --> 00:00:32,234 Le premier est Lucas. 8 00:00:34,385 --> 00:00:35,385 Merci. 9 00:00:35,901 --> 00:00:39,899 Je m'appelle Lucas et je vais commencer par une vue générale 10 00:00:39,899 --> 00:00:43,806 des outils de qualité de données que nous possédons déjà sur Wikidata 11 00:00:43,807 --> 00:00:46,109 et sur les prochaines nouveautés. 12 00:00:46,932 --> 00:00:50,623 Je les ai regroupés par thèmes : 13 00:00:50,623 --> 00:00:53,761 rendre les erreurs plus visibles, les problèmes actionnables, 14 00:00:53,762 --> 00:00:56,752 avoir plus de vues sur les données pour que les problèmes soient remarqués, 15 00:00:56,945 --> 00:01:02,616 remédier aux sources communes d'erreurs, maintenir la qualité existante 16 00:01:02,616 --> 00:01:03,966 et le référencement humain. 17 00:01:05,063 --> 00:01:09,874 Et ce qui est actuellement disponible commence par les contraintes de propriété. 18 00:01:10,068 --> 00:01:12,421 Si vous êtes sur Wikidata, ceci vous est sûrement familier. 19 00:01:12,422 --> 00:01:15,480 Des icônes vérifiant la cohérence interne des données 20 00:01:15,480 --> 00:01:17,241 sont parfois présentes. 21 00:01:17,242 --> 00:01:20,800 Par exemple, si un événement en suit un autre, 22 00:01:20,801 --> 00:01:23,760 cet autre devrait aussi être suivi par celui-ci, 23 00:01:23,761 --> 00:01:27,161 ce qui n'est apparemment pas sur l'item WikidataCon. 24 00:01:27,162 --> 00:01:29,600 Je ne suis pas sûr, cette fonction date que quelques jours. 25 00:01:30,040 --> 00:01:34,681 Et si ceci est trop limité ou simple pour vous, 26 00:01:34,682 --> 00:01:38,080 vous pouvez utiliser n'importe quelle vérification grâce à Query Service, 27 00:01:38,081 --> 00:01:39,842 ce qui est bien sûr très pratique. 28 00:01:39,843 --> 00:01:44,543 Mais vous pouvez aussi l'utiliser pour déterminer les erreurs. 29 00:01:44,544 --> 00:01:46,974 Si vous avez remarqué une erreur, 30 00:01:46,975 --> 00:01:49,709 vous pouvez regarder 31 00:01:49,710 --> 00:01:51,958 si d'autres erreurs similaires ont été commises 32 00:01:51,958 --> 00:01:53,438 et les trouver avec le Query Service. 33 00:01:53,439 --> 00:01:55,039 Vous pouvez également combiner les deux 34 00:01:55,039 --> 00:01:57,874 et rechercher des violations de contrainte, 35 00:01:57,875 --> 00:02:01,240 par exemple, uniquement celles dans une zone particulière 36 00:02:01,241 --> 00:02:03,762 ou un WikiProject qui vous est pertinent. 37 00:02:03,762 --> 00:02:06,828 Malheureusement, les résultats ne sont actuellement pas complets. 38 00:02:08,422 --> 00:02:09,877 Il existe la notation de révision. 39 00:02:10,690 --> 00:02:12,666 Provenant des changements récents, 40 00:02:12,667 --> 00:02:16,217 vous pouvez aussi avoir une évaluation automatique : 41 00:02:16,217 --> 00:02:20,249 cette édition est-elle faite de bonne ou mauvaise volonté 42 00:02:20,250 --> 00:02:22,312 et peut-elle être préjudiciable ou non. 43 00:02:22,313 --> 00:02:24,205 Voilà les deux dimensions. 44 00:02:24,206 --> 00:02:25,686 Vous pouvez si vous le voulez, 45 00:02:25,687 --> 00:02:29,898 vous concentrer sur les éditions néfastes mais de bonne volonté. 46 00:02:29,899 --> 00:02:32,803 Si vous êtes dans une humeur particulièrement amicale et accueillante, 47 00:02:32,803 --> 00:02:37,121 vous pouvez dire à ces éditeurs : « Merci pour votre contribution, 48 00:02:37,122 --> 00:02:40,560 vous auriez dû le faire comme ça, mais merci quand même. » 49 00:02:40,561 --> 00:02:42,046 Si vous n'êtes pas dans cette humeur, 50 00:02:42,046 --> 00:02:44,562 vous pouvez examiner les éditions préjudiciables de mauvaise foi 51 00:02:44,562 --> 00:02:45,933 et inverser le vandalisme. 52 00:02:47,544 --> 00:02:49,761 Il y a aussi la notation d'entité. 53 00:02:49,762 --> 00:02:52,590 Au lieu de noter une édition, la modification apportée, 54 00:02:52,591 --> 00:02:53,904 vous notez la révision complète 55 00:02:53,904 --> 00:02:56,483 et je pense que c'est la même mesure de qualité 56 00:02:56,483 --> 00:02:59,863 que Lydia mentionne au début de la conférence. 57 00:03:00,372 --> 00:03:04,569 Cela nous donne un script d'utilisateur et un score de un à cinq, je pense, 58 00:03:04,570 --> 00:03:08,176 de la qualité de l'item actuel. 59 00:03:10,043 --> 00:03:15,108 L'outil des sources primaires s'utilise pour toute base de données à importer, 60 00:03:15,108 --> 00:03:18,364 mais n'est pas d'assez bonne qualité que pour être ajouté directement à Wikidata. 61 00:03:18,374 --> 00:03:20,585 Il doit donc être ajouté à l'outil des sources primaires 62 00:03:20,585 --> 00:03:22,956 pour que les humains puissent décider 63 00:03:22,956 --> 00:03:26,024 d'ajouter ces énoncés individuels ou non. 64 00:03:28,595 --> 00:03:31,901 Afficher les coordonnées sous forme de cartes est pratique, 65 00:03:31,901 --> 00:03:33,798 mais peut aussi servir de contrôle qualité. 66 00:03:33,798 --> 00:03:36,937 Si vous voyez que les coordonnées du bureau de Wikimedia Germany 67 00:03:36,938 --> 00:03:39,400 se trouvent quelque part dans l'océan Indien, 68 00:03:39,401 --> 00:03:41,529 vous savez que quelque chose ne va pas 69 00:03:41,530 --> 00:03:44,790 et cela se remarque plus facilement que simplement avec des chiffres. 70 00:03:46,382 --> 00:03:49,576 C'est un gadget appelé « l'indicateur de complétude relative » 71 00:03:49,577 --> 00:03:52,480 qui vous montre cette petite icône ici 72 00:03:53,007 --> 00:03:55,652 vous donnant son estimation de complétion de l'item 73 00:03:55,652 --> 00:03:57,613 ainsi que les propriétés manquantes, 74 00:03:57,614 --> 00:03:59,769 ce qui est très utile si vous éditez un item, 75 00:03:59,769 --> 00:04:03,172 que vous êtes dans une zone peu familière 76 00:04:03,172 --> 00:04:05,901 et que ne savez pas quelles sont les propriétés correctes à employer, 77 00:04:05,901 --> 00:04:08,230 c'est alors un gadget très utile. 78 00:04:09,604 --> 00:04:11,401 Il y a aussi les « Shape Expressions ». 79 00:04:11,402 --> 00:04:15,624 Andra et Jose nous en parleront davantage, 80 00:04:15,624 --> 00:04:19,757 mais c'est en gros, un moyen puissant de comparer les données 81 00:04:19,758 --> 00:04:20,758 par rapport au schéma, 82 00:04:20,759 --> 00:04:22,690 comme quel état devrait avoir certaines entités, 83 00:04:22,690 --> 00:04:26,067 à quelles autres devraient-elles se lier et à quoi devraient-elles ressembler, 84 00:04:26,229 --> 00:04:29,374 vous pouvez ainsi trouver les problèmes. 85 00:04:30,366 --> 00:04:32,361 Ce n'est pas fini. 86 00:04:32,362 --> 00:04:34,321 « Integraality » ou tableau de bord de propriété. 87 00:04:34,322 --> 00:04:36,773 Il vous fournit une vue rapide de vos données existantes. 88 00:04:36,774 --> 00:04:39,147 Par exemple, ceci provient du WikiProject « Red Pandas » 89 00:04:39,657 --> 00:04:41,681 et vous pouvez voir que le sexe ou genre 90 00:04:41,682 --> 00:04:43,561 de presque tous les pandas sont assignés. 91 00:04:43,561 --> 00:04:46,854 La date de naissance varie selon leur zoo 92 00:04:46,854 --> 00:04:50,255 et heureusement, il n'y a presque aucun panda mort. 93 00:04:51,437 --> 00:04:52,600 Ils sont trop mignons. 94 00:04:53,699 --> 00:04:55,654 Ceci est donc aussi utile. 95 00:04:56,377 --> 00:04:59,185 Voilà. Voyons maintenant ce qui va arriver. 96 00:04:59,889 --> 00:05:03,784 Wikidata Bridge, connu antérieurement sous le nom de l'édition client ; 97 00:05:03,785 --> 00:05:07,076 donc éditer Wikidata à partir des info-boxes Wikipedia 98 00:05:07,675 --> 00:05:11,725 qui d'une part, permettra plus de vues sur les données 99 00:05:11,725 --> 00:05:13,441 car plus de personnes peuvent les y voir, 100 00:05:13,441 --> 00:05:18,841 en espérant que cela engendrera un emploi plus important de Wikidata 101 00:05:18,841 --> 00:05:20,920 et que plus de gens peuvent voir 102 00:05:20,921 --> 00:05:23,977 si par exemple, certaines données sont dépassées et doivent être mises à jour 103 00:05:23,977 --> 00:05:27,000 au lieu de seulement les voir sur Wikidata. 104 00:05:28,630 --> 00:05:30,656 Il y a aussi les références contaminées. 105 00:05:30,657 --> 00:05:33,959 L'idée est que si vous modifiez une valeur de relevé, 106 00:05:34,683 --> 00:05:37,279 vous pourriez également vouloir mettre cette référence à jour 107 00:05:37,280 --> 00:05:39,373 à moins que ce ne soit juste une erreur de frappe. 108 00:05:39,897 --> 00:05:43,662 Cette référence contaminée dit aussi aux autres éditeurs 109 00:05:43,663 --> 00:05:49,756 quelles modifications de relevé de valeur ont été faites 110 00:05:49,756 --> 00:05:52,471 qui n'ont pas mis la référence à jour. 111 00:05:52,472 --> 00:05:56,766 Vous pouvez alors remédier à cela et décider si... 112 00:05:57,737 --> 00:05:59,566 Est-ce que vous devez en faire plus 113 00:05:59,566 --> 00:06:02,796 ou c'est bien comme ça, il n'y a pas besoin de mettre la référence à jour. 114 00:06:03,543 --> 00:06:09,336 Cela concerne les relevés signés originaires d'un souci 115 00:06:09,336 --> 00:06:12,355 de certains fournisseurs de données... 116 00:06:14,131 --> 00:06:17,231 Il y a un énoncé que l'UNESCO a référencé 117 00:06:17,232 --> 00:06:19,872 qui a été vandalisé 118 00:06:19,873 --> 00:06:21,836 et ils sont donc inquiets qu'il semblerait 119 00:06:22,827 --> 00:06:26,992 que cette organisation, l'UNESCO aurait validé cette valeur vandalisée. 120 00:06:26,993 --> 00:06:28,706 Mais grâce aux énoncés signés, 121 00:06:28,706 --> 00:06:31,488 ils peuvent le faire de manière cryptographique 122 00:06:31,488 --> 00:06:33,562 sans empêcher les modifications ; 123 00:06:34,169 --> 00:06:37,744 mais au moins, si quelqu'un vandalise l'énoncé 124 00:06:37,744 --> 00:06:40,435 ou le modifie de quelque façon, la signature n'est alors plus valide 125 00:06:40,435 --> 00:06:43,401 et on peut voir que ce n'est pas ce qu'a dit l'organisation, 126 00:06:43,402 --> 00:06:47,064 et il se peut que ce soit une bonne modification qui devrait être resignée, 127 00:06:47,065 --> 00:06:49,851 mais qui pourrait aussi devoir être annulée. 128 00:06:51,203 --> 00:06:53,666 Une chose excitante 129 00:06:53,666 --> 00:06:56,846 est que Wikipedia comprend ce système étonnant appelé « Citoid » 130 00:06:57,379 --> 00:07:01,340 où on peut coller une URL, un identifiant ou un ISBN 131 00:07:01,340 --> 00:07:04,759 ou un ID Wikidata ou pratiquement n'importe quoi dans le Visual Editor 132 00:07:05,260 --> 00:07:08,241 qui retourne une référence bien formatée 133 00:07:08,242 --> 00:07:11,049 avec toutes les données possibles, c'est très gai à utiliser. 134 00:07:11,049 --> 00:07:14,337 Pour comparer avec Wikidata, si je veux ajouter une référence, 135 00:07:14,338 --> 00:07:18,801 typiquement, je dois ajouter une URL, un titre, nom d'auteur, 136 00:07:18,802 --> 00:07:20,449 date et lieu de publication, 137 00:07:20,450 --> 00:07:25,141 dates de récupération, au moins tout ça et c'est embêtant. 138 00:07:25,141 --> 00:07:29,261 On peut espérer que l'intégration de Citoid dans Wikibase améliorera la chose. 139 00:07:30,245 --> 00:07:33,604 Je crois que c'est tout pour moi. 140 00:07:33,604 --> 00:07:36,400 Je passe la parole à Cristina. 141 00:07:36,400 --> 00:07:38,488 Comment améliorer la gestion de qualité de données ? 142 00:07:38,488 --> 00:07:42,339 (applaudissements) 143 00:07:43,780 --> 00:07:45,471 Bonjour, je suis Cristina. 144 00:07:45,472 --> 00:07:47,672 Je suis chercheuse scientifique à l'université de Zurich 145 00:07:47,673 --> 00:07:51,417 et je suis aussi une membre active de la communauté suisse. 146 00:07:52,698 --> 00:07:57,901 Quand Claudia Müller-Birn et moi-même avons présenté ceci à WikidataCon, 147 00:07:57,902 --> 00:08:00,410 ce que nous voulions, c'est continuer la discussion 148 00:08:00,411 --> 00:08:02,424 commencée au début de l'année 149 00:08:02,424 --> 00:08:07,442 avec un atelier sur la qualité de données et des sessions dans Wikimania. 150 00:08:07,442 --> 00:08:10,535 Le but de cette conférence est de parler des pensées 151 00:08:10,536 --> 00:08:14,432 réunies de la communauté et de nous-mêmes 152 00:08:14,432 --> 00:08:16,560 et de continuer cette discussion. 153 00:08:16,561 --> 00:08:20,065 Nous aimerions beaucoup continuer cette interaction avec vous. 154 00:08:21,557 --> 00:08:23,371 Nous pensions qu'il est très important 155 00:08:23,372 --> 00:08:27,580 de toujours demander à tous les types d'utilisateur de la communauté, 156 00:08:27,581 --> 00:08:32,240 quels sont leurs besoins et problèmes concernant la qualité de données ; 157 00:08:32,240 --> 00:08:35,000 non seulement les éditeurs, mais aussi les codeurs 158 00:08:35,000 --> 00:08:36,241 ou les consommateurs de données 159 00:08:36,242 --> 00:08:39,494 et également les chercheurs qui utilisent toute cette historique d'édition 160 00:08:39,494 --> 00:08:40,800 pour analyser les événements. 161 00:08:42,367 --> 00:08:48,431 Nous avons donc examiné à peu près 80 outils de Wikidata 162 00:08:48,431 --> 00:08:52,380 et les avons alignés aux différentes dimensions de qualité de données. 163 00:08:52,380 --> 00:08:54,360 Ce qu'on a réalisé, c'est que 164 00:08:54,361 --> 00:08:57,681 nombre d'entre eux surveillent la complétion, 165 00:08:57,682 --> 00:09:02,820 mais certains d'entre eux permettent l'interconnexion. 166 00:09:02,820 --> 00:09:08,442 Mais il y a un grand besoin pour des outils travaillant dans la diversité, 167 00:09:08,443 --> 00:09:12,824 ce qu'on peut en fait avoir dans Wikidata, 168 00:09:12,824 --> 00:09:15,318 spécialement dans son principe de conception 169 00:09:15,318 --> 00:09:18,131 où la pluralité et les relevés différents contenant différentes valeurs 170 00:09:18,131 --> 00:09:20,308 provenant de différentes sources 171 00:09:21,034 --> 00:09:22,236 peuvent exister. 172 00:09:22,236 --> 00:09:25,091 Parce que la source est secondaire, nous n'avons pas vraiment d'outils 173 00:09:25,091 --> 00:09:27,750 qui nous disent réellement quelle est la pluralité d'énoncés, 174 00:09:27,751 --> 00:09:30,889 combien nous pouvons améliorer et de quelle manière 175 00:09:30,890 --> 00:09:32,833 et nous ne connaissons pas non plus vraiment 176 00:09:32,833 --> 00:09:35,538 les raisons de cette pluralité. 177 00:09:36,491 --> 00:09:39,201 De ces réunions de communauté, 178 00:09:39,201 --> 00:09:43,084 nous avons discuté les défis qui demandent de l'attention. 179 00:09:43,084 --> 00:09:47,249 Par exemple, le fait d'avoir ces communautés de production participative 180 00:09:47,249 --> 00:09:49,613 est positif car différentes personnes 181 00:09:49,613 --> 00:09:51,833 avec des connaissances de base différentes 182 00:09:51,834 --> 00:09:54,615 attaquent les différentes parties des données ou du graphe ; 183 00:09:54,616 --> 00:09:59,161 mais en réalité, il est difficile de tout aligner de manière homogène 184 00:09:59,162 --> 00:10:04,920 car différentes personnes utilisent différentes chose de façons différentes 185 00:10:04,920 --> 00:10:08,401 et s'attendent aussi à différentes choses venant des descriptions d'entité. 186 00:10:09,003 --> 00:10:12,721 Les gens ont aussi dit qu'ils ont besoin de plus d'outils 187 00:10:12,722 --> 00:10:16,000 qui donnent une meilleure vue d'ensemble du statut global des choses. 188 00:10:16,000 --> 00:10:20,733 C'est donc ce qui manque aux entités en termes de complétion, 189 00:10:20,733 --> 00:10:26,121 mais aussi sur quoi les gens travaillent-ils maintenant 190 00:10:26,121 --> 00:10:30,516 et ils ont aussi mentionné maintes fois d'avoir une collaboration plus étroite 191 00:10:30,517 --> 00:10:33,311 entre non seulement, les langages, mais aussi WikiProjects 192 00:10:33,311 --> 00:10:35,571 et les différentes plateformes de Wikimedia. 193 00:10:35,571 --> 00:10:38,859 Nous avons publié tous les commentaires transcrits 194 00:10:38,860 --> 00:10:42,959 de toutes les discussions dans les liens de Etherpads 195 00:10:42,959 --> 00:10:46,162 et dans la page wiki de Wikimania. 196 00:10:46,162 --> 00:10:48,481 Certaines solutions pointaient 197 00:10:48,481 --> 00:10:53,001 vers le fait de plus partager les bonnes pratiques 198 00:10:53,001 --> 00:10:55,762 qui sont développées dans différents WikiProjects, 199 00:10:55,762 --> 00:11:01,238 mais il y a aussi une demande pour des outils qui facilitent l'organisation 200 00:11:01,239 --> 00:11:03,845 de travail dans les équipes pour savoir qui fait quoi 201 00:11:03,845 --> 00:11:07,815 et également, pour plus de vitrines 202 00:11:07,816 --> 00:11:12,019 et de modèles pour aider à mieux créer. 203 00:11:12,946 --> 00:11:15,161 D'après le contact que nous avons 204 00:11:15,162 --> 00:11:18,721 avec les Open Governmental Data Organizations, 205 00:11:18,722 --> 00:11:20,068 et particulièrement, 206 00:11:20,068 --> 00:11:23,102 je suis en contact avec le canton et la ville de Zurich, 207 00:11:23,102 --> 00:11:26,207 ils sont très intéressés de travailler avec Wikidata 208 00:11:26,207 --> 00:11:29,896 parce qu'ils veulent leurs données accessibles à tous 209 00:11:29,897 --> 00:11:33,681 dans les endroits où les gens consultent et accèdent aux données. 210 00:11:33,682 --> 00:11:36,370 Ce qui peut être intéressant pour eux 211 00:11:36,370 --> 00:11:38,600 serait d'avoir un genre d'indicateurs de qualité 212 00:11:38,600 --> 00:11:41,082 à la fois dans le wiki, ce qui est valable actuellement, 213 00:11:41,082 --> 00:11:42,801 mais aussi dans les résultats SPARQL, 214 00:11:42,802 --> 00:11:46,066 afin de savoir s'ils peuvent faire confiance aux données communautaires. 215 00:11:46,067 --> 00:11:48,230 Ils veulent aussi savoir 216 00:11:48,230 --> 00:11:51,417 quelles parties de leur propre ensemble de données sont utiles pour Wikidata 217 00:11:51,418 --> 00:11:56,040 et aimeraient un outil qui peut les aider à évaluer ça automatiquement. 218 00:11:56,041 --> 00:11:59,066 Ils ont aussi besoin d'une méthodologie ou outil 219 00:11:59,067 --> 00:12:03,894 pour les aider à décider s'ils doivent importer ou connecter leurs données, 220 00:12:03,894 --> 00:12:04,894 car dans certains cas, 221 00:12:04,895 --> 00:12:07,497 ils ont aussi leurs propres ensembles de données ouverts couplés ; 222 00:12:07,497 --> 00:12:09,946 ils ne savent donc pas s'ils doivent juste ingérer des données 223 00:12:09,946 --> 00:12:13,424 ou continuer de créer des liens des ensembles de données vers Wikidata 224 00:12:13,425 --> 00:12:14,425 et le contraire. 225 00:12:14,950 --> 00:12:20,043 Et ils veulent aussi savoir où est référencé leur site web dans Wikidata. 226 00:12:20,044 --> 00:12:23,361 Quand ils introduisent une telle demande dans le service, 227 00:12:23,362 --> 00:12:24,848 ils sont souvent mis en attente, 228 00:12:24,849 --> 00:12:28,181 nous devrions donc peut-être créer plus d'outils 229 00:12:28,181 --> 00:12:32,240 pour les aider à répondre à ces questions. 230 00:12:33,148 --> 00:12:36,208 Et de plus, (craquements) 231 00:12:36,208 --> 00:12:39,361 nous, les chercheurs wiki, 232 00:12:39,362 --> 00:12:42,023 manquons d'information dans les résumés d'édition. 233 00:12:42,024 --> 00:12:44,953 Je me souviens que quand nous travaillions 234 00:12:44,954 --> 00:12:48,919 à comprendre les différents comportements des éditeurs 235 00:12:48,919 --> 00:12:53,403 avec outils ou bots, utilisateurs anonymes et que sais-je, 236 00:12:53,403 --> 00:12:56,154 il nous manquait par exemple, 237 00:12:56,154 --> 00:13:01,112 une manière standard de tracer les outils qui étaient utilisés. 238 00:13:01,113 --> 00:13:03,154 Certains outils font déjà cela, 239 00:13:03,155 --> 00:13:05,230 comme PetScan et plein d'autres. 240 00:13:05,230 --> 00:13:08,850 Nous devrions peut-être plus discuter en communauté 241 00:13:08,850 --> 00:13:13,531 comment enregistrer ceux-ci pour une origine peaufinée. 242 00:13:14,169 --> 00:13:15,321 De plus, 243 00:13:15,322 --> 00:13:20,801 nous devons penser à des dimensions de qualité de données plus concrètes 244 00:13:20,802 --> 00:13:24,961 qui sont reliées aux données couplées, mais non à tout type de données. 245 00:13:24,962 --> 00:13:30,721 Nous avons donc travaillé sur certaines mesures pour accéder au gain d'information 246 00:13:30,722 --> 00:13:33,881 fournis par les liens, ce qui veut dire 247 00:13:33,882 --> 00:13:36,681 que quand nous connectons Wikidata à d'autres ensembles de données, 248 00:13:36,682 --> 00:13:38,201 nous devrions aussi envisager 249 00:13:38,202 --> 00:13:41,921 le gain de classification des entités 250 00:13:41,922 --> 00:13:45,601 dans la description, mais aussi dans les vocabulaires utilisés. 251 00:13:45,602 --> 00:13:51,041 Pour vous donner un exemple, 252 00:13:51,042 --> 00:13:54,269 dans le cas de Wikidata 253 00:13:54,270 --> 00:13:57,771 ou du centre de données externe lié à Wikidata, 254 00:13:57,772 --> 00:14:00,487 nous avons l'entité d'une personne appelée « Natasha Noy », 255 00:14:00,487 --> 00:14:02,601 nous avons l'affiliation et d'autres choses 256 00:14:02,602 --> 00:14:05,239 et nous décidons de connecter à un endroit externe 257 00:14:05,240 --> 00:14:08,919 où cette entité a aussi ce nom, mais la valeur reste la même. 258 00:14:08,920 --> 00:14:12,889 Il serait alors mieux de connecter à quelque chose qui a un nom différent 259 00:14:12,889 --> 00:14:16,881 qui est toujours valide car cette personne peut écrire le nom de deux manières 260 00:14:16,882 --> 00:14:19,714 ainsi que d'autres informations non disponibles dans Wikidata 261 00:14:19,715 --> 00:14:21,760 ou dans l'autre ensemble de données. 262 00:14:22,390 --> 00:14:24,652 Mais ce qui est encore préférable, 263 00:14:24,653 --> 00:14:27,770 c'est d'examiner l'ensemble de données cible 264 00:14:27,770 --> 00:14:31,392 pour voir qu'il a aussi de nouvelles façons de classifier l'information. 265 00:14:31,393 --> 00:14:35,354 Ce n'est donc pas juste une personne, mais dans l'autre ensemble de données, 266 00:14:35,355 --> 00:14:39,525 ils parlent aussi en termes de femme et autre forme de classification. 267 00:14:39,526 --> 00:14:43,401 Et si l'autre ensemble de données utilise différents vocabulaires, 268 00:14:43,402 --> 00:14:46,588 cela aide dans la récupération des données. 269 00:14:47,371 --> 00:14:51,233 Je voudrais encore ajouter 270 00:14:51,234 --> 00:14:55,809 que nous sommes capables de mieux mettre en valeur les requêtes fédérées 271 00:14:55,810 --> 00:15:00,448 car quand nous consultons le journal de requêtes fourni par Malyshev et al., 272 00:15:01,285 --> 00:15:04,301 nous constations que parmi les requêtes organiques, 273 00:15:04,302 --> 00:15:06,921 il y a très peu de requêtes fédérées. 274 00:15:06,922 --> 00:15:12,801 Et en fait, un des avantages clés des données couplées est la fédération ; 275 00:15:12,802 --> 00:15:16,903 il se pourrait donc que la communauté et les gens qui utilisent Wikidata 276 00:15:16,903 --> 00:15:18,898 devraient avoir plus d'exemples à ce sujet. 277 00:15:18,898 --> 00:15:22,666 Et si on lit la liste des points finaux utilisés, 278 00:15:22,667 --> 00:15:25,401 celle-ci n'est pas complète, nous en avons bien d'autres. 279 00:15:25,402 --> 00:15:30,479 Bien sûr, ces données ont été analysées à partir de demandes jusqu'en mars 2018, 280 00:15:30,480 --> 00:15:34,807 mais nous devrions revoir la liste des points finaux acquis 281 00:15:34,808 --> 00:15:37,048 pour décider si nous les utilisons vraiment. 282 00:15:37,813 --> 00:15:40,341 J'ai deux questions pour l'audience 283 00:15:40,341 --> 00:15:43,001 que nous pouvons peut-être utiliser pour la discussion ultérieure : 284 00:15:43,001 --> 00:15:46,001 « À votre avis, quels sont les problèmes de qualité de données à adresser 285 00:15:46,002 --> 00:15:47,412 dépendant de vos besoins ? » 286 00:15:47,412 --> 00:15:50,401 et « Où avez-vous besoin de plus d'automation 287 00:15:50,402 --> 00:15:52,943 pour vous aider dans les éditions et les patrouilles ? » 288 00:15:53,866 --> 00:15:55,146 Ce sera tout, merci beaucoup. 289 00:15:55,779 --> 00:15:57,527 (applaudissements) 290 00:15:58,808 --> 00:16:01,008 MERCI ! 291 00:16:06,030 --> 00:16:08,595 (Jose Emilio Labra) Je vais maintenant vous parler 292 00:16:08,595 --> 00:16:14,715 des outils de Shape Expressions que nous sommes en train de développer. 293 00:16:15,536 --> 00:16:19,371 Je suis Jose Emilio Labra, 294 00:16:19,371 --> 00:16:23,215 mais tous ces outils ont été construits par des personnes différentes 295 00:16:23,920 --> 00:16:28,480 principalement connectées à W3C ShEx, Groupe de Communauté Shape Expressions. 296 00:16:28,481 --> 00:16:29,851 Groupe de Communauté ShEx. 297 00:16:30,144 --> 00:16:36,081 Le premier outil dont j'aimerais parler est un outil général : le RDFShape ; 298 00:16:36,082 --> 00:16:40,681 car Shape Expressions convient non pas seulement pour Wikidata, 299 00:16:40,682 --> 00:16:44,168 mais constitue un langage qui valide RDF en général. 300 00:16:44,168 --> 00:16:48,318 Je suis l'acteur principal du développement de cet outil 301 00:16:48,318 --> 00:16:50,880 qui valide RDF en général. 302 00:16:50,881 --> 00:16:55,139 Si vous voulez connaître ou valider RDF 303 00:16:55,140 --> 00:16:58,621 ou les points d'extrémité SPARQL pas seulement dans Wikidata, 304 00:16:58,622 --> 00:17:00,891 je vous conseille d'utiliser cet outil. 305 00:17:00,891 --> 00:17:03,255 Il est également bon pour l'enseignement. 306 00:17:03,255 --> 00:17:05,640 J'enseigne à l'université 307 00:17:05,641 --> 00:17:09,151 et je l'emploie dans mon cours de Web sémantique pour le RDF. 308 00:17:09,161 --> 00:17:12,121 Je crois donc que c'est un bon outil si vous voulez apprendre le RDF. 309 00:17:13,033 --> 00:17:17,598 Voici en exemple, une visualisation d'un graphe RDF avec l'outil. 310 00:17:18,587 --> 00:17:22,643 Mais avant de venir ici, au cours du mois dernier, 311 00:17:22,643 --> 00:17:28,441 j'ai commencé une fourchette de RDFShape juste pour Wikidata car je croyais... 312 00:17:28,443 --> 00:17:33,082 Je l'ai présenté hier à Wikidata, elle s'appelle « WikiShape ». 313 00:17:33,082 --> 00:17:34,441 Ce que j'ai fait... 314 00:17:34,442 --> 00:17:39,898 j'ai retiré tout ce qui ne concernait pas Wikidata 315 00:17:39,898 --> 00:17:44,801 et implémenté d'autres choses codées en dur comme l'extrémité Wikidata SPARQL, 316 00:17:44,802 --> 00:17:49,041 mais on m'a demandé maintenant si je pouvais faire de même pour Wikibase. 317 00:17:49,042 --> 00:17:52,000 Ce qui est très facile à faire. 318 00:17:52,760 --> 00:17:56,280 L'outil WikiShape est relativement nouveau. 319 00:17:57,015 --> 00:17:59,843 La plupart des fonctionnalités sont opératives, 320 00:17:59,844 --> 00:18:02,468 mais il est possible que certaines ne fonctionnent pas 321 00:18:02,469 --> 00:18:06,281 et si vous voulez les améliorer, s'il vous plaît, dites-le moi. 322 00:18:06,281 --> 00:18:12,680 C'est donc [des captures Science Script], mais on peut essayer. 323 00:18:15,385 --> 00:18:16,945 Voyons si cela marche. 324 00:18:16,953 --> 00:18:20,070 Je dois d'abord sortir de... 325 00:18:22,453 --> 00:18:23,453 Ici. 326 00:18:24,226 --> 00:18:28,324 D'accord, voici l'outil. 327 00:18:28,324 --> 00:18:30,564 Ce que vous pouvez faire avec l'outil par exemple, 328 00:18:30,564 --> 00:18:35,275 c'est vérifier des schémas d'entité. 329 00:18:35,276 --> 00:18:38,611 Vous savez qu'il y a un nouvel espace de nommage : « E que sais-je », 330 00:18:38,612 --> 00:18:44,805 si vous commencez par écrire « humain », 331 00:18:44,806 --> 00:18:48,812 son auto-complétion vous permet de vérifier, 332 00:18:48,812 --> 00:18:52,001 par exemple, le Shape Expressions d'un humain 333 00:18:52,790 --> 00:18:55,937 et voici ici le Shape Expressions. 334 00:18:55,938 --> 00:18:59,841 Et vous remarquez que l'éditeur possède une coloration syntaxique ; 335 00:18:59,842 --> 00:19:04,559 mais l'écran est peut-être trop petit, 336 00:19:05,676 --> 00:19:07,590 je vais essayer de l'agrandir. 337 00:19:09,194 --> 00:19:10,973 Vous voyez peut-être mieux maintenant. 338 00:19:10,973 --> 00:19:14,241 Voici la surligne syntaxique de l'éditeur, 339 00:19:14,241 --> 00:19:17,851 celui-ci provient du même code source 340 00:19:17,851 --> 00:19:19,641 que le service de requête de Wikidata. 341 00:19:19,642 --> 00:19:23,960 Si vous passez la souris ici, 342 00:19:23,961 --> 00:19:27,961 vous pouvez voir les étiquettes des différentes propriétés. 343 00:19:27,962 --> 00:19:31,298 Je pense que c'est très utile car 344 00:19:32,588 --> 00:19:38,601 les schémas d'entité présents dans Wikidata sont juste du texte simple, 345 00:19:38,602 --> 00:19:42,493 cet éditeur est donc meilleur car il comprend l'auto-complétion 346 00:19:42,494 --> 00:19:43,743 et aussi... 347 00:19:43,744 --> 00:19:48,241 par exemple, si vous voulez ajouter une contrainte, 348 00:19:48,241 --> 00:19:51,570 vous dites : « wdt: », 349 00:19:51,570 --> 00:19:56,884 écrivez juste « auteur », vous cliquez sur *Ctrl+Space* 350 00:19:56,884 --> 00:19:58,922 et différentes suggestions apparaissent. 351 00:19:58,922 --> 00:20:02,388 Cette fonction est similaire au service de requête Wikidata, 352 00:20:02,389 --> 00:20:06,445 mais adaptée pour Shape Expressions. 353 00:20:06,445 --> 00:20:11,975 Il me semble que créer des Shape Expressions 354 00:20:11,976 --> 00:20:15,841 n'est pas plus difficile que d'écrire des requêtes SPARQL. 355 00:20:15,842 --> 00:20:21,255 Certaines personnes pensent que c'est sur un même niveau, 356 00:20:22,278 --> 00:20:26,296 mais je pense que c'est plus facile 357 00:20:26,296 --> 00:20:31,241 car telle était notre intention quand nous avons conçu Shape Expressions. 358 00:20:31,242 --> 00:20:34,481 Cet éditeur est l'une des premières choses 359 00:20:34,481 --> 00:20:36,620 disponibles dans Shape Expressions. 360 00:20:37,371 --> 00:20:41,467 Il existe aussi la possibilité de visualiser. 361 00:20:41,468 --> 00:20:44,801 Dans Shape Expressions, prenons par exemple, 362 00:20:44,802 --> 00:20:49,386 « travail écrit » qui est une belle Shape Expression 363 00:20:49,386 --> 00:20:53,300 car elle exprime une relation entre différentes choses. 364 00:20:54,823 --> 00:20:58,160 Et ceci est la visualisation UML de travail écrit. 365 00:20:58,161 --> 00:21:02,090 Dans un UML, il est facile de voir les différentes propriétés. 366 00:21:02,790 --> 00:21:05,934 En faisant l'essai avec plusieurs personnes, 367 00:21:05,934 --> 00:21:09,216 j'ai réalisé quelles trouvaient des erreurs dans leur Shape Expressions 368 00:21:09,217 --> 00:21:12,988 car les propriétés manquantes sont faciles à détecter. 369 00:21:13,588 --> 00:21:15,771 L'autre possibilité ici 370 00:21:15,772 --> 00:21:19,520 est la validation ; je crois que la voilà. 371 00:21:20,496 --> 00:21:25,285 Je crois qu'elle était dans une étiquette, je l'ai peut-être fermée. 372 00:21:26,267 --> 00:21:30,988 Mais vous pouvez par exemple, cliquer ici sur *Validate entities*. 373 00:21:32,308 --> 00:21:34,232 Par exemple, 374 00:21:35,404 --> 00:21:41,921 « q42 » avec « e42 » qui est auteur. 375 00:21:42,818 --> 00:21:46,180 Avec « humain », je pense qu'on peut le faire avec ça. 376 00:21:49,050 --> 00:21:50,050 Et puis,... 377 00:21:50,688 --> 00:21:56,365 Cela prend un peu de temps car les requêtes SPARQL s'effectuent 378 00:21:56,365 --> 00:21:59,134 et pour le moment, il y a défaut de réseau, mais... 379 00:21:59,657 --> 00:22:01,580 Vous pouvez l'essayer. 380 00:22:02,759 --> 00:22:07,026 Continuons la présentation avec d'autres outils. 381 00:22:07,026 --> 00:22:12,353 Dites-moi si vous voulez l'essayer et si vous voulez un retour. 382 00:22:13,133 --> 00:22:15,540 Poursuivons la présentation. 383 00:22:18,923 --> 00:22:20,233 Voici donc WikiShape. 384 00:22:23,800 --> 00:22:26,509 Je l'ai déjà dit, 385 00:22:27,681 --> 00:22:34,157 l'Éditeur Shape Expressions est un projet indépendant dans GitHub. 386 00:22:35,465 --> 00:22:37,472 Vous pouvez l'utiliser dans votre propre projet. 387 00:22:37,472 --> 00:22:41,036 Si vous voulez utiliser un outil Shape Expressions, 388 00:22:41,036 --> 00:22:45,635 vous pouvez l'intégrer à n'importe quel autre projet, 389 00:22:45,636 --> 00:22:48,235 il est dans GitHub, utilisez-le. 390 00:22:48,868 --> 00:22:51,970 Le même auteur qui est un de mes élèves 391 00:22:52,684 --> 00:22:55,704 a aussi créé un éditeur pour Shape Expressions 392 00:22:55,704 --> 00:22:58,119 inspiré également du service de requête Wikidata 393 00:22:58,119 --> 00:23:00,681 où vous trouvez dans une colonne, 394 00:23:00,682 --> 00:23:05,103 cet éditeur plus visuel de requêtes SPARQL 395 00:23:05,104 --> 00:23:07,135 où vous pouvez introduire ce genre de choses. 396 00:23:07,136 --> 00:23:09,123 Ceci est une capture d'écran. 397 00:23:09,123 --> 00:23:12,662 Vous pouvez voir la Shape Expressions dans le texte, 398 00:23:12,662 --> 00:23:17,822 mais celle-ci est basée sur formulaire, ce qui prendrait un peu plus de temps 399 00:23:18,595 --> 00:23:23,400 et vous pouvez placer les différentes rangées sur différents champs. 400 00:23:23,401 --> 00:23:25,800 Ensuite, il y a ShExEr 401 00:23:26,879 --> 00:23:31,882 qui a été conçu par un doctorant à l'université de Oviedo ; 402 00:23:31,883 --> 00:23:34,080 il est présent et peut donc nous présenter ShExEr. 403 00:23:38,147 --> 00:23:40,024 (Danny) Bonjour, je suis Danny Fernández, 404 00:23:40,025 --> 00:23:43,800 je suis doctorant à l’université d'Oviedo et je travaille avec Labra. 405 00:23:44,710 --> 00:23:47,725 Vu que nous n'avons pas beaucoup de temps, je serai bref. 406 00:23:47,726 --> 00:23:52,641 Je ne vais pas faire de démonstration, mais juste imprimer des copies d'écran. 407 00:23:52,642 --> 00:23:57,897 La façon usuelle de travailler avec Shape Expressions ou tout autre langage 408 00:23:57,897 --> 00:23:59,521 est d'avoir un expert de domaine 409 00:23:59,522 --> 00:24:02,313 qui définit une priorité sur ce à quoi devrait ressembler un graphe, 410 00:24:02,314 --> 00:24:03,555 de définir des structures 411 00:24:03,556 --> 00:24:06,983 et d'utiliser ces structures pour valider les données réelles. 412 00:24:08,124 --> 00:24:11,641 Cet outil, tout comme ceux présentés par Labra 413 00:24:11,642 --> 00:24:14,441 est un outil polyvalent pour n'importe quelle source RDF 414 00:24:14,442 --> 00:24:17,375 et est conçu pour travailler à l'envers. 415 00:24:17,376 --> 00:24:18,758 Vous avez déjà des données, 416 00:24:18,759 --> 00:24:23,165 vous sélectionnez les noeuds dont vous voulez avoir la forme 417 00:24:23,165 --> 00:24:26,718 et vous extrayez ou inférez cette forme automatiquement. 418 00:24:26,719 --> 00:24:29,791 Donc, même si cet outil est polyvalent, 419 00:24:29,791 --> 00:24:34,063 ce qu'on a fait pour WikidataCon est ce joli bouton 420 00:24:34,884 --> 00:24:37,081 qui une fois pressé, 421 00:24:37,081 --> 00:24:42,079 fait apparaître de nombreux paramètres de configuration 422 00:24:42,080 --> 00:24:46,251 et fait une configuration qui va à l'encontre de l'extrémité Wikidata 423 00:24:46,251 --> 00:24:47,971 [qui se termine], désolé. 424 00:24:48,733 --> 00:24:52,883 Une fois que vous pressez le bouton, c'est ce que vous obtenez. 425 00:24:52,884 --> 00:24:55,126 Après avoir sélectionné quel genre de notes, 426 00:24:55,127 --> 00:24:59,360 quel genre d'instances de notre classe, ou quoi que vous recherchiez, 427 00:24:59,361 --> 00:25:01,321 vous obtenez un schéma automatique. 428 00:25:02,319 --> 00:25:07,111 Les contraintes sont classées d'après la quantité de modes qui s'y conforment 429 00:25:07,112 --> 00:25:09,772 et vous pouvez filtrer ceux qui sont moins communs, etc. 430 00:25:09,772 --> 00:25:12,126 Il y a un poster en bas à ce sujet 431 00:25:12,127 --> 00:25:14,595 et je serai en en bas et en haut 432 00:25:14,596 --> 00:25:16,454 et un peu partout toute la journée. 433 00:25:16,455 --> 00:25:19,081 Donc, si vous êtes intéressés par cet outil, 434 00:25:19,082 --> 00:25:21,476 venez me trouver. 435 00:25:21,477 --> 00:25:24,624 Je repasse maintenant le micro à Labra, merci. 436 00:25:24,625 --> 00:25:29,265 (applaudissements) 437 00:25:29,812 --> 00:25:32,578 (Jose) Poursuivons avec les autres outils. 438 00:25:32,579 --> 00:25:34,984 Le suivant est le ShapeDesigner. 439 00:25:34,984 --> 00:25:37,241 Andra, veux-tu en parler maintenant 440 00:25:37,242 --> 00:25:39,287 ou plus tard ou dans l'atelier ? 441 00:25:39,287 --> 00:25:40,603 Il y a un atelier... 442 00:25:40,603 --> 00:25:44,437 Cet après-midi, il y a un atelier spécifiquement pour Shape Expressions. 443 00:25:45,265 --> 00:25:47,939 L'idée était de faire plus de travail pratique, 444 00:25:47,940 --> 00:25:52,324 donc si ça vous tente, vous pouvez le faire là. 445 00:25:52,875 --> 00:25:55,720 L'outil est ShEx et comme Eric est présent, 446 00:25:55,721 --> 00:25:56,890 il peut nous en parler. 447 00:25:57,969 --> 00:26:00,687 (Eric) Je voulais juste dire rapidement 448 00:26:00,687 --> 00:26:05,711 que vous avez probablement déjà vu l'interface ShEx 449 00:26:05,711 --> 00:26:07,601 qui est adaptée pour Wikidata. 450 00:26:07,602 --> 00:26:12,930 Elle a vraiment été dépouillée et conçue spécifiquement pour Wikidata 451 00:26:12,930 --> 00:26:17,627 car celle qui est générique a plus de fonctions, mais il faut mentionner 452 00:26:17,627 --> 00:26:20,197 le fait que l'une d'entre elles est particulièrement utile 453 00:26:20,197 --> 00:26:23,201 pour déboguer les schémas Wikidata. 454 00:26:23,201 --> 00:26:29,224 Si vous sélectionnez le mode *Slurp*, 455 00:26:29,225 --> 00:26:31,444 il va dire que lorsque je valide, 456 00:26:31,445 --> 00:26:34,694 je veux rabattre tous les triples, ce qui veut dire 457 00:26:34,695 --> 00:26:36,274 que si j'ai un paquet d'erreurs, 458 00:26:36,275 --> 00:26:39,586 je peux les examiner et dire : 459 00:26:39,587 --> 00:26:41,800 « OK, quels sont les triples présents ici », 460 00:26:41,801 --> 00:26:44,120 désolé, les triples sont là en bas, 461 00:26:44,121 --> 00:26:46,271 ceci est simplement un registre de ce qui s'est passé. 462 00:26:46,327 --> 00:26:49,180 Vous pouvez ensuite jouer avec en temps réel 463 00:26:49,181 --> 00:26:51,213 comme vous le faites avec quelque chose qui change. 464 00:26:51,213 --> 00:26:54,160 C'est donc une version plus rapide pour faire tout cela. 465 00:26:55,361 --> 00:26:56,941 Ceci est un formulaire ShExC 466 00:26:56,941 --> 00:26:59,455 que Joachim a suggéré 467 00:27:00,035 --> 00:27:04,631 qui pourrait être utile pour remplir des documents Wikidata 468 00:27:04,631 --> 00:27:07,338 basé sur une Shape Expression pour ce document. 469 00:27:08,095 --> 00:27:11,511 Ceci n'est pas conçu pour Wikidata, 470 00:27:11,511 --> 00:27:14,081 mais c'est simplement pour dire que vous pouvez avoir un schéma 471 00:27:14,082 --> 00:27:15,402 et des annotations 472 00:27:15,403 --> 00:27:17,518 précisant la manière dont le schéma est rendu ; 473 00:27:17,519 --> 00:27:19,031 le formulaire est ensuite construit 474 00:27:19,031 --> 00:27:21,801 et si vous avez des données, elles peuvent même peupler le formulaire. 475 00:27:24,517 --> 00:27:26,164 PyShEx [inaudible] 476 00:27:28,025 --> 00:27:31,080 (Jose) Je crois que c'est le dernier. 477 00:27:31,821 --> 00:27:34,080 En effet, PyShEx est le dernier. 478 00:27:34,675 --> 00:27:38,151 PyShEx est une implémentation Python de Shape Expressions. 479 00:27:39,193 --> 00:27:42,680 Si vous voulez ce genre de choses, vous pouvez aussi jouer avec Jupyter Notebooks. 480 00:27:42,680 --> 00:27:44,432 OK, le sujet est bouclé. 481 00:27:44,433 --> 00:27:47,170 (applaudissements) 482 00:27:52,916 --> 00:27:57,073 (Andra) Je vais parler d'un projet spécifique dans lequel je suis impliqué 483 00:27:57,074 --> 00:27:58,654 appelé « Gene Wiki » 484 00:27:58,654 --> 00:28:04,596 où nous avons aussi affaire aux problèmes de qualité. 485 00:28:04,597 --> 00:28:06,684 Mais avant de parler de qualité, 486 00:28:06,685 --> 00:28:09,229 je vais rapidement vous présenter Gene Wiki. 487 00:28:09,855 --> 00:28:15,175 Nous venons juste de publier un document récemment rédigé 488 00:28:15,175 --> 00:28:18,160 qui explique les détails de ce projet. 489 00:28:19,821 --> 00:28:23,839 Je vois les gens prendre des photos, mais ce que fait Gene Wiki en gros, 490 00:28:23,846 --> 00:28:28,027 c'est essayer d'obtenir des données biomédicales publiques pour Wikidata ; 491 00:28:28,028 --> 00:28:32,200 et nous suivons un modèle spécifique pour inclure ces données dans Wikidata. 492 00:28:33,130 --> 00:28:36,809 Donc, quand nous avons un nouveau répertoire ou ensemble de données 493 00:28:36,810 --> 00:28:39,360 qui qualifie pour être inclus dans Wikidata, 494 00:28:39,360 --> 00:28:41,293 la première étape est l'engagement communautaire. 495 00:28:41,294 --> 00:28:44,334 Il n'est pas nécessaire que ce soit directement vers une communauté Wikidata, 496 00:28:44,334 --> 00:28:46,120 mais une communauté de recherche locale. 497 00:28:46,121 --> 00:28:50,286 Nous nous rencontrons en personne ou en ligne ou sur une autre plateforme 498 00:28:50,286 --> 00:28:52,881 et essayons de trouver un modèle de données 499 00:28:52,882 --> 00:28:56,197 qui fait le pont entre leurs données et le modèle Wikidata. 500 00:28:56,197 --> 00:28:59,944 J'ai ici une photo d'un atelier de l'année dernière 501 00:28:59,945 --> 00:29:02,663 qui s'est concentré sur un ensemble de données spécifique, 502 00:29:02,663 --> 00:29:05,280 et vous pouvez voir les discussions, 503 00:29:05,281 --> 00:29:09,780 pour l'aligner avec schema.org et d'autres ontologies existantes. 504 00:29:10,320 --> 00:29:14,918 À la fin de la première étape, nous avons un dessin de tableau blanc 505 00:29:14,918 --> 00:29:17,336 du schéma que nous voulons implémenter dans Wikidata. 506 00:29:17,337 --> 00:29:20,440 Ce que vous voyez ici est simple, 507 00:29:20,441 --> 00:29:21,766 il se trouve là à l'arrière 508 00:29:21,767 --> 00:29:25,240 pour que nous puissions faire des schémas dans ce panneau même aujourd'hui. 509 00:29:26,560 --> 00:29:28,399 Une fois que ce schéma est en place, 510 00:29:28,400 --> 00:29:31,320 il faut ensuite essayer de rendre cette machine schéma lisible 511 00:29:32,358 --> 00:29:36,841 car il faut avoir des modèles actionnables pour importer les données 512 00:29:36,842 --> 00:29:39,690 de toute base de données biomédicale dans Wikidata. 513 00:29:40,393 --> 00:29:45,182 C'est ici que nous appliquons Shape Expressions 514 00:29:46,471 --> 00:29:52,518 parce que celle-ci nous permet de tester 515 00:29:52,518 --> 00:29:57,040 si l'ensemble de données... non, d'abord de voir 516 00:29:57,041 --> 00:30:01,782 si les données déjà existantes dans Wikidata suivent le même modèle 517 00:30:01,783 --> 00:30:04,718 qui a été atteint dans le processus précédent. 518 00:30:04,719 --> 00:30:07,021 Avec le Shape Expression, nous pouvons donc vérifier 519 00:30:07,021 --> 00:30:10,926 si certaines données dans Wikidata doivent être nettoyées 520 00:30:10,926 --> 00:30:15,013 ou si nous devons adapter notre modèle à celui de Wikidata ou vice versa. 521 00:30:15,937 --> 00:30:19,867 Une fois que tout est décidé et que nous commençons d'écrire des bots, 522 00:30:20,670 --> 00:30:23,801 ceux-ci sèmeront les informations 523 00:30:23,802 --> 00:30:27,308 qui se trouvent dans les sources primaires de Wikidata. 524 00:30:27,846 --> 00:30:29,303 Quand ces bots sont prêts, 525 00:30:29,304 --> 00:30:32,401 nous les écrivons 526 00:30:32,401 --> 00:30:36,201 à l'aide d'une librairie Python appelée « Wikidata Integrator » 527 00:30:36,202 --> 00:30:38,167 qui est née de notre projet. 528 00:30:38,698 --> 00:30:42,421 Une fois que nous avons nos bots, nous utilisons une plateforme 529 00:30:42,421 --> 00:30:44,540 appelée « Jenkins » pour une intégration continuelle. 530 00:30:44,540 --> 00:30:45,762 Avec Jenkins, 531 00:30:45,762 --> 00:30:51,160 nous mettons sans arrêt à jour les sources primaires dans Wikidata. 532 00:30:52,178 --> 00:30:55,889 Voici un diagramme pour le journal mentionné précédemment. 533 00:30:55,890 --> 00:30:57,551 Ceci est notre environnement actuel. 534 00:30:57,551 --> 00:31:02,059 Chaque boite orange est une ressource primaire sur les drogues, 535 00:31:02,060 --> 00:31:07,827 protéines, gènes, maladies, composants chimiques avec interaction 536 00:31:07,827 --> 00:31:11,270 et bien que ce modèle soit trop petit pour être lisible, 537 00:31:11,270 --> 00:31:17,472 voici la base de données, les sources que nous traitons dans Wikidata 538 00:31:17,473 --> 00:31:20,560 et connectons aux sources primaires. 539 00:31:20,561 --> 00:31:22,355 Voilà le flux de travail. 540 00:31:22,870 --> 00:31:25,312 Un de nos partenaires est L'ontologie des Maladies 541 00:31:25,312 --> 00:31:27,672 qui est une ontologie CC0 ; 542 00:31:28,179 --> 00:31:31,990 celle-ci a son propre cycle de curation. 543 00:31:32,756 --> 00:31:35,736 L'Ontologie des Maladies est continuellement mise à jour 544 00:31:35,737 --> 00:31:39,687 pour refléter l’espace maladie ou l'interprétation des maladies. 545 00:31:40,336 --> 00:31:44,361 Il existe le cycle de curation Wikidata également sur les maladies 546 00:31:44,362 --> 00:31:49,844 où la communauté Wikidata surveille en permanence ce qui s'y passe. 547 00:31:50,406 --> 00:31:51,601 Nous avons deux rôles 548 00:31:51,602 --> 00:31:55,477 appelés familièrement « gardien d'accès » 549 00:31:56,009 --> 00:31:59,561 qu'un collègue et moi-même assumions il y a cinq ans 550 00:31:59,562 --> 00:32:03,414 où nous nous contentons de surveiller Wikipedia et Wikidata sur nos ordinateurs 551 00:32:03,415 --> 00:32:08,601 pour voir si un problème était signalé à la communauté primaire, 552 00:32:08,602 --> 00:32:11,765 dans quel cas ils examinaient l'implémentation et décidaient : 553 00:32:11,765 --> 00:32:14,240 « OK, pouvons-nous faire confiance à cette entrée Wikidata ? » 554 00:32:14,850 --> 00:32:18,555 Si oui, elle intègre le cycle 555 00:32:18,555 --> 00:32:22,686 et la prochaine itération fait alors partie de l'Oncologie des Maladies 556 00:32:22,687 --> 00:32:25,411 et alimente Wikidata. 557 00:32:27,419 --> 00:32:31,480 Nous faisons de même pour WikiPathways. 558 00:32:31,481 --> 00:32:36,601 WikiPathways est inspiré du chemin MediaWiki et du chemin répertoire. 559 00:32:36,602 --> 00:32:40,901 De même, il y a déjà différents chemins de ressources sur Wikidata. 560 00:32:41,463 --> 00:32:44,713 Il peut y avoir des conflits entre ces chemins de ressources 561 00:32:44,722 --> 00:32:46,701 et ceux-ci sont signalés 562 00:32:46,702 --> 00:32:49,521 à cette communauté par les gardiens d'accès, 563 00:32:49,522 --> 00:32:53,715 ce qui maintient les cycles de conservation individuelle. 564 00:32:53,715 --> 00:32:57,068 Mais si vous vous souvenez du cycle précédent, 565 00:32:57,069 --> 00:33:03,041 ici, je ne mentionne que deux cycles, deux ressources, 566 00:33:03,566 --> 00:33:06,300 nous devons faire cela pour chaque ressource que nous avons 567 00:33:06,300 --> 00:33:07,751 et nous devons gérer ce qui se passe 568 00:33:07,751 --> 00:33:09,185 car quand je parle de « curation », 569 00:33:09,185 --> 00:33:12,187 je veux vraiment dire : consulter les premières pages de Wikipedia 570 00:33:12,187 --> 00:33:14,544 pour essayer de le faire. 571 00:33:14,545 --> 00:33:19,316 Ce qui n'est pas faisable pour nos deux gardiens d'accès. 572 00:33:19,860 --> 00:33:22,777 Lors d'une conférence en 2016 573 00:33:22,778 --> 00:33:26,933 où Eric a présenté Shape Expressions, 574 00:33:26,934 --> 00:33:29,277 j'ai pris le train en marche en disant : « OK, 575 00:33:29,278 --> 00:33:34,240 Shape Expressions peut nous aider à détecter les différences dans Wkikipedia 576 00:33:34,240 --> 00:33:41,159 ce qui permettra aux gardiens d'accès de faire un rapport plus efficace. » 577 00:33:42,275 --> 00:33:46,019 J'ai été ravi par l'entité schéma cette année 578 00:33:46,020 --> 00:33:50,765 parce qu'on peut maintenant stocker ces systèmes sur Wikidata 579 00:33:50,765 --> 00:33:53,183 en elle-même, alors qu'auparavant, c'était sur GitHub. 580 00:33:53,860 --> 00:33:56,815 Et comme ceci s'aligne sur l'interface Wikidata, 581 00:33:56,816 --> 00:33:59,350 nous avons donc des discussions de document, 582 00:33:59,350 --> 00:34:00,762 mais aussi des révisions. 583 00:34:00,763 --> 00:34:05,601 On peut donc tirer parti des premières pages et des révisions 584 00:34:05,601 --> 00:34:12,255 pour discuter du contenu de Wikidata 585 00:34:12,255 --> 00:34:14,060 et celui des ressources primaires. 586 00:34:14,966 --> 00:34:19,686 Ce que Eric vient de présenter constitue déjà un bon bénéfice. 587 00:34:19,686 --> 00:34:24,335 Ici, nous avons fait une Shape Expression pour le gène humain 588 00:34:24,336 --> 00:34:30,225 que nous avons soumise à un simple ShEx et comme vous pouvez le voir, 589 00:34:30,225 --> 00:34:32,428 nous avons déjà... 590 00:34:32,429 --> 00:34:34,641 Un problème à surveiller 591 00:34:34,642 --> 00:34:37,316 est quand un item ne correspond pas à ce schéma, 592 00:34:37,316 --> 00:34:43,139 vous pouvez créer déjà une sorte de rapports de curation d'entités de schéma 593 00:34:43,140 --> 00:34:46,240 et les envoyer aux différents rapports de curation. 594 00:34:48,058 --> 00:34:52,788 Mais le ShEx.js est une interface construite, 595 00:34:52,788 --> 00:34:55,860 voyez ici, je n'en fais que dix, 596 00:34:55,860 --> 00:35:00,362 mais nous en avons des dizaines de milliers, ce qui est démesuré. 597 00:35:00,362 --> 00:35:04,654 À présent, le Wikidata Integrator supporte aussi ShEx, 598 00:35:05,168 --> 00:35:07,431 nous pouvons donc boucler les circuits d'items 599 00:35:07,431 --> 00:35:11,494 en disant : « Oui-Non, Oui-Non, Vrai-Faux, Vrai-Faux ». 600 00:35:11,495 --> 00:35:13,015 Cela augmente à nouveau 601 00:35:13,065 --> 00:35:16,514 l'efficacité de la gestion des rapports. 602 00:35:17,256 --> 00:35:22,662 Mais cela s'appuie sur le Wikidata Query Service 603 00:35:23,181 --> 00:35:24,998 et donc récemment, nous nous voyons limités 604 00:35:24,999 --> 00:35:26,560 à cause de ce manque d'ajustement. 605 00:35:26,561 --> 00:35:31,391 Donc, la gestion des modèles sur Wikidata est une procédure en cours. 606 00:35:32,202 --> 00:35:36,682 ShEx est non seulement intimidant, 607 00:35:36,683 --> 00:35:40,356 mais est d'une trop grande échelle pour pouvoir le gérer. 608 00:35:41,068 --> 00:35:45,631 J'ai donc commencé à travailler avec un outil appelé « yED » 609 00:35:45,631 --> 00:35:48,130 qui est ma première preuve de concept ou exercice 610 00:35:48,184 --> 00:35:52,590 en dessinant ces Shape Expressions 611 00:35:52,591 --> 00:35:58,098 et en régénérant ce schéma 612 00:35:58,099 --> 00:36:01,279 en ce format adjacent des Shape Expressions 613 00:36:01,280 --> 00:36:04,520 qui s'ouvrirait déjà à l'audience 614 00:36:04,521 --> 00:36:07,432 qui est intimidée par les langages Shape Expressions. 615 00:36:07,961 --> 00:36:12,308 Mais il y a en fait un problème avec des descriptions visuelles 616 00:36:12,309 --> 00:36:18,229 car ce schéma a aussi été dessiné dans yED par quelqu'un. 617 00:36:18,230 --> 00:36:23,838 Il y en a un autre qui est splendide. 618 00:36:23,838 --> 00:36:29,414 J'adorerais l'avoir sur mon mur, mais il n'est pas encore interopérable. 619 00:36:30,281 --> 00:36:32,131 Je voudrais donc clore mon discours 620 00:36:32,131 --> 00:36:35,732 avec cette diapositive que j'ai « empruntée » pour la première fois. 621 00:36:35,732 --> 00:36:37,964 Nous sommes honorés de l'avoir dans l'audience 622 00:36:37,964 --> 00:36:39,423 et j'aime beaucoup ceci : 623 00:36:39,424 --> 00:36:42,362 « Les gens pensent que RDF est trop compliqué à utiliser. 624 00:36:42,362 --> 00:36:44,375 La vérité est pire, c'est tellement simple 625 00:36:45,151 --> 00:36:48,133 parce que vous devez travailler avec des problèmes de données réels 626 00:36:48,134 --> 00:36:50,031 qui sont horriblement compliqués. 627 00:36:50,031 --> 00:36:51,451 Bien que vous pouvez éviter RDF, 628 00:36:51,451 --> 00:36:55,760 il est plus dur d'éviter des données et des problèmes d'ordinateur compliqués. » 629 00:36:55,761 --> 00:36:59,535 On parle ici de RDF, mais je pense que cela s'applique également au modelage. 630 00:37:00,112 --> 00:37:02,769 Ce que je veux dire : 631 00:37:03,387 --> 00:37:05,882 « Comment lancer la modélisation ? » 632 00:37:05,882 --> 00:37:10,826 En discutant de ShEx ou des modèles visuels ou autre... 633 00:37:11,426 --> 00:37:13,271 Comment continuer ? 634 00:37:13,474 --> 00:37:14,840 Merci de m'avoir écouté. 635 00:37:15,102 --> 00:37:17,787 (applaudissements) 636 00:37:20,001 --> 00:37:21,188 (Lydia) Merci beaucoup. 637 00:37:21,692 --> 00:37:24,001 Pouvez-vous venir à l'avant 638 00:37:24,002 --> 00:37:27,741 comme cela, nous pouvons recevoir les questions de l'audience. 639 00:37:28,610 --> 00:37:30,203 Il y a des questions ? 640 00:37:31,507 --> 00:37:32,507 Oui. 641 00:37:34,253 --> 00:37:36,890 Et pour la caméra, nous devrions... 642 00:37:38,835 --> 00:37:40,968 (Lydia rit) Oui. 643 00:37:43,094 --> 00:37:46,273 (Personne du public) Une question pour Cristina. 644 00:37:47,366 --> 00:37:51,641 Vous avez mentionné le terme « gain d'information » 645 00:37:51,642 --> 00:37:53,619 dans le cadre de connexion avec d'autres systèmes. 646 00:37:53,619 --> 00:37:55,269 Il y a une mesure théorique d'information 647 00:37:55,269 --> 00:37:58,051 qui utilise statistique et probabilité appelée « gain d'information ». 648 00:37:58,051 --> 00:37:59,541 Avez-vous la même... 649 00:37:59,542 --> 00:38:01,736 Parliez-vous de cette mesure, 650 00:38:01,736 --> 00:38:04,173 du gain d'information de la théorie de probabilité 651 00:38:04,174 --> 00:38:05,470 de la théorie d'information 652 00:38:05,470 --> 00:38:09,024 ou simplement d'un concept de mesure de gain d'information d'une certaine façon ? 653 00:38:09,025 --> 00:38:13,016 Non, nous avons en fait défini et implémenté des mesures 654 00:38:13,695 --> 00:38:19,911 qui utilisent l'entropie Shannon, c'est à prendre dans ce sens. 655 00:38:19,911 --> 00:38:22,596 Je ne voulais pas rentrer dans les détails des formules concrètes... 656 00:38:22,596 --> 00:38:25,557 (Personne du public) Non bien sûr, c'est pour ça que j'ai posé la question. 657 00:38:25,557 --> 00:38:26,598 Merci. 658 00:38:32,531 --> 00:38:35,047 (Personne du public) C'est plus un commentaire qu'une question. 659 00:38:35,048 --> 00:38:36,241 (Lydia) Allez-y. 660 00:38:36,242 --> 00:38:39,840 (Personne du public) Il y a eu beaucoup d'attention au niveau de l'item 661 00:38:39,840 --> 00:38:42,547 concernant la qualité et la complétion ; 662 00:38:42,547 --> 00:38:47,374 ce qui me préoccupe est que nous ne faisons pas de même pour les hiérarchies 663 00:38:47,374 --> 00:38:51,480 et je crois que souvent, notre hiérarchie n'est pas bonne. 664 00:38:51,481 --> 00:38:53,463 Nous prévoyons que cela va être un réel problème 665 00:38:53,464 --> 00:38:55,774 avec la recherche des communs et autre. 666 00:38:56,771 --> 00:39:00,601 Ce que nous pouvons faire est importer de l'externe. 667 00:39:00,602 --> 00:39:04,842 La façon dont les thésaurus externes structurent leurs hiérarchies 668 00:39:04,842 --> 00:39:10,291 en utilisant le qualificateur de concept plus large P4900. 669 00:39:11,037 --> 00:39:16,167 Mais ce qui serait plus utile serait l'emploi de meilleurs outils 670 00:39:16,168 --> 00:39:21,212 afin d'importer une hiérarchie de thésaurus externe. 671 00:39:21,212 --> 00:39:24,111 Incorporons ça dans nos items Wikidata. 672 00:39:24,111 --> 00:39:28,199 Une fois que ces qualificateurs P4900 sont en place, 673 00:39:28,200 --> 00:39:31,494 vous pouvez faire de la bonne requête avec SPARQL 674 00:39:32,490 --> 00:39:37,534 pour voir si notre hiérarchie diverge de cette hiérarchie externe. 675 00:39:37,534 --> 00:39:41,346 For exemple, vous savez peut-être que [Paula Morma], utilisatrice PKM 676 00:39:41,346 --> 00:39:43,533 travaille beaucoup dans la mode. 677 00:39:43,533 --> 00:39:50,524 Nous utilisons cela pour extraire la hiérarchie du Europeana Fashion Thesaurus 678 00:39:50,524 --> 00:39:53,812 et celle du thésaurus de mode Getty AAT 679 00:39:53,812 --> 00:39:57,957 et nous voyons alors où sont les espaces dans nos items haut niveau, 680 00:39:57,957 --> 00:40:00,511 ce qui représente pour nous un vrai problème car souvent, 681 00:40:00,511 --> 00:40:04,355 ce sont des choses qui n'existent que dans les pages de désambiguïsation, 682 00:40:04,356 --> 00:40:09,270 ce qui fait que de nombreux articles de haut niveau manquent dans nos hiérarchies, 683 00:40:09,271 --> 00:40:14,480 c'est un problème que nous devons adresser en termes de qualité et de complétion, 684 00:40:14,480 --> 00:40:15,971 mais ce qui aiderait vraiment, 685 00:40:16,643 --> 00:40:20,871 ce sont de meilleurs outils que la jungle de scripts que j'ai écrits... 686 00:40:20,872 --> 00:40:26,010 Si quelqu'un pouvait entrer cela dans un notebook PAWS dans Python, 687 00:40:26,561 --> 00:40:31,832 afin de prendre la hiérarchie d'un thésaurus externe, 688 00:40:31,832 --> 00:40:34,595 ce qui pourrait être disponible en tant que données couplées ou pas, 689 00:40:35,379 --> 00:40:40,580 et ensuite, de les placer dans les valeurs P4900 en relevés rapides. 690 00:40:41,165 --> 00:40:42,165 Et après, 691 00:40:42,166 --> 00:40:45,917 quand notre représentation se complète, mettre ces P4900 à jour, 692 00:40:45,917 --> 00:40:49,691 parce qu'au fur et à mesure que nos représentations deviennent obsolètes, 693 00:40:49,691 --> 00:40:51,590 deviennent plus denses, 694 00:40:51,590 --> 00:40:55,377 les valeurs de ces qualificateurs doivent changer 695 00:40:56,230 --> 00:40:59,526 pour représenter le fait qu'on ait plus de leur hiérarchie dans notre système. 696 00:40:59,526 --> 00:41:03,728 Si quelqu'un savait faire cela, ce serait très utile. 697 00:41:03,728 --> 00:41:07,121 Nous devons aussi envisager d'autres approches 698 00:41:07,122 --> 00:41:10,762 pour améliorer la qualité et la complétion au niveau hiérarchique 699 00:41:10,763 --> 00:41:12,378 et non simplement au niveau item. 700 00:41:13,308 --> 00:41:15,080 (Andra) Je peux ajouter quelque chose ? 701 00:41:16,362 --> 00:41:19,901 Oui, on fait déjà cela 702 00:41:19,911 --> 00:41:23,551 et je recommande de regarder la Shape Expression faite par Finn 703 00:41:23,552 --> 00:41:27,330 avec les données lexicales où il crée des Shape Expressions 704 00:41:27,330 --> 00:41:29,640 et s'appuie sur les expressions d'auteur 705 00:41:29,641 --> 00:41:32,528 pour obtenir un concept de Shape Expressions liées dans Wikidata 706 00:41:32,529 --> 00:41:34,495 et spécifiquement, si je comprends bien, 707 00:41:34,495 --> 00:41:37,183 le cas d'utilisation est exactement ce que l'on fait dans Gene Wiki. 708 00:41:37,184 --> 00:41:40,841 Vous avez donc l’Ontologie de Maladies placée dans Wikidata 709 00:41:40,842 --> 00:41:44,681 et quand les données de maladie arrivent, nous appliquons les Shape Expressions 710 00:41:44,682 --> 00:41:47,247 pour voir si cela correspond à ce thésaurus. 711 00:41:47,248 --> 00:41:50,919 Il y a d'autres thésaurus et ontologies pour les vocabulaires contrôlés 712 00:41:50,920 --> 00:41:52,469 qui doivent toujours intégrer Wikidata 713 00:41:52,469 --> 00:41:55,551 et c'est exactement pour cette raison que Shape Expression est si intéressante 714 00:41:55,551 --> 00:41:57,963 parce qu'on peut en avoir une pour l'Ontologie de Maladies, 715 00:41:57,964 --> 00:41:59,644 pour MeSH, 716 00:41:59,645 --> 00:42:02,101 on peut dire : « OK, je veux maintenant vérifier la qualité. » 717 00:42:02,101 --> 00:42:04,629 Parce que dans Wikidata, on aussi le contexte 718 00:42:04,629 --> 00:42:09,567 où dans le cas d'un vocabulaire contrôlé, vous décidez de la qualité en fonction de, 719 00:42:09,568 --> 00:42:11,636 mais votre communauté peut ne pas être d'accord. 720 00:42:11,636 --> 00:42:16,081 L'outillage est donc en place, il faut maintenant créer ces modèles 721 00:42:16,082 --> 00:42:18,144 et les appliquer aux différents cas d'utilisation. 722 00:42:18,681 --> 00:42:20,921 (Personne du public) La Shape Expression est très utile 723 00:42:20,922 --> 00:42:25,928 une fois que l'ontologie externe est cartographiée dans Wikidata, 724 00:42:25,929 --> 00:42:29,474 mais mon problème est 725 00:42:29,475 --> 00:42:34,881 de figurer l'ontologie externe qui n'est pas déjà présente dans Wikidata 726 00:42:34,882 --> 00:42:36,256 et de situer les espaces ; 727 00:42:36,257 --> 00:42:40,660 et c'est là que le fait d'avoir des outils plus robustes 728 00:42:40,660 --> 00:42:44,286 pour voir les parties manquantes des ontologies externes 729 00:42:44,286 --> 00:42:45,537 devient très utile. 730 00:42:47,678 --> 00:42:49,062 Le plus grand problème 731 00:42:49,062 --> 00:42:51,201 est non pas l'outillage, mais les licences. 732 00:42:51,803 --> 00:42:55,249 Mettre les ontologies dans Wikidata est en fait un jeu d'enfant, 733 00:42:55,250 --> 00:42:59,295 mais la plupart des ontologies ont... comment dire ça poliment, 734 00:42:59,965 --> 00:43:03,256 ...des licences restrictives et donc, non compatibles avec Wikidata. 735 00:43:03,758 --> 00:43:06,678 (Personne du public) Il y a un grand nombre de thésaurus de secteur public 736 00:43:06,678 --> 00:43:08,209 dans les champs culturels. 737 00:43:08,210 --> 00:43:11,141 - (Andra) On doit alors en discuter. - (Personne du public) Pas de soucis. 738 00:43:11,141 --> 00:43:12,384 (Andra) On doit en parler. 739 00:43:13,624 --> 00:43:19,192 (Personne du public) Mon commentaire est en fait une réponse à James. 740 00:43:19,192 --> 00:43:22,401 Les hiérarchies font des graphes 741 00:43:22,374 --> 00:43:24,041 et quand tu veux... 742 00:43:24,579 --> 00:43:28,888 Je veux dire que le problème commun des hiérarchies 743 00:43:28,889 --> 00:43:30,820 sont les hiérarchies circulaires, 744 00:43:30,821 --> 00:43:33,796 elles reviennent l'une vers l'autre quand il y a un problème, 745 00:43:33,796 --> 00:43:35,920 ce qui ne devrait pas arriver. 746 00:43:37,022 --> 00:43:41,295 Curieusement, cela arrive fréquemment dans les catégories de Wikipedia, 747 00:43:41,295 --> 00:43:42,990 elles sont souvent circulaires, 748 00:43:43,898 --> 00:43:46,612 mais la bonne nouvelle est que... 749 00:43:47,713 --> 00:43:51,392 Techniquement, c'est impossible à trouver car c'est un problème complet PMP 750 00:43:51,392 --> 00:43:53,414 et facile si on construit un graphe à cet effet. 751 00:43:54,473 --> 00:43:57,046 Mais il y a de nombreuses manières qui ont été développées 752 00:43:57,047 --> 00:44:00,624 pour trouver les problèmes dans ces graphes hiérarchiques. 753 00:44:00,625 --> 00:44:04,860 Comme ce document appelé « *Finding cycles*... 754 00:44:04,861 --> 00:44:07,955 *Breaking cycles in Noisy Hierarchies* » 755 00:44:07,956 --> 00:44:12,671 qui a été utilisé pour aider la catégorisation de Wikipédia Anglais. 756 00:44:12,672 --> 00:44:17,141 On peut appliquer cela aux hiérarchies dans Wikidata 757 00:44:17,142 --> 00:44:19,540 et ensuite, trouver ce qui est problématique 758 00:44:19,541 --> 00:44:22,481 et supprimer les causeurs de trouble 759 00:44:22,482 --> 00:44:24,593 et trouver les problèmes. 760 00:44:24,594 --> 00:44:26,960 C'est juste une idée pour vous... 761 00:44:28,090 --> 00:44:29,930 (Personne du public) Tout cela est bel et bien, 762 00:44:29,931 --> 00:44:31,982 mais je crois que vous sous-estimez 763 00:44:31,982 --> 00:44:35,402 le nombre de relations défaillantes entre les sous-classes que nous avons. 764 00:44:35,403 --> 00:44:39,680 C'est comme avoir une ville dans le mauvais pays 765 00:44:40,250 --> 00:44:44,874 et il existe des outils géographiques pour cela. 766 00:44:44,875 --> 00:44:49,201 Nous devons avoir de bien meilleurs outils en hiérarchies 767 00:44:49,202 --> 00:44:53,477 pour identifier l'item manquant 768 00:44:53,478 --> 00:44:57,673 ou s'il a été en fait sous-classé 769 00:44:57,674 --> 00:45:01,804 à un élément qui ne veut pas dire quelque chose de tout à fait différent. 770 00:45:02,804 --> 00:45:07,165 (Lydia) Je pense que tu as mis le doigt dessus. 771 00:45:07,166 --> 00:45:12,024 Mon équipe et moi-même avons les mêmes retours des gens 772 00:45:12,025 --> 00:45:13,991 qui réutilisent nos données ; 773 00:45:15,002 --> 00:45:17,078 Un point de donnée individuel peut être intéressant, 774 00:45:17,078 --> 00:45:20,163 mais s'il faut examiner l'ontologie, etc., 775 00:45:20,164 --> 00:45:21,857 cela devient très... 776 00:45:22,388 --> 00:45:26,437 Je pense qu'un des grands problèmes pourquoi cela se produit 777 00:45:26,437 --> 00:45:30,736 est que nombreuses éditions dans Wikidata 778 00:45:30,736 --> 00:45:34,544 s'effectuent sur base d'un élément individuel, 779 00:45:34,545 --> 00:45:36,201 on modifie cet item 780 00:45:37,653 --> 00:45:42,075 sans réaliser que cela peut avoir des conséquences globales 781 00:45:42,075 --> 00:45:44,245 sur le reste du graphe, par exemple. 782 00:45:44,245 --> 00:45:50,040 Si les gens avaient des idées sur comment rendre plus visibles 783 00:45:50,041 --> 00:45:53,185 les conséquences d'une modification locale individuelle, 784 00:45:54,005 --> 00:45:56,537 il faudrait prendre la peine de les explorer 785 00:45:57,550 --> 00:46:00,603 pour mieux montrer aux gens 786 00:46:00,603 --> 00:46:03,434 quelles sont les conséquences de leur édition, 787 00:46:03,811 --> 00:46:05,481 même si celle-ci est de bonne foi. 788 00:46:06,939 --> 00:46:12,237 Commençons par ici, oui, vous, puis vous et vous et vous ! 789 00:46:12,237 --> 00:46:13,921 (Personne du public) Après la discussion, 790 00:46:13,922 --> 00:46:18,262 simplement pour exprimer mon accord avec James. 791 00:46:18,263 --> 00:46:22,467 Il semble que la chose la plus dangereuse est la hiérarchie, 792 00:46:22,468 --> 00:46:23,910 pas la hiérarchie, mais en général, 793 00:46:23,911 --> 00:46:28,022 les sémantiques des relations entre sous-classes dans Wikidata,. 794 00:46:28,022 --> 00:46:32,561 J'ai récemment étudié les langages en vue de cette conférence 795 00:46:32,562 --> 00:46:35,257 et par exemple, vous trouvez plein de cas 796 00:46:35,257 --> 00:46:39,463 où le langage fait partie des sous-classes. 797 00:46:39,463 --> 00:46:43,577 On peut alors dire qu'on a une ontologie flexible. 798 00:46:43,577 --> 00:46:46,256 Parfois, Wikidata vous donne cette liberté d'expression. 799 00:46:46,256 --> 00:46:47,257 Parce que par exemple, 800 00:46:47,258 --> 00:46:50,721 cette ontologie de langages est aussi politiquement compliquée, pas vrai ? 801 00:46:50,722 --> 00:46:54,828 Il est même bon d'être en position d'exprimer un niveau d'incertitude. 802 00:46:54,828 --> 00:46:58,093 Mais imaginez quelqu'un qui veut faire de la lecture automatique à partir de ça. 803 00:46:58,093 --> 00:46:59,468 C'est vraiment problématique. 804 00:46:59,468 --> 00:47:00,468 Et de nouveau, 805 00:47:00,469 --> 00:47:03,556 je ne pense pas que cette ontologie a été importée de quelque part 806 00:47:03,556 --> 00:47:05,770 c'est quelque chose qui originairement nous appartient. 807 00:47:05,770 --> 00:47:08,321 Je dirais que c'est récolté de Wikipédia au tout début. 808 00:47:08,322 --> 00:47:11,324 Donc, je me demande... Cette Shape Expressions est super 809 00:47:11,325 --> 00:47:15,575 et le fait de valider et rectifier l'ontologie Wikidata 810 00:47:15,576 --> 00:47:18,191 par des ressources externes, belle idée. 811 00:47:19,026 --> 00:47:20,026 À la fin, 812 00:47:20,027 --> 00:47:25,440 terminerons-nous en réfléchissant sur les ontologies externes dans Wikidata ? 813 00:47:25,441 --> 00:47:28,651 Et aussi, à ce que nous faisons avec la partie centrale de notre ontologie 814 00:47:28,652 --> 00:47:30,642 qui n'est jamais récoltée de ressources externes, 815 00:47:30,643 --> 00:47:31,978 comment résoudre cela ? 816 00:47:31,979 --> 00:47:35,276 Et je pense que ce sera un problème en soi. 817 00:47:35,277 --> 00:47:39,010 Nous devrons nous concentrer sur cela indépendamment du fait 818 00:47:39,010 --> 00:47:41,046 de valider l'ontologie avec un élément externe. 819 00:47:49,353 --> 00:47:53,079 (Personne du public) Les contraintes et formes ainsi que leurs usages 820 00:47:53,079 --> 00:47:54,495 sont vraiment impressionnantes, 821 00:47:55,205 --> 00:47:58,481 mais le point principal n'est pas clair 822 00:47:58,482 --> 00:48:03,229 car nous pouvons maintenant rendre nos attentes des données plus explicites. 823 00:48:03,229 --> 00:48:06,893 Avant, chacun devait écrire ses propres outils et scripts 824 00:48:06,894 --> 00:48:10,601 pour qu'ils soient plus visibles et accessibles de discussion. 825 00:48:10,602 --> 00:48:13,641 Mais il ne s'agit pas de ce qui est juste ou non, 826 00:48:13,642 --> 00:48:15,870 il s'agit d'une attente 827 00:48:15,870 --> 00:48:18,105 et il y aura différentes attentes et discussions 828 00:48:18,106 --> 00:48:20,737 sur comment modeler dans Wikidata 829 00:48:21,246 --> 00:48:23,095 et ceci... 830 00:48:23,096 --> 00:48:26,280 L'état actuel est simplement un pas dans la direction 831 00:48:26,281 --> 00:48:28,041 parce qu'à présent, 832 00:48:28,042 --> 00:48:31,041 il faut une grande expertise technique pour s'impliquer 833 00:48:31,042 --> 00:48:35,721 et nous devons avoir de meilleurs moyens pour visualiser cette contrainte ; 834 00:48:35,722 --> 00:48:39,995 de peut-être la transformer en un langage naturel pour une meilleure compréhension, 835 00:48:40,939 --> 00:48:43,768 il ne s'agit pas de juste ou faux. 836 00:48:44,925 --> 00:48:45,925 (Lydia) Oui. 837 00:48:50,986 --> 00:48:53,893 (Personne du public) Concernant les problèmes de qualité, 838 00:48:53,894 --> 00:48:57,010 j'ai trouvé que nombreux problèmes que j'ai rencontrés consistaient 839 00:48:58,838 --> 00:49:02,330 en une différence d'opinion entre « instance de » comparé à « sous-classe ». 840 00:49:02,331 --> 00:49:05,963 Dans ces situations, je dirais que ce sont des « erreurs » 841 00:49:05,963 --> 00:49:11,521 et les trouver est une procédure chronophage. 842 00:49:11,522 --> 00:49:14,840 Ce que j'ai trouvé est : « Oh, si je trouve des articles de haute qualité 843 00:49:14,840 --> 00:49:16,051 qui sont... 844 00:49:16,052 --> 00:49:21,628 pour ensuite utiliser toutes les instances sous-classe et leurs relevés dérivés », 845 00:49:21,628 --> 00:49:26,215 c'est une manière utile de chercher ces erreurs. 846 00:49:26,215 --> 00:49:28,067 Mais je me demandais si Shape Expressions, 847 00:49:29,841 --> 00:49:31,582 s'il y a... 848 00:49:31,583 --> 00:49:36,934 si elle peut être utilisée comme outil pour aider à résoudre ces problèmes... 849 00:49:40,314 --> 00:49:42,555 (Personne du public) S'il y a une empreinte structurée 850 00:49:45,910 --> 00:49:49,010 que l'on peut... qui est en sorte falsifiable, 851 00:49:49,010 --> 00:49:51,191 on peut l'examiner et reconnaître qu'elle est fausse, 852 00:49:51,192 --> 00:49:52,670 alors oui, on peut le faire. 853 00:49:52,671 --> 00:49:56,921 Mais si c'est pour l'associer à des objets réels, 854 00:49:56,922 --> 00:49:59,082 cela va demander beaucoup de cerveaux. 855 00:50:05,768 --> 00:50:08,631 Bonjour, je suis Pablo Mendes de Siri Knowledge de Apple. 856 00:50:09,154 --> 00:50:12,770 Nous sommes ici pour découvrir comment aider le projet et la communauté, 857 00:50:12,770 --> 00:50:15,645 mais Cristina a commis l'erreur de nous demander ce qu'on voulait. 858 00:50:16,471 --> 00:50:20,052 (rire) Une des choses que j'aimerais voir, 859 00:50:20,958 --> 00:50:23,521 c'est attacher de l'importance à la vérifiabilité 860 00:50:23,522 --> 00:50:26,372 qui est un des principes essentiels du projet dans la communauté 861 00:50:27,062 --> 00:50:28,590 ainsi que la fiabilité. 862 00:50:28,590 --> 00:50:32,162 Tous les énoncés ne sont pas identiques, certains d'entre eux sont très disputés, 863 00:50:32,162 --> 00:50:33,893 certains d'entre eux sont faciles à deviner 864 00:50:33,893 --> 00:50:35,931 comme une date de naissance qui peut être vérifiée, 865 00:50:35,931 --> 00:50:39,172 mais comme vous l'avez vu dans Keynote, la question de genre est plus compliquée. 866 00:50:40,205 --> 00:50:43,040 Pouvez-vous nous parler davantage de ce que vous savez au sujet 867 00:50:43,040 --> 00:50:47,271 de la qualité de données concernant la fiabilité et vérifiabilité ? 868 00:50:55,442 --> 00:50:58,138 Et si ce n'est pas grand-chose, j'aimerais en savoir plus. (rire) 869 00:51:00,646 --> 00:51:01,646 (Lydia) Oui. 870 00:51:03,314 --> 00:51:06,548 Apparemment, il n'y a pas grand-chose à dire. (rire) 871 00:51:08,024 --> 00:51:12,299 (Andra) Je pense que nous pouvons faire beaucoup et j'ai discuté hier avec vous. 872 00:51:12,300 --> 00:51:15,774 Mon exemple favori d'hier qui est déjà obsolète 873 00:51:15,774 --> 00:51:20,281 est que si vous allez sur Q2 qui est la terre, 874 00:51:20,282 --> 00:51:23,343 il y a une déclaration qui dit que la terre est plate. 875 00:51:24,183 --> 00:51:26,055 J'adore cet exemple 876 00:51:26,056 --> 00:51:28,391 parce qu'il existe une communauté qui déclare cela 877 00:51:28,392 --> 00:51:30,417 et ils possèdent des sources vérifiables. 878 00:51:30,418 --> 00:51:32,254 Je pense que ce cas est véritable, 879 00:51:32,255 --> 00:51:34,961 qu'il ne devrait pas être déprécié et devrait être dans Wikidata. 880 00:51:34,961 --> 00:51:40,385 C'est une circonstance où Shape Expressions peut être décisif 881 00:51:40,386 --> 00:51:41,832 parce que vous pouvez dire 882 00:51:41,833 --> 00:51:44,856 que vous êtes vraiment intéressé par ce cas d'utilisation, 883 00:51:44,857 --> 00:51:47,129 ou il se peut que vous ne soyez pas d'accord, 884 00:51:47,130 --> 00:51:50,869 mais ce cas d'utilisation pourrait également vous intéresser. 885 00:51:50,869 --> 00:51:53,449 Il y a aussi cet exemple où vous dites que vous avez du glucose. 886 00:51:53,449 --> 00:51:55,841 Mais quand vous êtes biologiste, 887 00:51:55,842 --> 00:52:00,176 vous ne vous souciez pas des contraintes chimiques de la molécule de glucose, 888 00:52:00,177 --> 00:52:03,201 tout est pareil en ce qui concerne le glucose. 889 00:52:03,202 --> 00:52:06,123 Mais si vous êtes chimiste, vous grincerez des dents en entendant cela, 890 00:52:06,123 --> 00:52:08,191 vous avez 200... 891 00:52:08,191 --> 00:52:10,443 Vous pouvez alors avoir des Shape Expressions multiples, 892 00:52:10,443 --> 00:52:12,721 d'un point de vue chimique, 893 00:52:12,722 --> 00:52:13,887 j'appliquerai cela. 894 00:52:13,887 --> 00:52:16,691 Mais d'un point de vue biologique, 895 00:52:16,691 --> 00:52:18,524 j'appliquerai cette Shape Expression. 896 00:52:18,524 --> 00:52:20,358 Et quand vous voulez collaborer, 897 00:52:20,358 --> 00:52:22,784 parlez plutôt à Eric des cartes ShEx. 898 00:52:23,910 --> 00:52:28,873 Mais cette aventure ne fait que commencer. 899 00:52:28,873 --> 00:52:32,238 Et personnellement, je pense qu'il y aura un rôle à jouer dans ce domaine. 900 00:52:34,292 --> 00:52:35,535 (Lydia) OK. Ici. 901 00:52:37,949 --> 00:52:39,168 (rire) 902 00:52:40,597 --> 00:52:46,035 (Personne du public) J'ai eu plusieurs idées en entendant les discussions, 903 00:52:46,035 --> 00:52:50,902 je vais essayer de ne pas les perdre. 904 00:52:52,394 --> 00:52:55,201 Basé sur ce que James a dit auparavant, 905 00:52:55,202 --> 00:52:59,001 depuis le début, nous avons un très gros problème dans Wikidata 906 00:52:59,002 --> 00:53:01,574 pour l'ontologie supérieure. 907 00:53:02,363 --> 00:53:05,339 Nous en avons parlé il y a deux ans lors de WikidataCon 908 00:53:05,340 --> 00:53:07,432 et nous en avons parlé à Wikimania. 909 00:53:07,432 --> 00:53:09,818 Chaque fois que nous avons une réunion Wikidata, 910 00:53:09,818 --> 00:53:11,656 nous en parlons 911 00:53:11,656 --> 00:53:15,782 car c'est un très gros problème de tout premier abord ; 912 00:53:15,783 --> 00:53:23,118 quelle est l'entité,quel est le travail, quel est le genre, l'art, 913 00:53:23,118 --> 00:53:25,461 ce sont les plus grands concepts. 914 00:53:26,675 --> 00:53:33,117 Et c'est en fait un point très faible de l'ontologie globale 915 00:53:33,118 --> 00:53:37,453 parce que les gens essaient de nettoyer régulièrement 916 00:53:38,017 --> 00:53:41,047 et finissent par tout casser ; 917 00:53:42,516 --> 00:53:48,649 je pense que certains se souviennent peut-être du gars qui candidement, 918 00:53:48,649 --> 00:53:51,785 a cassé toutes les villes du monde. 919 00:53:51,785 --> 00:53:57,537 On n'était plus des items géographiques, donc contraintes de violation partout. 920 00:53:58,720 --> 00:54:00,278 Et c'était de bonne foi 921 00:54:00,278 --> 00:54:03,623 parce qu'il apportait vraiment une correction à un article, 922 00:54:04,170 --> 00:54:05,732 mais tout s'est écroulé. 923 00:54:06,349 --> 00:54:09,373 Je ne sais pas trop comment résoudre cela 924 00:54:10,216 --> 00:54:15,709 parce qu'il n'existe pas d'institution externe à copier 925 00:54:15,710 --> 00:54:18,490 car tout le monde travaille sur... 926 00:54:19,154 --> 00:54:22,041 Si je suis la base de données d'art performant, 927 00:54:22,042 --> 00:54:24,601 j'irai simplement à l'étiquette d'art performant, 928 00:54:24,601 --> 00:54:29,361 je n'irai pas sur le concept philosophique de ce qu'est une entité 929 00:54:29,362 --> 00:54:31,201 et c'est en fait... 930 00:54:31,202 --> 00:54:34,561 Je ne connais aucune base de données qui travaille à ce niveau, 931 00:54:34,562 --> 00:54:36,827 mais ça, c'est le point le plus faible de Wikidata. 932 00:54:37,936 --> 00:54:40,812 Et il est probable que quand nous parlons de qualité de données, 933 00:54:40,812 --> 00:54:44,034 cela en constitue une grande partie, donc... 934 00:54:44,034 --> 00:54:48,569 Et c'est ce que nous avons aussi mentionné dans... 935 00:54:48,569 --> 00:54:50,452 Désolée, je change de sujet, 936 00:54:51,401 --> 00:54:55,774 mais dans différentes sessions concernant la qualité, nous avons remarqué 937 00:54:55,774 --> 00:54:59,398 que certains d'entre nous font un bon travail de modélisation, 938 00:54:59,399 --> 00:55:01,240 de ShEx et autres choses. 939 00:55:01,967 --> 00:55:07,655 Les gens ne voient pas ça dans Wikidata, ils ne voient pas le ShEx, 940 00:55:07,655 --> 00:55:10,392 ils ne voient pas le WikiProject sur la page de discussion 941 00:55:10,393 --> 00:55:11,393 et parfois, 942 00:55:11,394 --> 00:55:14,958 ils ne voient même pas les pages de discussion des propriétés 943 00:55:14,958 --> 00:55:19,628 qui dit clairement : a) cette propriété est utilisée pour cela. 944 00:55:19,628 --> 00:55:23,887 La semaine dernière, j'ai ajouté des contraintes à une propriété. 945 00:55:23,888 --> 00:55:26,324 La contrainte était écrite explicitement 946 00:55:26,325 --> 00:55:28,690 dans la discussion de la création de la propriété. 947 00:55:28,690 --> 00:55:34,548 J'ai juste créé la partie technique d'ajout de contrainte et quelqu'un : 948 00:55:34,548 --> 00:55:37,182 « Quoi ! Tu as cassé toutes mes modifications ! ». 949 00:55:37,183 --> 00:55:41,542 Et il se fait qu'il utilisait la propriété incorrectement depuis deux ans. 950 00:55:41,542 --> 00:55:46,868 Et celle-ci était en fait très claire, mais il n'y a eu aucun avertissement ; 951 00:55:46,869 --> 00:55:49,922 et c'est pareil pour Pink Pony, nous avons dit à Wikimania 952 00:55:49,922 --> 00:55:54,719 de rendre plus visible le WikiProject ou ShEx, mais... 953 00:55:54,719 --> 00:55:56,917 Et c'est ce qu'a dit Cristina. 954 00:55:56,917 --> 00:56:02,368 Nous avons un problème de visibilité concernant les solutions existantes. 955 00:56:02,368 --> 00:56:04,242 Dans cette session, 956 00:56:04,242 --> 00:56:06,862 nous parlons tous de comment créer plus de ShEx 957 00:56:06,863 --> 00:56:10,727 ou de faciliter les tâches des gens qui font le nettoyage. 958 00:56:11,605 --> 00:56:15,835 Mais depuis le premier jour de Wikidata, nous nettoyons 959 00:56:15,836 --> 00:56:20,921 et globalement, nous sommes en train de perdre la partie parce que 960 00:56:20,922 --> 00:56:22,960 je sais que les noms sont compliqués, 961 00:56:22,961 --> 00:56:26,162 mais je suis la seule à nettoyer, 962 00:56:26,662 --> 00:56:29,671 celui qui a ajouté le nom scripté latin 963 00:56:29,672 --> 00:56:31,584 à tous les chercheurs chinois, 964 00:56:32,088 --> 00:56:35,616 cela me prendra des mois pour nettoyer et je ne peux pas le faire seule, 965 00:56:35,616 --> 00:56:38,777 et de plus, il a fait un lot énorme. 966 00:56:38,777 --> 00:56:40,241 Nous avons vraiment besoin... 967 00:56:40,242 --> 00:56:44,158 Notre problème de visibilité est plus important de celui des outils 968 00:56:44,158 --> 00:56:45,733 car nous avons de nombreux outils. 969 00:56:45,733 --> 00:56:50,255 (Lydia) Malheureusement, on me fait signe (rit), 970 00:56:50,256 --> 00:56:52,121 nous devons donc terminer. 971 00:56:52,122 --> 00:56:53,563 Merci à tous pour vos commentaires. 972 00:56:53,563 --> 00:56:56,611 J'espère voir la discussion se prolonger au cours de la journée 973 00:56:56,611 --> 00:56:58,119 et merci pour votre contribution. 974 00:56:58,359 --> 00:56:59,944 (applaudissements)