1 00:00:00,491 --> 00:00:02,365 [ウィキデータと言語] 2 00:00:02,365 --> 00:00:05,946 [リディア・ピンチャー] [ウィキデータと言語] 3 00:00:05,946 --> 00:00:07,294 ありがとうございます 4 00:00:07,362 --> 00:00:11,244 この会議で大きなテーマの1つは 言語です 5 00:00:14,220 --> 00:00:15,993 これからお伝えするのは 6 00:00:15,993 --> 00:00:18,499 言語に関する現状と 7 00:00:18,499 --> 00:00:21,977 将来の展望についての概要です 8 00:00:29,036 --> 00:00:30,222 ウィキデータの使命は 9 00:00:30,222 --> 00:00:33,519 もっと多くの人が豊富な知識を 利用できるようにすることです 10 00:00:33,519 --> 00:00:37,298 言語はそれを実現するのに 極めて重要です 11 00:00:38,205 --> 00:00:43,291 特に 私たちの生活はますます テクノロジーに依存しているため 12 00:00:44,114 --> 00:00:48,873 今日の基調講演で 講演者が話していたように 13 00:00:49,723 --> 00:00:51,588 ある言語を話せないことにより 14 00:00:51,588 --> 00:00:55,020 テクノロジーが 人を置き去りにする場合があります 15 00:00:55,320 --> 00:00:57,255 それは良いとは言えません 16 00:00:58,633 --> 00:01:02,097 何とかしたいと思っています 17 00:01:02,927 --> 00:01:05,841 改善のためには 少なくとも 次の2つが必要です 18 00:01:06,411 --> 00:01:11,124 1つは 皆さんのの言語で コンテンツを提供することです 19 00:01:11,270 --> 00:01:13,985 2つ目は アプリケーションなど 何においても 20 00:01:13,985 --> 00:01:19,189 皆さんの言語で やりとりすることです 21 00:01:20,367 --> 00:01:24,888 ウィキデータは この2つの点に役立ちます 22 00:01:25,277 --> 00:01:28,408 まず 皆さんの言語での コンテンツですが 23 00:01:28,408 --> 00:01:31,239 これは基本的に 項目とプロパティにある内容で 24 00:01:31,319 --> 00:01:33,082 私たちが世界を表す方法です 25 00:01:33,082 --> 00:01:35,085 必要なものは これだけではないですが 26 00:01:35,085 --> 00:01:39,294 これにより 改善が進むはずです 27 00:01:39,764 --> 00:01:41,847 もう1つは 皆さんの言語によるやりとりです 28 00:01:41,847 --> 00:01:46,389 ここが語彙素の出番です 29 00:01:46,389 --> 00:01:49,382 携帯端末の 音声アシスト機能を利用する場合や 30 00:01:49,382 --> 00:01:54,918 デバイスに文章を翻訳させたい場合 などに活躍します 31 00:01:56,404 --> 00:01:59,254 では 皆さんの言語でのコンテンツを 見ていきましょう 32 00:01:59,254 --> 00:02:03,396 これは *items(項目)*と *properties(プロパティ)*の内容です 33 00:02:05,406 --> 00:02:09,696 コンテンツには 項目とプロパティにあるラベルが重要です 34 00:02:10,236 --> 00:02:14,866 話題のエンティティが 何と呼ばれるか知る必要があります 35 00:02:15,656 --> 00:02:19,987 「Q5」が話題である場合 36 00:02:19,987 --> 00:02:22,180 それは英語話者にとっては 「human」であり 37 00:02:22,180 --> 00:02:24,706 ドイツ語話者とっては 「mensch」である 38 00:02:24,706 --> 00:02:26,374 というようなものです 39 00:02:26,374 --> 00:02:29,742 項目とプロパティに付いた こうしたラベルは 40 00:02:29,742 --> 00:02:33,619 人間と機械 そして人間と人間の 41 00:02:33,619 --> 00:02:35,439 ギャップを埋めてくれます 42 00:02:35,439 --> 00:02:40,115 それにより 既存の知識が 皆にとって さらに利用しやすくなっています 43 00:02:43,270 --> 00:02:46,290 これには期待が持てますね [範囲の状況は?] 44 00:02:46,290 --> 00:02:48,342 実際の状況はどうでしょうか 45 00:02:48,342 --> 00:02:49,607 このようになっています 46 00:02:50,947 --> 00:02:52,416 ここで分かることは 47 00:02:52,416 --> 00:02:56,338 ウィキデータにある 項目の大半には 48 00:02:56,338 --> 00:03:00,767 2つの言語で ラベルがあるということです 49 00:03:01,697 --> 00:03:03,851 それに次いで 1つ、3つの言語 50 00:03:03,851 --> 00:03:06,115 その後は悲しい状態です 51 00:03:06,781 --> 00:03:08,581 (静かな笑い) 52 00:03:10,047 --> 00:03:12,713 これを改善しましょう 53 00:03:14,185 --> 00:03:15,319 でも一方では 54 00:03:15,319 --> 00:03:17,478 もっと悪い状況を想像していました 55 00:03:17,478 --> 00:03:19,560 平均は1言語だと思っていましたから 56 00:03:19,560 --> 00:03:22,503 2言語だと分かって満足です(笑) 57 00:03:24,921 --> 00:03:26,186 では次 58 00:03:27,156 --> 00:03:33,700 興味深いのは 項目とプロパティにある ラベルの数だけでなく 59 00:03:33,742 --> 00:03:36,565 どの言語か知ることも 興味深いものです 60 00:03:38,045 --> 00:03:41,363 ここに示されているグラフは 61 00:03:42,748 --> 00:03:46,767 *Items(項目)*にラベルがある言語です 62 00:03:46,838 --> 00:03:50,669 大きく占めているのは *Other*です 63 00:03:51,229 --> 00:03:53,863 グラフが読めるよう 64 00:03:54,533 --> 00:03:58,902 上位100の言語を抽出したので その他が*Other*になっています 65 00:03:59,542 --> 00:04:02,142 英語、オランダ語 66 00:04:03,002 --> 00:04:04,254 フランス語 67 00:04:05,924 --> 00:04:08,924 そして特に アストゥリアス語 68 00:04:09,659 --> 00:04:11,749 - (聴衆1)やった! - 嬉しいですね! 69 00:04:13,899 --> 00:04:16,954 不均衡になっていることが ここで分かりです 70 00:04:16,954 --> 00:04:20,114 英語が多くの比率を占めています 71 00:04:21,236 --> 00:04:24,367 同様に*Properties(プロパティ)*の グラフを見ると 72 00:04:24,367 --> 00:04:25,999 こちらのほうが 均衡が取れています 73 00:04:27,399 --> 00:04:32,750 これはプロパティがはるかに 少ないことにもよるのでしょう 74 00:04:32,750 --> 00:04:36,770 ですから比較的小さなコミュニティーでも 引けをとりません 75 00:04:36,770 --> 00:04:39,042 皆さんの言語に ローカライズすることは 76 00:04:39,042 --> 00:04:41,159 ウィキデータの 重要な部分でもありますから 77 00:04:41,159 --> 00:04:42,384 これは良いことです 78 00:04:45,752 --> 00:04:48,860 ここで強調したいことは アストゥリアス語で 79 00:04:49,564 --> 00:04:51,740 小さなコミュニティーでも 80 00:04:51,740 --> 00:04:57,085 熱意と仕事で 大きな変化をもたらせるということです 81 00:04:57,085 --> 00:04:58,420 素晴らしいことです 82 00:05:01,846 --> 00:05:03,184 皆さんに質問です 83 00:05:03,530 --> 00:05:07,240 ウィキデータで外部識別子を除く すべてのプロパティのうち 84 00:05:07,687 --> 00:05:10,458 どれに多くのラベルが つまり多くの言語があるでしょうか 85 00:05:10,977 --> 00:05:13,847 (聴衆)[聞き取り不能] 86 00:05:13,847 --> 00:05:16,786 *instance of* という声があがりましたね 87 00:05:17,506 --> 00:05:19,443 違います 88 00:05:19,983 --> 00:05:22,210 正解は*image*です(笑) 89 00:05:23,230 --> 00:05:28,516 あなたが *instance of*に まだラベルがない言語を話すなら 90 00:05:28,621 --> 00:05:30,190 追加してください 91 00:05:31,972 --> 00:05:35,676 現在 ラベルの数は148です 92 00:05:37,653 --> 00:05:40,953 別のスライドです 93 00:05:42,631 --> 00:05:44,042 このグラフは 94 00:05:44,042 --> 00:05:49,321 どれだけのコンテンツが ある言語で利用できるようになっているか 95 00:05:49,321 --> 00:05:52,042 またどれだけそのコンテンツが 利用されたかを示しています 96 00:05:52,042 --> 00:05:55,448 これは曲線ですよね 97 00:05:55,448 --> 00:06:00,987 大半のコンテンツに 英語のラベルがあり 英語で利用でき 98 00:06:01,507 --> 00:06:03,735 たくさん利用されています 99 00:06:04,295 --> 00:06:06,449 そして値は下がっていきます 100 00:06:06,449 --> 00:06:09,436 ですが 外れ値もあり 101 00:06:09,436 --> 00:06:15,333 必然的に予想されるよりも たくさんのコンテンツがあります 102 00:06:16,903 --> 00:06:19,539 これはとても良いことです 103 00:06:20,839 --> 00:06:24,945 課題はそれほど利用されていないことです 104 00:06:25,565 --> 00:06:28,522 アストゥリアス語やオランダ語は もっと利用度が高いはずです 105 00:06:28,742 --> 00:06:32,451 コミュニティーに協力することにより 106 00:06:33,266 --> 00:06:37,606 収集データの利用度が向上するのは 良いことだと思います 107 00:06:42,910 --> 00:06:47,067 こちらと先ほどの分析は 良い結果を示しています 108 00:06:47,137 --> 00:06:51,378 ですが 利用度が高い項目に 109 00:06:51,378 --> 00:06:55,295 より多くのラベルがある 傾向があります 110 00:06:55,295 --> 00:06:57,964 または多くのラベルがあると 利用度が高いのでしょうか 111 00:07:02,513 --> 00:07:04,376 そこで疑問は 112 00:07:04,806 --> 00:07:07,009 私たちは強力な言語のみを サポートしているのか 113 00:07:07,899 --> 00:07:11,237 または あらゆる言語を サポートしているのかです 114 00:07:12,757 --> 00:07:17,429 こちらは言語の分類です 115 00:07:17,743 --> 00:07:21,832 同じ分類の言語には 同じラベルがある傾向があります 116 00:07:26,042 --> 00:07:28,338 クラスタする傾向が見られます 117 00:07:28,599 --> 00:07:32,238 こちらは同様のクラスタ分析ですが 118 00:07:33,018 --> 00:07:39,231 言語の健在度、利用度、 危険度に基づいて 119 00:07:40,256 --> 00:07:42,778 色分けされています 120 00:07:43,156 --> 00:07:44,642 良い結果として 121 00:07:44,642 --> 00:07:49,566 安全言語と危機言語とで 122 00:07:49,566 --> 00:07:53,773 異なるクラスタを 形成していないことです 123 00:07:53,773 --> 00:07:58,872 すべて混じり合っています 124 00:08:00,262 --> 00:08:04,625 この逆の結果よりも ずっと良いことですよね 125 00:08:04,625 --> 00:08:09,377 安全言語 強力な言語の間だけで 126 00:08:10,197 --> 00:08:13,939 助け合っている ということではありませんから 127 00:08:14,356 --> 00:08:17,417 これはとても良いことです 128 00:08:17,417 --> 00:08:19,871 これを見た時 良いことだと思いました 129 00:08:23,474 --> 00:08:27,769 これも同様の分析データで 130 00:08:30,230 --> 00:08:35,787 言語状況と 言語が所有するラベル数です 131 00:08:39,257 --> 00:08:42,937 安全言語(分類1)は 明らかに勝っており 132 00:08:42,937 --> 00:08:44,248 予想どおりです 133 00:08:45,508 --> 00:08:47,233 ですが 134 00:08:49,063 --> 00:08:54,127 分類2(不安定)、3(危機) 4(極めて危険)に分類される言語でさえ 135 00:08:54,407 --> 00:08:59,280 ウィキデータとその他における 表出に関して 136 00:08:59,280 --> 00:09:02,367 それほど悪くはありません 137 00:09:03,287 --> 00:09:05,777 それが分かって良かった点です 138 00:09:07,646 --> 00:09:09,136 同様に 139 00:09:09,136 --> 00:09:11,111 例えばウィキペディアでの 140 00:09:11,111 --> 00:09:15,275 こうしたラベルのコンテンツの 利用度を見ると 141 00:09:17,455 --> 00:09:22,563 ここでも同様の結果が分かります 142 00:09:23,603 --> 00:09:26,676 つまり こうしたコミュニティーは 143 00:09:26,676 --> 00:09:30,753 例えば 利用度の高い項目に ラベルを入力することにより 144 00:09:30,753 --> 00:09:34,504 その時間を 有益に活用しているのです 145 00:09:36,410 --> 00:09:37,763 外れ値については 146 00:09:37,763 --> 00:09:44,510 コミュニティーが その仕事が最も役立つ場を見つけられるよう 147 00:09:44,510 --> 00:09:48,202 私たちが協力できるところだと思います 148 00:09:49,312 --> 00:09:52,663 総合的には この分析結果に満足しています 149 00:09:54,823 --> 00:09:59,844 ウィキデータの項目とプロパティを ご説明しました 150 00:10:00,714 --> 00:10:03,033 次に皆さんの言語でのやりとりを 見ていきましょう 151 00:10:03,033 --> 00:10:05,203 ウィキデータの語彙素です 152 00:10:05,203 --> 00:10:09,394 ここで語彙、語形、語義を表します 153 00:10:10,167 --> 00:10:13,008 去年の5月からこれを行っていて 154 00:10:16,461 --> 00:10:18,782 コンテンツは増加してきています 155 00:10:20,114 --> 00:10:22,279 こちらの青が語彙素で 156 00:10:22,279 --> 00:10:25,938 赤が語彙素における語形 157 00:10:25,938 --> 00:10:29,910 黄色が語彙素における 語義を示しています 158 00:10:30,991 --> 00:10:34,451 後でも取り上げますが コミュニティーの一部は 159 00:10:34,451 --> 00:10:39,793 語彙素の語形や語義の作成に たくさんの時間を費やしています 160 00:10:39,793 --> 00:10:42,753 これは有益です 161 00:10:42,753 --> 00:10:47,765 皆さんが必要なデータセットの中核が 構築されるからです 162 00:10:50,562 --> 00:10:57,466 次に ウィキデータに語彙素がある すべての言語を見てみました 163 00:10:57,906 --> 00:11:01,003 つまりウィキデータにある 言語の数です 164 00:11:01,713 --> 00:11:04,404 現在 言語の数は310です 165 00:11:04,884 --> 00:11:08,290 では ウィキデータの 現在の語彙素数に関しては 166 00:11:08,290 --> 00:11:11,949 何語が第1位だと思いますか 167 00:11:12,933 --> 00:11:15,042 (聴衆)ロシア語 [聞き取り不能] 168 00:11:19,183 --> 00:11:20,216 何ですって? 169 00:11:20,216 --> 00:11:21,741 (聴衆2)ドイツ語 170 00:11:21,741 --> 00:11:23,642 先ほど聞こえてきたように 171 00:11:24,252 --> 00:11:25,315 ロシア語です 172 00:11:28,011 --> 00:11:29,754 ロシア語が抜きん出ています 173 00:11:31,897 --> 00:11:33,710 相対感が分かるように ご説明しますと 174 00:11:35,652 --> 00:11:37,856 異なる意見はありますが 175 00:11:38,026 --> 00:11:44,672 例えば 別の言語で 千から3千語で会話レベル 176 00:11:44,672 --> 00:11:49,461 4千から1万語で 上級レベルに達するそうです 177 00:11:51,591 --> 00:11:55,282 ですからまだ そこまでのレベルには達していません 178 00:11:58,483 --> 00:12:02,779 1つ注目していただきたいのは ここのバスク語で 179 00:12:03,279 --> 00:12:07,744 約1万の語彙素があります 180 00:12:09,244 --> 00:12:13,003 次に こうした語彙素に対する 語形の数を見てみると 181 00:12:14,163 --> 00:12:16,497 バスク語が かなり上位にあります 182 00:12:18,257 --> 00:12:20,006 これはすごいですよね 183 00:12:20,006 --> 00:12:24,930 この理由を説明する講演にも ぜひご参加ください 184 00:12:27,121 --> 00:12:30,779 次に 言葉の意味に当たる 語義の数を見てみると 185 00:12:32,015 --> 00:12:34,624 バスク語がなんとリストの第1位です 186 00:12:34,961 --> 00:12:36,781 これは拍手に値すると思います 187 00:12:37,102 --> 00:12:38,921 (拍手) 188 00:12:45,678 --> 00:12:46,899 皆さんに別の質問です 189 00:12:47,118 --> 00:12:50,181 現在 最も翻訳されている 語彙素は何でしょうか 190 00:12:50,651 --> 00:12:55,414 (聴衆)ネコ ダグラス・アダムス[聞き取り不能] 191 00:12:56,766 --> 00:13:00,014 すべて良い推測ですが 違います 192 00:13:01,012 --> 00:13:04,137 これです ロシア語の「水」です 193 00:13:09,571 --> 00:13:16,253 ウィキデータにある語彙素や語形や語義の 数についてはお話しましたが 194 00:13:16,412 --> 00:13:21,501 それは必要なことの1つで 他に必要なのは 195 00:13:21,515 --> 00:13:24,985 こうした語彙素や語形や意味を 196 00:13:24,985 --> 00:13:27,090 機械に読める方法で 表現することです 197 00:13:27,647 --> 00:13:30,039 それには 文が必要で 項目はその一例です 198 00:13:31,479 --> 00:13:36,362 使用するプロパティの1つは 文例です 199 00:13:36,362 --> 00:13:38,582 これで データを使用している誰もが 200 00:13:38,582 --> 00:13:42,037 文脈に応じて その言葉の使い方を理解できます 201 00:13:42,037 --> 00:13:44,158 例えば 引用などが考えらます 202 00:13:45,396 --> 00:13:47,113 ここではポーランド語が第1位です 203 00:13:47,900 --> 00:13:49,814 ポーランド語話者の方々 頑張りましたね 204 00:13:54,219 --> 00:13:57,680 もう1つ役立つプロパティは IPA(発音記号)です 205 00:13:57,680 --> 00:13:59,967 語彙の発音の仕方です 206 00:14:00,876 --> 00:14:07,497 ロシア語は IPA文を たくさん必要としていますね 207 00:14:10,419 --> 00:14:13,314 ですがここでも ポーランド語が第2位です 208 00:14:17,148 --> 00:14:20,753 ウィキデータには 音声データもあります 209 00:14:20,758 --> 00:14:25,583 発せられた言葉を収めた ファイルへのリンクがコモンズにあるので 210 00:14:25,959 --> 00:14:28,630 発音記号を読めない場合などに 211 00:14:28,630 --> 00:14:32,871 ネイティブ スピーカーの 発音を聞くことができます 212 00:14:34,959 --> 00:14:36,765 またウィキベースを動力とする 213 00:14:36,765 --> 00:14:40,474 Lingua Libreという プロジェクトがあります 214 00:14:40,884 --> 00:14:45,173 ご自分の言語での 言葉の録音に協力して 215 00:14:45,173 --> 00:14:47,836 ウィキデータの語彙素へ追加すると 216 00:14:48,446 --> 00:14:52,103 他の人がその言葉の 発音の仕方を理解できます 217 00:14:53,663 --> 00:14:55,694 (聴衆2)[聞き取り不能] 218 00:14:55,694 --> 00:14:57,703 「Lingua Libre」と検索すると 219 00:14:57,703 --> 00:15:00,981 テレグラムに 誰かがそれを投稿してくれるはずです 220 00:15:03,138 --> 00:15:04,621 彼らは素晴らしく 221 00:15:04,621 --> 00:15:06,726 ウィキベースで 優れた仕事をしています 222 00:15:12,706 --> 00:15:17,285 次に知りたいのは 将来の展望です 223 00:15:19,165 --> 00:15:22,010 お見せしたデータに基づくと 224 00:15:23,030 --> 00:15:25,172 ウィキデータの言語を見ると 225 00:15:25,172 --> 00:15:28,430 もっと多くの人に 豊富な知識への アクセスを提供しようと 226 00:15:28,430 --> 00:15:31,240 長い道のりをここまで来ました 227 00:15:32,530 --> 00:15:36,392 ですが この先にも たくさんの仕事が控えています 228 00:15:38,992 --> 00:15:42,341 例えば 皆さんが協力できることとして 229 00:15:42,341 --> 00:15:46,255 マラソンのように 皆で集まって一斉に 230 00:15:46,255 --> 00:15:50,124 ウィキデータで 項目にラベル付けをするとか 231 00:15:50,914 --> 00:15:55,121 皆さんの言語の 語彙素を編集して 232 00:15:55,121 --> 00:15:59,212 最も利用されている言葉を皆さんの言語で ウィキデータに収めるようなことです 233 00:16:00,773 --> 00:16:03,285 またはTerminatorのような ツールを使用して 234 00:16:03,285 --> 00:16:08,120 皆さんの言語で まだラベルが付いていない 235 00:16:08,120 --> 00:16:11,529 最重要項目を 見つけてもいいでしょう 236 00:16:13,274 --> 00:16:16,666 重要度を測るには 237 00:16:16,666 --> 00:16:20,940 文中のリンクのような 他のウィキデータの項目における 238 00:16:20,940 --> 00:16:22,349 利用頻度によります 239 00:16:25,768 --> 00:16:30,022 もちろん 語彙素に関しては 240 00:16:31,342 --> 00:16:35,169 現在 基本的な語彙素は カバーしていますので 241 00:16:35,169 --> 00:16:41,132 今後 大事なのは 開発とさらなる文の追加です 242 00:16:41,132 --> 00:16:44,467 しっかりとした基礎を築いて 243 00:16:44,467 --> 00:16:47,421 その上に有意義な アプリケーションを開発することです 244 00:16:48,141 --> 00:16:50,768 その臨界点には近付いてはいても 245 00:16:50,768 --> 00:16:56,410 基礎の上に本格的なアプリケーションを 開発できる所までは到達していないからです 246 00:16:58,277 --> 00:17:01,520 皆さんにその仕事に ご参加いただければと思います 247 00:17:02,583 --> 00:17:09,405 ここでちょっと 友人から協力してもらいましょう 248 00:17:09,843 --> 00:17:12,493 ブリューノ こちらへご登壇を 249 00:17:13,882 --> 00:17:16,744 Lexicon Mask (辞書マスク)のお話をどうぞ 250 00:17:16,881 --> 00:17:19,036 (ブリューノ)ありがとう リディア 251 00:17:19,036 --> 00:17:22,519 Googleでの仕事をお伝えする 時間をいただきまして 252 00:17:22,519 --> 00:17:24,150 ありがとうございます 253 00:17:24,150 --> 00:17:29,275 デニーのことは ご存知の方も多いでしょう 254 00:17:30,126 --> 00:17:32,030 Googleで 私は言語学者ですから 255 00:17:32,030 --> 00:17:36,150 言語に熱意のある方々に囲まれ うれしく思います 256 00:17:36,620 --> 00:17:39,278 私たちは 辞書を開発しています 257 00:17:39,278 --> 00:17:45,346 また皆さんに役立つテクノロジーや アプローチを開発しています 258 00:17:46,369 --> 00:17:48,455 背景を少々お伝えしますと 259 00:17:48,455 --> 00:17:51,907 これがここでお話している 辞書編集の背景です 260 00:17:52,788 --> 00:17:54,977 辞書データベースを開発した際に 261 00:17:54,977 --> 00:17:56,662 恐らくご存知のように 262 00:17:56,662 --> 00:18:01,775 データの維持や一貫性の保持や交換に 悪銭苦闘しました 263 00:18:02,074 --> 00:18:05,959 語彙素や語形を表している 264 00:18:05,959 --> 00:18:09,184 特性やプロパティをまとめようと 何度も試み 265 00:18:09,184 --> 00:18:10,936 完全には解決していませんが 266 00:18:10,936 --> 00:18:13,592 その面でいくらか統一されています 267 00:18:13,742 --> 00:18:15,269 ですが不足していたのは― 268 00:18:15,269 --> 00:18:18,732 これはGoogleでのプロジェクト 開始時から抱えていた課題ですが 269 00:18:18,732 --> 00:18:21,517 内部構造を持つ努力でした 270 00:18:22,197 --> 00:18:25,910 しかるべき語彙記載項や 271 00:18:25,910 --> 00:18:28,581 データの種類や 所有情報の種類や 272 00:18:28,581 --> 00:18:32,237 予期される規定などを 表す内部構造です 273 00:18:32,237 --> 00:18:38,187 そこで Lexicon Mask というものを考案しました 274 00:18:38,897 --> 00:18:44,841 Lexicon Maskが表すのは エントリに予期される内容で 275 00:18:44,841 --> 00:18:47,329 完了予定の 辞書編集エントリです 276 00:18:47,329 --> 00:18:51,436 これには 語彙に予期される語形の数と 277 00:18:51,436 --> 00:18:55,607 各語形に予期される特性の数の 双方が含まれます 278 00:18:56,397 --> 00:18:58,329 これはイタリア語の形容詞の例です 279 00:18:58,329 --> 00:19:02,002 イタリア語では 形容詞に対して 4つの語形が予期されます 280 00:19:02,002 --> 00:19:04,493 性や数の特性に関して 281 00:19:04,493 --> 00:19:07,946 各語形に特別な組み合わせがあります 282 00:19:08,606 --> 00:19:12,672 これがイタリア語の形容詞に 予期されることです 283 00:19:12,672 --> 00:19:16,176 もちろん 極めて複雑な マスクになる可能性もあります 284 00:19:16,176 --> 00:19:20,783 例えば フランス語の動詞活用は かなり広範囲です 285 00:19:20,783 --> 00:19:23,487 ロシアのマスクは 画面に収まらないので 286 00:19:23,487 --> 00:19:25,378 今は表示されていません 287 00:19:26,308 --> 00:19:29,531 詳細規定もあります 288 00:19:29,531 --> 00:19:33,421 語形レベルで識別するからです 289 00:19:33,421 --> 00:19:35,036 これはロシア語の名詞で 290 00:19:35,036 --> 00:19:40,048 異なる語形での 事例数が3つありますが 291 00:19:40,048 --> 00:19:43,086 エントリレベルの規定もあって 292 00:19:43,086 --> 00:19:45,590 特に名詞に 293 00:19:45,590 --> 00:19:50,133 固有の性と 固有の有生性の特性があり 294 00:19:50,133 --> 00:19:52,488 これもマスクの中で規定されています 295 00:19:54,518 --> 00:20:00,099 また マスクが一般的に しかるべきエントリに与える規定を 296 00:20:00,099 --> 00:20:01,874 識別することが必要ですが 297 00:20:01,874 --> 00:20:07,158 言語に発生する 語形や語彙の欠如のため 298 00:20:07,158 --> 00:20:11,282 より小さなマスクになる 可能性もあります 299 00:20:11,282 --> 00:20:14,537 これがフランス語の動詞の 最もシンプルなバージョンで 300 00:20:14,537 --> 00:20:18,535 例えば「雨が降る」 「雪が降る」のような 301 00:20:18,535 --> 00:20:23,969 天候に関する動詞すべてに 三人称単数があるだけです 302 00:20:24,537 --> 00:20:26,743 ですからこれら2つのレベルを識別します 303 00:20:26,923 --> 00:20:29,962 Googleでこれを使用する方法は 304 00:20:29,962 --> 00:20:32,643 使いたい辞書がある場合 305 00:20:33,063 --> 00:20:38,309 文字通りマスクを 辞書に投げて 306 00:20:38,309 --> 00:20:40,163 すべてのエントリを マスクを通して 307 00:20:40,163 --> 00:20:44,303 どのエントリに 構造的問題があるか 308 00:20:44,303 --> 00:20:46,523 語形や特性が 不足しているのかを見ます 309 00:20:46,523 --> 00:20:51,497 問題があれば 人が検証を行うか 310 00:20:51,497 --> 00:20:53,751 マスクを通過するかを見ます 311 00:20:53,751 --> 00:20:57,924 ですから 構造の品質管理には 非常に有益なツールです 312 00:20:59,427 --> 00:21:01,964 今日発表いたしますのは 313 00:21:01,964 --> 00:21:05,408 私たちのマスクの オープンソース化です 314 00:21:05,948 --> 00:21:07,573 これがスキーマです 315 00:21:07,573 --> 00:21:09,477 ご希望があれば 公開して 316 00:21:09,477 --> 00:21:13,483 ShExファイルとして ウィキデータに提供します 317 00:21:13,483 --> 00:21:16,688 これがドイツ語名詞に対する ShExファイルです 318 00:21:16,688 --> 00:21:21,058 内部仕様からオープンソース仕様への コンバージョンに 319 00:21:21,058 --> 00:21:23,350 デニーが取り組んでいます 320 00:21:23,666 --> 00:21:27,265 現在 25言語超をカバーしています 321 00:21:27,265 --> 00:21:30,199 ウィキデータの発展を 期待しているだけでなく 322 00:21:30,199 --> 00:21:34,350 他の言語に対する 協働の機会を求めてもいます 323 00:21:34,350 --> 00:21:40,728 ダニーがルーカスと進行中の コラボレーションの1つは 324 00:21:40,728 --> 00:21:45,052 ルーカスが持つ優れたツールで 325 00:21:45,052 --> 00:21:51,061 UIのヘルプで ユーザーや貢献者に 語形を追加してもらうものです 326 00:21:51,061 --> 00:21:54,151 フランス語で 形容詞を追加したい場合 327 00:21:54,151 --> 00:21:59,057 UIが予期される語形の数と 328 00:21:59,057 --> 00:22:01,562 語形がどんな特性を持つはずかを 教えてくれます 329 00:22:01,562 --> 00:22:06,268 ですから私たちのマスクが 定義と拡張に役立ちます 330 00:22:07,238 --> 00:22:08,385 以上です 331 00:22:08,731 --> 00:22:10,298 (リディア)ありがとう 332 00:22:10,358 --> 00:22:11,993 (拍手) 333 00:22:14,249 --> 00:22:16,761 ご質問はありますか? 334 00:22:16,891 --> 00:22:19,381 語彙素について 詳しく知りたいですか 335 00:22:19,817 --> 00:22:22,505 - (聴衆3)知りたいです - 分かりました(笑) 336 00:22:33,485 --> 00:22:34,750 (聴衆3)私の質問は 337 00:22:34,750 --> 00:22:39,106 もっと多くの言語で もっと多くの人に 利用できるようにすると仰いましたが 338 00:22:39,106 --> 00:22:42,444 ウィキデータで使用できない言語は たくさんあります 339 00:22:42,444 --> 00:22:44,246 ウィキデータとしての解決策は? 340 00:22:45,889 --> 00:22:47,686 ウィキデータで 使用できないというのは 341 00:22:47,686 --> 00:22:50,308 ラベルの記載のお話ですか? 342 00:22:50,308 --> 00:22:52,578 - (聴衆3)ラベルや説明です - ええ 343 00:22:52,578 --> 00:22:55,498 語彙素に対しては 少し異なります 344 00:22:55,498 --> 00:22:57,793 語彙素には その制限がないからです 345 00:22:58,923 --> 00:23:05,003 項目やプロパティのラベルには いくらか制限があります 346 00:23:05,433 --> 00:23:08,496 ウィキデータでは 347 00:23:08,496 --> 00:23:14,229 誰もがすべてを行えるようには していないからです 348 00:23:14,229 --> 00:23:17,769 そうすると 管理が難しくなってしまいます 349 00:23:19,349 --> 00:23:23,328 1つの言語に取り組みたい 小さなコミュニティーであっても 350 00:23:23,898 --> 00:23:26,693 ご要望いただければ 実現させます 351 00:23:26,693 --> 00:23:29,292 (聴衆3)5月にプラハの ハッカソンで要望しましたが 352 00:23:29,292 --> 00:23:32,459 私たちの言語を使えるようになるには 8月にまでかかりました 353 00:23:32,459 --> 00:23:35,135 - ええ - (聴衆3)遅いのです 354 00:23:35,135 --> 00:23:37,274 あいにく時間がかかります 355 00:23:37,854 --> 00:23:39,883 現在 言語委員会と 356 00:23:39,883 --> 00:23:46,048 基本部分の解決に取り組んでいます 357 00:23:49,537 --> 00:23:55,447 どの言語が実際「許可」されるか について同意を得るのは 358 00:23:56,047 --> 00:23:59,398 非常に時間がかかっています 359 00:23:59,988 --> 00:24:04,178 これがご要望に対して 必要以上に時間がかかった理由です 360 00:24:04,778 --> 00:24:05,963 (聴衆3)ありがとう 361 00:24:06,815 --> 00:24:07,950 (聴衆4)ありがとう 362 00:24:07,950 --> 00:24:10,938 リディア 見せていただいた統計に 363 00:24:10,938 --> 00:24:12,886 言語ごとの語彙素の数がありましたが 364 00:24:12,886 --> 00:24:17,599 データポイントとして すべての語形を合計したんでしょうか 365 00:24:17,599 --> 00:24:20,034 それとも語彙素だけですか 366 00:24:21,289 --> 00:24:22,941 (リディア)これですか 367 00:24:22,941 --> 00:24:24,053 どれですか 368 00:24:24,053 --> 00:24:25,529 (聴衆4)それです 369 00:24:25,797 --> 00:24:28,341 この数は[聞き取り不能] 370 00:24:28,341 --> 00:24:31,954 すべての語彙素に対するすべての語形ですか 存在する語彙素の数ですか 371 00:24:31,954 --> 00:24:35,395 - これは単に語彙素数の数です - (聴衆4)そうですか 372 00:24:35,395 --> 00:24:36,797 では単なる統計値ですね 373 00:24:36,797 --> 00:24:39,390 もし語形から成るものだったら... 374 00:24:39,390 --> 00:24:40,614 それが質問の理由です 375 00:24:40,614 --> 00:24:42,817 屈折形態を伴うすべての言語― 376 00:24:42,817 --> 00:24:45,117 例えばロシア語やセルビア語 スロベニア語などには 377 00:24:45,117 --> 00:24:47,616 語形が数多くあることになるので 元から有利です 378 00:24:47,616 --> 00:24:51,990 それがここの語形数に 影響しています 379 00:24:51,990 --> 00:24:53,851 (聴衆4)分かりました ありがとう 380 00:24:56,546 --> 00:25:00,224 (聴衆5)簡単な質問ですが 381 00:25:00,644 --> 00:25:06,824 実際の項目とプロパティに関し 382 00:25:07,124 --> 00:25:08,901 私が理解している限りでは 383 00:25:08,901 --> 00:25:11,948 与えられた どのラベルや説明にも 384 00:25:11,955 --> 00:25:15,794 現在 実際のソースを 提供する方法はないんですよね 385 00:25:15,807 --> 00:25:20,920 例えば 項目のプロパティの場合 386 00:25:20,920 --> 00:25:24,509 相反するラベルが得られるかもしれない 387 00:25:24,509 --> 00:25:25,739 そうです 388 00:25:28,402 --> 00:25:30,781 先ほど 固有性というお話がありましたが 389 00:25:30,781 --> 00:25:35,965 例えば 芸術家が あるソースによれば ノルウェー人であり 390 00:25:35,965 --> 00:25:38,750 別のソースによれば サーミ人であるとか 391 00:25:39,550 --> 00:25:41,741 エストニア人であったりします 392 00:25:42,593 --> 00:25:49,259 公式の辞書の中でその言葉を 公式の用語に変える必要がありましたが 393 00:25:49,482 --> 00:25:52,262 理由を示す方法がありません 394 00:25:52,262 --> 00:25:53,596 このソースは何だったかとか 395 00:25:53,596 --> 00:25:55,561 変更理由とか 以前の内容などを示せません 396 00:25:55,561 --> 00:25:59,615 誰かが理由もなく 変更したように見えてしまいます 397 00:25:59,615 --> 00:26:03,350 言語データに対して 適切なソースを持てるように 398 00:26:03,350 --> 00:26:06,355 これを変更する計画はありますか? 399 00:26:07,045 --> 00:26:11,468 それは部分的に可能です 400 00:26:11,568 --> 00:26:15,958 例えば 人物に対する項目があって 401 00:26:16,968 --> 00:26:22,720 その人物に関する 文や氏名などが続きます 402 00:26:22,720 --> 00:26:26,226 そこで出典を付けることができます 403 00:26:28,211 --> 00:26:32,264 ラベルや説明の出典を 404 00:26:32,264 --> 00:26:35,557 今より複雑にするのは避けたいですが 405 00:26:35,557 --> 00:26:41,252 これは 文上のどの出典によっても 取り上げられていないと 406 00:26:41,252 --> 00:26:44,939 人々が強く希望するのであれば 407 00:26:44,939 --> 00:26:46,803 議論の余地はあります 408 00:26:49,079 --> 00:26:53,303 ですが 数少ないであろう事例のために 409 00:26:53,303 --> 00:26:56,523 複雑になってしまうのが心配です 410 00:26:57,393 --> 00:27:00,188 皆さんが強く望まれるものなら 411 00:27:00,188 --> 00:27:04,087 喜んでそうしたいのですが 412 00:27:04,087 --> 00:27:08,177 (聴衆5)追加されるのであれば デフォルトではなく 413 00:27:08,177 --> 00:27:12,452 初心者などには表示されない インターフェースにして 414 00:27:12,452 --> 00:27:16,190 「詳細を追加するなら ここをクリック」 などとするといいでしょう 415 00:27:17,632 --> 00:27:23,368 実際 問題になりうる頻度はどうでしょう 416 00:27:24,520 --> 00:27:26,423 (聴衆5)エストニア語では 例えば― 417 00:27:26,423 --> 00:27:28,844 これは他の言語にも 当てはまると思いますが 418 00:27:29,274 --> 00:27:35,510 例えば 正規に英語に翻訳されている 419 00:27:36,206 --> 00:27:40,314 特定の行政区の公式名があって 420 00:27:40,324 --> 00:27:42,182 それが私のユースケースでした 421 00:27:42,182 --> 00:27:44,409 かつて「parish」という 言葉を使っていて 422 00:27:45,159 --> 00:27:50,628 それが元のエストニア語の言葉では 教会区というような意味であり 423 00:27:50,628 --> 00:27:51,899 それが由来でしたが 424 00:27:51,899 --> 00:27:54,809 それは現在エストニア語で 公式の翻訳ではありません 425 00:27:55,189 --> 00:27:58,993 そのケースでは 公式名を文に追加して 426 00:27:58,993 --> 00:28:00,817 出典もそこに追加できます 427 00:28:01,992 --> 00:28:03,218 (聴衆5)分かりました 428 00:28:05,186 --> 00:28:06,572 他にご質問は? 429 00:28:07,682 --> 00:28:10,044 (聴衆6)意見が2つあります 430 00:28:10,044 --> 00:28:13,934 良い成績の言語として アストゥリアス語を特に挙げられましたが 431 00:28:13,934 --> 00:28:16,455 誤ったアーティファクトだと思います 432 00:28:16,455 --> 00:28:17,724 教えてください 433 00:28:17,724 --> 00:28:19,748 (聴衆6)それはボットが 434 00:28:19,748 --> 00:28:24,068 人名や固有名詞を 貼り付けたものだと思います 435 00:28:24,068 --> 00:28:27,172 「フランス語やスペイン語でも まったく同じ」と言うように 436 00:28:27,172 --> 00:28:28,558 ただ大量にコピーしたんです 437 00:28:28,558 --> 00:28:31,766 証拠の1つに アストゥリアス語で 438 00:28:31,766 --> 00:28:35,440 固有名詞以外の プロパティ名や項目名などで 439 00:28:35,440 --> 00:28:39,216 翻訳を必要としている取り組みは あまり見られません 440 00:28:39,648 --> 00:28:41,142 心が痛みます 441 00:28:41,142 --> 00:28:43,538 (聴衆6)分かります 水を差してしまいましたよね 442 00:28:43,538 --> 00:28:48,458 でも 良いこともあります 発音の数です 443 00:28:49,408 --> 00:28:53,515 恐らくご存知のように コモンズは発音のファイルがいっぱいで 444 00:28:53,515 --> 00:28:54,668 例えば 445 00:28:54,668 --> 00:29:01,102 オランダ語はコモンズにすでに 30万以上の発音のファイルがあり 446 00:29:01,912 --> 00:29:05,051 方法はどうあれ 取り込まれる必要があるだけです 447 00:29:05,051 --> 00:29:07,697 サイドプロジェクトを 探している方がいれば 448 00:29:07,697 --> 00:29:08,997 大量に 449 00:29:08,997 --> 00:29:13,280 分類された発音のファイルが コモンズの 450 00:29:13,280 --> 00:29:16,893 「Pronunciation(発音)」 項目に言語別にあり 451 00:29:16,893 --> 00:29:22,840 語彙素との一致と語彙素への掲載を ただ待っている状態です 452 00:29:23,180 --> 00:29:26,574 ロードマップについて 言えることはありますか 453 00:29:26,585 --> 00:29:28,757 投資額とか 454 00:29:28,757 --> 00:29:31,995 来たる年に 語彙素から期待できることなど 455 00:29:31,995 --> 00:29:34,020 私も待ちきれない一人ですから 456 00:29:34,949 --> 00:29:37,044 待ちきれないですか?(笑) 457 00:29:37,044 --> 00:29:39,198 - (聴衆6)期待してます - はい(笑) 458 00:29:44,541 --> 00:29:49,523 現在は ウィキベースと データの質のほうに力を入れて 459 00:29:51,493 --> 00:29:55,087 これがどれだけ けん引力を得られるか見ています 460 00:29:55,087 --> 00:30:01,676 その次に 解決が難しい 問題に取り組み 461 00:30:01,676 --> 00:30:06,003 その後 辞書学データの さらなる改善に戻る予定です 462 00:30:06,903 --> 00:30:09,790 あなたにお聞きしたいことの1つは 463 00:30:09,790 --> 00:30:14,136 次のステップとなる箇所と 464 00:30:14,136 --> 00:30:15,966 改善点を見たい箇所です 465 00:30:15,966 --> 00:30:20,340 そうすれば 実現の方法を考えます 466 00:30:21,125 --> 00:30:22,810 もちろん仰ることは正しく 467 00:30:22,810 --> 00:30:25,712 技術面での仕事は まだたくさんあります 468 00:30:30,573 --> 00:30:35,848 (聴衆7)バスク語の言葉を 語形と一緒にアップロードしていた際に 469 00:30:35,848 --> 00:30:37,768 こんなことがありました 470 00:30:37,768 --> 00:30:41,329 先週 私たち二人とも 自分たちが初だと言っていたら 471 00:30:42,919 --> 00:30:44,928 報道されて 472 00:30:44,928 --> 00:30:49,488 「バスク語で初の業績― 彼らが初の何かを」と 473 00:30:49,488 --> 00:30:50,606 (笑) 474 00:30:50,606 --> 00:30:53,318 そしてこれは何のためかと 聞かれたんです 475 00:30:54,678 --> 00:30:56,849 私たちには 良い答えがありませんでした 476 00:30:56,849 --> 00:30:57,888 これによって 477 00:30:57,888 --> 00:31:01,841 コンピュータが私たちの言語を 理解しやすくなるのは分かりますが 478 00:31:01,841 --> 00:31:05,279 将来 どんなツールを 開発できるでしょうか 479 00:31:05,279 --> 00:31:07,467 私には分かりませんが 480 00:31:07,467 --> 00:31:10,625 これに対する 良い答えをお持ちでしょうか 481 00:31:10,625 --> 00:31:12,742 (笑)私に良い答えがあるか 分かりませんが 482 00:31:12,742 --> 00:31:14,746 答えはあります 483 00:31:15,480 --> 00:31:20,425 現在は 先ほどお伝えしたように 484 00:31:20,425 --> 00:31:23,504 数々の興味深いツールを 開発できるような 485 00:31:23,504 --> 00:31:25,529 臨界点には達していません 486 00:31:25,529 --> 00:31:27,707 でもすでに ツールはいくつかあります 487 00:31:28,267 --> 00:31:31,912 例えば つい先日 エスター・パンデリアが 488 00:31:31,912 --> 00:31:33,817 ツールをリリースしました 489 00:31:35,837 --> 00:31:38,259 それは世界の言語が 490 00:31:38,259 --> 00:31:41,901 どこで話され どこから来ているか 分かるものです 491 00:31:42,631 --> 00:31:44,090 確かではありませんが 492 00:31:44,090 --> 00:31:46,726 ウィキデータのプロジェクトチャット上で 公表されました 493 00:31:46,726 --> 00:31:48,984 お調べいただけます 494 00:31:49,574 --> 00:31:53,527 ウィキペディア開始時に 見ていたように 495 00:31:53,527 --> 00:31:55,696 最初のツールを見ています 496 00:31:56,846 --> 00:31:59,602 最初は... ネットワークと同様 497 00:31:59,602 --> 00:32:03,424 徐々に繋がりが明らかになります 498 00:32:04,824 --> 00:32:07,059 データが増えるにつれ 499 00:32:07,059 --> 00:32:10,352 臨界に達して 500 00:32:11,852 --> 00:32:14,747 性能の良い アプリケーションが可能になります 501 00:32:15,677 --> 00:32:17,516 例えば ヒストロペディアや 502 00:32:19,126 --> 00:32:23,746 携帯端末での質疑応答や 503 00:32:23,746 --> 00:32:26,663 Platypusなどのようなものです 504 00:32:26,663 --> 00:32:29,668 語彙素でも 同様のものを見ています 505 00:32:31,198 --> 00:32:34,650 このようなものを 開発できる段階には来ていて 506 00:32:34,650 --> 00:32:37,464 関連性も分かっていて 507 00:32:37,864 --> 00:32:42,738 別の言語へ 言葉を翻訳できる段階なので 508 00:32:42,738 --> 00:32:47,747 開発につれ より多くの言葉を表すにつれ 509 00:32:47,747 --> 00:32:49,533 たくさんのことが可能になります 510 00:32:49,533 --> 00:32:51,795 何が可能になるかというと 511 00:32:53,482 --> 00:32:59,483 基調講演でベンが 翻訳についてお話したように 512 00:33:00,103 --> 00:33:03,455 1つの言語から別の言語へ 翻訳できます 513 00:33:03,486 --> 00:33:07,929 また同僚のイェンスが いつも言うことには 514 00:33:07,929 --> 00:33:11,452 欧州連合が 翻訳者を求めているそうで 515 00:33:11,452 --> 00:33:17,439 マルタ語から スウェーデン語へ翻訳できる― 516 00:33:17,439 --> 00:33:19,436 - (聴衆8)エストニア語です - 失礼 517 00:33:22,016 --> 00:33:26,211 あまりない組み合わせですね 518 00:33:27,211 --> 00:33:31,735 こうした言語がすべて 機械で読める1か所の場所にあれば 519 00:33:31,735 --> 00:33:33,143 翻訳できるのです 520 00:33:33,143 --> 00:33:36,857 エストニア語からマルタ語へ またはその逆でも翻訳できる 521 00:33:36,857 --> 00:33:41,735 辞書が手に入るのです 522 00:33:42,935 --> 00:33:45,607 今までは 例えばコストの面から 作業を正当化できるほど 523 00:33:45,607 --> 00:33:47,911 十分な需要がなかったため 524 00:33:47,911 --> 00:33:51,050 これまで辞書でカバーされていなかった 525 00:33:51,050 --> 00:33:55,540 言語の組み合わせがあったわけですが 526 00:33:55,540 --> 00:33:57,147 それが今は行えます 527 00:33:59,797 --> 00:34:02,318 それと テキスト生成です 528 00:34:02,318 --> 00:34:04,259 ルーシーが先ほど 529 00:34:04,259 --> 00:34:06,226 テキスト生成に関して 530 00:34:06,226 --> 00:34:10,136 少数言語で ウィキペディアの記事を開始するため 531 00:34:10,136 --> 00:34:14,673 ハッティとどのように 取り組んでいるかをお話しました 532 00:34:15,423 --> 00:34:19,512 それには 言葉に関するデータが必要で 533 00:34:19,512 --> 00:34:22,589 そのためには その言語について 理解する必要があります 534 00:34:23,769 --> 00:34:28,133 そうしたことが 今私に浮かんだアイデアです 535 00:34:28,693 --> 00:34:31,254 その壮大なデータが得られた場合 何をしたいか 536 00:34:31,254 --> 00:34:34,353 皆さんには もっとアイデアが あるかもしれませんね 537 00:34:37,693 --> 00:34:40,892 (聴衆9)語彙素のトピックから 外れますが 538 00:34:40,892 --> 00:34:42,666 質問させてください 539 00:34:42,666 --> 00:34:46,754 コミュニティーの一員として 仕事の優先順位に 540 00:34:46,754 --> 00:34:50,135 私はどう影響を与えられるでしょうか 541 00:34:50,144 --> 00:34:54,593 新規ユーザーが 秘密の合言葉なしに 542 00:34:54,593 --> 00:35:01,135 編集したい言語を 示せるようにできるのでしょうか 543 00:35:02,145 --> 00:35:04,264 ウィキペディアのトピックなしの 544 00:35:04,264 --> 00:35:07,040 技術的要望リストがいつの日か 訪れるかも知れません 545 00:35:07,040 --> 00:35:10,119 7年間放置されていたことが 546 00:35:10,119 --> 00:35:14,218 全員一致の意見で直すことに なるかも知れません 547 00:35:14,218 --> 00:35:17,607 これについて お考えやご意見は? 548 00:35:18,217 --> 00:35:20,328 仰っているのは 549 00:35:20,328 --> 00:35:23,518 ウィキデータに ログインしていない人が 550 00:35:23,518 --> 00:35:25,971 簡単に言語を変更できないという 問題ですか? 551 00:35:25,971 --> 00:35:28,132 (聴衆9)いいえ 新規ユーザーです 552 00:35:28,132 --> 00:35:30,689 新規ユーザーが ログインしていれば 553 00:35:30,689 --> 00:35:34,871 ページ上部で 言語を変更できますし 554 00:35:35,891 --> 00:35:39,769 ラベルの説明が [聞き取り不能]場所に 555 00:35:39,769 --> 00:35:42,013 それが表示され 556 00:35:42,013 --> 00:35:43,483 編集できます 557 00:35:45,657 --> 00:35:49,009 (聴衆9)大抵の ワークフローでは 558 00:35:49,009 --> 00:35:52,447 複数の言語を望めば 利用できますが 559 00:35:52,447 --> 00:35:55,419 いつもそうとは限りません 560 00:35:55,419 --> 00:35:58,584 この講演の後に 詳しく伺いましょう 561 00:36:01,562 --> 00:36:04,089 いいですね 他にご質問は? 562 00:36:05,534 --> 00:36:06,536 どうぞ 563 00:36:11,595 --> 00:36:13,196 (聴衆10)良いプレゼンでした 564 00:36:14,257 --> 00:36:18,091 ウィクショナリーのコミュニティーとの 相互関係の状態について 565 00:36:18,091 --> 00:36:19,307 ご意見をください 566 00:36:19,307 --> 00:36:20,956 私が見ている限り 567 00:36:20,956 --> 00:36:26,051 作業の重要な要素のインポートについて 議論がありますが 568 00:36:26,051 --> 00:36:30,843 ライセンスの問題や 異論などがあるようです 569 00:36:30,843 --> 00:36:31,848 はい 570 00:36:31,848 --> 00:36:34,520 ウィクショナリーのコミュニティーは 571 00:36:34,520 --> 00:36:39,473 ウィクショナリー開発に 長い時間をかけてきています 572 00:36:39,533 --> 00:36:42,774 彼らが開発してきた 573 00:36:42,774 --> 00:36:47,554 驚くほど難しく複雑な テンプレートは 574 00:36:47,554 --> 00:36:53,614 きれいな表を作成して フォームを自動生成してくれたり 575 00:36:53,614 --> 00:37:00,136 いろいろと素晴らしく 並外れたことをしてくれます 576 00:37:02,311 --> 00:37:07,994 もちろん 彼らは多くの時間と努力を 費やしてきています 577 00:37:09,364 --> 00:37:11,801 当然のことながら 578 00:37:11,801 --> 00:37:18,786 ただそんな具合に 誰かの手に渡したくはないのです 579 00:37:19,102 --> 00:37:21,791 ライセンスの問題は そこから生じているものもあります 580 00:37:22,761 --> 00:37:25,137 それでいいのです 581 00:37:25,737 --> 00:37:31,262 最初のウィクショナリーの コミュニティーが調整を行い 582 00:37:31,262 --> 00:37:34,329 ウィキデータへデータを インポートする話をしています 583 00:37:34,329 --> 00:37:39,095 ご覧になったロシア語は その一例で 584 00:37:40,375 --> 00:37:42,355 これは今後も起こると思います 585 00:37:43,635 --> 00:37:46,800 時間のかかるプロセスです 586 00:37:46,800 --> 00:37:49,753 ウィキペディアへ ウィキデータのデータを採用するのと同様 587 00:37:49,753 --> 00:37:51,909 時間がかかります 588 00:37:52,849 --> 00:37:58,625 語彙素データを 利用しやすくする一方で 589 00:37:58,632 --> 00:38:02,269 ウィクショナリーでも それを活用し 590 00:38:02,269 --> 00:38:05,531 語彙素とウィクショナリー間で データを共有できるようにするのは 591 00:38:05,531 --> 00:38:08,853 現状では困難です 592 00:38:08,853 --> 00:38:11,560 ウィキペディアであったように とんでもないことです 593 00:38:13,860 --> 00:38:16,325 誕生日プレゼントを お待ちください(笑) 594 00:38:20,038 --> 00:38:21,182 どうぞ 595 00:38:22,599 --> 00:38:25,950 (聴衆11)ばかげているので 言いたくなかったのですが 596 00:38:25,950 --> 00:38:28,168 逆の見方をしていました 597 00:38:28,168 --> 00:38:32,003 ウィクショナリーに すでにコンテンツがあっても 598 00:38:32,003 --> 00:38:34,248 ライセンスで違いがあるため 599 00:38:34,248 --> 00:38:37,048 ウィキデータに転送できないと 分かっていますが 600 00:38:37,048 --> 00:38:39,631 それに対処できるのではと 考えていました 601 00:38:40,321 --> 00:38:45,913 例えば コミュニティーの許可を得た後に 602 00:38:45,913 --> 00:38:51,205 公開投票などを行い 603 00:38:52,075 --> 00:38:56,601 コミュニティーに対しては アクティブなメンバーが投票し 604 00:38:56,601 --> 00:39:02,523 コンテンツ転送の 承認や可否について発言し 605 00:39:02,523 --> 00:39:05,528 それに対し ウィキデータの語彙素に 取り組めばいいと思います 606 00:39:06,238 --> 00:39:08,537 もったいないからです 607 00:39:09,568 --> 00:39:14,961 それはまさにウィクショナリーの コミュニティーにいる人たちが 608 00:39:14,961 --> 00:39:18,249 快く議題として取り上げるお話です 609 00:39:18,249 --> 00:39:24,647 私たちがそこで押し付けるのは 厚かましいですが 610 00:39:25,917 --> 00:39:31,142 話し合うのは 確かに価値があると思います 611 00:39:31,142 --> 00:39:34,972 ですが 法的に許可されることと 612 00:39:34,972 --> 00:39:39,082 私たちがすべきことと 613 00:39:39,082 --> 00:39:43,147 人々が望むこと 望まないことの間には 614 00:39:43,147 --> 00:39:45,426 相違があると 理解するのも重要です 615 00:39:45,736 --> 00:39:47,329 ですから 法的に許可されても 616 00:39:47,329 --> 00:39:50,640 ウィクショナリーの コミュニティーが望まなければ 617 00:39:50,640 --> 00:39:53,537 少なくとも 気を付けたほうがいいでしょう 618 00:39:58,886 --> 00:40:02,249 マイクをお持ちください 619 00:40:04,540 --> 00:40:07,299 (聴衆12)すべて素晴らしいお話でした 620 00:40:07,979 --> 00:40:12,319 すぐに思ったことは 私の生徒にどうやって伝えようかとか 621 00:40:12,319 --> 00:40:15,558 課程にどう組み込もうかとか 622 00:40:15,558 --> 00:40:18,531 私たちの仕事や 教育の場面などでした 623 00:40:18,531 --> 00:40:24,116 私には 現時点で まず十分な知識がありません 624 00:40:24,116 --> 00:40:27,278 ですが 今あるドキュメンテーションは 625 00:40:27,808 --> 00:40:30,082 改善の余地があると思います 626 00:40:30,082 --> 00:40:31,947 そこでリクエストしたいのは 627 00:40:31,947 --> 00:40:35,898 仕組みを説明してくれる動画です 628 00:40:35,898 --> 00:40:39,948 それがあれば 活用できます 629 00:40:39,948 --> 00:40:41,985 生徒に参加してもらったり 630 00:40:41,985 --> 00:40:47,072 どれだけ素晴らしいかを 人々に理解してもらえます 631 00:40:47,072 --> 00:40:52,001 ぜひドキュメンテーションと 教育についてお考えください 632 00:40:52,001 --> 00:40:54,480 多くの成果が得られるはずです 633 00:40:54,480 --> 00:40:58,585 たくさんの仕事を… 634 00:41:00,125 --> 00:41:02,033 小中学校とは言いませんが 635 00:41:02,033 --> 00:41:05,495 若い生徒たちに行ってもらえます 636 00:41:05,915 --> 00:41:10,866 その可能性を 取り入れていただければと思います 637 00:41:10,866 --> 00:41:15,272 現時点で 私は十分に理解していないので 638 00:41:15,272 --> 00:41:22,155 タスクの作成や実用的な仕事が できるわけではありません 639 00:41:22,155 --> 00:41:25,772 どんな支援や意見についても ここのどなたかがお持ちであれば 640 00:41:25,772 --> 00:41:29,648 ご自身のご意見も含め お聞かせいただければ 641 00:41:30,508 --> 00:41:32,129 ええ 後ほどお話しましょう 642 00:41:35,473 --> 00:41:37,139 他にご質問は? 643 00:41:37,809 --> 00:41:39,195 先ほど挙手がありましたが 644 00:41:39,195 --> 00:41:40,495 どなたでしょう 645 00:41:45,739 --> 00:41:49,996 (発言者13)ウィクショナリーから インポートできないなら 646 00:41:49,996 --> 00:41:55,730 他のパブリック ドメインのソースや あらゆるデータを見つけるための 647 00:41:55,730 --> 00:41:57,459 協調努力はありますか 648 00:41:58,769 --> 00:42:03,167 それを事前にフィルタリングしたり 整理したりすれば 649 00:42:03,167 --> 00:42:08,470 人々が確認して インポートしやすくなります 650 00:42:09,093 --> 00:42:11,181 努力はあります 651 00:42:11,181 --> 00:42:14,769 私の知る限り バスク語がその努力の1つですが 652 00:42:14,769 --> 00:42:17,474 それについて 仰りたいことがあればどうぞ 653 00:42:18,416 --> 00:42:20,120 (聴衆14)[聞き取り不能] 654 00:42:23,166 --> 00:42:27,148 解決策は それに対する支払いです... 655 00:42:28,374 --> 00:42:33,381 私たちには通常 一緒に仕事をしている 委託業者との契約があり 656 00:42:34,801 --> 00:42:38,094 彼らが辞書関連の仕事をしています 657 00:42:38,755 --> 00:42:42,458 他の業務に加えて 辞書関連の仕事をしています 658 00:42:42,458 --> 00:42:47,473 私たちは業者と生徒向けの無料の 辞書を開発する契約をしており 659 00:42:47,473 --> 00:42:50,499 最も一般的な言葉を[キャスト]し 660 00:42:50,499 --> 00:42:55,590 外部識別子やスキーマと共に アップロードするものです 661 00:42:56,420 --> 00:43:02,902 それをパブリック ドメイン(CC0)に することには議論がありました 662 00:43:03,012 --> 00:43:05,792 CCを伴う辞書を 所有しているからです 663 00:43:06,977 --> 00:43:10,011 彼らは相違点を理解していました 664 00:43:10,326 --> 00:43:13,746 ですから 議論はありましたが 665 00:43:13,746 --> 00:43:19,709 将来 私たちがツールや事例を 提供できると思いますし 666 00:43:19,709 --> 00:43:23,781 私たちが扱える 他の辞書も予定されています 667 00:43:24,016 --> 00:43:29,274 ウィクショナリーもその方向に 進み始めたほうがいいと思いますが 668 00:43:29,274 --> 00:43:32,260 それはまた 別の大きな議論が必要でしょう 669 00:43:33,285 --> 00:43:34,487 それに加えて 670 00:43:34,487 --> 00:43:38,839 オクシタン語の辞書に取り組む オクシタン出身の人々と 671 00:43:38,839 --> 00:43:41,827 リーアが連携して 672 00:43:41,827 --> 00:43:45,138 現在 シュメール語の コラボレーションに取り組んでいます 673 00:43:51,644 --> 00:43:53,363 他にご質問は? 674 00:44:01,487 --> 00:44:05,349 (聴衆15)オクシタン語のデータを インポートしたいのですが 675 00:44:05,349 --> 00:44:06,585 いいタイミングですね 676 00:44:06,585 --> 00:44:08,368 (聴衆15)少し問題があり 677 00:44:09,188 --> 00:44:14,215 多様な語彙素のすべてを表す 方法が分かりません 678 00:44:14,215 --> 00:44:17,893 私たちには6つの方言があり 679 00:44:17,893 --> 00:44:24,014 どの方言が使われているかを 語彙素に示したいのです 680 00:44:24,014 --> 00:44:27,285 でも それを行うのに 適切なC0文がありません 681 00:44:27,285 --> 00:44:31,585 セグメントが存在しない限り 682 00:44:31,635 --> 00:44:34,465 [聞き取り不能]ができません 683 00:44:34,465 --> 00:44:37,603 文へエキスポートできるようになった時に 684 00:44:37,603 --> 00:44:42,076 再度行う必要が出てくるからです 685 00:44:42,076 --> 00:44:47,801 たくさんの人が依頼する 文ではないので 複雑です 686 00:44:47,802 --> 00:44:53,054 大抵は少数言語に 関係する文だからです 687 00:44:53,444 --> 00:44:56,933 依頼するのが一人だけのこともあります 688 00:44:56,933 --> 00:45:00,022 ですが バスク語の同僚たちにとっては 689 00:45:00,022 --> 00:45:06,082 一人でも 何千もの他の人に 力を与えられるかもしれません 690 00:45:06,082 --> 00:45:10,884 ですから 依頼が多くなくても 691 00:45:10,884 --> 00:45:14,136 重要なのです 692 00:45:14,874 --> 00:45:17,600 新しいプロパティの提案は 済んでいますか? 693 00:45:17,600 --> 00:45:19,470 それとも提案に協力が必要ですか? 694 00:45:21,524 --> 00:45:24,300 (聴衆15)4か月前にお願いしました 695 00:45:24,720 --> 00:45:28,755 では誰かにそのプロパティの提案に 協力してもらいましょう 696 00:45:30,159 --> 00:45:33,092 この部屋に 実現してくれる人が 十分いるはずです 697 00:45:33,240 --> 00:45:35,922 (聴衆15)プロパティ提案 [フランス語] 698 00:45:36,105 --> 00:45:39,699 回答がなく方法が分かりません 699 00:45:39,699 --> 00:45:42,953 私たちはウィキデータの コミュニティーには属していませんから 700 00:45:44,694 --> 00:45:48,817 ええ ですから ここに協力できる人たちがいます 701 00:45:48,817 --> 00:45:52,134 ご協力いただける方は 手を挙げてください 702 00:45:52,234 --> 00:45:53,684 (聴衆14)私がやります 703 00:45:53,684 --> 00:45:55,512 語形の異形だけでなく 704 00:45:55,512 --> 00:46:02,359 座標や何らかのマッピングで それを地理的にも扱えるのが 705 00:46:02,359 --> 00:46:04,747 とても興味深いです 706 00:46:05,595 --> 00:46:07,815 異なる発音があるということも 707 00:46:07,815 --> 00:46:11,837 たくさんの言語に 当てはまることだと思います 708 00:46:12,607 --> 00:46:16,262 実現に向けて取り組むべきです 709 00:46:16,262 --> 00:46:18,865 プロパティを検索します 710 00:46:19,782 --> 00:46:20,933 いいですね 711 00:46:20,933 --> 00:46:24,446 あなたのプロパティ提案に サポートがあるはずです 712 00:46:26,136 --> 00:46:27,297 ありがとうございます 713 00:46:28,153 --> 00:46:30,261 他にご質問は? 714 00:46:32,410 --> 00:46:33,474 フィン 715 00:46:33,974 --> 00:46:37,515 フィンは辞書学データを基に 開発している者の一人です 716 00:46:38,031 --> 00:46:40,085 (フィン)ちょっとした質問ですが 717 00:46:40,405 --> 00:46:44,226 異なる綴りについてです 718 00:46:44,896 --> 00:46:48,002 作業が難しいようです 719 00:46:48,532 --> 00:46:53,368 もちろん 同じ言葉に 複数の語形がある場合はありますが 720 00:46:56,327 --> 00:46:58,448 どうやら… 721 00:46:59,558 --> 00:47:03,535 そうでなければ 規定が難しく 722 00:47:04,771 --> 00:47:09,578 単に小さな技術面での問題なのか 分かりませんが 723 00:47:09,731 --> 00:47:11,252 後で一緒に話しましょう 724 00:47:11,642 --> 00:47:15,230 例を見てみたいです 725 00:47:17,478 --> 00:47:18,478 アザーフ 726 00:47:26,886 --> 00:47:28,396 (アザーフ)ありがとう 727 00:47:29,386 --> 00:47:33,685 私の母国語ヘブライ語から 具体例を挙げますと 728 00:47:34,205 --> 00:47:38,845 ヘブライ語には ほぼすべての言葉の表現に 729 00:47:38,845 --> 00:47:42,786 2つ主な異形があります 730 00:47:42,786 --> 00:47:49,864 伝統的な綴りでは 多くの母音が除外されるからです 731 00:47:50,934 --> 00:47:55,049 ですから 聖書や詩の現代版では 732 00:47:55,207 --> 00:47:56,991 付加記号が使われています 733 00:47:57,461 --> 00:48:00,166 しかしながら こうした付加記号は 734 00:48:00,166 --> 00:48:04,074 現代の散文や新聞記事や 道路標識などでは 735 00:48:04,074 --> 00:48:05,974 全く使われていません 736 00:48:05,974 --> 00:48:11,209 ですから 平均的な 日常のカジュアルな使用では母音を加え 737 00:48:12,169 --> 00:48:13,519 付加記号を使いません 738 00:48:13,519 --> 00:48:15,310 より面倒なことになり 739 00:48:15,310 --> 00:48:18,033 いろいろな規則があるものの 誰も理解していないからです 740 00:48:18,633 --> 00:48:20,531 ですから 2つの異形があって 741 00:48:20,531 --> 00:48:25,322 日常のカジュアルな散文で 使われるものと 742 00:48:25,322 --> 00:48:30,307 常に伝統的な 記号が付加された文章で現れる 743 00:48:30,307 --> 00:48:32,200 聖書や詩で使われるものです 744 00:48:32,200 --> 00:48:33,772 語彙素が役立つには 745 00:48:33,772 --> 00:48:37,428 ありとあらゆる言葉と ありとあらゆる言葉の語形の 746 00:48:37,428 --> 00:48:39,747 両方の異形を 認識する必要があります 747 00:48:40,677 --> 00:48:43,391 これは公式の不変の異形に対する 748 00:48:43,391 --> 00:48:46,340 とても包括的なユースケースです 749 00:48:46,340 --> 00:48:48,942 方言ではなく 地域でもなく 750 00:48:49,332 --> 00:48:53,627 2つの共存している 形態体系なのです 751 00:48:54,537 --> 00:48:58,926 現在の語彙素でこれを表す方法を 私もよく分かっていません 752 00:48:58,926 --> 00:49:02,720 マグナスの質問に一部 回答することになりますがー 753 00:49:02,720 --> 00:49:05,668 公開されている最大のヘブライ語辞書から 準備できている部分を 754 00:49:05,668 --> 00:49:08,102 私がアップロードできていない 理由の1つです 755 00:49:08,102 --> 00:49:13,141 その辞書は私が7年間デジタル化しており 756 00:49:13,141 --> 00:49:14,803 かなりの量が準備できていますが 757 00:49:14,803 --> 00:49:16,549 現在語彙素に移していません 758 00:49:16,549 --> 00:49:20,245 この問題の解決法が よく分からないからです 759 00:49:20,245 --> 00:49:23,387 では その問題を ここで解決しましょう(笑) 760 00:49:24,503 --> 00:49:26,021 可能なはずです 761 00:49:30,045 --> 00:49:32,047 では 他に質問は? 762 00:49:37,173 --> 00:49:39,735 なければ以上です ありがとうございました 763 00:49:40,605 --> 00:49:42,675 (拍手)