1 00:00:00,000 --> 00:00:15,379 *Wikipaka Intro Musik* 2 00:00:15,379 --> 00:00:18,320 Florian: Herzlich willkommen zu unserem Talk "Wir wissen, was ihr letzten Sommer 3 00:00:18,320 --> 00:00:21,550 gesagt habt". Wir sind sehr aufgeregt und freuen uns sehr, dass wir das heute 4 00:00:21,550 --> 00:00:27,160 vorstellen dürfen. Wir sind Philip Koch und Florian Richter und wir wollen euch 5 00:00:27,160 --> 00:00:31,880 heute unser Projekt Open Discourse vorstellen und inwiefern Open Discourse 6 00:00:31,880 --> 00:00:36,920 die Transparenz des Bundestages erhöhen kann. An Open Discourse haben wir die 7 00:00:36,920 --> 00:00:41,350 letzten anderthalb Jahre gearbeitet, in einem Team von insgesamt neun Personen. 8 00:00:41,350 --> 00:00:48,710 Und genau. Worüber wollen wir euch eigentlich heute erzählen? Für Open 9 00:00:48,710 --> 00:00:53,519 Discourse haben wir die Plenarprotokolle des Deutschen Bundestages aufgearbeitet 10 00:00:53,519 --> 00:00:58,900 und die Plenarprotokolle seht ihr hier auf der rechten Seite, die sehen so aus. Das 11 00:00:58,900 --> 00:01:05,560 heißt für jede Sitzung im Bundestag gibt es Stenograph:innen, die jedes gesprochene 12 00:01:05,560 --> 00:01:09,400 Wort von den Parteien bzw. von den Politiker:innen, die gerade eine Rede 13 00:01:09,400 --> 00:01:16,940 halten, aufzeichnen. Und außerdem wird auch jeder Zwischenruf, jede Reaktion aus 14 00:01:16,940 --> 00:01:21,660 dem Plenum mit aufgezeichnet. Diese Plenarprotokolle stellt der Bundestag zur 15 00:01:21,660 --> 00:01:27,709 Verfügung, seit 1949. Allerdings als PDF- Dokument. Das birgt natürlich einige 16 00:01:27,709 --> 00:01:32,440 Probleme, weil PDF Dokumente sind nicht gut durchsuchbar, weil wir jetzt z.B. 17 00:01:32,440 --> 00:01:36,239 nicht gezielt suchen könnten, was ein bestimmter Politiker einer bestimmten 18 00:01:36,239 --> 00:01:41,630 Partei im Jahre 1950 beispielsweise gesagt hat. Das heißt, das ist das Problem, das 19 00:01:41,630 --> 00:01:45,800 wir eigentlich haben. Aber eigentlich beinhalten diese Plenarprotokoll ziemlich 20 00:01:45,800 --> 00:01:52,029 viel wertvolle Information. Weil beispielsweise natürlich die einzelnen 21 00:01:52,029 --> 00:01:57,260 Redebeiträge, die Zwischenrufe usw, diese sind aber als Fließtext in diesem PDF 22 00:01:57,260 --> 00:02:00,320 enthalten. Das heißt, wir brauchen eigentlich irgendeinen Weg, um das 23 00:02:00,320 --> 00:02:04,179 herauszubrechen. Und genau, das gab's bisher noch nicht. Mit Open Discourse 24 00:02:04,179 --> 00:02:09,429 haben wir es jetzt erstmals geschafft, seit 1949 alle Reden, alle Zwischenrufe, 25 00:02:09,429 --> 00:02:15,460 alle Reaktionen und so weiter herauszuarbeiten. Warum machen wir das 26 00:02:15,460 --> 00:02:20,200 eigentlich? Die Motivation hinter Open Discourse beruht im Kern darauf, dass wir 27 00:02:20,200 --> 00:02:23,350 davon ausgehen oder wir finden, das Plenarprotokolle eigentlich eine ziemlich 28 00:02:23,350 --> 00:02:28,970 wertvolle Ressource sind und die Debatten im Bundestag ja eigentlich so transparent 29 00:02:28,970 --> 00:02:32,680 wie möglich stattfinden sollten. Das heißt, wir alle haben ein Recht darauf, 30 00:02:32,680 --> 00:02:36,770 auch noch nach 20 Jahren zu wissen, was eine bestimmte Politikerin oder ein 31 00:02:36,770 --> 00:02:43,700 bestimmter Politiker zu einem bestimmten Thema gesagt hat. Was auffällt, wenn wir 32 00:02:43,700 --> 00:02:49,970 uns Plenarprotokolle und die Befassung mit Plenarprotokollen ansehen, ist, dass das vor 33 00:02:49,970 --> 00:02:52,580 allen Dingen in der deutschen Politikwissenschaft eigentlich ein Thema 34 00:02:52,580 --> 00:02:59,230 ist, das nicht besonders oft angefasst wird. Es ist unterrepräsentiert in der 35 00:02:59,230 --> 00:03:03,280 Forschung. Das hat mehrere Gründe: Zum einen.. oder zwei Hauptgründe 36 00:03:03,280 --> 00:03:06,860 wahrscheinlich. Zum einen ist die deutsche Politikwissenschaft eher aus der 37 00:03:06,860 --> 00:03:10,390 politischen Ideengeschichte erwachsen. Das heißt, man kümmert sich eigentlich eher 38 00:03:10,390 --> 00:03:14,670 qualitativ um Texte als quantitativ. Das ändert sich in den letzten Jahren ein 39 00:03:14,670 --> 00:03:18,541 bisschen. Aber im Kern befasst sich die deutsche Politikwissenschaft immer noch 40 00:03:18,541 --> 00:03:22,530 relativ wenig mit dem Plenardebatten. Und der große Grund dafür ist dann natürlich 41 00:03:22,530 --> 00:03:26,090 auch, dass diese Plenarprotokolle bisher noch nicht maschinenlesbar und nicht 42 00:03:26,090 --> 00:03:29,990 leicht auswertbar vorlagen. Man kann sich vorstellen, wenn man jetzt nach einer 43 00:03:29,990 --> 00:03:34,160 gezielten Fragestellung die Plenarprotokolle untersuchen möchte, 44 00:03:34,160 --> 00:03:37,690 müsste man im Zweifelsfall über 4 000 Protokolle händisch durchlesen, um zu 45 00:03:37,690 --> 00:03:41,280 schauen: In welchem Protokoll steht jetzt irgendeine Information, die wichtig ist 46 00:03:41,280 --> 00:03:47,830 für meine Fragestellung. In den letzten Jahren sehen wir aber, dass das Interesse 47 00:03:47,830 --> 00:03:51,480 an diesen Plenarprotokollen zunehmend wächst. Und an der Stelle haben wir uns 48 00:03:51,480 --> 00:03:56,660 gedacht, als Team aus in erster Linie Data Scientists und Software Developern, dass 49 00:03:56,660 --> 00:04:00,800 wir eigentlich die Skills dazu haben, diese Daten aufzubereiten und der 50 00:04:00,800 --> 00:04:05,370 Öffentlichkeit zur Verfügung zu stellen. Genau. Das ist also der der aktuelle 51 00:04:05,370 --> 00:04:10,210 Stand. Wir haben das große Problem, dass es keine einfache Möglichkeit gibt, diese 52 00:04:10,210 --> 00:04:13,850 Plenarprotokolle zu durchsuchen und diese Plenarprotokolle auch nicht 53 00:04:13,850 --> 00:04:19,709 maschinenlesbar sind, wir also keine aktuellen Analysemethoden über diesen 54 00:04:19,709 --> 00:04:23,720 Textkorpus laufen lassen können. Unsere Ziele, die wir uns gesetzt haben für 55 00:04:23,720 --> 00:04:28,849 dieses Projekt, waren mehr Transparenz des politischen Diskurses in Deutschland, eine 56 00:04:28,849 --> 00:04:32,569 detaillierte Durchsuchbarkeit der Plenardebatten, ein öffentlicher und 57 00:04:32,569 --> 00:04:36,939 möglichst niedrigschwelliger Zugang zu diesen Daten, die Anschlussfähigkeit 58 00:04:36,939 --> 00:04:41,279 unseres Projektes, damit dieses Projekt weiterentwickelt werden kann, dass neue 59 00:04:41,279 --> 00:04:46,759 Projekte daraus entstehen können. Und natürlich, dass mit diesen Daten auch 60 00:04:46,759 --> 00:04:51,149 geforscht werden kann und wir demnach ein wissenschaftliches Niveau für diese Daten 61 00:04:51,149 --> 00:04:57,169 brauchen. Ok, kurz zum Status Quo. In den letzten Jahren, wie gerade angesprochen 62 00:04:57,169 --> 00:05:02,960 hat sich natürlich das Interesse für diese Plenarprotokoll deutlich erhöht. 2017 63 00:05:02,960 --> 00:05:06,779 beispielsweise gab es das sehr spannende Projekt Offenes Parlament, was von der 64 00:05:06,779 --> 00:05:12,689 Open Knowledge Foundation getrieben wurde oder durchgeführt wurde. In diesem Projekt 65 00:05:12,689 --> 00:05:17,330 wurden die Plenarprotokolle der 18. Wahlperiode aufgearbeitet und diese waren 66 00:05:17,330 --> 00:05:20,889 dann auch granular durchsuchbar, das heißt, wir hatten Dimensionen zum Datum, 67 00:05:20,889 --> 00:05:27,240 zum Inhalt der Redebeiträge, welche Person diesen Redebeitrag gehalten hat usw. 68 00:05:27,240 --> 00:05:32,599 Ebenfalls 2017 und 2018 kamen die Projekte ParlSpeech und GermaParl und wurden 69 00:05:32,599 --> 00:05:37,520 veröffentlicht. Das sind zwei wissenschaftliche Projekte, die ebenfalls 70 00:05:37,520 --> 00:05:43,409 sehr granular die Redebeiträge aufbereitet haben des Bundestages. Allerdings im Falle 71 00:05:43,409 --> 00:05:46,449 von ParlSpeech, die haben dieses Jahr nochmal ein Update von ihrem Datensatz 72 00:05:46,449 --> 00:05:51,580 gemacht. Reicht jetzt von der 12. bis 19. Wahlperiode. Bei GermaParl sind aktuell 73 00:05:51,580 --> 00:05:56,010 die 13. bis zur 18. Wahlperiode abgedeckt. D.h. wir haben da auch nicht den 74 00:05:56,010 --> 00:06:02,860 kompletten Umfang der Plenardebatten. Und an dieser Stelle vor einem Jahr haben 75 00:06:02,860 --> 00:06:07,960 Martin Haars und Kai Biermann das Projekt vorgestellt, das Zeit Online 76 00:06:07,960 --> 00:06:15,070 veröffentlicht hat, wo das erste Mal alle oder jedes gesprochene Wort seit 1949 77 00:06:15,070 --> 00:06:20,129 bereitgestellt wurde und es möglich war, eine Keyword Suche über diesen Korpus zu 78 00:06:20,129 --> 00:06:24,379 laufen zu lassen. Das heißt, man konnte dadurch erstmals schauen: Wie hat sich 79 00:06:24,379 --> 00:06:30,189 beispielsweise das Keyword Umweltschutz in den Debatten dargestellt? Wie hat sich das 80 00:06:30,189 --> 00:06:35,889 verändert über die Zeit? Genau. An dieser Stelle gebe ich jetzt an Philipp weiter 81 00:06:35,889 --> 00:06:38,610 und er wird euch mal erklären, was wir jetzt eigentlich mit Open Discourse noch 82 00:06:38,610 --> 00:06:41,880 zusätzlich machen können. Philipp: Genau. Also wir sehen so ein 83 00:06:41,880 --> 00:06:45,460 bisschen oder wir erinnern euch oder viele von euch erinnern sich vielleicht an den 84 00:06:45,460 --> 00:06:51,849 den Talk von Martin Haase und Kai Biermann vor einem Jahr. Da haben die gezeigt, wie 85 00:06:51,849 --> 00:06:57,139 sie diese Worte über die Zeit analysiert haben und haben auch gezeigt, welche 86 00:06:57,139 --> 00:07:00,210 Beschimpfungen in Deutschen Bundestag relativ typisch waren. Also wir haben 87 00:07:00,210 --> 00:07:05,689 sowas wie Heuchler und Lügner:in und Idioten und Lümmel und Flegel. Und nur um 88 00:07:05,689 --> 00:07:10,069 da so ein Stück anzuknüpfen und um zu zeigen, wie wir an dieser Stelle ansetzen 89 00:07:10,069 --> 00:07:13,899 können und das ein Stück weiter denken können, hab ich euch das mal mitgebracht 90 00:07:13,899 --> 00:07:18,330 und hab euch mal geplottet über die Zeit, wie häufig mit welcher relativen 91 00:07:18,330 --> 00:07:22,710 Häufigkeit Beschimpfungen im Deutschen Bundestag passiert sind. Und wir sehen, 92 00:07:22,710 --> 00:07:28,599 dass es eine Zeit gab, in der mal mehr und mal weniger beschimpft wurde. Und was wir 93 00:07:28,599 --> 00:07:31,360 jetzt aber machen können mit dem Open Discourse Datensatz: Wir können neue 94 00:07:31,360 --> 00:07:35,270 Dimensionen hinzufügen, denn wir haben nicht mehr nur das reine gesprochene Wort, 95 00:07:35,270 --> 00:07:37,370 sondern wir haben all die Metainformationen, weil wir wissen, wer 96 00:07:37,370 --> 00:07:41,819 dieses Wort gesprochen hat. Ich kann also gucken, ob Männer oder Frauen mehr 97 00:07:41,819 --> 00:07:45,599 geflucht haben und ich stelle fest, dass Männer mit großem großem Abstand mehr 98 00:07:45,599 --> 00:07:48,620 fluchen als Frauen. Männer sind diejenigen, die das treiben im Deutschen 99 00:07:48,620 --> 00:07:52,080 Bundestag, und die fluchen und beschimpfen und beleidigen. Wenn ich die Frauen 100 00:07:52,080 --> 00:07:55,889 dagegen plotte - Das erste Mal, dass eine Frau im Deutschen Bundestag mit der 101 00:07:55,889 --> 00:08:03,339 Auswahl dieser Beschimpfungen geflucht hat, war 1977 ungefähr. Und auch so reden 102 00:08:03,339 --> 00:08:09,569 Frauen deutlich, deutlich deutlich weniger quasi in diesem Wortschatz. Und das Ganze 103 00:08:09,569 --> 00:08:11,969 können wir jetzt immer und immer weiter berechnen, denn wir haben mit Open 104 00:08:11,969 --> 00:08:16,090 Discourse die Dimensionalität, um diese Fragestellungen zu beantworten. Fluchen war 105 00:08:16,090 --> 00:08:20,559 z.B. früher ein Thema von Doktor:innen. Das heißt, Abgeordnete mit einem 106 00:08:20,559 --> 00:08:26,339 akademischen Grad haben deutlich mehr geflucht und erst in den 85er Jahren haben 107 00:08:26,339 --> 00:08:30,569 dann auch nicht Doktor:innen angefangen, stärker zu fluchen und Beschimpfungen in 108 00:08:30,569 --> 00:08:35,969 ihren Wortschatz aufzunehmen. Wir können weiter reingucken und können gucken, wer 109 00:08:35,969 --> 00:08:39,970 denn eigentlich flucht. Also wenn ich jetzt mal vergleichen möchte, wie die die 110 00:08:39,970 --> 00:08:42,779 Mitte rechts und die Mitte Links Fraktion im Deutschen Bundestag, wie die sich 111 00:08:42,779 --> 00:08:47,180 unterscheiden in ihrer Nutzung von Schimpfworten, dann kann ich feststellen, 112 00:08:47,180 --> 00:08:51,460 dass ungefähr seit den 85er Jahren das Fluchen eine typisch linke Disziplin ist. 113 00:08:51,460 --> 00:08:55,800 Das ist in der Mitte Links Fraktion ziemlich verortet, jetzt in dem Fall hier 114 00:08:55,800 --> 00:09:02,420 definiert als SPD, Linke, PDS und Grüne im Vergleich zur CDU, CSU, FDP-Fraktion, die 115 00:09:02,420 --> 00:09:08,230 ein gutes Stück weniger flucht. Wir können auch bis auf die einzelne Person 116 00:09:08,230 --> 00:09:11,970 runtergehen und wir können die Gewinner im Beschimpfen des Deutschen Bundestages seit 117 00:09:11,970 --> 00:09:16,480 1949 küren. Vielleicht hat jemand von euch eine Idee, wer da so drinsteckt. Auf Platz 118 00:09:16,480 --> 00:09:22,460 vier ist es Norbert Blüm von der CDU. Auf Platz drei ist es Carlo Schmidt von der 119 00:09:22,460 --> 00:09:27,370 SPD, ein bisschen früherer Politiker. Auf Platz zwei, Ottmar Schreiner von der SPD. 120 00:09:27,370 --> 00:09:32,600 Und auf Platz eins ist es Franz Josef Strauß von der CSU, der mit großem Abstand 121 00:09:32,600 --> 00:09:38,050 die meisten Flüche im Deutschen Bundestag gesprochen hat. Ihr seht also: Das, was 122 00:09:38,050 --> 00:09:41,699 wir mit Open Discourse machen können, ist, wir können dem gleichen Projekt, was auch 123 00:09:41,699 --> 00:09:45,550 die Kollegen von der Zeit haben, Mehrdimensionalität hinzufügen, weil wir 124 00:09:45,550 --> 00:09:51,380 in unserem Korpus eine Realität abbilden können und den gesamten PDF-Datensatz 125 00:09:51,380 --> 00:09:56,080 quasi komplett als Datenbank-Struktur verfügbar gemacht haben. Das heißt, was 126 00:09:56,080 --> 00:10:01,889 wir früher konnten ist, wir konnten Worte über eine Zeit plotten. Das war so der 127 00:10:01,889 --> 00:10:07,170 Status quo. Und was wir jetzt gemacht haben ist, wir haben diesen Fließtext, 128 00:10:07,170 --> 00:10:11,380 dieses PDF umgebrochen in eine Datenbankstruktur und können das jetzt 129 00:10:11,380 --> 00:10:15,290 beliebig filtern und beliebig analysieren und können da sehr, sehr, sehr tief in die 130 00:10:15,290 --> 00:10:20,740 quantitativen Analysen gehen. Das heißt, wir fügen diesen Plenardebatten mehr 131 00:10:20,740 --> 00:10:25,360 Dimensionalität hinzu. Früher also Worte und Zeit und heute eben auch, welche 132 00:10:25,360 --> 00:10:28,990 Person gesprochen hat und damit eben auch welche Fraktion, welche 133 00:10:28,990 --> 00:10:34,260 Regierungsposition, welches Geschlecht, welches Alter hat der oder die Sprechende? 134 00:10:34,260 --> 00:10:38,639 Was ist der Beruf der sprechenden Person? Der akademische Grad, die Jahre im 135 00:10:38,639 --> 00:10:45,220 Bundestag? Der Geburtsort, der Adelstitel. Und wir haben natürlich auch alle 136 00:10:45,220 --> 00:10:47,810 Reaktionen und Interaktionen des Bundestag. Das heißt, wir können genau 137 00:10:47,810 --> 00:10:53,069 gucken, welche Personen, welche Fraktion lacht oder amüsiert sich oder klatscht. 138 00:10:53,069 --> 00:10:57,269 Und welche Einzelpersonen sind es denn, wenn es irgendwelche Zwischenrufe sind? 139 00:10:57,269 --> 00:11:01,319 Und wenn wir uns das so einer Größe angucken, dann haben wir ein Datensatz, 140 00:11:01,319 --> 00:11:07,240 bei dem wir etwa 331 Tausend Plenarseiten ausgewertet haben seit 1949. Wir haben 141 00:11:07,240 --> 00:11:13,120 dadurch 211 Millionen Tokens, also Worte, in unserem Datensatz von ungefähr 900 000 142 00:11:13,120 --> 00:11:19,080 Redebeiträgen, die wir verzeichnet haben, gesprochen von 4100 Politiker:innen. 143 00:11:19,080 --> 00:11:23,420 Darauf haben wir dann 2,2 Millionen Reaktionen und Zwischenrufe des Plenums 144 00:11:23,420 --> 00:11:29,380 von insgesamt 27 Fraktionen und Gruppen seit der Gründung des Bundestages. Wie 145 00:11:29,380 --> 00:11:32,931 haben wir das gemacht? Vielleicht ein ganz kurzes Wort dazu, was dahinter steckt. Wir 146 00:11:32,931 --> 00:11:37,230 haben die öffentlich verfügbaren Daten genommen, die, die daliegen. Das heißt, 147 00:11:37,230 --> 00:11:40,589 das sind die Plenarprotokolle des Bundestages als PDF. Wir haben das 148 00:11:40,589 --> 00:11:43,980 angereichert mit den Stammdaten der Abgeordneten, die auch der Bundestag 149 00:11:43,980 --> 00:11:48,279 erfasst und selbst herausgibt. Und wir haben die Liste der deutschen 150 00:11:48,279 --> 00:11:52,399 Regierungsmitglieder seit 1949 noch mit dazugegeben, denn es gab relativ viele 151 00:11:52,399 --> 00:11:57,029 oder es gab einige Regierungsmitglieder, die selbst kein Bundestagsmandat haben. 152 00:11:57,029 --> 00:12:01,620 Auch die haben wir hinzugefügt. Und dann haben wir diese unendlich langen Texte 153 00:12:01,620 --> 00:12:05,910 eben vorwiegend durch Regular Expressions gefiltert. Das heißt, wir haben die 154 00:12:05,910 --> 00:12:09,470 relevanten Teile und Protokolle extrahiert. Wir haben das aufgegliedert. 155 00:12:09,470 --> 00:12:12,870 Und wir haben dann eben nach Redebeiträge, nach Redner:innen, Zwischenrufe, 156 00:12:12,870 --> 00:12:19,519 Reaktionen unterteilt. Das war mal einer der längsten Regular Expression Strings. 157 00:12:19,519 --> 00:12:23,370 Der war dann irgendwann so lang, wir haben dann irgendwann unserem Head of Regular 158 00:12:23,370 --> 00:12:27,199 Expressions das auf ein T-Shirt gedruckt. Das hatte die gute Vorderseite genutzt. 159 00:12:27,199 --> 00:12:31,360 Und nach diesen ganzen Regular Expressions haben wir dann auch viel Fuzzy Search und 160 00:12:31,360 --> 00:12:35,550 Matching gemacht, um eben die Fehler auch in dem Plenarprotokoll auszumerzen. Das 161 00:12:35,550 --> 00:12:38,670 heißt, Politiker:innen sind falsch geschrieben, irgendwelche Worte sind 162 00:12:38,670 --> 00:12:43,750 zerrissen. Und um das alles wieder zusammenzuführen, haben wir dann Fuzzy 163 00:12:43,750 --> 00:12:49,620 String Matching angeführt. Florian: Genau, und an der Stelle kommt 164 00:12:49,620 --> 00:12:53,240 ihr jetzt eigentlich ins Spiel. Das heißt, was wir im Kern machen wollten und jetzt 165 00:12:53,240 --> 00:12:58,250 geschafft haben, ist diesen die, dieses Korpus oder diesen Datensatz so 166 00:12:58,250 --> 00:13:03,099 bereitzustellen, dass ihr euch den auschecken könnt und eigene Analysen mit 167 00:13:03,099 --> 00:13:08,660 diesen Daten durchführen könnt. Das heißt, der Open Discourse Datensatz und das ganze 168 00:13:08,660 --> 00:13:13,850 Repository dazu ist veröffentlicht. Ihr könnt euch den Source Code anschauen, 169 00:13:13,850 --> 00:13:17,730 auschecken, die Datenbank bei euch lokal aufbauen. Und ihr habt noch ein paar 170 00:13:17,730 --> 00:13:22,420 andere Möglichkeiten, auf die ich später noch genauer ein. Genau. Das Spannende, 171 00:13:22,420 --> 00:13:26,689 finden wir, an diesem Datensatz ist jetzt, dass es erstmals möglich ist, Analysen 172 00:13:26,689 --> 00:13:32,110 durchzuführen, die vorher in der Form nicht durchführbar waren. Und während wir 173 00:13:32,110 --> 00:13:35,529 auf eure Analysen warten, zeigen wir euch ein paar Analysen, die wir schon mal 174 00:13:35,529 --> 00:13:39,710 durchgeführt haben, um euch eine kleine Inspiration zu geben, was denn eigentlich 175 00:13:39,710 --> 00:13:44,240 möglich ist. Und an dieser Stelle ein kleiner Disclaimer: Alles, was wir jetzt 176 00:13:44,240 --> 00:13:48,640 gleich zeigen, dient als Inspiration. Wir haben die Analysen mit größter Sorgfalt 177 00:13:48,640 --> 00:13:53,390 durchgeführt. Aber es ist keine politikwissenschaftliche Forschung. Und 178 00:13:53,390 --> 00:13:56,529 gerade weil wir jetzt über Politik sprechen, sollten wir an dieser Stelle ein 179 00:13:56,529 --> 00:13:59,959 bisschen vorsichtig sein. Wir sind uns weitestgehend sicher, dass die Ergebnisse, 180 00:13:59,959 --> 00:14:03,870 die wir euch präsentieren, sehr plausibel und weitestgehend korrekt sein werden. 181 00:14:03,870 --> 00:14:08,029 Aber wie gesagt, das ist jetzt keine politikwissenschaftliche Forschung, das 182 00:14:08,029 --> 00:14:11,320 ist nicht durch ein Peer Review Prozess gegangen. Soweit als kleiner Disclaimer 183 00:14:11,320 --> 00:14:17,980 dazu. Okay, wir gucken uns jetzt folgend zwei große Themen an, die in der 184 00:14:17,980 --> 00:14:22,790 Geschichte der Bundesrepublik ziemlich große Relevanz hatten. Und wir starten mit 185 00:14:22,790 --> 00:14:27,120 dem Thema Datenschutz. Und wir könnten jetzt dieses Thema so untersuchen, wie es 186 00:14:27,120 --> 00:14:31,829 traditionell bisher immer möglich war. Das heißt, wir schauen uns mal an, wie oft 187 00:14:31,829 --> 00:14:36,960 eigentlich das Wort Datenschutz in den Plenarsitzungen gesagt wurde. Und wenn wir 188 00:14:36,960 --> 00:14:41,980 das machen Sie das ungefähr so aus. Das heißt, wir haben die erste Nennung des 189 00:14:41,980 --> 00:14:47,881 Begriffs Datenschutz Anfang der siebziger Jahre. Das würde ungefähr so passen, weil 190 00:14:47,881 --> 00:14:53,250 in dem Zeitraum auch Hessen als erstes Land oder sogar weltweit das erste 191 00:14:53,250 --> 00:14:58,149 Datenschutzgesetz verabschiedet hat. Das heißt, damals wurde der Begriff 192 00:14:58,149 --> 00:15:03,490 anscheinend das erste Mal genutzt, auch im Bundestag. Und ab dann ging es weiter. Wir 193 00:15:03,490 --> 00:15:08,099 sehen einen kleinen Abfall in den 90ern, einen Anstieg dann wieder in den 2000er 194 00:15:08,099 --> 00:15:14,769 Jahren. Genau. Aber das ist eigentlich noch nicht gut interpretierbar. Wir haben 195 00:15:14,769 --> 00:15:17,200 jetzt einfach nur die Worthäufigkeiten. Wir wissen nicht, wer hat das eigentlich 196 00:15:17,200 --> 00:15:21,629 gesagt hat. Das heißt, an der Stelle nutzen wir jetzt unseren Open Discourse 197 00:15:21,629 --> 00:15:26,130 Korpus, um uns das ein bisschen genauer anzuschauen. Was wir zusätzlich jetzt noch 198 00:15:26,130 --> 00:15:31,850 gemacht haben, ist: Wir haben ein LDA Topic Modeling trainiert. Das funktioniert 199 00:15:31,850 --> 00:15:37,209 im Wesentlichen so, dass wir davon ausgehen... bzw. ein LDA Topic Modeling 200 00:15:37,209 --> 00:15:42,999 ist dafür da oder kann genutzt werden, um latente Themen in Textkorpora zu 201 00:15:42,999 --> 00:15:48,360 ermitteln. Und wir wollen uns ja das Thema Datenschutz ansehen. Das heißt, wir müssen 202 00:15:48,360 --> 00:15:52,219 versuchen, ein LDA Topic Modeling so zu trainieren, dass wir dieses 203 00:15:52,219 --> 00:15:56,410 Datenschutzthema auch finden in unseren Daten. Natürlich nur, solange es da ist. 204 00:15:56,410 --> 00:15:59,560 Glücklicherweise ist es tatsächlich da, weil darüber ziemlich viel gesprochen 205 00:15:59,560 --> 00:16:04,839 wurde. Das heißt, wenn wir jetzt eigentlich untersuchen wollen, wie oder in 206 00:16:04,839 --> 00:16:09,181 welchem Ausmaß über Datenschutz gesprochen wurde im Bundestag, dann ist es natürlich 207 00:16:09,181 --> 00:16:12,670 nicht bloß der Begriff Datenschutz relevant. Sondern man kann auch über den 208 00:16:12,670 --> 00:16:16,189 Datenschutz reden, dabei aber Begriffe nutzen wie Informationsfreiheit, 209 00:16:16,189 --> 00:16:20,670 Datenverarbeitung, Speicherung, Privatsphäre usw.. Das heißt, es ist 210 00:16:20,670 --> 00:16:25,509 eigentlich viel relevanter, dieses latente Thema des Datenschutzes zu nutzen als 211 00:16:25,509 --> 00:16:30,239 einen spezifischen Begriff. Dafür haben wir das LDA Topic Modeling trainiert. Das 212 00:16:30,239 --> 00:16:35,319 funktioniert im Wesentlichen so, dass wir vorgegeben haben, was wir oder wie viele 213 00:16:35,319 --> 00:16:40,189 Topics, spezifische Topics, wir im Korpus erwarten. Da haben wir verschiedene 214 00:16:40,189 --> 00:16:43,970 Nummern ausprobiert und bei zweihundertfünfzig letztlich sehr 215 00:16:43,970 --> 00:16:47,120 konsistente Themen gefunden. Und mit diesem Model haben wir jetzt die weiteren 216 00:16:47,120 --> 00:16:55,310 Analysen durchgeführt. Dieses LDA Topic Modeling hat als Ergebnis, dass wir für 217 00:16:55,310 --> 00:17:04,080 jeden Redebeitrag, den wir im Korpus haben, Angaben darüber bekommen, wie der 218 00:17:04,080 --> 00:17:10,600 prozentuale Anteil der jeweiligen 250 Themen in dieser Rede war. Das heißt, wir 219 00:17:10,600 --> 00:17:16,180 haben genau 250 Zahlenwerte für jeden Redebeitrag. Das ist das, was wir jetzt 220 00:17:16,180 --> 00:17:22,030 folgend zusammen aggregieren und auf der Y-Achse als Relevanz definieren. Genau das 221 00:17:22,030 --> 00:17:26,890 ist jetzt auch erstmals möglich, weil wir die einzelnen Redebeiträge als Dokumente 222 00:17:26,890 --> 00:17:33,160 im LDA Topic Modeling nutzen können. Alles klar. Zurück zum Thema Datenschutz. Okay, 223 00:17:33,160 --> 00:17:38,090 wir plotten uns jetzt mal die durchschnittlichen Gebrauch des ganzen 224 00:17:38,090 --> 00:17:44,370 Thema Datenschutz im Plenar oder im Verlauf der Plenarsitzungen. Und was uns 225 00:17:44,370 --> 00:17:49,070 jetzt zum Beispiel schon mal auffällt, ist, dass auch vor 1970 schon in einem 226 00:17:49,070 --> 00:17:52,690 gewissen sehr geringen Maße über Datenschutz-Themen gesprochen wurde. Der 227 00:17:52,690 --> 00:17:57,050 Begriff Datenschutz wurde dabei jedoch nicht genutzt. Wir sehen immer noch, dass 228 00:17:57,050 --> 00:18:01,920 es quasi zwei große Phasen oder zwei große Wellen gibt. Es gibt die erste Welle, die 229 00:18:01,920 --> 00:18:08,220 ungefähr Mitte der 70er angefangen hat und dann zum zum Ende der 80er Jahre abgeflaut 230 00:18:08,220 --> 00:18:14,260 ist. Und wir haben eine zweite Welle, die zum in den 2000er Jahren begonnen hat und 231 00:18:14,260 --> 00:18:18,550 jetzt langsam wieder abflaut. Um zu validieren, dass das, was wir jetzt hier 232 00:18:18,550 --> 00:18:24,280 gefunden haben oder das, was uns das Topic Model grad anzeigt, stimmt, haben wir mal 233 00:18:24,280 --> 00:18:28,290 geschaut, was denn eigentlich in diesen Zeiten so passiert ist. Und wenn wir uns 234 00:18:28,290 --> 00:18:33,390 die 80er Jahre oder den Raum um die 80er Jahre anschauen, sehen wir, dass derzeit 235 00:18:33,390 --> 00:18:39,130 das Bundesdatenschutzgesetz, also das erste Datenschutzgesetz auf nationaler 236 00:18:39,130 --> 00:18:44,590 Ebene beschlossen wurde in Deutschland, dass es die Volkszählungsboykotte gab. Es 237 00:18:44,590 --> 00:18:51,010 sollte eine Volkszählung durchgeführt werden und die sollte in dem Fall das 238 00:18:51,010 --> 00:18:55,770 erste Mal digital die Daten der Bevölkerung erfassen. Das hat natürlich 239 00:18:55,770 --> 00:19:01,510 zur Boykotten, zu Protesten und zu Sorgen, was denn eigentlich, welche Belange das 240 00:19:01,510 --> 00:19:08,350 mit dem eigenen Datenschutz hat. Außerdem: In der Zeit wurde der CCC gegründet. Es 241 00:19:08,350 --> 00:19:15,290 gab ein ziemlich entscheidendes Urteil vom Bundesverfassungsgericht, auch im Rahmen 242 00:19:15,290 --> 00:19:19,160 dieser Volkszählung. Und in dem Rahmen tauchte dann auch erstmals der Begriff der 243 00:19:19,160 --> 00:19:23,680 informationellen Selbstbestimmung auf. Das heißt, okay, an dem Rahmen oder in dem 244 00:19:23,680 --> 00:19:27,140 Maße ist die erste Welle ziemlich plausibel. Das wurde im Bundestag dann 245 00:19:27,140 --> 00:19:30,770 offensichtlich auch sehr intensiv besprochen. Danach ist das ein bisschen 246 00:19:30,770 --> 00:19:35,910 abgeflaut. Wir haben einen kleinen Peak ungefähr 1995, da wurde die europäische 247 00:19:35,910 --> 00:19:41,100 Datenschutzrichtlinie verabschiedet. Aber den richtigen Anstieg hatten wir dann erst 248 00:19:41,100 --> 00:19:44,930 zur zweiten Welle. Da kamen dann Diskussionen auf wie Zensursula und die 249 00:19:44,930 --> 00:19:51,590 DSGVO. Also bei Zensursula wurde halt diskutiert, inwiefern der Staat eigentlich 250 00:19:51,590 --> 00:19:57,420 das Recht hat, Inhalte im Internet zu zensieren. Auf der anderen Seite wurde 251 00:19:57,420 --> 00:20:04,530 auch sehr, sehr stark diskutiert, ob der Staat eigentlich das Recht hat, 252 00:20:04,530 --> 00:20:08,420 Hausdurchsuchungen auf den eigenen Rechnern quasi durchzuführen. Das heißt, 253 00:20:08,420 --> 00:20:11,321 die zwei Wellen, die wir jetzt hier sehen, die sind ziemlich plausibel. Das waren 254 00:20:11,321 --> 00:20:16,800 tatsächlich die Zeiten, in denen die Debatte um den Datenschutz ziemlich stark 255 00:20:16,800 --> 00:20:22,290 ausgeführt wurde. Okay, jetzt schauen wir uns mal an, welche Dimension wir 256 00:20:22,290 --> 00:20:25,470 eigentlich dazu packen können, um vielleicht mehr Informationen darüber zu 257 00:20:25,470 --> 00:20:29,380 bekommen, wie das denn diskutiert wurde und welche Partei sich mehr und welche 258 00:20:29,380 --> 00:20:35,580 Partei sich weniger darum gekümmert hat um dieses Thema. Und dazu haben wir uns mal 259 00:20:35,580 --> 00:20:41,460 angeschaut, wie die historisch zwei großen Parteien in Deutschland diese Themen 260 00:20:41,460 --> 00:20:46,440 behandelt haben. Zuerst haben wir uns die CDU angeschaut und wir sehen, dass die CDU 261 00:20:46,440 --> 00:20:51,300 in der ersten Welle deutlich überdurchschnittlich über das Thema 262 00:20:51,300 --> 00:20:56,950 Datenschutz gesprochen hat, im Plenarsaal, in der zweiten Welle aber deutlich 263 00:20:56,950 --> 00:21:01,320 unterdurchschnittlich. Im Vergleich dazu haben wir uns dann mal angeschaut, wie die 264 00:21:01,320 --> 00:21:06,020 SPD drüber gesprochen hat. Die SPD hat der ersten Welle unterdurchschnittlich viel 265 00:21:06,020 --> 00:21:12,120 über Datenschutz gesprochen oder hatte in ihren Reden deutlich weniger Datenschutz 266 00:21:12,120 --> 00:21:16,620 aufgegriffen. In der zweiten Welle oder im Beginn der zweiten Welle ein bisschen 267 00:21:16,620 --> 00:21:20,730 überdurchschnittlich, dann hat es aber deutlich abgeflacht. Das könnte - wird 268 00:21:20,730 --> 00:21:26,090 höchstwahrscheinlich damit zu tun haben, dass während der ersten Welle die SPD in 269 00:21:26,090 --> 00:21:30,920 der Regierung war und die CDU nicht, dass die CDU das deshalb vielleicht als 270 00:21:30,920 --> 00:21:37,650 relevanter angesehen hat, das Thema Datenschutz intensiver zu besprechen. In 271 00:21:37,650 --> 00:21:42,350 der zweiten Welle sehen wir, dass zum Beginn der zweiten Welle die SPD noch eine 272 00:21:42,350 --> 00:21:46,710 Opposition war. Aktuell ist sie natürlich mit in der Regierung. Das könnte die 273 00:21:46,710 --> 00:21:50,680 Bewegung erklären, warum zu Beginn der zweiten Welle die SPD leicht 274 00:21:50,680 --> 00:21:56,480 überdurchschnittlich oder das Thema Datenschutz leicht überdurchschnittlich 275 00:21:56,480 --> 00:22:02,700 relevant fand, dann aber zunehmend weniger. Wir plotten mal noch zwei andere 276 00:22:02,700 --> 00:22:08,550 spannende Parteien dazu, nämlich die FDP und die Grünen. Da können wir nämlich 277 00:22:08,550 --> 00:22:14,720 ablesen, dass diese zwei Oppositionsparteien, zumindest in der 278 00:22:14,720 --> 00:22:20,940 Zeit, dass diese zwei Parteien auch nach dem Abflauen der ersten Welle die Relevanz 279 00:22:20,940 --> 00:22:25,720 aufrecht erhalten haben. Das heißt, diese zwei Parteien hatten das Thema trotzdem 280 00:22:25,720 --> 00:22:30,550 weiter im Fokus gehalten. Okay, schauen wir uns eine andere Dimension an. Wir 281 00:22:30,550 --> 00:22:34,360 schauen uns mal an, wie das vielleicht mit dem Alter zu tun haben könnte. Und zwar 282 00:22:34,360 --> 00:22:40,760 haben wir das Alter der Politiker:in nach dem Durchschnitt ungefähr geteilt. Das 283 00:22:40,760 --> 00:22:44,170 heißt, das Durchschnittsalter des Bundestags aktuell liegt ungefähr bei 50 284 00:22:44,170 --> 00:22:47,580 Jahren. Und so haben wir jetzt unterschieden nach eher jüngeren 285 00:22:47,580 --> 00:22:52,590 Politikern, die unter 50 Jahre zum Zeitpunkt der Rede waren und älteren 286 00:22:52,590 --> 00:22:57,660 Politikern, die älter als 50 waren zum Zeitpunkt der Rede. Und hier sehen wir, 287 00:22:57,660 --> 00:23:03,350 dass die jüngeren Politiker das Thema Datenschutz deutlich relevanter finden als 288 00:23:03,350 --> 00:23:08,540 die älteren. Okay, als letzte Dimension schauen wir uns jetzt nochmal an, ob das 289 00:23:08,540 --> 00:23:14,570 dann vielleicht auch ein Zusammenhang mit dem akademischen Grad hat bzw. ob eine 290 00:23:14,570 --> 00:23:21,160 Politikerin oder ein Politiker einen Doktortitel trägt. Und an der Stelle sehen 291 00:23:21,160 --> 00:23:26,550 wir das, wenn eine Politiker:in einen Doktortitel trägt, das dann tendenziell 292 00:23:26,550 --> 00:23:31,360 überdurchschnittlich über Datenschutz gesprochen wird, als wenn die Person 293 00:23:31,360 --> 00:23:36,750 keinen Doktortitel hat. Man könnte jetzt versuchen, das irgendwie zusammenzufassen. 294 00:23:36,750 --> 00:23:40,040 Beispielsweise könnte man versuchen, das so zu interpretieren, dass wenn man 295 00:23:40,040 --> 00:23:43,641 möchte, dass im Plenarsaal viel über Datenschutz gesprochen wird, dann sollte 296 00:23:43,641 --> 00:23:49,740 man Oppositionsparteien wählen, die eher jüngere Leute hat. Und diese jüngeren 297 00:23:49,740 --> 00:23:53,850 Leuten sollten vielleicht eher einen Doktortitel tragen, vielleicht aber auch 298 00:23:53,850 --> 00:23:59,050 nicht. Genau. Aber genau. Diese Auswertungen waren vorher nicht möglich. 299 00:23:59,050 --> 00:24:02,170 Und jetzt könnte man reinschauen und gucken: Okay, was steckt denn da 300 00:24:02,170 --> 00:24:06,090 eigentlich drin? Welche Bewegungen stecken denn in diesen Daten? Wir wollen jetzt 301 00:24:06,090 --> 00:24:11,490 nochmal zwei Personen krönen, die sich sehr verdient gemacht haben, also die sehr 302 00:24:11,490 --> 00:24:15,570 oder die höchste Relevanzwerte hatten für das Thema Datenschutz in der ersten und in 303 00:24:15,570 --> 00:24:20,430 der zweiten Welle. In der ersten Welle geht diese Auszeichnung an Burkhard 304 00:24:20,430 --> 00:24:24,920 Hirsch, der insbesondere zum ersten in der ersten Phase der ersten Welle 305 00:24:24,920 --> 00:24:30,280 Innenminister war und sich ganz stark gegen staatliche Überwachung eingesetzt 306 00:24:30,280 --> 00:24:34,710 hat. Das heißt, das klingt auch sehr plausibel, dass unsere Analyse Burkhard 307 00:24:34,710 --> 00:24:40,410 Hirsch hier als Vorreiter sieht. In der zweiten Welle haben unsere Analysen 308 00:24:40,410 --> 00:24:44,920 ergeben, dass das Gisela Piltz war, die sich in besonderem Maße mit Datenschutz 309 00:24:44,920 --> 00:24:49,270 auseinandergesetzt hat. Und Gisela Piltz hat sich ganz... oder setzt sich ganz 310 00:24:49,270 --> 00:24:55,090 stark gegen die Vorratsdatenspeicherung ein. Also von daher wirkt auch das 311 00:24:55,090 --> 00:25:00,760 ziemlich plausibel. Genau. Das wäre jetzt das Beispiel Datenschutz, das wir 312 00:25:00,760 --> 00:25:04,520 aufbereitet haben, um zu gucken: Okay, was könnte in diesen Daten denn drinstecken 313 00:25:04,520 --> 00:25:07,900 und welche spannenden Fragen könnte man denn damit eigentlich stellen und 314 00:25:07,900 --> 00:25:13,280 potenziell auch beantworten? Jetzt haben wir uns noch ein zweites großes Thema 315 00:25:13,280 --> 00:25:16,260 angeschaut, was gerade in den letzten Jahren ganz, ganz stark an Relevanz 316 00:25:16,260 --> 00:25:21,320 gewonnen hat. Und da wird euch Philipp jetzt mal erzählen, was wir da so gefunden 317 00:25:21,320 --> 00:25:23,640 haben. Philipp: Genau. Also wir kommen nochmal 318 00:25:23,640 --> 00:25:28,331 ein bisschen vom Datenschutz zum Klimaschutz und stellen uns so ein 319 00:25:28,331 --> 00:25:33,620 bisschen den gleichen methodischen Ansatz. Also wir gucken mal, wie das reine Wort 320 00:25:33,620 --> 00:25:37,080 Klimaschutz verwendet wurde. Und wir stellen fest, dass das Wort Klimaschutz 321 00:25:37,080 --> 00:25:41,831 eigentlich ein relativ neuer Begriff ist. Ab den 2000ern. Aber zurück zu dem, was 322 00:25:41,831 --> 00:25:45,570 Florian gerade eben schon gesagt hat Die reine Analyse einzelner Begriffe ist noch 323 00:25:45,570 --> 00:25:50,050 nicht ausreichend, um diesen Themenkomplex und die latenten Grundstrukturen darunter 324 00:25:50,050 --> 00:25:54,791 zu erfassen. Deswegen reicht dieser Begriff Klimaschutz nicht, sondern wir 325 00:25:54,791 --> 00:25:58,540 haben auch hier wieder ein automatisiertes LDA Topic Modeling verwendet, was uns 326 00:25:58,540 --> 00:26:02,920 hunderte Begriffe automatisiert findet, die da reinpassen. Also natürlich kann ich 327 00:26:02,920 --> 00:26:06,580 über Klimaschutz reden, ohne den Begriff Klimaschutz zu verwenden. Ich kann über 328 00:26:06,580 --> 00:26:10,400 das Emissionsschutzgesetz sprechen. Ich kann über Nachhaltigkeit, über erneuerbare 329 00:26:10,400 --> 00:26:14,111 Energien reden, ohne auch nur einmal das Wort Klimaschutz zu verwenden. Dieses 330 00:26:14,111 --> 00:26:18,560 Thema also voll fokussieren. Deswegen haben wir daraus ein Thema gemacht und 331 00:26:18,560 --> 00:26:22,140 gucken uns jetzt diesen ganzen Komplex an und nicht mehr nur den Begriff. Wenn wir 332 00:26:22,140 --> 00:26:27,890 das tun, dann stellen wir fest, dass seit 1949 dieses Thema nicht erst in den 333 00:26:27,890 --> 00:26:31,730 2000ern an Relevanz gewonnen hat, sondern auch früher schon da war. Wenn ich jetzt 334 00:26:31,730 --> 00:26:34,900 auch hier wieder so ein bisschen die Wegmarker setze, dann kann ich auch das 335 00:26:34,900 --> 00:26:39,690 validieren. Also die ersten Umweltprogramme von Willy Brandt 1970, der 336 00:26:39,690 --> 00:26:45,870 Einzug der Grünen in den Bundestag, die Atomkatastrophe von Tschernobyl. Wir haben 337 00:26:45,870 --> 00:26:50,740 danach in den 90ern, das ist auch relativ plausibel, ein Abschwachen dieses Themas, 338 00:26:50,740 --> 00:26:53,330 denn wir hatten gerade in der Wiedervereinigung dann 339 00:26:53,330 --> 00:26:57,010 Verteilungskonflikte, die so ein bisschen relevanter wurden. Dadurch ist das Thema 340 00:26:57,010 --> 00:27:02,330 des Klimawandels und des Klimaschutzes so ein bisschen hinten runtergefallen. Wir 341 00:27:02,330 --> 00:27:06,379 haben weitere Punkte - wir haben die rot grüne Regierung von Schröder und Fischer 342 00:27:06,379 --> 00:27:11,460 2000, so Richtung 2000 2005. Wir haben Fukushima und die Energiewende. Wir haben 343 00:27:11,460 --> 00:27:15,640 das Pariser Klimaschutzabkommen. Und wir sehen jetzt auch schon diesen Drall nach 344 00:27:15,640 --> 00:27:20,410 oben, insbesondere durch Fridays For Future und die neue Auseinandersetzung mit 345 00:27:20,410 --> 00:27:23,750 der Einhaltung des Pariser Klimaschutzabkommens. Was wir jetzt hier 346 00:27:23,750 --> 00:27:27,360 wieder machen können, ist: Wir können uns wieder angucken, wie einzelne Parteien 347 00:27:27,360 --> 00:27:30,490 denn eigentlich darüber reden. Und wir können feststellen, dass die CDU ziemlich 348 00:27:30,490 --> 00:27:34,140 durchschnittlich über dieses Thema redet. In den letzten Jahren sogar deutlich 349 00:27:34,140 --> 00:27:37,100 abfallend, also deutlich unterdurchschnittlich. Gerade seit dem 350 00:27:37,100 --> 00:27:41,410 Pariser Klimaschutzabkommen ist das Thema für die CDU nicht mehr ganz so relevant 351 00:27:41,410 --> 00:27:45,720 vielleicht. Wir können die SPD plotten, das sieht auch ganz durchschnittlich aus. 352 00:27:45,720 --> 00:27:49,230 Bei der FDP sieht es auch ganz durchschnittlich aus, bei den Linken sogar 353 00:27:49,230 --> 00:27:52,880 ein Stück unterdurchschnittlich. Und so ein bisschen wie erwartet sind es die 354 00:27:52,880 --> 00:27:57,280 Grünen, die dieses Thema extrem pushen und die diesen Diskurs sehr, sehr hoch halten. 355 00:27:57,280 --> 00:28:02,190 Das heißt, die Grünen ziehen hier deutlich den den Rolling Mean nach oben und steuern 356 00:28:02,190 --> 00:28:06,170 dieses Thema ganz stark. Wir können aber auch hier noch ein bisschen weiter 357 00:28:06,170 --> 00:28:09,010 reingucken, nämlich: Wer sind das denn? Sind es die jüngeren oder sind es die 358 00:28:09,010 --> 00:28:12,890 älteren Politiker? Wenn ich mir hier das mal angucke, dann stelle ich fest, dass 359 00:28:12,890 --> 00:28:17,140 die mittelalten Politiker zwischen 39 und 59 sich mit dem Thema sehr 360 00:28:17,140 --> 00:28:21,420 durchschnittlich auseinandersetzen. Und so ein bisschen wie erwarten kann ich mir 361 00:28:21,420 --> 00:28:25,220 dann entsprechend vorstellen, dass sich ältere Politiker über 60 mit diesem Thema 362 00:28:25,220 --> 00:28:30,080 sehr gering, sehr unterdurchschnittlich auseinandersetzen und jüngere 363 00:28:30,080 --> 00:28:35,110 Politikerinnen unter 39 sich mit diesem Thema deutlich stärker auseinandersetzen. 364 00:28:35,110 --> 00:28:39,390 Wir sehen auch hier nicht nur eine stärkere Auseinandersetzung, sondern eben 365 00:28:39,390 --> 00:28:43,190 auch eine frühere Auseinandersetzung. Während bei älteren Politikerinnen diese 366 00:28:43,190 --> 00:28:46,500 Auseinandersetzung immer zeitlich rechts versetzt ist und immer deutlich weniger 367 00:28:46,500 --> 00:28:51,050 intensiv ist. Wir können mit dem Open Discourse Datensatz die Stammdaten des 368 00:28:51,050 --> 00:28:54,670 Deutschen Bundestages anzapfen und noch ein kleines Stück tiefer gehen. Wir können 369 00:28:54,670 --> 00:28:59,120 nämlich die Berufe der Abgeordneten auswerten. Jeder Abgeordnete gibt seinen 370 00:28:59,120 --> 00:29:04,480 Beruf oder seinen seinen beruflichen Hintergrund an. Und diese Daten können wir 371 00:29:04,480 --> 00:29:08,390 auswerten. Wir haben über 1 000 unique Berufsbezeichnungen von über 4 000 372 00:29:08,390 --> 00:29:11,760 Politiker:innen. Wenn ich mir die jetzt hier mal so angucke, dann sind es Ärzte 373 00:29:11,760 --> 00:29:16,460 und Apotheker und Unternehmer und Landwirte und Buchhalter:innen. Und wenn 374 00:29:16,460 --> 00:29:21,920 ich das so ein bisschen cluster, dann hab ich jetzt für die folgende Analyse mal 12 375 00:29:21,920 --> 00:29:25,900 Berufsgruppen gefiltert. Und jetzt kann man sich angucken, welche Berufsgruppen 376 00:29:25,900 --> 00:29:30,090 denn dieses Thema besonders stark fokussieren. Und was auch wieder sehr 377 00:29:30,090 --> 00:29:33,450 erwartbar ist, ist, dass die Naturwissenschaftler:innen dieses Thema 378 00:29:33,450 --> 00:29:37,850 deutlich stärker fokussieren, als andere das tun. Also das Thema ist sehr 379 00:29:37,850 --> 00:29:44,940 exorbitant getragen durch Physiker:innen, durch Biolog:innen, durch alle Personen, 380 00:29:44,940 --> 00:29:49,330 die irgendwie einen Berufshintergrund in dem Feld der Naturwissenschaften haben. 381 00:29:49,330 --> 00:29:54,840 Ich habe uns hier immer noch die Agrarwirte dazu geplottet. Also alle 382 00:29:54,840 --> 00:29:59,130 Landwirte und alle Forstwirte und die, die Bauer oder Bäuerin als Berufsbezeichnung 383 00:29:59,130 --> 00:30:04,140 angegeben haben. Wir sehen, dass es in der ersten Welle der Klimadebatte noch sehr 384 00:30:04,140 --> 00:30:10,130 relevant war und jetzt grad so Richtung der neueren Zeit für die Landwirte ein 385 00:30:10,130 --> 00:30:13,870 unterdurchschnittlich relevantes Thema geworden ist. Und wir können feststellen, 386 00:30:13,870 --> 00:30:18,290 dass die, die eine Berufsbezeichnung im Wirtschaftsfeld angegeben haben, sich mit 387 00:30:18,290 --> 00:30:21,780 diesem Thema auch auseinandersetzen. Allerdings deutlich weniger intensiv und 388 00:30:21,780 --> 00:30:25,350 auch wieder rechts verlagert, also zeitlich zurück verlagert, nachdem sich 389 00:30:25,350 --> 00:30:30,550 die Naturwissenschaftler:innen mit diesem Thema zuerst auseinandergesetzt haben. Was 390 00:30:30,550 --> 00:30:34,830 können wir feststellen oder was könnten wir mal so ein bisschen uns angucken? Wir 391 00:30:34,830 --> 00:30:37,550 können uns angucken, was denn eigentlich die perfekte Gruppe ist, um sich mit dem 392 00:30:37,550 --> 00:30:40,890 Thema Klimaschutz auseinanderzusetzen und diese perfekte Trennlinie zwischen der 393 00:30:40,890 --> 00:30:44,970 perfekten Gruppe von Abgeordneten und der schlechtesten Gruppe von Abgeordneten, die 394 00:30:44,970 --> 00:30:49,610 macht sich ziemlich einfach am Geschlecht und an dem Alter fest. Wenn ich also mir 395 00:30:49,610 --> 00:30:53,472 mal angucke, wie sich alte männliche Politiker mit dem Thema auseinandersetzen 396 00:30:53,472 --> 00:30:57,740 im Vergleich zu jungen weiblichen Politikerinnen, dann stelle ich fest, dass 397 00:30:57,740 --> 00:31:01,130 wir da sowohl wieder eine frühere Auseinandersetzung mit diesem Thema haben. 398 00:31:01,130 --> 00:31:04,590 Wir haben eine intensivere Auseinandersetzung mit dem Thema und für 399 00:31:04,590 --> 00:31:08,550 ältere Politiker, in diesem Fall jetzt hier über 60, ist die Auseinandersetzung 400 00:31:08,550 --> 00:31:15,620 wirklich sehr weit unter dem Durchschnitt des Parlaments. Wir können uns also hier 401 00:31:15,620 --> 00:31:19,060 vielleicht ein bisschen überlegen, welche Person wir denn ganz gerne im Bundestag 402 00:31:19,060 --> 00:31:25,030 hätten, um progressive Themen, so auch den Datenschutz stärker zu treiben. Wir können 403 00:31:25,030 --> 00:31:28,240 auch hier im Klimawandel wieder die Top Runner identifizieren, das können wir 404 00:31:28,240 --> 00:31:31,740 beliebig operationalisieren. Wir haben uns immer die Vielredner genommen. Also 405 00:31:31,740 --> 00:31:35,590 Politiker:innen mit mehr als 500 Reden. Und haben dann geguckt: Welche haben denn 406 00:31:35,590 --> 00:31:40,430 den höchsten Klima-Score auf dieses Topic? Tatsächlich ist es Angela Merkel, die als 407 00:31:40,430 --> 00:31:44,070 Vielrednerin sich mit diesem Thema am stärksten auseinandergesetzt haben. Wir 408 00:31:44,070 --> 00:31:47,100 wollten uns aber auch nochmal einen Newcomer angucken, in großen 409 00:31:47,100 --> 00:31:52,100 Anführungszeichen, also Politiker:innen mit 100 bis 500 Reden. Und da ist es Julia 410 00:31:52,100 --> 00:31:54,940 Verlinden von den Grünen, die sich am stärksten mit diesem Thema 411 00:31:54,940 --> 00:31:59,080 auseinandersetzt. Das ganze Fridays For Future hat immer auch das... geht es immer 412 00:31:59,080 --> 00:32:04,531 viel um das Schwänzen und um das Fernbleiben von Inhalten. Und wir haben 413 00:32:04,531 --> 00:32:08,160 uns deswegen mal angeguckt, wer denn so die großen Klimaschwänzer sind im 414 00:32:08,160 --> 00:32:12,140 Deutschen Bundestag. Das haben wir operationalisiert, indem wir gesagt haben, 415 00:32:12,140 --> 00:32:16,256 wir wollen nicht den Politiker, die Politikerin mit dem geringsten Wert über 416 00:32:16,256 --> 00:32:19,650 die gesamte Zeit finden, sondern wir wollen so einen Punkt nehmen, ab dem die 417 00:32:19,650 --> 00:32:23,610 Klimadebatte wohl in aller Munde sein müsste. Und wir haben dafür den ersten 418 00:32:23,610 --> 00:32:30,360 Global Climate Strike genommen, am 19., am 15. März 2019. Und wir haben dann von den 419 00:32:30,360 --> 00:32:34,810 Politikern geguckt, die die Gelegenheit hatten, darüber zu reden. Also die 420 00:32:34,810 --> 00:32:39,400 mindestens 40 Redebeiträge seitdem hatten, wie sie sich damit auseinandersetzen. Wir 421 00:32:39,400 --> 00:32:42,251 stellen fest, dass diejenigen, die sich am wenigsten damit auseinandersetzen, drei 422 00:32:42,251 --> 00:32:46,860 Männer sind, alle aus der gleichen Fraktion. Wir haben also Volker Ullrich, 423 00:32:46,860 --> 00:32:50,710 der sich trotz Gelegenheit am wenigsten damit auseinandersetzt. Wir haben Thorsten 424 00:32:50,710 --> 00:32:54,390 Frei, der sich trotz Gelegenheit am zweitwenigsten damit auseinandersetzt. Und 425 00:32:54,390 --> 00:32:58,210 wir haben hier auch den Spätzünder im Klimathema, Philipp Amthor, der sich trotz 426 00:32:58,210 --> 00:33:01,320 sehr vieler Reden nie mit diesem Thema oder sehr selten mit diesem Thema 427 00:33:01,320 --> 00:33:04,930 auseinandersetzt. Wichtig ist hier vielleicht noch zu sagen, dass wir nicht 428 00:33:04,930 --> 00:33:08,950 die reinen Reden zum Klimawandel zählen, sondern dass allein die Verwendung von den 429 00:33:08,950 --> 00:33:12,830 relevanten Begriffen, um dieses Thema ein bisschen z.B. in Steuer- oder in 430 00:33:12,830 --> 00:33:16,510 Haushaltsdebatten zu bringen, hier gezählt wird. Also wir haben eine sehr komplexe 431 00:33:16,510 --> 00:33:23,710 Betrachtung des gesprochenen Wortes. Florian: Genau. Soviel erst einmal zu 432 00:33:23,710 --> 00:33:28,500 einigen Analysen, die wir bisher durchgeführt haben. Wie bereits 433 00:33:28,500 --> 00:33:33,870 angesprochen ist unser eigentliches Ziel ja aber, dass ihr und alle anderen auch 434 00:33:33,870 --> 00:33:39,531 Analysen jetzt mit diesen Daten durchführen können und auf unserem Weg bis 435 00:33:39,531 --> 00:33:43,330 zur Veröffentlichung, die jetzt im Rahmen oder auch zu genau dieser Zeit, wenn wir 436 00:33:43,330 --> 00:33:49,840 diesen Vortrag halten, passiert, haben schon andere Partner und Partnerinnen, mit 437 00:33:49,840 --> 00:33:53,260 denen wir zusammengearbeitet haben oder die mit unseren Daten schon arbeiten 438 00:33:53,260 --> 00:33:56,151 konnten, ein paar Analysen durchgeführt oder sind gerade dabei, diese Analysen 439 00:33:56,151 --> 00:34:00,850 noch durchzuführen. Beispielsweise CorrelAid, CorrelAid ist ein Netzwerk von 440 00:34:00,850 --> 00:34:06,250 freiwilligen Data Scientists. Und bei CorrelAid haben sich zwei Projektteams 441 00:34:06,250 --> 00:34:09,790 zusammengefunden, die mit unseren Daten schon seit einiger Zeit ein bisschen herum 442 00:34:09,790 --> 00:34:14,240 arbeiten. Und die werden auch bald ihre Ergebnisse und Analysen veröffentlichen. 443 00:34:14,240 --> 00:34:18,399 Die findet ihr dann zum einen in den entsprechenden Kanälen von CorrelAid. Auf 444 00:34:18,399 --> 00:34:21,750 der anderen Seite werden wir die auch bei uns auf unserer Open Discourse Website 445 00:34:21,750 --> 00:34:28,040 dann zu gegebener Zeit einbetten. Ein paar Sachen, die da beispielsweise schon 446 00:34:28,040 --> 00:34:33,710 gemacht wurden, ist Ann-Kristin Vester hat sich angeschaut, wie eigentlich die 447 00:34:33,710 --> 00:34:38,970 Geschlechter im Bundestag auftreten, wie die, wie der Sprachgebrauch sich 448 00:34:38,970 --> 00:34:42,870 unterscheidet. An der Stelle auch nochmal kurz hier der Hinweis bei allen 449 00:34:42,870 --> 00:34:46,630 Analysen, die wir bisher durchgeführt haben: Wir betrachten Geschlecht bisher 450 00:34:46,630 --> 00:34:51,020 immer binär, weil der Bundestag das nicht anders hergibt. Es gibt bloß eine binäre 451 00:34:51,020 --> 00:34:55,220 Geschlechtseinteilung. Deswegen mussten wir das in den Analysen auch so vornehmen 452 00:34:55,220 --> 00:34:58,970 und das ist auch der Artikel, den Ann- Kristin Vester geschrieben hat, das ist 453 00:34:58,970 --> 00:35:04,470 auch dort mit erwähnt. Also eine tiefere oder eine diversere Untersuchung von den 454 00:35:04,470 --> 00:35:09,640 Geschlechtern im Bundestag ist aktuell leider noch nicht möglich. Genau. Eine 455 00:35:09,640 --> 00:35:13,670 andere Analyse wurde von Alexandra Wörner durchgeführt. Alexandra Wörner hat sich 456 00:35:13,670 --> 00:35:17,100 angeschaut, wie denn eigentlich über Diskriminierung im Bundestag gesprochen 457 00:35:17,100 --> 00:35:21,040 wurde, von welchen Parteien das wie intensiv benutzt wurde oder darüber 458 00:35:21,040 --> 00:35:25,240 gesprochen wurde und wie sich das über den zeitlichen Verlauf verändert hat. Auch 459 00:35:25,240 --> 00:35:29,870 ziemlich spannend. Ein anderes Projekt, das bereits mit unseren Daten durchgeführt 460 00:35:29,870 --> 00:35:34,361 wurde, kam von ZDF heute. Datenjournalist:innen von ZDF Heute hatten 461 00:35:34,361 --> 00:35:39,620 uns Frühsommer/Sommer angeschrieben und gefragt, ob sie unsere Daten nicht schon 462 00:35:39,620 --> 00:35:45,800 vor Veröffentlichung mal haben könnten, um zu schauen, ob sie diese Daten für einen 463 00:35:45,800 --> 00:35:51,380 Artikel schon nutzen könnten. Und daraus ist ein Artikel entstanden, in dem sich 464 00:35:51,380 --> 00:35:55,950 die Journalist:innen damit auseinandergesetzt haben, wie der 465 00:35:55,950 --> 00:36:01,530 Bundestag denn eigentlich über Pandemien und über das Coronavirus im speziellen 466 00:36:01,530 --> 00:36:06,150 unterhalten hat oder wie das debattiert wurde. Das Ergebnis war eher, dass der 467 00:36:06,150 --> 00:36:09,360 Bundestag da nicht besonders viel Aufmerksamkeit draufgelegt hat. Auch ein 468 00:36:09,360 --> 00:36:14,790 sehr spannender Artikel. Und als letztes wollen wir noch kurz das Projekt Open 469 00:36:14,790 --> 00:36:20,660 Parliament TV eher anteasern, weil der offizielle Veröffentlichungstermin ist für 470 00:36:20,660 --> 00:36:26,860 Mai 2021 vorgesehen. Open Parliament TV hat als Kernziel eigentlich ein sehr 471 00:36:26,860 --> 00:36:32,201 ähnliches Ideal wie wir bei Open Discourse. Es geht darum, den Bundestag 472 00:36:32,201 --> 00:36:37,430 transparenter zu machen. Open Parliament TV hat dabei das Ziel, die 473 00:36:37,430 --> 00:36:41,830 Videomitschnitte der Plenardebatten mit den entsprechenden Transkripten, also 474 00:36:41,830 --> 00:36:46,730 Plenarprotokollen zusammenzuführen, um darüber eine noch viel wirksamere oder 475 00:36:46,730 --> 00:36:52,001 detailliertere Recherchefunktion zu ermöglichen. Und an der Stelle wird 476 00:36:52,001 --> 00:36:56,570 gerade evaluiert, wie die Daten von Open Discourse diesem Projekt noch weiter 477 00:36:56,570 --> 00:37:06,250 helfen können. Genau. Und jetzt wieder zu euch. Wie gerade schon angesprochen sind 478 00:37:06,250 --> 00:37:11,900 unsere Daten ab sofort und unserer Source Code komplett öffentlich verfügbar. Das 479 00:37:11,900 --> 00:37:15,870 heißt, ihr habt jetzt die Möglichkeit, mit diesen Daten zu machen, was ihr wollt. Wir 480 00:37:15,870 --> 00:37:20,370 haben bei der Veröffentlichung das Ziel gehabt, die so verfügbar wie möglich zu 481 00:37:20,370 --> 00:37:26,700 machen und haben dabei auf drei große Säulen versucht zu achten. Die erste Säule 482 00:37:26,700 --> 00:37:31,640 dabei sind die Techniker:innen unter euch, also alle Techniker:innen unter euch. Ihr 483 00:37:31,640 --> 00:37:37,170 könnt euch unsere GitHub Seite anschauen von Open Discourse und dort findet ihr 484 00:37:37,170 --> 00:37:40,400 natürlich den Source Code. Ihr könnt das alles auschecken, lokal bei euch 485 00:37:40,400 --> 00:37:43,980 aufsetzen, überprüfen, wie wir eigentlich vorgegangen sind, verbessern, 486 00:37:43,980 --> 00:37:50,400 Schwachstellen finden. Außerdem findet ihr auf der GitHub Seite auch einen Docker 487 00:37:50,400 --> 00:37:55,051 Container, wo die komplette Datenbank als Image vorliegt, d.h. die könnt ihr euch 488 00:37:55,051 --> 00:38:00,770 auch sofort aufsetzen oder halt nochmal neu generieren lassen, wenn ihr wollt. Für 489 00:38:00,770 --> 00:38:05,560 die Analytiker:innen und die Wissenschaftler:innen unter euch haben wir 490 00:38:05,560 --> 00:38:11,280 ein Harvard Dataverse angelegt. Dort findet ihr die aktuelle Version unserer 491 00:38:11,280 --> 00:38:15,430 Datenbank als Data Dump und wir haben das in vier verschiedenen Dateiformaten 492 00:38:15,430 --> 00:38:21,050 bereitgestellt als CSV, Feather, Pickle und RDS-Files, damit ihr je nachdem, womit 493 00:38:21,050 --> 00:38:26,400 ihr am liebsten arbeitet, genau das perfekte Dateiformat für euch findet. Und 494 00:38:26,400 --> 00:38:31,900 als letztes haben wir noch für quasi Quick Reviews oder schnelle Recherchen auf 495 00:38:31,900 --> 00:38:36,250 unserer Webseite eine Volltextsuche mit Filter-Option bereitgestellt. Da könnt ihr 496 00:38:36,250 --> 00:38:44,420 also nach Stichworten, nach Parteizugehörigkeit, nach den Namen der 497 00:38:44,420 --> 00:38:50,450 Politiker, nach Datum usw. filtern und schauen, ob euch was spannendes auffällt 498 00:38:50,450 --> 00:38:59,430 oder ob ihr eure Fragen beantworten könnt. Genau. So viel dann erst mal von uns. Wir 499 00:38:59,430 --> 00:39:04,310 bedanken uns ganz, ganz herzlich für euer Interesse und dass ihr uns zugehört habt. 500 00:39:04,310 --> 00:39:07,360 Wir bedanken uns natürlich auch bei der C Base dafür, dass wir das Video hier 501 00:39:07,360 --> 00:39:12,060 aufnehmen konnten. Bei Fragen und Anregungen schreibt uns gerne eine Mail 502 00:39:12,060 --> 00:39:17,550 oder kontaktiert uns über die einschlägigen Kanäle. Oder wir sprechen 503 00:39:17,550 --> 00:39:26,280 uns dann gleich bei der Fragerunde. Alles klar. Vielen Dank. Danke schön. 504 00:39:26,280 --> 00:39:30,640 Herald: Wir sind nun mit den Sprechern verbunden, sind uns zugeschaltet für 505 00:39:30,640 --> 00:39:33,871 Fragen und Antworten, die uns zugespielt worden sind. Herzlich willkommen! 506 00:39:33,871 --> 00:39:39,470 Philipp & Florian: Hallo! Herald: Die zweite Welle des Datenschutzes ist 507 00:39:39,470 --> 00:39:43,510 ja angesichts der Zeit gerade die perfekte Metapher. Wie lange wird die zweite Welle 508 00:39:43,510 --> 00:39:48,730 des Datenschutzes wohl noch gehen? Florian: Ja, gute Frage. Keine Ahnung. Man 509 00:39:48,730 --> 00:39:54,520 hat ja gesehen, dass es schon ein bisschen bergab wieder geht, aber viel mehr kann 510 00:39:54,520 --> 00:39:57,870 ich da eigentlich nicht zu sagen. Aber es ist spannend, das jetzt im Auge behalten 511 00:39:57,870 --> 00:40:00,610 zu können. Herald: Ist auf jeden Fall auf absehbare 512 00:40:00,610 --> 00:40:04,610 Zeit nicht mit einer Impfung zu rechnen. Eine Frage, die uns zugespielt worden ist 513 00:40:04,610 --> 00:40:10,960 über die Hashtags und über IRC, die wir empfangen und die wir weitergeben, ist: Es 514 00:40:10,960 --> 00:40:14,380 gibt noch einen weiteren Text Korpus. Ihr habt jetzt den Deutschen Bundestag 515 00:40:14,380 --> 00:40:17,890 analysiert, aber es gibt noch eine andere legislative Kammer, die es lange Jahre 516 00:40:17,890 --> 00:40:22,350 gab, nämlich die Volkskammer der DDR. Gibt es dort überhaupt entsprechende Unterlagen 517 00:40:22,350 --> 00:40:25,080 oder entsprechendes Material, das man analysieren könnte? 518 00:40:25,080 --> 00:40:30,350 Florian: Da bin ich mir gar nicht so sicher. Also ich hab - also davon weiß ich 519 00:40:30,350 --> 00:40:33,500 nichts. Wir hatten da jetzt auch gar nicht so weiter reingeguckt. Wir hatten 520 00:40:33,500 --> 00:40:36,270 natürlich, während wir an dem Projekt gearbeitet hatten, schon überlegt, wie man 521 00:40:36,270 --> 00:40:39,540 das alles noch weiterdenken könnte, was man zusätzlich noch mit aufnehmen könnte. 522 00:40:39,540 --> 00:40:43,820 Da war die Volkskammer auch schon mal im Gespräch, aber wir sind da jetzt erstmal 523 00:40:43,820 --> 00:40:47,990 nicht weiter rein gesprungen. Aber prinzipiell wird das natürlich total 524 00:40:47,990 --> 00:40:52,060 spannend, noch weiter in die Richtung zu denken und das auch noch mit aufzunehmen. 525 00:40:52,060 --> 00:40:57,330 Aber ich weiß gar nicht, ob es die Plenarprotokolle da so auch detailliert 526 00:40:57,330 --> 00:41:02,050 gibt. Genau. Wahrscheinlich wäre es auch ein relativ großer Aufwand, könnte ich mir 527 00:41:02,050 --> 00:41:05,850 vorstellen, die Regex Patterns, die wir jetzt für den Bundestag aufbereitet haben, 528 00:41:05,850 --> 00:41:11,700 auf die Volkskammer zu übertragen. Weil wenn sich da... also im Prinzip basiert, 529 00:41:11,700 --> 00:41:14,800 die Aufarbeitung, die wir gemacht haben darauf, dass die Struktur in den 530 00:41:14,800 --> 00:41:18,380 Plenarprotokollen einigermaßen ähnlich bleibt, über die Legislaturperioden. Die 531 00:41:18,380 --> 00:41:22,610 wird natürlich jedes Mal angepasst, wenn's dann notwendig war. Auf der anderen Seite 532 00:41:22,610 --> 00:41:27,250 brauchen wir die Stammdaten der Politiker:innen, weil wir das für die 533 00:41:27,250 --> 00:41:30,820 Fuzzy Matching Logiken nutzen, um zuweisen zu können: Wer hat denn eigentlich was 534 00:41:30,820 --> 00:41:35,040 gesagt? Total spannend, das für die Volkskammer auch noch zu machen. 535 00:41:35,040 --> 00:41:39,300 Vielleicht jetzt als nächster Schritt. Wir sind erstmal froh, dass wir den Bundestag 536 00:41:39,300 --> 00:41:42,670 fertig bekommen haben. Herald: Auf jeden Fall. Gibt es denn 537 00:41:42,670 --> 00:41:45,840 Wünsche, die ihr habt für die Zugänglichkeit von Daten, die euch das 538 00:41:45,840 --> 00:41:48,870 Leben oder anderen das Leben einfacher machen würden, bei solchen 539 00:41:48,870 --> 00:41:52,080 Auswertungen? Philipp: Das ist glaube ich vor allem die 540 00:41:52,080 --> 00:41:54,750 strukturierte Erfassung, also eigentlich hätte der Bundestag selbst die 541 00:41:54,750 --> 00:41:58,760 Möglichkeit, diese Daten von sich aus schon strukturiert verfügbar zu machen. 542 00:41:58,760 --> 00:42:02,320 Vor allem, weil eben diese ganz einfachen Sachen - ich suche nach Begriffen oder ich 543 00:42:02,320 --> 00:42:06,230 suche nach Themen oder ich möchte das mal ein bisschen strukturiert durchsuchen - 544 00:42:06,230 --> 00:42:10,650 das ist derzeit eine absolut händische Aufgabe und das ist eigentlich in unserer 545 00:42:10,650 --> 00:42:15,010 jetzigen Zeit ein kleines bisschen hinter der Zeit hinterher. Von daher wäre es 546 00:42:15,010 --> 00:42:20,610 eigentlich sehr sinnvoll, wenn man so Grundideen von strukturierter Datenhaltung 547 00:42:20,610 --> 00:42:24,220 dann auch in öffentlichen Verwaltungen hätte, um eben diesen Zugang zu 548 00:42:24,220 --> 00:42:27,450 erleichtern. Der Bundestag hat uns jetzt quasi eineinhalb Jahre Arbeit gekostet, 549 00:42:27,450 --> 00:42:32,900 das aufzubrechen. Und wär natürlich super, wenn man solche Grundthemen der 550 00:42:32,900 --> 00:42:36,930 Datenhaltung, der öffentlich verfügbaren Datenhaltung auch irgendwie direkt 551 00:42:36,930 --> 00:42:40,180 mitdenkt. Florian: Ein ganz kleiner Nachtrag da 552 00:42:40,180 --> 00:42:43,670 noch. Ein großer Wunsch, der uns vieles erleichtern würde, jetzt auch Open 553 00:42:43,670 --> 00:42:48,820 Discourse up to date zu halten, wäre ein RSS-Feed vom Bundestag. Da sitzen auch die 554 00:42:48,820 --> 00:42:53,260 Leute von Open Parliament TV so ein bisschen dran und hoffen, dass das 555 00:42:53,260 --> 00:42:56,480 irgendwie bereitgestellt wird. Aber das würde uns natürlich ermöglichen, 556 00:42:56,480 --> 00:43:01,550 automatisiert den Datensatz zu erweitern, sobald irgendwie eine neue Rede 557 00:43:01,550 --> 00:43:08,640 bereitgestellt wurde auf den Servern. Im Moment geht das leider so noch nicht. 558 00:43:08,640 --> 00:43:12,690 Herald: Strukturierte, maschinenlesbare Verwaltung und strukturierte Daten quasi 559 00:43:12,690 --> 00:43:17,850 als Wunsch. Es gibt ja zum Teil zumindest eigene Projekte, wo aus dritter Hand 560 00:43:17,850 --> 00:43:22,310 solche Daten für Dritte bereitgestellt werden, wie z.B. Wikidata. Ist das eine 561 00:43:22,310 --> 00:43:26,560 Quelle, auf die ihr euch, die ihr verwenden könnt für so was? 562 00:43:26,560 --> 00:43:32,510 Florian: Genau. Teilweise hatten wir das auch verwendet. Also auf dem Weg zum 563 00:43:32,510 --> 00:43:38,380 fertigen Produkt haben wir auch mit Wikidata-Daten gearbeitet. Zum Beispiel 564 00:43:38,380 --> 00:43:44,050 gibt es in den Stammdaten ja Informationen darüber, wo Personen geboren wurden und 565 00:43:44,050 --> 00:43:48,890 das sind die Originalgeburtsorte von damals, quasi mit den historischen Namen. 566 00:43:48,890 --> 00:43:55,840 Und an der Stelle hatten wir dann mal als Test-Experiment bei uns intern für jede 567 00:43:55,840 --> 00:44:02,120 Person, die wir im Bundestag hatten, jeden Abgeordneten und jede Abgeordnete, die 568 00:44:02,120 --> 00:44:05,710 Wikidata-IDs rausgesucht, damit wir mappen können: Okay, was ist denn jetzt 569 00:44:05,710 --> 00:44:08,530 eigentlich die ID für den Geburtsort dahinter, damit wir damit weiterarbeiten 570 00:44:08,530 --> 00:44:12,350 können? Das liegt aber bei uns nur, also das ist jetzt nicht Teil des Korpus, weil 571 00:44:12,350 --> 00:44:16,370 wir das nicht weit... also so weit validiert haben, dass wir sicher sein 572 00:44:16,370 --> 00:44:21,080 können, dass das korrekt ist. Aber auf jeden Fall. Also das wäre so ein bisschen 573 00:44:21,080 --> 00:44:24,330 die Anschlussfähigkeit, die wir uns eigentlich wünschen. Also im Idealfall 574 00:44:24,330 --> 00:44:29,270 wäre jetzt und wäre vielleicht die Community dazu auch aufgerufen, für jede 575 00:44:29,270 --> 00:44:33,900 Politiker:in noch die entsprechende Wikidata ID mit zum am Korpus dazu zu 576 00:44:33,900 --> 00:44:40,710 packen, damit wir noch viel mehr Daten und viel mehr Dimensionen haben für den ganzen 577 00:44:40,710 --> 00:44:44,330 Datensatz haben. Herald: Wohin wenden sich denn Menschen, 578 00:44:44,330 --> 00:44:46,901 wenn sie bei eurem Projekt mitmachen möchten? 579 00:44:46,901 --> 00:44:52,130 Florian: Am besten z.B. zwischenruf@opendiscourse.de oder auf 580 00:44:52,130 --> 00:44:54,680 unserer Webseite opendiscourse.de findet ihr auch verschiedene 581 00:44:54,680 --> 00:44:58,930 Kontaktmöglichkeiten. Ihr könnt natürlich auch direkt über das Repository uns 582 00:44:58,930 --> 00:45:02,940 Tickets schreiben, falls ihr irgendwie Sachen habt, die euch aufhalten. Twitter, 583 00:45:02,940 --> 00:45:08,750 Instagram, sämtliche Kanäle. Herald: Alle sozialen Netzwerke. Seid ihr 584 00:45:08,750 --> 00:45:11,980 auf TikTok? Florian: Nur privat... 585 00:45:11,980 --> 00:45:17,060 Herald: Zum Thema Transferierbarkeit gab's dann auch nochmal eine Frage aus dem Chat. 586 00:45:17,060 --> 00:45:21,369 Zum Beispiel für die Republik Österreich. Wie gehen den Menschen vor - ihr habt ja 587 00:45:21,369 --> 00:45:23,920 vorhin umrissen, dass es gar nicht so einfach ist, so einen Datensatz zu 588 00:45:23,920 --> 00:45:26,911 analysieren. Aber wie würden denn Menschen vorgehen, die sagen: Das finden sie 589 00:45:26,911 --> 00:45:29,330 interessant. Zum Beispiel für ihr Landesparlament oder eben auch für ein 590 00:45:29,330 --> 00:45:34,680 anderes Land? Florian: Genau, an der Stelle sind wir 591 00:45:34,680 --> 00:45:39,830 leider auch nicht ausreichend Expert:innen für die Plenarprotokolle, wie die auf 592 00:45:39,830 --> 00:45:44,680 Landesebene aussehen. Also es könnte sein. Wir haben da halt noch nicht reingeschaut. 593 00:45:44,680 --> 00:45:47,770 Es könnte sein, dass es eigentlich gar nicht zu viele Abänderungen der Regex 594 00:45:47,770 --> 00:45:52,350 Patterns voraussetzt, um es zu übertragen. Es könnte aber auch sein, dass es relativ 595 00:45:52,350 --> 00:45:58,730 aufwändig ist. Wir würden da jetzt so ein bisschen auf die Stimmen von euch warten. 596 00:45:58,730 --> 00:46:03,110 Also was interessiert euch denn eigentlich am meisten? Und wir sind natürlich auch 597 00:46:03,110 --> 00:46:08,430 sehr dankbar für jedes weitere Paar Augen, das auf unsere Daten oder bzw. auf unseren 598 00:46:08,430 --> 00:46:12,110 Source Code draufschaut, um vielleicht Ideen zu entwickeln, wie man das jetzt 599 00:46:12,110 --> 00:46:18,112 möglichst effizient auf andere Anwendungsbereiche übertragen kann. 600 00:46:18,112 --> 00:46:22,619 Herald: Okay, dann ist noch eine Frage aus dem Chat, nämlich vielleicht kam das im 601 00:46:22,619 --> 00:46:26,710 Talk vor. Er schreibt die Person: Aber wie ist das Projekt zustande gekommen? 602 00:46:26,710 --> 00:46:33,040 Insbesondere von der Finanzierung her? Philipp: Also die Idee, die Grundidee war 603 00:46:33,040 --> 00:46:37,570 glaube ich war, als wir zusammensaßen und uns überlegt haben, wie können wir denn 604 00:46:37,570 --> 00:46:41,250 eigentlich in Anbetracht von so vielen schönen und künstlerischen oder 605 00:46:41,250 --> 00:46:45,369 politischen Programmen und Aktionen die so gibt, was können wir da eigentlich 606 00:46:45,369 --> 00:46:49,810 beitragen, um irgendwas zu machen? Wir sind Informatiker und Data Scientists und 607 00:46:49,810 --> 00:46:53,660 das ist nicht so direkt der Punkt, wo man jetzt die Welt ins Positive drehen kann. 608 00:46:53,660 --> 00:46:57,500 Aber dann ist uns aufgefallen, dass eben diese Daten, der Datensatz nicht 609 00:46:57,500 --> 00:47:01,400 ausreichend verfügbar ist, dass der nicht maschinenlesbar ist, dass es nur händisch 610 00:47:01,400 --> 00:47:05,010 durchsuchbare Protokolle sind. Und dann haben wir diesen Datensatz genommen und 611 00:47:05,010 --> 00:47:08,340 aufgebrochenen. Grundlegend sind wir sonst normalerweise in Agenturen und erbringen 612 00:47:08,340 --> 00:47:11,291 Data Science Machine Learning Dienstleistungen. Und haben dieses Projekt 613 00:47:11,291 --> 00:47:15,970 aber in Abstimmung mit unserem Team, also wir waren zu neunt an diesem Projekt, 614 00:47:15,970 --> 00:47:21,780 haben das quasi komplett von unserem Business getrennt und haben quasi gesagt: 615 00:47:21,780 --> 00:47:25,950 Okay, wann immer wir Arbeitsstunden frei haben, haben wir Zeit um dieses Projekt zu 616 00:47:25,950 --> 00:47:31,390 treiben. Und damit diese quasi Bindung der Privatwirtschaft, die da ja dran sein 617 00:47:31,390 --> 00:47:34,570 könnte, dass die natürlich auch komplett eliminiert ist, ist dieses Projekt 618 00:47:34,570 --> 00:47:39,057 komplett offen und ist komplett durchsuchbar und ist komplett frei, sodass 619 00:47:39,057 --> 00:47:42,150 validiert werden kann, dass wir das natürlich... Wir haben natürlich eine 620 00:47:42,150 --> 00:47:45,070 eigene politische Meinung, aber die soll natürlich nicht mit in diesen Datensatz 621 00:47:45,070 --> 00:47:47,800 fließen. Daher liegt der Datensatz komplett offen und kann vollkommen 622 00:47:47,800 --> 00:47:51,900 durchsucht werden. Finanziert ist das aber quasi aus den Freistunden, die wir als 623 00:47:51,900 --> 00:47:56,890 Data Science Agentur hatten. Herald: Vielen Dank Florian, vielen Dank 624 00:47:56,890 --> 00:48:00,110 für dieses spannende Projekt und wirklich gehaltvolle Projekt. Bei den 625 00:48:00,110 --> 00:48:03,920 Beleidigungen muss man auch sagen: Franz Josef Strauß war von der Runterzählung der 626 00:48:03,920 --> 00:48:08,320 Top 5 fast zu erwarten, dass der rauskommt. Ich hatte eigentlich noch Herrn 627 00:48:08,320 --> 00:48:12,890 Wehner auch erwartet, der eigentlich sein sein traditioneller Widersacher war. Habt 628 00:48:12,890 --> 00:48:17,370 ihr denn ein Lieblingsschlagaustausch oder eine Lieblingsbeleidigung gefunden in 629 00:48:17,370 --> 00:48:21,020 eurer Arbeit. Philipp: Ich glaube, man kann es auf so 630 00:48:21,020 --> 00:48:26,063 unterschiedliche Art und Weisen auch operationalisieren. Ich glaube wir hatten 631 00:48:26,063 --> 00:48:29,780 mal eine ganz, eine ganz spannende... ich glaube das müssten wir nochmal... 632 00:48:29,780 --> 00:48:33,910 Vielleicht machen wir dafür nochmal einen extra Teil auf der Website, wo wir die 633 00:48:33,910 --> 00:48:38,264 spannendsten Beleidigungen nochmal aufgreifen. Das wäre ein gutes Thema. 634 00:48:38,264 --> 00:48:41,070 Florian: Wir hatten glaube ich teilweise in so einem kleinen Dokument mal ein paar 635 00:48:41,070 --> 00:48:43,660 Sachen gesammelt. Aber ich hab die grad auch gar nicht im Kopf. 636 00:48:43,660 --> 00:48:48,021 Herald: Okay, also einen Ausbaupotenzial für den Spaß da hinten dran, für die 637 00:48:48,021 --> 00:48:52,420 Spaßig-Seite der Datenanalyse ist auf jeden Fall vorhanden. Vielen Dank für 638 00:48:52,420 --> 00:48:58,010 euren Beitrag. Ich hoffe, ihr bekommt viel Feedback und noch viel Input, wie man hier 639 00:48:58,010 --> 00:49:00,220 noch mehr draus machen kann. Danke euch! - Vielen Dank auch. 640 00:49:00,220 --> 00:49:02,810 - Danke dir. 641 00:49:02,810 --> 00:49:06,180 *Wikipaka Outro Musik* 642 00:49:06,180 --> 00:49:13,000 Untertitel erstellt von c3subtitles.de im Jahr 2021. Mach mit und hilf uns!