Transcript: Corona aus der Data-Science Perspektive

· Back to episode

Full episode transcript. Timestamps refer to the audio playback.

Dominik

Ja, hallo liebe Hörerinnen und Hörer. Willkommen bei einem Python-Podcast, mittlerweile in der 19. Episode.

Dominik

Heute unser Thema ist wieder Data Science. Wir haben leider ein bisschen den Coronavirus, Covid-19, die wir in der 19. Folge etwas besprechen möchten,

Dominik

aber aus einer Data Science Perspektive. Das heißt, wir hoffen, dass ihr euch nicht zu viel mit dem Virus nerven, von dem ihr bestimmt alle die Schnauze und die Nase voll habt.

Dominik

Ja, wir sind tatsächlich alle remote dabei. Ich bin der Dominik, dabei ist natürlich wieder Jochen.

Dominik

und wir haben einen Gast, den Thomas.

Dominik

Hallo, ja, vielen Dank für die Einladung.

Dominik

Ja, schön, dass du da bist.

Jochen

Ja, vielleicht sollten wir diesmal auch tatsächlich dazu sagen,

Jochen

an welchem Datum, das wollten wir sowieso immer machen,

Jochen

aber heute ist es vielleicht besonders relevant,

Jochen

das 26. März 2020.

Jochen

Also, keine Ahnung, an welchem Punkt irgendwie

Jochen

der ganzen Corona-Krise wir uns befinden.

Jochen

Vielleicht am Anfang, vielleicht mittendrin, wer weiß.

Jochen

Ich hoffe, das ist alles direkt bald vorbei

Jochen

und ich mache die Augen zu und will nicht sehen und hören davon.

Dominik

naja, ich hoffe, ihr seid alle gesund.

Dominik

Ja,

Jochen

ich weiß nicht,

Jochen

möchtest du dich vielleicht kurz selbst

Jochen

vorstellen, Thomas?

Thomas

Klar, gerne. Also ich bin der Thomas

Thomas

Wiki, ich

Thomas

T-Wiki auf Twitter.

Thomas

Ich habe in

Thomas

Tübingen Bioinformatik studiert und dann da

Thomas

am Max-Panck-Institut nebenbei noch so ein paar

Thomas

Sachen gemacht und da

Thomas

habe ich mich auch angefangen für

Thomas

Machine Learning und Statistik zu interessieren.

Thomas

Dann bin ich in die USA gegangen und in der Brown University habe ich einen Doktor gemacht.

Thomas

Und das war im Bereich von Computational Psychiatry.

Thomas

Und da geht es darum, dass man Modelle vom Gehirn baut.

Thomas

Und dann an diesen Modellen von Teilen des Gehirns überlegt man sich,

Thomas

okay, jetzt weiß ich, wie das in der gesunden Person funktioniert.

Thomas

Und dann kann man gewisse Neurotransmitter hoch- oder runterregulieren

Thomas

und sehen, okay, wie verändert sich das Verhalten?

Thomas

Und stimmt das dann zum Beispiel mit dem, wie man es in Parkinson oder in anderen psychiatrischen Erkrankungen sieht, überein?

Thomas

Und darüber habe ich mal eine Zertifizierung geschrieben.

Thomas

Während des Doctors und auch schon davor, allerdings war mir immer klar,

Thomas

okay, die freie Wissenschaft ist zwar sehr cool, macht viel Spaß,

Thomas

aber ein sehr unstetiger und steiniger Karriereweg.

Thomas

Und das war dann, wo das aufkam zu dieser Zeit mit dem Griff Data Science.

Thomas

Da war dieser riesige Artikel, Data Science is the sexiest job of the 21st century und den habe ich gelesen und habe mir gedacht, krass, das ist ja genau das, was ich mache, ohne es zu wissen, dass es jetzt auf einmal Data Science heißt.

Thomas

Und dann habe ich mir überlegt, okay, Wissenschaft ist ja schön gut, aber wer weiß überhaupt, wie die Industrie ist, also ich habe das nie wirklich kennengelernt und deswegen habe ich dann angefangen, da so ein paar Fühler auszustrecken.

Thomas

Und bin dann auch auf diese Pi-Data-Konferenzen gegangen und über den Wes McKinney, der Pandas geschrieben hat, bin ich dann mit dem Forst in Kontakt gekommen und der CEO von Kotopion.

Thomas

Und dann habe ich da angefangen, einmal in der Woche zu arbeiten, also während des Studiums. Und dann danach bin ich zurück nach Deutschland gezogen und seitdem bin ich da remote als Vice President of Data Science und leite da das Research Team bei Quantopion.

Dominik

Kannst du das nochmal ganz kurz wiederholen? Ich glaube, wir hatten einen kleinen Knacks in der Verbindung. Deine letzte Station. Das klingt sehr spannend.

Thomas

Genau, nach meinem Dokument bin ich dann nach Deutschland gegangen und die Banken haben gesagt, willst du nicht weiter für uns arbeiten? Und da bin ich VP of Data Science und Leiter des Research Team.

Thomas

Okay, cool.

Jochen

Ja, cool. Was macht Quantopien denn so?

Jochen

Das klingt irgendwie so ein bisschen nach Finanzbranche.

Jochen

Quants und so.

Thomas

Genau, richtig. Daher kommt auch der Name.

Thomas

Und also wir stellen eine Plattform bereit im Internet,

Thomas

wo jeder, der möchte und so ein paar rudimentäre Python-Skills hat,

Thomas

auf die Plattform kommen kann.

Thomas

Und da findet er zum Beispiel einen Jupyter-Notebook,

Thomas

wo er direkt, er oder sie,

Thomas

alle möglichen Finanzdaten hat und die ganzen Bibliotheken, die man haben möchte und dann kann man da direkt loslegen und

Thomas

Analysen machen, wie sich zum Beispiel jetzt die Corona-Krise auf den Aktienmarkt auswirkt.

Thomas

Und wenn man dann eine gute Idee hat, dann kann man daraus einen Rhythmus entwickeln, einen Trading-Algorithmus,

Thomas

der dann in den Markt

Thomas

investiert, was auf gewisse Ziele zurückgeht. Wenn das tatsächlich funktioniert, dann

Thomas

kann man die Algorithmus-Plattform zum Beispiel bei unseren Trading-Competitions einreichen

Thomas

und Cash-Prize gewinnen oder auch Allokationen.

Thomas

Also wir arbeiten mit Asset-Managern zusammen, um dann diese Algorithmen sozusagen zu vermitteln an andere

Thomas

und dann wird man da gewinnbeteiligt zum Beispiel.

Thomas

Und das andere, was wir auch noch machen, ist diese Finanzplattform,

Thomas

diese Research-Plattform, die wir da gebaut haben,

Thomas

dann auch noch an Kunden zu vermitteln.

Thomas

Also es gibt ja auch ein Enterprise-Business,

Thomas

aber die Community-Edition ist kostenlos.

Thomas

Und wenn man da rauf geht,

Thomas

dann, also die Ergebnisse und das Intellectual Property,

Thomas

was man da entwickelt, bleibt auch immer bei den Usern.

Thomas

Und da sind unsere Terms of Service sehr genau,

Thomas

weil das oft eine Frage ist.

Jochen

Ich meine, um da irgendwie Modelle bauen zu können,

Jochen

braucht man ja auch irgendwie Zugriff auf eine ganze Menge historische Daten.

Jochen

Werden die dann schon angeboten?

Jochen

Oder muss man da irgendwie gucken, wo man die herbekommt?

Jochen

Ich glaube, ganz lange war irgendwie Yahoo Finance

Jochen

irgendwie eine ganz gute Quelle, aber...

Jochen

Die Abis sind nicht mehr frei.

Jochen

Nee? Ah, okay.

Thomas

Ja, also die haben es schwieriger gemacht, die Daten zu kriegen.

Thomas

Also ja, das habe ich dann irgendwann aufgegeben.

Thomas

Also es gibt eigentlich kaum wirklich gute Datenquellen,

Thomas

die kostenlos sind.

Thomas

Aber bei uns auf jeden Fall auf der Plattform gibt es die alle.

Thomas

Also internationale Equities, Price Volume, alles Mögliche in Minutenauflösung über, ich glaube, die letzten 14 Jahre oder so.

Thomas

Und auch eine wichtige Sache ist, dass die Survivorship-Bytes frei sind.

Thomas

Also das heißt, wenn eine Firma untergeht, oft werden die dann zum Beispiel über EU Finance nicht mehr aufgelistet.

Thomas

Bei uns allerdings schon.

Thomas

Und wir haben da sehr viel Arbeit reingesteckt,

Thomas

dass die Daten auch wirklich sauber sind

Thomas

und dass da, wenn da Splits in dem Stock oder Dividend Payments sind,

Thomas

dass das akkurat reflektiert wird.

Thomas

Zusätzlich haben wir noch alle möglichen anderen Datenquellen

Thomas

wie Estimates, also was Leute glauben,

Thomas

wie sich die Earnings entwickeln

Thomas

oder Transactions von Leuten,

Thomas

gewisse Reglementierung haben. Wenn man bei einer Firma arbeitet, dann darf man nur in

Thomas

ganz gewisser Art und Weise diese Firma, für die man arbeitet, traden. Das ist ja klar,

Thomas

weil man natürlich Insider-Informationen hat. Und man muss es auch angeben. Und das

Thomas

sind auch zum Beispiel Daten, die zur Verfügung sind. Also wir sind die ganze Zeit dabei,

Thomas

alle möglichen neuen Datenquellen dazuzufügen. Und das ist auch immer wichtig, denn diese

Thomas

Daten ist eigentlich das, worum es geht.

Thomas

Wenn man nur Preisdaten hat,

Thomas

das gibt es seit 50 Jahren,

Thomas

also da ist nichts mehr,

Thomas

Alpha nennt sich das, wenn man

Thomas

ein Signal hat, was Vorhersagekraft hat,

Thomas

was der heilige Kral ist

Thomas

in Quant Finance,

Thomas

braucht man immer diese neuen Datenquellen

Thomas

und das ist immer so ein Wettrüsten zwischen

Thomas

den verschiedenen Hedgefonds.

Thomas

Wer kriegt die neuesten Daten,

Thomas

die noch das

Thomas

am besten vorhersagen?

Dominik

Klingt sehr interessant. Habt ihr da bestimmte Favoriten oder sowas? Oder wie ihr dann den Markt auch performen könnt? Oder bist du da selber irgendwie, machst du da selber Investments?

Thomas

Also wir sozusagen auf der Plattform machen das nicht, einfach weil es ein Conflict of Interest ist. Das heißt, das übernimmt nur unsere User und nicht nur Conflict of Interest, sondern unsere User können das auch viel besser.

Thomas

Also ich bin erstaunt, wenn ich mit denen spreche, was für interessante Hintergründe die haben und wie viel Ahnung die auch wirklich haben von der Materie. Und die kommen von allen möglich verschiedenen Bereichen, also Leute, die haben VWL studiert und haben sich dann auf unserer Plattform, also wir haben da alle möglichen Tutorials, Python selber beigebracht und implementieren dann da ihre eigenen Ideen oder aber auch viele Software-Engineers, die eigentlich Python können und dann da so ein bisschen Data Science lernen wollen.

Thomas

Und genau, da haben wir halt alle möglichen Tutorials für jedermann, was auch immer man da lernen möchte. Und dadurch, dass alles auch natürlich gehostet ist, keine Installations-Delays oder so, also man kann direkt loslegen.

Dominik

Gut, also läuft alles auf dem Jupyter-Notebook dann bei euch?

Thomas

Genau, also Jupyter Notebook ist das eine, das ist so das Primäre und dann gibt es aber auch noch einen separaten Backtester, wo man dann wirklich den Algorithmus schreiben kann und dann hat man so ein Web-Interface, wo man dann sagen kann, okay, das möchte ich jetzt auf historischen Daten starten von 2000 bis heute und dann, genau, wird das dadurch simuliert und dann schaut man sich die Ergebnisse an und möglicherweise, ja.

Jochen

Ja, das ist auch interessant, genau, Backtesting ist vielleicht auch nicht jedem irgendwie ein Begriff direkt, ich meine, wenn man jetzt irgendwie evaluieren will, ob irgendwie ein Modell, so im Machine Learning Bereich zum Beispiel, irgendwie, ja, das tut, was man haben möchte oder so, dann macht man da irgendwie Cross-Validation oder sowas und bei solchen Zeitreihen-Geschichten muss man ja irgendwie ein bisschen was anderes machen, weil man ja gar nicht quasi sozusagen, man muss ja die Zeitrichtung irgendwie berücksichtigen.

Jochen

Kannst du was dazu sagen, wie das genau funktioniert

Jochen

oder wo man da aufpassen muss, was man da macht?

Jochen

Ja, also aufpassen muss man auf jeden Fall.

Thomas

Das größte Risiko ist immer Overfitting

Thomas

und das ist sehr, sehr schwer, das nicht zu machen.

Thomas

Also dadurch, dass wir uns die Algorithmen anschauen,

Thomas

also wir schauen uns nicht mehr den Code an,

Thomas

aber wir schauen uns die Ergebnisse an,

Thomas

also wie viel Profit haben die deklariert

Thomas

und wie viele Positionen traden die

Thomas

und den Output von den Algorithmen schauen wir uns an.

Thomas

Und da können wir auch immer sehen, okay, also hier ist die Zeitperiode, wo der Quant, der User, Zugriff drauf hatte und hier ist die Zeitperiode, wo er keinen Zugriff drauf hatte. Und in der Regel sieht man, dass es nur im Backtest, also historisch, wo man es drauf entwickelt hat, gut funktioniert und dann out of sample eben nicht.

Thomas

Und um das zu umgehen, muss man auf jeden Fall da sehr diszipliniert dran gehen und genau auch da cross-validisch machen. Die funktionieren ein kleines bisschen anders, aber die Idee ist trotzdem die gleiche.

Thomas

Also es geht immer darum, gewisse Training-Daten zur Verfügung zu haben und darauf entwickelt man seine Ideen und dann andere Daten, die man nicht anrührt und dann wirklich nur ganz am Ende benutzt zum Testen, um zu wissen, ob die Idee auch wirklich valide ist oder nicht.

Thomas

Und da gibt es verschiedene Ansätze, zum Beispiel eine Sache, die ich recht elegant finde,

Thomas

ist, dass man die geraden und die ungeraden Quarte, also Business Quarte, Vierteljahre immer austauscht.

Thomas

Also man trainiert nur auf den geraden Quartern, also 1. und 3. und dann 2. und 4. benutzt man zu testen.

Thomas

Denn das, was immer die riesige Schwierigkeit ist bei allem, was Quant Finance ist, ist es nicht stationär.

Thomas

Also das heißt, der Markt ändert sich permanent und irgendwas, was damals funktioniert hat, funktioniert dann vielleicht nicht mehr.

Thomas

Aber vielleicht fängt es auch wieder an zu funktionieren.

Thomas

Also man weiß nie so genau, was da Sache ist.

Dominik

Das klingt so ein bisschen schwierig, wenn man so Quartale rausnimmt.

Dominik

Ich stelle mir jetzt vor, es gibt Saisongeschäfte oder sowas und die würde man ja dann verlieren.

Dominik

Also dann würde ich fast lieber das ungerade Jahr rausnehmen oder so

Dominik

und dann alle zwei Jahre gucken.

Thomas

Ja, also es gibt da wenig, was wirklich perfekt ist.

Thomas

Bei Jahren zum Beispiel hat man 2009, was natürlich ein besonderes Jahr ist.

Thomas

Also ja, also das mit den Quartalen zum Beispiel, die kann man dann auch randomisieren,

Thomas

also dass man vielleicht nicht nur die geraden und ungeraden nimmt,

Thomas

sondern das randomisiert.

Thomas

Genau, und das Klassische natürlich auch einfach, und das ist eigentlich auch eine solide Methode, ist einfach dann zu sagen, okay, die letzten zwei Jahre schaue ich mir nicht an, denn die Annahme ist so ein bisschen, was jetzt funktioniert, was noch nicht so lange her ist, das, was hoffentlich auch dann funktioniert, wenn man es wirklich live schaltet.

Thomas

Also, ja, gibt verschiedene Philosophien und leider keine, die so richtig zufriedenstellend ist, hat so alles seine Vor- und Nachteile.

Dominik

Spannend, also sehr, sehr interessant. Es geht ja auch das Gerücht um, dass dieser große Absturz jetzt gefolgt ist, der hauptsächlich auf so Quant zurückzuführen wäre.

Thomas

Ich glaube, der ist eher auf Covid-19 zurückzuführen.

Dominik

Ja, aber in der Kombination und in der Härte.

Dominik

Also da ist vielleicht auch was dran,

Dominik

weil die halt dann alle stumpf sagen,

Dominik

okay, jetzt raus, raus, raus, verkaufe.

Thomas

Also das ist auf jeden Fall so,

Thomas

dass Hedgefonds und Quantfonds da auf jeden Fall

Thomas

ihr Risiko minimiert haben und rausgegangen sind.

Thomas

Aber das haben die gemacht, so wie jeder andere auch.

Thomas

Gerade die großen Anleger,

Dominik

die gehen wahrscheinlich früher raus noch als vielleicht Private,

Dominik

weil die halt ihr Stop-Loss dann irgendwann haben

Dominik

und sagen, nee, jetzt muss weg.

Thomas

Ja und nein, also die sind natürlich sehr hinterher, aber gleichzeitig haben die natürlich auch Investments, die in einer anderen Größenordnung stattfinden.

Thomas

Also wenn das halt nicht die Rentenanlage von irgendeiner Privatperson ist, der damit 100.000 oder sowas ETFs hat, sondern ein Rentenfonds mit Gott weiß wie vielen Milliarden.

Thomas

Das kann man nicht von heute auf morgen

Thomas

in einem absoluten panischen Markt direkt abstoßen.

Thomas

Das ist so ein bisschen, also die sind da sehr viel langsamer

Thomas

und natürlich auch, wir gehen jetzt auch nicht einfach so im Cash.

Thomas

Also die machen natürlich trotzdem weiter,

Thomas

aber es ist, ja, also das Risiko wird minimiert

Thomas

und das hat dann immer diese Feedback-Effekte.

Thomas

Also die Ersten fangen an und dann werden die Stop-Losses bei,

Thomas

den nächsten getribbt und die

Thomas

verkaufen dann sehr rapide und

Thomas

das triggert dann weitere Stop-Losses

Thomas

und ja, also

Thomas

das sind so Schneeball-Effekte, die da ganz leicht entstehen.

Dominik

Interessant, also da könnte man auch irgendwie

Dominik

einen Algorand ansetzen, der es vielleicht

Dominik

erkennt oder so, so ein Muster an diesen Losses.

Dominik

Ja, durchaus, also

Dominik

wird auch gemacht.

Thomas

Wir sind jetzt allerdings gerade aber

Thomas

natürlich echt in einem

Thomas

Marktregime oder einfach auch

Thomas

allgemein in einer Weltsituation, die wir

Thomas

so noch hatten.

Dominik

Das ist ja ein komplett irrationales Verhalten, das hast du herzulagen, glaube ich.

Dominik

Das ist sehr, sehr tough.

Dominik

Also ob das überhaupt geht, ist halt die Frage.

Dominik

Glasuhl, Reibeln und...

Thomas

Ja, also irrationales wird sich

Thomas

herausstellen,

Thomas

denn ich meine, die Effekte

Thomas

auf die Weltwirtschaft sind natürlich

Thomas

schon jetzt schon massiv und

Thomas

werden wahrscheinlich

Thomas

nur noch viel stärker werden.

Thomas

Also es ist echt eine sehr

Thomas

neue Art der Situation und diese ganzen

Thomas

Anlagestrategien

Thomas

wie wir schon gerade besprochen haben,

Thomas

haben natürlich schon immer so die Annahme mit eingebaut,

Thomas

dass sich die Geschichte zum gewissen Teil schon wiederholt.

Thomas

Aber das ist jetzt halt im Moment gerade nicht so.

Thomas

Und da sind die genauso von überrascht wie alle anderen auch.

Dominik

Also ich habe relativ interessante Artikel dazu gelesen,

Dominik

was dann die Zentralbanken machen könnten, um zu reagieren

Dominik

und wie man halt das dagegen wirken könnte.

Dominik

Und da kommen einige spannende Effekte bei raus.

Dominik

Von Deflation über mehrere Inflationen in Folge angefangen

Dominik

und die man dann halt mit Geld bewerfen kann.

Dominik

Wenn man es schafft, diesen Wirtschaftskreislauf mit Geld wieder anzukurbeln, dass halt die Umschlagsgeschwindigkeit wieder hochgeht und so, das würde dann bedeuten, dass es sich auf einem ähnlichen Niveau wie jetzt vor kurzem einpendeln könnte. Ja, aber das ist sehr, sehr schwierig vorauszusagen, ob das überhaupt klappt und ob das alles wieder anläuft. Und man muss halt erstmal alles mögliche mit Geld beschmeißen und dann machen die Staaten vielleicht noch den Adler oder so. Das ist alles sehr kompliziert.

Thomas

Ja, also ist auf jeden Fall jetzt eine sehr schwierige Situation und die Noten sind jetzt auch nicht in einer Situation, wo sie noch so viel mehr Spielraum hatten.

Thomas

Also die FED zum Beispiel hatte den Leitzins, bevor das überhaupt passiert ist, ziemlich angezogen dann und ihn dann aber sehr frühzeitig schon direkt runtergesetzt und die Märkte haben nicht wirklich darauf reagiert.

Thomas

Also das ist schon eigentlich so mit der einzige Hebel, den die wirklich haben.

Dominik

Ich habe gehört, um minus 6% ist das neue Ziel.

Dominik

Ja,

Dominik

so ungefähr.

Thomas

Also in der EU zum Beispiel müssen wir

Thomas

das was machen, denn die EZB war ja schon

Thomas

immer bei null.

Thomas

Da ist kaum noch

Thomas

Spielraum überhaupt vorhanden,

Thomas

diesen Hebel zu benutzen.

Thomas

Und das, was ich auch denke,

Thomas

ist, dass es natürlich

Thomas

ein anderes Problem ist.

Thomas

Es ist halt jetzt nicht wie 2009, wo es

Thomas

ein Problem in der Finanzbranche

Thomas

war, was sich dann ausgebreitet

Thomas

hat und andere

Thomas

gemacht hat, aber wo die

Thomas

Weltwirtschaft trotzdem ja noch

Thomas

funktioniert hat, sondern es war halt einfach so ein

Thomas

ja auch so ein Schneeball-Effekt, der

Thomas

sich da dann ausgebreitet hat, aber im Moment

Thomas

steht die Weltwirtschaft dann einfach

Dominik

auf Angebot und Nachfrage-Seite,

Dominik

das gleichzeitig und

Thomas

egal wie viel Geld man druckt,

Thomas

das wird

Thomas

allein die Wirtschaft nicht wieder ankurbeln,

Thomas

wenn alle zu Hause bleiben müssen.

Jochen

Ja, bestimmte Sachen kann man auch gar nicht wieder so schnell anfahren, wenn man bestimmte Fabriken oder bestimmte Kraftwerke erstmal stillgelegt hat oder so, weil da halt auch keine Abnehmer für den Strom sind, dann kann man die auch nicht wieder gut anfahren und so weiter und so, das ist halt alles jede Menge Konsequenzen.

Dominik

Im bis nebenan, wenn der dann erstmal breiter ist, ob die dann direkt den neuen aufmacht, weiß man nicht, da muss sich jemand wieder finden, der dasselbe nochmal macht.

Jochen

Ja, was ich dann auch noch echt interessant fand, ist, dass halt auch die politischen Konsequenzen von solchen Sachen, wenn sich so viel ändert, sind ja auch immer so völlig unklar. Das hatte letztens irgendwie auch mit jemandem drüber gesprochen, der meinte dann so, ja, also gerade zum Beispiel in der EU ist ja gar nicht so klar, wie das irgendwie mit dieser ganzen Brexit-Geschichte zum Beispiel ausgeht.

Jochen

Und das könnte ja politisch desaströse Konsequenzen haben, wenn diese Geschichte wirtschaftlich funktioniert.

Jochen

Aber ob die wirtschaftlich funktioniert oder nicht, hängt ja jetzt von ganz vielen komischen Dingen ab.

Jochen

Wie zum Beispiel könnte es sein, dass es in einer Pandemie eine gute Idee ist, wenn man auf einer Insel lebt.

Jochen

Das kann ja sein. Das hat jetzt gar nichts mit der Brexit-Geschichte zu tun.

Jochen

Aber wenn das jetzt irgendwie dazu führt, dass die wirtschaftliche Situation in Großbritannien irgendwie deutlich besser ist als anderswo in Europa,

Jochen

dann hat das halt politische Konsequenzen

Jochen

für alle anderen, die unter Umständen

Jochen

sehr unangenehm werden. Es kann aber auch andersrum

Jochen

ausgehen, das weiß einfach keiner.

Jochen

Es gab

Dominik

einen Artikel von Taiwanesen, die auch gesagt haben,

Dominik

ja, also Großbritannien ist ja eigentlich auf einer Insel, die müssen das

Dominik

ähnlich machen wie wir und dann wären die von dem Virus relativ geschützt

Dominik

und haben gesagt so, ähm, nee.

Dominik

Das hat nicht funktioniert und naja,

Dominik

von daher, wir werden sehen.

Thomas

Die hatten da durchaus ihre eigene Ernährungsweise, ja.

Dominik

Aber vielleicht gehen wir nochmal zu dem Ganzen zurück,

Dominik

das ist alles sehr spannend, aber wie macht man das denn in Python?

Dominik

Also diese ganzen Quant-Sachen,

Dominik

die du da eben beschrieben hast, die total spannend sind.

Dominik

Was würdest du dann da machen?

Dominik

Und vielleicht kannst du gerade den Hörern

Dominik

so ein bisschen detaillierter erklären,

Dominik

also wie man damit so anfangen würde

Dominik

und welche Bibliothek man vielleicht benutzt

Dominik

und wie das Schema wäre und die Struktur,

Dominik

um das so ein bisschen aufzubauen.

Thomas

Also oft fangen Leute so ganz simpel an,

Thomas

zum Beispiel, also der Klassiker,

Thomas

und das funktioniert schon längst nicht mehr,

Thomas

aber ist so ein Dual Moving Average.

Thomas

Und da ist...

Thomas

Entschuldigung, bitte was?

Thomas

Dual Moving Average.

Thomas

Also ein doppelter gleitender Durchschnitt?

Thomas

Ja, genau. Also ein Durchschnitt, den man berechnet über zum Beispiel jetzt den Preis.

Thomas

Also ich sage, okay, ich nehme immer den durchschnittlichen Preis der letzten zehn Tage

Thomas

und vergleiche das mit dem durchschnittlichen Preis in 100 Tagen.

Thomas

Also das heißt, das eine ist was, was sich sehr schnell anpasst an die aktuelle Preisentwicklung

Thomas

und das andere ist mehr so ein Langzeittrend.

Thomas

Und dann kann ich zum Beispiel sagen, okay, also wenn der Kurzzeittrend,

Thomas

also die 10 Tage, den Langzeittrend durchbrechen,

Thomas

also höher werden von unten,

Thomas

dann glaube ich, ah, okay, das ist Momentum,

Thomas

also der Stock geht wohl gerade nach oben.

Thomas

Und dann glaube ich, dass der auch noch weiter nach oben geht.

Thomas

Das heißt, das ist dann, wann ich einkaufen möchte.

Thomas

Und wenn dann diese Linie mit dem 10-Tage-Moving-Average

Thomas

wieder von der anderen Seite kommt,

Thomas

dann denke ich, ah, okay, jetzt ist der Trend,

Thomas

wo das Momentum von dem Stock nach unten geht

Thomas

und dann möchte ich das verkaufen.

Thomas

Das kann man auf Einzelhandel anwenden und so fangen viele Leute an, aber in Hedge-Funds

Thomas

ist es oft so, dass man dann ganz viele Stocks traden möchte, also wie im Casino, also wenn

Thomas

man jetzt 51% Winschancen hat oder auch nur deutlich weniger, möchte man einfach ganz

Thomas

Bets machen, um

Thomas

irgendwann halt über den Mittelwert,

Thomas

das Law of Large Numbers,

Thomas

die

Thomas

Edge da kriegen,

Thomas

aus dem ganz kleinen

Thomas

Vorhersagekraft, die man da hat.

Thomas

Und deswegen

Thomas

macht man dann Strategien, die halt

Thomas

nicht nur einen Stock, sondern tausend Stocks

Thomas

oder zweitausend Stocks

Thomas

traden. Und

Thomas

die gleiche Logik, die ich gerade beschrieben habe, kann man

Thomas

natürlich auch nicht nur auf einen Stock anwenden,

Thomas

sondern auf all diese gleichzeitig.

Thomas

Also da würde ich dann einfach sagen, okay, wenn jetzt diese 2000 Stocks,

Thomas

die ich mir da rausgesucht habe, davon gehen manche gerade nach oben,

Thomas

also haben Abwärtsmomentum und andere nach unten, die haben Downward-Momentum.

Thomas

Und dann kann ich zum Beispiel hingehen und sagen, okay, also die,

Thomas

die gerade nach oben gehen, die möchte ich gerne nach unten und die,

Thomas

die nach unten gehen, die möchte ich gerne verkaufen sozusagen.

Thomas

Also Long Selling und Short Selling. Also Short Selling heißt, dass ich Geld verdiene, wenn die Aktie nach unten geht. Und das ist so ein ganz klassischer Trick, dass man sagt, okay, also 50% meiner Anlage möchte ich gern Long anlegen, also Geld verdienen, wenn der Stock nach oben geht und die anderen 50%, da möchte ich gern Geld verdienen, wenn der Stock nach unten geht.

Thomas

Und die Idee hinter dieser Long-Short-Strategie ist, dass es dann alles ist, was der Markt macht. Also der Markt geht nach oben und das interessiert mich aber nicht, denn die Long 50% verdienen Geld und die anderen Short 50% verlieren Geld, aber das gleicht sich aus.

Thomas

Und genauso, wenn der Markt nach unten geht, dann gewinne ich mit meinen Shorts und verliere mit meinen Monks. Das heißt, ich isoliere wirklich nur das Signal, was ich auch wirklich glaube, wo ich eine Vorhersagekraft habe in dem Moment. Also in dem Fall jetzt zum Beispiel, dass halt Stocks Aktien Momentum haben und dass sie halt anfangen nach oben zu gehen, dass sie dann noch ein bisschen weiter nach oben gehen und umgekehrt nach unten gehen, dass sie dann noch ein bisschen weiter nach unten gehen.

Thomas

Das ist so eine sehr klassische, aber dennoch moderne Quant-Strategie.

Thomas

Also dieses Long-Short ist ganz klassisch

Thomas

und dass man das auf ganz vielen Aktien anwendet.

Jochen

Wenn ich jetzt versuchen, also im Grunde geht es darum,

Jochen

dass ich sagen können möchte,

Jochen

ob jetzt morgen irgendwie eine Aktie hoch oder runter geht,

Jochen

so mehr oder weniger, oder für einen bestimmten Zeitraum.

Dominik

Also ich glaube eher das Portfolio vielleicht, das spielt eine große Rolle und wenn ich das jetzt höre, dass sie sich ausgleichen sollen, dann ist vielleicht das Portfolio wichtiger als die Einzelpositionen?

Thomas

Genau, richtig, ja. Also es ist natürlich wichtig, auf welcher Seite von meinem Portfolio ist dann die Aktie, die ich da trade, aber also es geht so ein bisschen weg eigentlich davon, sich dann für einzelne Aktien zu interessieren, sondern es geht vielmehr darum, wie sich jetzt diese Aktien, also sagen wir mal, wir haben 1000 Aktien, die wir uns anschauen und die wir zu jeder Zeit traden und das hat 500 davon,

Thomas

sind dann auf der Long-Seite

Thomas

und 50% sind auf der Short-Seite

Thomas

und

Thomas

da geht es dann darum, wie

Thomas

in welcher Form,

Thomas

also wie sortiere ich die so,

Thomas

dass

Thomas

die, die ich natürlich

Thomas

Short habe, sollen abstürzen, denn dann

Thomas

verdiene ich Geld und die, die ich auf der Long-Seite habe,

Thomas

sollen nach oben gehen und dann verdiene ich Geld.

Thomas

Aber ich verdiene wirklich nur Geld

Thomas

immer auf den relativen Unterschied

Thomas

zwischen denen und nicht

Thomas

zu dem, was der Markt macht. Also man

Thomas

Und deswegen heißt Hedge Fund, also Hedge heißt, dass man sich absichert von diesen anderen Risikofaktoren. Was zum Beispiel sehr hilfreich ist, zum Beispiel, wenn so eine Pandemie zu 20% Losses täglich führt. Also das ist genau dann, wenn man sowas haben möchte, denn da ist man gewissermaßen abgesichert.

Thomas

Allerdings sind auch die Hedgefonds davon sehr stark betroffen gewesen.

Thomas

Allerdings aber auch nicht so stark wie jetzt der Markt.

Thomas

Also das funktioniert schon, aber es ist auch nicht so,

Thomas

dass man dann sagt, okay, da ist man komplett immun

Thomas

gegen solch starke Events.

Thomas

Also das hat einen Einfluss auf jeden.

Dominik

Ja, da kann man natürlich auch nicht so viel gewinnen,

Dominik

als wenn jetzt Leute auf gute Einzelpositionen setzen würden,

Dominik

die sich damit ganz besonders toll auskennen oder so.

Dominik

Die können natürlich den Markt deutlich mehr outperformen

Dominik

als jemand, der so einen Mittelwert dann bildet.

Dominik

Also zumindest theoretisch, ihr könnt natürlich auch mehr verlieren.

Thomas

Ja, also es gibt da alle möglichen

Thomas

verschiedenen Ansätze, also der Quant-Ansatz ist auf jeden Fall

Thomas

diese statistischen Signale

Thomas

zu finden und die dann auf

Thomas

sehr großen Portfolios anzulegen,

Thomas

aber natürlich gibt es auch die

Thomas

Discretionary, also die, die

Thomas

wirklich einzelne Firmen dann

Thomas

sich sehr im Detail anschauen

Thomas

und da wirklich Analysen machen und dann

Thomas

sagen, okay, also ich weiß, dass jetzt

Thomas

Apple möglicherweise halt irgendwas

Thomas

in einem coolen neuen Produkt rauskommt

Thomas

Und deswegen werde ich so alles auf Rot setzen.

Thomas

Also das sind ganz unterschiedliche Anlagen.

Thomas

Also hier habe ich jetzt wirklich nur den Quant-Ansatz beschrieben.

Jochen

Aber ist das, ich meine, ich würde jetzt,

Jochen

wie gesagt, ich mache ja normalerweise so andere Data Science Machine Learning Modelle.

Jochen

Ich würde jetzt denken, wenn man irgendwie Kurs vorhersagen möchte,

Jochen

also das Allersimpelste, was mir jetzt einfallen würde,

Jochen

wäre, ich mache einfach lineare Regressionen oder so.

Jochen

Ich nehme einfach, weiß ich nicht, den Aktienkurs von gestern,

Jochen

von vor einer Woche, vor einem Monat oder sowas

Jochen

und habe halt irgendein Jahresmodell,

Jochen

was halt dann mir den für morgen halt vorhersagt.

Thomas

Also das ist auch ziemlich nah dran eigentlich,

Thomas

wie es oft gemacht wird.

Thomas

Und dann, so wie du jetzt angefangen hast,

Thomas

zu sagen, okay, also ich nehme jetzt den Aktienkurs

Thomas

von vor einer Woche und das ist dann das erste Feature.

Thomas

Und dann kann ich auch noch sagen, okay,

Thomas

vielleicht nehme ich auch das Volumen oder so vor einer Woche.

Thomas

Und dann nehme ich noch das Twitter Sentiment,

Thomas

Also was haben Leute auf Twitter über diesen Stock geschrieben?

Thomas

Und das ist dann mein drittes Feature.

Thomas

Und dann sozusagen so fange ich dann an, immer mehr und mehr.

Thomas

Und dann werden es Tausende von Signalen, die man hat,

Thomas

und dann oft lineare Aggressionen.

Thomas

Die funktionieren erstaunlich gut.

Thomas

Also jeder sagt immer, er macht da super fancy Machine Learning.

Thomas

Aber 80 bis 90 Prozent sind schon noch lineare Aggressionen,

Thomas

weil die einfach so robust sind.

Thomas

Also das ist immer das große Problem bei Quant Finance,

Thomas

das Rauschen in den Daten ist so massiv und das Signal ist so klein,

Thomas

dass wenn man da sehr fancy Methoden macht,

Thomas

dann ist das immer der Nachteil, dass die halt nicht so robust sind.

Thomas

Deswegen sind lineare Modelle da sehr mächtig.

Jochen

Welche Bibliotheken benutzt man denn da so?

Jochen

Ich glaube, ich habe einmal so ein bisschen was mit Zeit reingemacht.

Jochen

Das ist jetzt auch schon wieder ein bisschen was her.

Jochen

Da hatte mich auch so erstaunt, dass das Interface ganz anders ist.

Jochen

Weil normalerweise mache ich immer so Sachen mit Cycad Learn oder so.

Jochen

Oder Interfaces zumindest, die so ähnlich aussehen.

Jochen

Und das war dann Stats Models irgendwie.

Jochen

So Arima, Sarima Modelle.

Jochen

Und die sahen halt alle schon so ein bisschen anders aus.

Jochen

Ich weiß gar nicht, ist das das, was man dann auch...

Dominik

Jetzt musst du kurz erklären, was ist Arima, was ist Sarima?

Jochen

Oh je, genau, Thomas erklärt es besser.

Thomas

Ja, also das sind so klassische statistische Modelle.

Thomas

ARMA steht für Auto-Regressive, also AR, Auto-Regressive,

Thomas

AR für Moving Average.

Thomas

Und das heißt einfach, dass ich mir anschaue,

Thomas

okay, wie war denn der Wert vor zehn Tagen

Thomas

und wie ist der Moving Average?

Thomas

Also einfach so ein ganz klassisches statistisches Zeitreinmodell.

Thomas

Und die werden unter anderem von Stats Models der Python-Bibliothek unterstützt.

Thomas

Und allerdings kommen die gar nicht so sehr zum Einsatz in Quant Finance. Also das wurde viel gemacht, aber es ist eigentlich tatsächlich oft der klassische Missionsansatz, der, und das funktioniert nicht immer ganz so gut, oder man muss dann immer ziemlich viel extra Arbeit reinstecken, um das Problem, was ja ein Zeitrahmenproblem ist, das so zu übersetzen, dass es dann trotzdem in das klassische Psychic-Learn-Framework passt,

Thomas

wo man ja eben keine Zeit rein in der Regel hat.

Thomas

Also so wie man es oft macht,

Thomas

ist es einfach, dass man die Zeit eigentlich so ignoriert

Thomas

und sagt, okay, also ich habe halt einfach Features

Thomas

und so ein, also es nennt sich dann Walk Forward,

Thomas

dass man sagt, okay, jetzt habe ich irgendwie Daten von 2017,

Thomas

auf denen trainiere ich,

Thomas

dann habe ich Vorhersagen und teste dann das Modell

Thomas

und jeden Tag mache ich neue Vorhersagen für 2018

Thomas

und dann, wenn ich 2018

Thomas

getestet habe, dann

Thomas

die Training-Daten, die 2018

Thomas

und 2017 und sage

Thomas

für 2019 vorher. Und dann gehe ich halt

Thomas

immer so Schritt für Schritt in der Zeit

Thomas

nach vorne und

Thomas

retraine immer mein Scikit-Learn-Modell.

Thomas

Und Scikit-Learn ist auf jeden Fall

Thomas

das, was auch

Thomas

sehr häufig eingesetzt wird, einfach

Thomas

weil es wie bei dem anderen

Thomas

Pi-Data auch

Thomas

mit die klassische Bibliothek ist.

Thomas

Es gibt auch ein paar andere, die dann noch besser

Thomas

skalieren, aber das ist schon

Thomas

der gute Standard.

Thomas

Ja.

Thomas

Tja, ja.

Thomas

Genau, ich weiß,

Thomas

ich hatte mal,

Thomas

wie hieß das,

Jochen

Zip-Line, glaube ich, gab es noch irgendwie.

Jochen

Genau, ja.

Jochen

Also, wir haben

Jochen

selber

Thomas

fast alle unsere Software eigentlich

Thomas

als Open-Source.

Thomas

Also wenn man auf GitHub Quantopian schaut, dann findet man da mögliche Projekte, die wir auf unserer Web-basierten Plattform benutzen.

Thomas

Genau, richtig.

Thomas

Zipline ist unser Open-Source-Backtaster, den wir auch auf der Plattform benutzen.

Thomas

Und das war am Anfang echt so eine ziemlich schwierige Entscheidung eigentlich, wo wir lange überlegt haben.

Thomas

Also ich war immer der Meinung, dass es eine gute Idee ist, das Open-Source zu stellen.

Thomas

Aber unser CEO musste sich da noch von überzeugen.

Thomas

Aber das war sehr, sehr positiv

Thomas

für uns. Also das

Thomas

in vielerlei Hinsicht. Also eins ist

Thomas

natürlich, wir bekommen Pull-Requests, also dass

Thomas

andere Leute, die die Software verwenden,

Thomas

dann ihre eigenen Verbesserungen

Thomas

daran machen und dann uns diese Verbesserungsvorschläge

Thomas

auf GitHub zuschicken. Und

Thomas

dann kriegen wir da

Thomas

Pull-Requests, wie das heißt,

Thomas

über zum Beispiel jemand, der

Thomas

unsere Simulations-Engine

Thomas

um Faktor 4

Thomas

beschleunigt hat. Wow.

Thomas

Voll cool.

Thomas

Vielen Dank.

Thomas

Ja, genau. Vielen Dank. Und das haben wir dann natürlich

Thomas

gemerged und das kommt dann natürlich auch der Plattform

Thomas

zugute, weil das die gleiche Software ist, die wir da auch benutzen.

Thomas

Und

Thomas

das ist zusätzlich

Thomas

dann auch, und in dem Fall hat es auch sehr gut funktioniert,

Thomas

haben wir uns natürlich diese Person dann genau

Thomas

angeschaut und so, ja, okay, was

Thomas

machst du denn so? Und wir

Thomas

haben den dann eingestellt, einfach weil

Thomas

erst mal jemand, der das kann,

Thomas

ist so das beste Vorstellungsgespräch, was man sich

Thomas

vorstellen kann. Und

Thomas

er hat auch schon bewiesen,

Thomas

also er hat es bewiesen, dass er es kann und er ist natürlich auch schon

Thomas

direkt mit der Codebase vertraut.

Thomas

Also der hat

Thomas

dann keine lange Eingewöhnungszeit, sondern

Thomas

wir wissen, dass er es kann und er

Thomas

weiß, worum es geht und wie

Thomas

der ganze Code aussieht. Also das

Thomas

war eine sehr

Thomas

positive Erfahrung in vieler Hinsicht

Thomas

für uns und wir machen das auch schon seit

Thomas

vielen Jahren.

Thomas

Ja, also GitHub, das ist halt auch

Dominik

Open Source schon eine coole Sache. Ja, auf jeden Fall.

Jochen

Wenn ich jetzt nochmal da einen Angriff an

Jochen

so diese einfachen Linearenmodelle oder ich meine

Jochen

irgendwas, was man so bei Scikit-Learn oder so an

Jochen

Machine Learning-Geschichten üblicherweise so verwendet,

Jochen

das, was du machst, ist ja jetzt eher so,

Jochen

ich glaube, du hast ein Großteil von PyMC3

Jochen

geschrieben oder die

Jochen

probabilistischen Modelle. Warum

Jochen

würde ich denn eher sowas verwenden wollen? Oder was

Jochen

ist eigentlich der, ja, sozusagen

Jochen

der grundsätzliche Unterschied zu den

Jochen

Dingen, die man vielleicht eher so aus dem

Jochen

Scikit-Learn-Bereich kennt oder so?

Jochen

Ja, gute Frage.

Jochen

das ist auf jeden Fall mein Lieblingsthema

Jochen

angekommen.

Jochen

Was ist das denn

Dominik

überhaupt, PyMMC? Vielleicht fangen wir damit kurz an.

Dominik

Genau, also PyMMC3

Thomas

steht einfach nur für Python und

Thomas

MC, also Markov-Chain

Thomas

ist so der Algorithmus,

Thomas

der da verwendet wird.

Thomas

Und das

Thomas

in gewisser Hinsicht kann man es schon

Thomas

zum Beispiel jetzt mit Scikit-Learn vergleichen, aber es ist

Thomas

doch eigentlich eine andere Idee.

Dominik

Vielleicht einmal noch mal ganz kurz, was eine Markov-Chain

Dominik

ist, für alle Hörer, die es kennen.

Thomas

Ja, also das ist nicht so leicht zu erklären.

Thomas

Es ist leichter, so die Idee dahinter zu erklären,

Thomas

was das überhaupt kann.

Thomas

Und dann macht das mit der Markov-Chain

Thomas

vielleicht irgendwann auch ein bisschen mehr Sinn.

Thomas

Aber genau, also wenn man sich jetzt Cycle-Learn anschaut,

Thomas

dann ist es ja, dass man einfach gewisse Muster in Daten

Thomas

lernen möchte, um dann Vorhersagen machen zu können.

Thomas

Also ich habe Trainingsdaten und Labels

Thomas

und natürlich mit den Trainingsdaten die Labels Vorhersagen.

Thomas

Und das ist ein ganz klassisches Problem,

Thomas

aber die Daten, die man da reinfüttert,

Thomas

sind dann natürlich ziemlich rudimentär oft.

Thomas

Also zum Beispiel ist halt alles tabular.

Thomas

Also das heißt, jeder Datenpunkt ist unabhängig von anderen Datenpunkten.

Thomas

Zum Beispiel jetzt nehmen wir Handschrifterkennung oder sowas her

Thomas

mit dem ganz berühmten MNIST-Datensatz.

Thomas

Und da ignoriert man einfach zum Beispiel, dass die einzelnen Pixel eigentlich ja was miteinander zu tun haben und man sagt einfach, okay, jedes Bild ist einfach ein ganz langer Vektor und dann lerne ich halt, was für eine Zahl da drauf ist und das gebe ich dann einfach ganz viele Daten und hoffe, dass der das dann daraus lernt.

Thomas

Und das kann dann ein lineares Modell sein, was in dem Fall nicht gut funktioniert oder ein Random Forest oder ein neuronales Netzwerk.

Thomas

Und das ist oft allerdings natürlich schade, wenn man da viele Informationen hat über seine Daten.

Thomas

Also zum Beispiel jetzt weiß ich, dass die einzelnen Pixel da einen Zusammenhang haben. Also zwei Pixel, die direkt nebeneinander sind, ist die Wahrscheinlichkeit, dass die den gleichen Wert haben, sehr viel höher als jetzt irgendwas, was ganz rechts oben oder ganz links unten ist.

Thomas

Aber der ganz naive Ansatz berücksichtigt es nicht.

Thomas

Also natürlich, klar, wenn man es mit normalen Netzen macht,

Thomas

die sind dafür gebaut.

Thomas

Aber hier geht es jetzt eher darum,

Thomas

dass wir Strukturen in unseren Daten haben,

Thomas

die wir wissen und die wir ausnutzen wollen.

Thomas

Und wir wollen nicht alles nur aus unseren Daten lernen.

Thomas

Ein anderes gutes Beispiel ist auch immer hierarchische Strukturen.

Thomas

Also sagen wir mal, ich habe jetzt einen Supermarkt

Thomas

Und ich möchte gerne voraussagen, wie sich gewisse Warengruppen absetzen, also einzelne Produkte.

Thomas

Wie viel verkaufe ich jetzt nächste Woche von Snickers und wie viel verkaufe ich nächste Woche von Hackfleisch?

Thomas

Und das kann man natürlich auch ganz normal als machine learning Problem betrachten.

Thomas

Allerdings weiß ich doch, dass zum Beispiel jetzt Snickers gehört ins Schokoladensortiment.

Thomas

Und das wird sich wahrscheinlich schon auch ähnlich verhalten. Also Schokoladen, Sachen und Süßigkeiten allgemein werden sich ähnlich verhalten. Und Hackfleisch oder so gehört zu einer anderen Warengruppe. Und da gibt es auch gewisse Ähnlichkeiten zu denen. Und diese Ähnlichkeiten möchte ich gerne auch in meinem statistischen Modell oder in meinem Vorhersagen abbilden.

Thomas

Und wenn man diese Modelle spezifischer bauen möchte, die diese Strukturen auch wirklich abbilden, da ist dann PyMC oder jedes andere probabilistic programming, wie es oft genannt wird, oder Bayesian statistische Modelle, das ist beides so das gleiche, die sind dann da sehr viel geeigneter.

Thomas

Denn was die einem erlauben, ist, diese Modelle zu bauen,

Thomas

die ganz spezifisch sind für das Problem,

Thomas

was man auch wirklich lösen möchte.

Dominik

Machen die dann irgendwie lineare Abhängigkeiten mit dann?

Dominik

Oder anders?

Dominik

Zum Beispiel.

Thomas

Also das kann ich so komplett einbauen, wie ich gerne möchte.

Thomas

Also ich kann sagen, okay,

Thomas

der Zusammenhang zwischen diesen Sachen hier ist linear

Thomas

und hier ist es aber logarithmisch oder nicht linear.

Thomas

Und genau, oder hier sind gewisse hierarchische Strukturen in meinen Daten drin und über die weiß ich Bescheid und ich weiß, dass sich jetzt die Süßigkeiten-Sachen ähnlich verhalten und Fleischprodukte verhalten sich auch ähnlich zueinander, aber dennoch erlaube ich auch, dass zum Beispiel Snickers und Mars, was beides in der Süßigkeiten-Kategorie ist, Unterschiede hat, aber auch gleichzeitig lerne ich die Ähnlichkeiten davon.

Thomas

Also ich lerne die Unterschiede, aber auch die Ähnlichkeiten und dadurch kann ich dann natürlich deutlich besser Vorhersagen machen. Und das ist aber nicht nur auf Vorhersagen beschränkt. Also diese Statistikmodelle können alles machen. Also die können auch einfach nur Daten erklären.

Thomas

In der Wissenschaft zum Beispiel geht es dann oft darum, okay, ich habe zwei Versuchsgruppen, gibt es da einen Unterschied zwischen denen und nicht die einen bekommen das Medikament, die anderen das Placebo. Ist das ein statistischer, signifikanter Unterschied, den es da gibt? Und da kann man natürlich auch ein statistisches Modell bauen.

Thomas

Also man kann es immer ganz gut so vergleichen, dass vielleicht Machine Learning ist so ein bisschen Playmobil, ist schon alles vorgebaut und man kauft es einfach und so wie es ist, dann kann man nichts daran ändern und Probabilistic Programming ist so Lego.

Thomas

Also da hast du deine eigenen Bausteine, die du zusammensetzen kannst und baust dir ganz spezifisch das statistische Modell, was du genau haben möchtest. Und wenn für das nächste Problem, baust du dir dann ein anderes Modell. Also ja, es ist ein sehr viel manuellerer, aber auch dadurch natürlich sehr viel flexiblerer Ansatz.

Jochen

Ja, ja, ich glaube, so einiges Problem hatte ich auch schon mal, das stimmt, das hätte ich dann vielleicht irgendwie mit hierarchischen Modellen irgendwie besser in den Griff kriegen können, dass man halt zum Beispiel eben das, was man vorhersagen möchte, dass das sehr spars ist, irgendwie eben, um bei dem Supermarkt Beispiel zu bleiben, man hat einen sehr, sehr großen Supermarkt mit ganz, ganz vielen unterschiedlichen Sachen und man beobachtet nur ganz selten Käufe, möchte aber trotzdem vorhersagen irgendwie, was wird denn jetzt irgendwie, oder was ist denn der durchschnittliche, wie viel wird denn da ungefähr verkauft von irgendeiner speziellen Geschichte, wo man nie irgendwas beobachtet hat.

Jochen

Und dann war halt so der Ansatz in dem Machine Learning Teil, den wir dann benutzt haben, eher sowas wie, eben man clustert das in sowas wie Süßwaren oder so und sammelt dann dafür halt irgendwie Daten, die man dann wieder als Features verwendet. Das ging auch irgendwie, aber das, wenn man es explizit in ein Modell reinpacken kann, ist natürlich, ja.

Thomas

Ja, genau. Also das ist ein gutes Beispiel. Also zum Beispiel jetzt kommt eine neue Süßigkeiten-Kategorie dazu, wo ich noch keine Daten habe und ein Machine Learning Modell wird einfach sagen, naja, habe ich vorher nicht gesehen, kann ich nichts zu sagen. Aber wenn ich diese hierarchischen Strukturen abbilde, kann ich natürlich das, was ich von den anderen Produkten gelernt habe, auch darauf dann anwenden.

Thomas

Oder aber auch, und das ist ein anderer wichtiger Punkt, der ein großer Vorteil ist von Bayesian Statistics generell, ist, dass man sogenannte Prior setzen kann. Und das ist Wissen, was ich schon habe, bevor ich überhaupt irgendwelche Daten gesehen habe.

Thomas

Und um da auch zum Beispiel bei dem Supermarktbeispiel zu bleiben, wenn ich jetzt in den Supermarkt gehen würde und den Manager da fragen, dann wird er mir alle möglichen Sachen erzählen können darüber, wie sich das verhält. Also er sagt zum Beispiel Schokolade vor Weihnachten geht halt immer nach oben. Das muss ich nicht auf den Daten lernen, das wissen wir schon.

Thomas

Und das kann ich mein Modell dann auch schon einprogrammieren in Form von diesen Pryern. Also da kann ich Expertenwissen direkt schon injizieren in das Modell, was bei Machine Learning auch oft sehr schwer ist, weil ich wirklich alles von den Daten lernen muss.

Thomas

Ja, das stimmt.

Dominik

Ja, das heißt, Programming nennt man das oder Probability Programming?

Thomas

Also Probabilistic Programming, genau.

Dominik

Und die PIMC ist ja für die Bibliothek

Dominik

deiner Wahl und du hast da viel mitgearbeitet.

Dominik

Genau, also ich habe die auch

Thomas

mitentwickelt und benutze die

Thomas

auch sehr viel und

Thomas

die erlaubt einem

Thomas

dann, also das ist nicht so,

Thomas

dass man diese Modelle halt dann von der

Thomas

Stange hat, wie zum Beispiel jetzt bei Second Learn

Thomas

habe ich einfach eine

Thomas

Klasse, die macht lineare Aggressionen oder Random Forests

Thomas

und hier habe ich stattdessen

Thomas

von der Stange

Thomas

Wahrscheinlichkeitsfunktionen,

Thomas

die ich dann zusammenstöpseln kann,

Thomas

um mir mein statistisches Modell zu bauen.

Thomas

Also da kann ich aus diesen Wahrscheinlichkeitsverteilungen

Thomas

kann ich mir dann zum Beispiel auch eine Linear-Aggression zusammenbauen,

Thomas

aber das muss ich halt erst noch machen.

Thomas

Und das ist mit PyMC3 sehr leicht möglich.

Thomas

Und das heißt, erstmal geht es darum, das Modell zu bauen

Thomas

und dann im zweiten Schritt geht es darum,

Thomas

okay, jetzt habe ich das Modell gebaut,

Thomas

wie fitte ich das überhaupt zu meinen Daten?

Thomas

Und da kommen dann alle möglichen Algorithmen zum Tragen,

Thomas

die diese Probleme automatisch lösen.

Thomas

Also oft ist es so, irgendein Modell, was man sich ausmalt

Thomas

und was man dann in Code zusammenschreibt,

Thomas

mit PyMC3 zum Beispiel,

Thomas

das lässt sich dann nicht einfach so lösen.

Thomas

Also man braucht da ziemlich ausgefeilte Algorithmen

Thomas

Und da ist es dann, wo das mit dem Markov Chain Monte Carlo MCMC hinzukommt. Das ist so eine Klasse von Algorithmen, die auf so fast allen Modellen, die man sich vorstellen kann, automatisch funktionieren. Und das ist so was echt cool an dem Approach ist, dass man sagt, okay, ich baue jetzt irgendein total verrücktes Modell und dann drücke ich einfach den Inference Button, wie ich das nenne, und der fittet dann das Modell zu den Daten.

Thomas

Und das andere, was auch noch sehr wichtig ist, ist, dass ich nicht nur eine Antwort bekomme. Und das ist auch ein Unterschied zum Beispiel zu Machine Learning. Also wenn ich da jetzt eine lineare Aggression laufen lasse, dann bekomme ich eine Antwort. Und das ist die Antwort, also in dem Fall jetzt halt die Steigung und die Intercept, ist zwei Parameter, skalare Parameterwerte, die ich bekomme.

Thomas

und die beschreiben die Daten

Thomas

am besten. Aber

Thomas

ist natürlich trotzdem die Frage, wenn ich jetzt

Thomas

nicht so viele Daten habe, gibt es vielleicht noch andere

Thomas

Linien, die

Thomas

die Daten beschreiben können. Also wenn ich jetzt

Thomas

die Steigung

Thomas

um 0,01 verschiebe,

Thomas

dann passt das wahrscheinlich trotzdem noch ganz gut.

Thomas

Ich bin mir halt nie so richtig

Thomas

sicher, diese Antwort, die mir jetzt

Thomas

das Machine Learning Modell gegeben hat,

Thomas

ist das wirklich die

Thomas

allerbeste

Thomas

und wie gut funktionieren dann andere

Thomas

antworten. Und da

Thomas

geht es um Uncertainty oder halt

Thomas

um Gewissheit. Also wie

Thomas

sicher kann ich mir sein,

Thomas

dass die Antworten, die mir mein Modell geben, auch wirklich

Dominik

die richtigen sind? Also wie sicher sind die Datenpunkte

Dominik

irgendwie klassifiziert und wie gut sind

Dominik

die voneinander trennbar überhaupt von einem Modell?

Dominik

Genau, richtig. Und

Dominik

da ist

Thomas

auch ein gutes Beispiel zum Beispiel

Thomas

im Gesundheitssektor. Wenn ich da

Thomas

jetzt vorhersagen möchte, hat diese

Thomas

Person Diabetes

Thomas

oder nicht und ich habe irgendwelche

Thomas

Tests, die ich gemacht habe, und diese meine Inputs, und dann ist die Frage, wie sicher bin ich mir denn überhaupt in diese Antworten? Und das ist natürlich in dem Fall

Thomas

extrem wichtig. Und da sind diese

Thomas

Probabilistic Programming, das ist so eine der Kernstärken davon,

Thomas

dass man diese Ungewissheit, die Unsicherheit in den Antworten

Thomas

und aber auch in den Parametern von dem Modell immer direkt mit spezifiziert.

Thomas

Also man arbeitet ja nie mit einzelnen Werten, sondern

Thomas

immer nur mit Wahrscheinlichkeitsverteilungen, die einem angeben, okay, also

Thomas

die Steigung von meiner linearen Aggression kann 0,5 sein,

Thomas

Aber 0,6 kann es eigentlich auch sein.

Thomas

Also beschreibt beides das eigentlich sehr gut.

Thomas

Und genau, das ist...

Thomas

Ihr habt ja einen schönen Fehler-Schätzler mit drin,

Thomas

den ihr mitbestimmt dann.

Dominik

Oder wird der ausgerechnet von dem Modell

Dominik

oder könnt ihr den auch einschätzen?

Thomas

Also genau, man kann es so einstellen in Form der Pry.

Thomas

Also da kann ich zum Beispiel sagen,

Thomas

ich weiß eigentlich schon, dass der Wert sehr nah 0,5 ist,

Thomas

ohne überhaupt irgendwelche Daten gesehen zu haben.

Thomas

Und dann kann ich da schon mal dem Modell vorher sagen,

Thomas

Okay, das hier ist die Richtung, in die du da schauen solltest. Und dann schätze ich das Modell und kriege eine neue Wahrscheinlichkeitsverteilung, die mir sagt, okay, das ist jetzt, nachdem ich die Daten gesehen habe, in welchem Bereich spielen sich denn die Parameterwerte ab, die das dann am besten erklären.

Thomas

Also ich kann beides machen. Also ich kann im Vorfeld schon mal das spezifizieren, je nachdem, wie genau ich das möchte. Und dann wird das mit, nachdem ich die Datenpunkte gesehen habe, werden diese Algorithmen es abschätzen und ich kriege eine neue Wahrscheinlichkeitsverteilung, die einfach nur beschreibt, wie viel habe ich gelernt.

Thomas

Also man kann es sich so vorstellen eigentlich, ich fange an mit einem gewissen Wissen und dann sehe ich Daten und dann update ich dieses Wissen und habe dann einfach neue Wahrscheinlichkeitsverteilung.

Jochen

Ja, das klingt schon sehr gut. Das ist immer so ein Problem auch bei diversen Modellen. Bei manchen fällt ja eventuell auch eine Wahrscheinlichkeit direkt raus, aber manchmal einfach nur eine Distanz zu irgendwas oder so.

Jochen

und dann muss man das halt irgendwie kalibrieren

Jochen

auf eine Wahrscheinlichkeit.

Jochen

Und dann meistens nimmt man nur irgendwie

Jochen

die Signet-Funktion oder sowas.

Thomas

Und da ist natürlich jetzt COVID-19 auch ein super Beispiel,

Thomas

wenn ich da jetzt Vorhersagen treffen möchte

Thomas

mit gewissen statistischen Modellen.

Thomas

Und da gibt es aus der Epidemiologie

Thomas

alle möglichen Modelle, die man da finden kann.

Thomas

Und dann ist die Frage,

Thomas

also wenn ich jetzt das nicht in einem bayesianischen Ansatz mache,

Thomas

dann kriege ich halt eine Kurve raus,

Thomas

die vorhersagt, okay, so wird sich das jetzt

Thomas

über die nächste Woche entwickeln.

Thomas

Aber klar, wir haben noch nicht so viele Datenpunkte.

Thomas

Das kann sich, also so wie ich die historischen Daten,

Thomas

ich kann die historischen Daten halt nicht nur auf eine Weise beschreiben,

Thomas

sondern auf potenziell unendlich viele Weisen.

Thomas

Und jede unterschiedliche Weise,

Thomas

wie ich die historischen Daten beschreiben kann,

Thomas

führt zu unterschiedlichen Vorhersagen,

Thomas

wie sich die Zukunft verhalten wird.

Thomas

Und das heißt, ich möchte halt nicht nur die Linie sehen

Thomas

und die Vorhersage sehen, die die Daten am besten beschreiben,

Thomas

sondern halt alle, die das einigermaßen gut beschreiben.

Thomas

Denn das sind alles dann Ausgänge, die passieren können.

Thomas

Und das sieht man dann immer super gut bei diesen Modellen,

Thomas

dass es halt nicht nur eine Linie gibt, die dann in die Zukunft zeigt,

Thomas

sondern ganz viele Linien, die so auseinanderstreuen.

Thomas

Also je nachdem, je weiter ich in die Zukunft gehe,

Thomas

desto weniger kann ich mir sicher sein, wie sich das entwickelt.

Thomas

Also kann sein, dass es exponentiell weiter nach oben schießt

Thomas

und wir bald Millionen von Infizierten haben.

Thomas

Es kann auch sein, dass aber natürlich die Interventionen,

Thomas

die wir jetzt machen, effektiv sind und sich die Kurve abflacht.

Thomas

Und das sind alles Vorhersagen, die dann aus dem Modell rauskommen.

Thomas

Ja, das wäre natürlich genau interessant.

Jochen

Also ich meine, ich könnte mir jetzt vorstellen,

Jochen

dass wenn man zum Beispiel eben macht irgendeine Maßnahme

Jochen

oder überlegt sich halt, wenn ich jetzt, keine Ahnung,

Jochen

irgendetwas tue, also ich glaube,

Jochen

die Zahlen, die ich da schon mal gehört habe,

Jochen

sowas wie seit, zumindest in Deutschland,

Jochen

Beginn der

Jochen

etwas heftigeren Maßnahmen

Jochen

ist halt der,

Jochen

ich glaube in dem Modell vom Robert-Koch-Institut

Jochen

werden irgendwie Landkreise

Jochen

als kleinste Einheiten

Jochen

benutzt, sozusagen,

Jochen

wenn die Reisetätigkeit zwischen Landkreisen

Jochen

irgendwie sozusagen,

Jochen

ist irgendwie schon um 40% runtergegangen

Jochen

seitdem,

Jochen

dann ändern sich halt entsprechend Parameter

Jochen

in dem Modell und dann kann man halt gucken, okay,

Jochen

wie geht denn das jetzt aus?

Jochen

Die Frage wäre jetzt sozusagen, okay, wenn ich jetzt irgendeinen dieser Parameter ändere, wie wirkt sich das dann zum Beispiel auf diese Basisreproduktionszahl aus?

Jochen

Also wie stark führt das dazu, dass jetzt der Anstieg der infizierten Zahlen halt hochgeht oder gleich bleibt oder so?

Jochen

Und dann wäre halt die ganz interessante Frage, mit welcher Wahrscheinlichkeit kann ich diese Vorhersage machen?

Jochen

es könnte ja auch sein, also wenn ich

Jochen

ein 30-prozentiges

Jochen

Risiko habe, dass sich das ganz anders

Jochen

verhält als das, was ich

Jochen

vorhersage, dann

Jochen

möchte ich mir das vielleicht nochmal überlegen, weil ich ja gar nicht

Jochen

so ein großes Risiko eingehen möchte vielleicht.

Jochen

Sondern ich möchte vielleicht eine Maßnahme machen, wo

Jochen

ich dann ziemlich sicher sein kann,

Jochen

dass das dann halt auch hilft.

Jochen

Und ja,

Jochen

das wäre dann sozusagen etwas, was ich direkt aus so einem

Jochen

probabilistischen Modell rauskriegen würde, wie dann

Jochen

die Erfolgswahrscheinlichkeit

Jochen

oder wie wahrscheinlich es ist, dass es dann

Jochen

halt auch in dem Bereich bleibt, sozusagen.

Jochen

Genau, also das ist

Thomas

sehr wichtig. Also

Thomas

nicht jeder Ausgang ist ja auch gleich. Also

Thomas

jetzt habe ich vielleicht, wenn ich jetzt

Thomas

das so fitte,

Thomas

dass ich wirklich nur eine Linie bekomme, dann sieht

Thomas

die vielleicht okay aus. Und dann sage ich, ah ja, okay,

Thomas

muss ich ja gar nicht mehr wirklich

Thomas

Gedanken machen. Und möglicherweise ist es

Thomas

auch der wahrscheinlichste Ausgang. Aber

Thomas

was ist, wenn mit einer

Thomas

fünfprozentigen Wahrscheinlichkeit

Thomas

das exponentiell

Thomas

weitergeht und diese Maßnahmen

Thomas

halt nicht greifen. Naja, das möchte ich ja unbedingt

Thomas

wissen. Was ist der Worst-Case-Szenario?

Thomas

Das ist vielleicht unwahrscheinlich, aber nicht so unwahrscheinlich,

Thomas

dass wir es außer Acht lassen dürfen.

Thomas

Und da kann man

Thomas

dann auch, je nachdem,

Thomas

das Modell verändern, also

Thomas

in verschiedenen

Thomas

Hinsichten. Und das ist auch so ein bisschen das, was

Thomas

ich so mächtig an diesem Ansatz

Thomas

finde, ist, dass es so oft

Thomas

ein sehr iteratives Arbeiten

Thomas

ist mit diesem Modell. Also ich fange an mit

Thomas

einem ganz einfachen Modell, und das habe ich auch

Thomas

gemacht, also ich habe einfach ein exponentielles Modell genommen,

Thomas

und das funktioniert dann am Anfang

Thomas

zum Beispiel ziemlich gut und

Thomas

dann aber sehe ich auch, ah ja, okay, ich habe ja nicht

Thomas

nur ein Land, sondern ich habe mehrere Länder

Thomas

und diese Kurven verhalten sich bei allen

Thomas

Ländern eigentlich ziemlich ähnlich.

Thomas

Nicht immer gleich, aber ähnlich und da

Thomas

kommt es dann wieder rein mit der hierarchischen Struktur,

Thomas

die ich vorhin erwähnt habe,

Thomas

wo ich genau das auch in mein Modell einbauen

Thomas

kann und sage, okay, also da gibt es Ähnlichkeiten

Thomas

in diesen

Thomas

Growth Rates, in diesen

Thomas

Steigerungszahlen und das heißt,

Thomas

dann habe ich ein hierarchisches Modell,

Thomas

was für jedes einzelne Land einzelne Parameter hat.

Thomas

Aber diese Parameter sind dann auch auf einem höheren Level

Thomas

noch miteinander verbunden.

Thomas

Und ich lerne also beides zugleich.

Thomas

Und dann zum Beispiel könnte ich hingehen und sagen,

Thomas

na gut, exponentiell ist ja vielleicht gar nicht mal so ein gutes Modell,

Thomas

denn das nimmt ja an, dass das einfach immer weiter nach oben geht

Thomas

und immer und immer schneller wird.

Thomas

Irgendwo ist ja da schon spätestens bei der Anzahl der Menschen,

Thomas

die in einem Land leben,

Thomas

ein ganz natürliches physikalisches Limit gesetzt.

Thomas

und dann kann ich das Modell

Thomas

verbessern und sage, okay, dann nehme ich stattdessen eine logistische

Thomas

Funktion, die am Anfang auch

Thomas

steil nach oben geht, aber dann sich wieder abflacht.

Thomas

Und

Thomas

dann kann ich

Thomas

aber auch hingehen und sagen, okay,

Thomas

das

Thomas

modelliert schon die Steigungssache

Thomas

vielleicht ganz gut, aber

Thomas

ich weiß, dass es da,

Thomas

zum Beispiel habe ich jetzt vielleicht

Thomas

gerade ein Buch von Nassim Taleb gelesen,

Thomas

den Black Swan, und ich weiß, dass es

Thomas

sehr wichtig ist, da nicht auch nur

Thomas

anzunehmen, dass sich alles in der Welt

Thomas

nach einer Normalverteilung verhält, sondern

Thomas

es gibt halt auch das Tail-Risk und

Thomas

dann nehme ich halt nicht eine Normalverteilung,

Thomas

sondern eine zum Beispiel

Thomas

Student-T-Verteilung, also eine T-Verteilung

Thomas

und die hat sehr viel mehr

Thomas

Wahrscheinlichkeiten, dass da auch

Thomas

extreme Ausreißer passieren können.

Thomas

Und dann habe ich das in mein Modell

Thomas

integriert und arbeite dann halt

Thomas

mich immer weiter vor und verbessere das

Thomas

Modell immer weiter und kriege dann auch immer besser

Thomas

Vorhersagen, die natürlich

Thomas

dann ja auch die

Thomas

möglichen Handlungen,

Thomas

die man machen möchte,

Thomas

hoffentlich da bessere

Thomas

Antworten zu liefern.

Jochen

Ja, ja, das ist für mich,

Jochen

das ist auch

Jochen

irgendwie ein Twitter-Account,

Jochen

der hat einen Twitter-Account, dem ich auch folge und da

Jochen

sind manchmal sehr lustige Sachen dabei.

Jochen

Er hat jetzt auch was über diese

Jochen

statistischen Modelle, die irgendwelche Dinge vorhersagen,

Jochen

gesagt. Das fand ich

Jochen

auch ganz bemerkenswert, weil

Jochen

es halt, ich weiß,

Jochen

Ja, also er hat ja schon so einen gewissen Punkt. Er sagt halt im Grunde, naja, also da einige wenige Ereignisse, was so Pandemien angeht, halt sehr, sehr böse Auswirkungen haben können, ist es halt eigentlich, sobald man sieht, dass das irgendwie in die Richtung geht, dann ist das eher so wie eine Lawine.

Jochen

wenn man irgendwann am Berg steht und sieht, da kommt eine Lawine

Jochen

runter, dann fange ich jetzt nicht an, mir auszurechnen,

Jochen

ob die mich jetzt treffen kann oder nicht.

Jochen

Und bei so einer Pandemie ist halt auch

Jochen

so ein bisschen, und der hat ja einen schönen Vergleich benutzt,

Jochen

der meinte dann, also wenn ich jetzt anfange, da

Jochen

statistisch ganz genau zu werden, dann

Jochen

ist das so ein bisschen wie Löffelzellen auf der

Jochen

Titanic, ja, das ist halt so.

Jochen

Sondern da muss man halt

Jochen

dann irgendwie das Extremste machen, was man irgendwie

Jochen

hinkriegt, um halt zu verhindern, dass diese ganz

Jochen

schlimmen Sachen halt passieren.

Jochen

Ja, also der ist auf jeden Fall

Thomas

sehr extrem in seinen Ansichten,

Thomas

dass man eigentlich, also der sagt

Thomas

eigentlich, so extrem

Thomas

sagt er es nicht, aber dennoch,

Thomas

dass 90, 95 Prozent aller

Thomas

Statistiken komplett in die Tonne gekloppt

Thomas

werden können, weil das

Thomas

alles Phänomene sind, die halt

Thomas

diese Ausreise-Events haben, die

Thomas

das alles bestimmen.

Thomas

Ich finde das

Thomas

ein bisschen oft sehr extrem, denn

Thomas

die Modelle funktionieren doch schon

Thomas

oft auch ganz gut, aber klar muss man sich immer

Thomas

bewusst sein, dass das Modelle sind und dass es diese

Thomas

Terrors gibt und die auch

Thomas

idealerweise natürlich ins Modell

Thomas

integrieren, dass man das

Thomas

mit berücksichtigt.

Thomas

Das kann man ja machen.

Dominik

Genau diese unvorhergesehenen Ereignisse.

Dominik

Da kannst du halt so viel modulieren

Dominik

und Statistik machen, wie du willst, wenn halt Ereignisse

Dominik

auftreten, deren Dimensionen man

Dominik

nicht abschätzen kann oder deren Auswirkungen

Dominik

auf die einzelnen Achsen in dieser Verteilung.

Dominik

Das wird natürlich dann

Dominik

schwer zu pronostizieren.

Dominik

Woher soll man das wissen, dass solche Events kommen?

Dominik

Ja und nein.

Thomas

Also genau, diese Ausreißer sind fast unmöglich zu modellieren, aber jetzt zum Beispiel die Modelle, die ich da gebaut habe, um vorherzusagen, wie sich das Wachstum weiterverhält, sind bisher erschreckend akkurat gewesen.

Thomas

Jetzt hören sie auf, also zu funktionieren und das ist gut. Also das erste Modell, wie ich schon gesagt habe, war so ein exponentielles Modell und das, ja, also am Anfang hatten wir exponentielles Wachstum, jetzt scheint es sich ein bisschen abzuschwächen, was ja sehr gut ist, aber dennoch, also das, ja, also diese Modelle haben schon eine volle Sache Kraft und das ist ja auch genau das, was man wissen möchte.

Thomas

Und das ist auch das, was ich so erschreckend fand, dass es eigentlich, wenn man sich das angeschaut hat, also zum Beispiel vor drei Wochen noch gab es in Deutschland, weiß ich nicht, zehn Fälle oder so und in Italien aber war es schon sehr dramatisch.

Thomas

Und dann hierzulande wurde es gesagt, naja, aber es sind nur 10 Fälle, das muss uns ja nicht interessieren.

Thomas

Aber gut, also beziehungsweise sagen wir mal 10 Fälle und in drei Tagen sind es halt 100 Fälle.

Thomas

Und da sagt man, na gut, 100 Fälle ist ja trotzdem noch nicht viel.

Thomas

Aber vollkommen egal, es geht darum, was für eine Steigerung haben wir da und das ist exponentiell.

Thomas

Und das heißt, in drei Tagen sind es dann von 100 auf 1000.

Dominik

Du hast da auch ein Notebook zu, online, wo man da so ein bisschen angucken kann.

Jochen

Genau, das hatten wir noch gar nicht erwähnt, aber ja, das war auch einer der Gründe,

Jochen

warum das jetzt halt ein guter Zeitpunkt ist,

Jochen

vielleicht dieses Gespräch zu führen.

Jochen

Ich hatte da irgendwie diese Notebooks gesehen.

Jochen

Ich weiß nicht, es gibt mehrere.

Jochen

Das Erste ist, glaube ich, das Daily.

Jochen

Wir packen den Link in die Show Notes.

Jochen

Das ist ein Repository, in dem mehrere Notebooks sind.

Jochen

COVID-19 Growth ist, glaube ich, das Erste.

Jochen

Und das ist sozusagen das exponentielle Modell.

Jochen

Und da gibt es halt so einen Graph mit einer Lockscale sozusagen,

Jochen

was die Anzahl der Infizierten angeht.

Jochen

Und dass man das halt so ein bisschen linearer sieht.

Jochen

Und auf der X-Achse die Zeit, auf der Y-Achse die Infizierten.

Jochen

Und dann halt sozusagen Tage nach den ersten bestätigten 100 Fällen.

Jochen

Und die Kurven sehen alle relativ ähnlich aus, am Anfang zumindest.

Jochen

Ist auch China mitgeplottet.

Dominik

Weil ich hatte nämlich von einem Freund von mir gehört,

Dominik

der aus Shanghai geflohen ist.

Dominik

Schon Ende Januar, weil die Flüge alle gestrichen wurden,

Dominik

dass das die Situation wohl sehr dramatisch sein soll

Dominik

und dass wir uns auf was gefasst machen müssen.

Dominik

Ja, also genau.

Thomas

China ist nicht mit dabei, weil das Modell das nicht abbilden kann.

Thomas

Also dieses nicht, das Modell, was ich jetzt gerade gebaut habe.

Thomas

Das logistische Modell des Kantons, denn da gibt es diesen Effekt,

Thomas

dass die auch wieder stehen bleiben, die Neuinfektionen.

Thomas

Und das scheint China nach den offiziellen Zahlen, die wir haben,

Thomas

Das ist die Frage, wie sehr man die glauben möchte. Wobei ich, also meine Meinung ist, ich glaube schon, dass die es geschafft haben, das abzuschwächen. Also ich glaube nicht, also die absolute Zahl ist möglicherweise viel höher, aber ich glaube trotzdem nicht, dass die Neuinfektionen haben. Und zumindest auch in Korea. Also diese Länder haben es geschafft, dieses Wachstum zu stoppen, eigentlich effektiv.

Thomas

Und das sieht man, dass das Modell das nicht kann. Also die sind auf jeden Fall ausgebrochen aus dem Exponentiellen und dafür braucht man das logistische Modell, was genau diesen Effekt modellieren kann. Und das sieht man jetzt auch bei anderen. Also das ist ganz interessant bei dem logistischen Modell.

Thomas

Also das interpretiert dann schon, dass wenn man aus dem Exponentiellen rauskommt und sieht, ah, okay, es fängt sich an abzuschwächen und man nimmt an, dass dieser logistischen Funktion folgt, dann kann man auch vorher sagen, okay, also jetzt dauert es vielleicht noch zwei Wochen, bis sich die Neuinfektionen dann zurückgegangen sind und es keine neuen gibt.

Jochen

Ja, ich glaube auch, dass das in China ist. Klar, man kann da immer zweifeln, aber eben bei so einer exponentiellen Entwicklung, das hätten wir dann halt schon über die Zeit gemerkt, wenn das irgendwie nicht geklappt hätte, weil dann wäre das schon überall jetzt und das ist es irgendwie nicht.

Jochen

Und daher, in Südkorea ist ein ganz interessanter Fall, weil da man das relativ gut verfolgen konnte, weil das irgendwie hauptsächlich irgendwie ein Community-Cluster irgendwie war, in dem das aufgetreten ist und dann haben halt diese ganzen, wir verfolgen das jetzt mit auch großem Personalaufwand-Aktionen halt da tatsächlich sehr viel gebracht, aber das geht halt anderswo nicht so gut.

Jochen

Also das ging halt in dem Fall super. Und naja, ist halt immer auch die Frage, inwiefern irgendwelche Geschichten vergleichbar und übertragbar sind. Wenn jetzt irgendwie alle Leute sagen, man muss das nur so machen wie in Südkorea, dann ist es kein Problem.

Jochen

Naja, irgendjemand meinte dann so satirischerweise irgendwie, ja, ich habe gehört, in Südkorea wird ganz viel Kimchee gegessen. Lass uns alle einfach Kimchee essen und dann ist es okay.

Jochen

Aber was ich auch interessant finde, ist, dass halt einige, so Japan, Taiwan, Hongkong, Singapur, die ja dann auch schon seit langer Zeit irgendwie da relativ viel Maßnahmen machen, dass die auch irgendwie von dieser exponentiellen Entwicklung relativ gut verschont wurden.

Dominik

Die haben aber alle unterschiedliche Methoden gemacht.

Dominik

Japan hat zum Beispiel einfach die Anzahl an Tests

Dominik

unheimlich hoch gefahren, indem sie einfach jeden Menschen

Dominik

getestet haben und dann diese Kette auch

Dominik

versucht haben, damit zu unterbrechen.

Dominik

Weil die halt relativ genau wussten, wer jetzt da vielleicht dann

Dominik

Kontaktperson war. Das mag auch

Dominik

ein Vorteil sein. Aber von China glaube ich übrigens

Dominik

keine einzige Zahl. Also ich habe Dunkelziffern

Dominik

gelesen, die man jetzt alle mit Vorsicht genießen

Dominik

möchte, aber dass irgendwie 700.000 Fälle

Dominik

alleine in Wuhan noch irgendwie offen waren,

Dominik

die nicht registriert waren und

Dominik

naja, was man da glauben kann,

Dominik

ich weiß ja nicht.

Thomas

Und also eine Sache auf jeden Fall noch zu den Notebooks, also diese Modelle habe ich dann online gestellt und die haben auf jeden Fall da sehr viel Interesse bekommen.

Thomas

Ich wurde auf jeden Fall auch dafür kritisiert, dass es, also ich bin kein Epidemiologe und habe mir das angeschaut und diese Modelle gebaut, dass das ja nur jeden verwirren würde und dass exponentielle Modelle ja sowieso komplett falsch sind.

Thomas

Und ich kann das verstehen, allerdings sind im Moment diese exponentiellen Modelle erschreckend akkurat.

Thomas

Also die letzten Wochen war es ein sehr guter Fit.

Thomas

Klar, dass das nicht sehr weit in die Zukunft projizieren kann, ist klar.

Thomas

Und das andere, was aber auch sehr interessant ist, was passiert ist, ist, dadurch, dass man dann diese Sachen shared,

Thomas

also das ist halt dieses Open-Source-Prinzip, dann kam der Hamel und hat dann,

Thomas

ein Dashboard daraus gebaut, dass das halt täglich

Thomas

updatet. Und das heißt,

Thomas

das ist jetzt eine coole Webseite, wo das

Thomas

Notebook dann automatisch geladen wird

Thomas

und ist auch interaktiv.

Thomas

Andere Leute haben es benutzt,

Thomas

um dann das Modell zu verbessern oder

Thomas

einfach nur sich selber dann

Thomas

das Modell auf andere Daten anzuwenden.

Thomas

Ich habe selber viel Feedback bekommen,

Thomas

was ich dann einpflege und das Modell verbessere.

Thomas

Also dieser iterative

Thomas

Ansatz, der

Thomas

in der Öffentlichkeit stattfindet und auch den Code zu posten,

Thomas

wo halt dann auch andere Leute Bugfixes schicken

Thomas

oder so,

Thomas

ist also meiner Meinung nach überwiegender

Thomas

die Vorteile einfach viel mehr

Thomas

als die Nachteile, dass

Thomas

ich halt erst mal

Thomas

sechs Monate

Thomas

mit Epidemiologen zusammenarbeite,

Thomas

um das absolut wasserdichte Modell zu

Thomas

bauen, was dann aber

Thomas

vielleicht nicht richtig funktioniert, weil ich halt nicht das Feedback

Thomas

von der Community habe und auch nicht diese ganzen Netzwerkeffekte,

Thomas

die Open Source da

Thomas

bringen.

Thomas

Ja, das würde ich auch sagen.

Jochen

Das ist auch etwas, wenn das halt in der Öffentlichkeit passiert. Also ich meine, im Grunde kann man ja nur durch Feedback irgendwie Dinge lernen. Das ist auch etwas, was ich immer sehe, dass es halt dann, ich meine, das ist halt auch unter Umständen ein schmerzhafter Prozess, öffentlich Feedback einzusammeln. Aber es hilft auch tatsächlich, während ich da große Bedenken habe, wenn da Leute irgendwie jahrelang an irgendwas arbeiten oder so und da gab es nie wirkliches Feedback, ob das dann so wirklich stimmt.

Thomas

Da habe ich letztens den ersten Tweet gesehen von einem Epidemiologie-Professor,

Thomas

der da einen super akkuraten Simulator geschrieben hat,

Thomas

der halt da verschiedene Agenten simuliert, die sich treffen und die infizieren sich.

Thomas

Und das ist ja also das absolute Nonplusultra-Modell.

Thomas

Und das hat er aber schon vor langer Zeit gemacht, also als Epidemiologe.

Thomas

Und da aber natürlich bisher nur Paper drüber geschrieben.

Thomas

Und dann ist natürlich sofort die Frage, okay, du hast ja vor zehn Jahren dieses super coole Modell gebaut, was sagt es denn jetzt voraus? Und kann man das denn nicht benutzen, um das halt upzudaten? Naja, und dann war halt die Frage, ja, was ist denn mit dem Code? Und dann so, oh, okay, naja, die Codes sind irgendwie 50.000 Zeilen C++-Code, den eine Person versteht, der unkommentiert ist, ungetestet ist.

Thomas

Also ich war selbst in der Forschung, ich weiß ganz genau, was die Codequalität da ist und die ist oft sehr niedrig. Und in dem Fall jetzt, weil der Code einfach so wahnsinnig wichtig ist, arbeitet er mit Microsoft zusammen, um den Code dann da tatsächlich zu testen und zu wissen, dass der funktioniert.

Thomas

Da werden bestimmt einige Wachs gefunden. Und das ist natürlich auch sehr gefährlich. Also diese ganz klassische, so wie die Wissenschaft da bisher immer arbeitet und wie wenig die sich wirklich für Codequalität da einsetzen, glaube ich, dass wir da viel voneinander lernen können.

Thomas

und zum Beispiel oft sind die halt auch nicht

Thomas

bäsianisch, also gibt es wirklich den

Thomas

Epidemiologen, der ein Top-Coder ist

Thomas

und gleichzeitig halt

Thomas

natürlich epidemiologisch

Thomas

total fit ist und dann zusätzlich auch noch

Thomas

weiß, wie man Pianti 3 benutzt,

Thomas

wahrscheinlich gibt es den nicht,

Thomas

deswegen, wenn wir da alle unseren Teil

Thomas

dazu beitragen, glaube ich,

Thomas

wird es am besten funktionieren.

Jochen

Ja, ja, ich bin

Jochen

auch, gut, das ist jetzt auch wieder ein bisschen her,

Jochen

ich habe auch eine Zeit lang irgendwie viel

Jochen

Pepper gelesen und versucht Dinge

Jochen

zu reproduzieren und so und das hat

Jochen

also das

Jochen

war schon, also oft

Jochen

bekommt man dann ja Code, wenn man

Jochen

irgendwie ein Paper hat und dann sich überlegt, okay

Jochen

das sieht sehr interessant aus für das Problem, was ich

Jochen

habe und wenn man dann die Autoren anschreibt

Jochen

und sagt so, ich würde das mal gerne reproduzieren

Jochen

könnt ihr mir den Code dann mal irgendwie

Jochen

so, wie mache ich das denn dann?

Jochen

Dann kriegt man meistens den Code, meistens mit

Jochen

einer länglichen Entschuldigung

Jochen

für die Codequalität.

Jochen

Und ganz oft

Jochen

ist es dann halt auch so, wenn man das dann

Jochen

tatsächlich versucht, nochmal selber zu implementieren.

Jochen

Aber man merkt so, oh ne, das tut nicht so wirklich genau

Jochen

das, was da in dem Paper drin steht.

Jochen

Und also da muss

Jochen

irgendwie, ich meine,

Jochen

ich kann auch verstehen, wie das passiert. Das ist halt,

Jochen

man kann halt Code nicht veröffentlichen

Jochen

in der Zeitschrift, sondern da ist halt dann halt

Jochen

ein gesetztes Paper

Jochen

irgendwie das Entscheidende oder halt sogar

Jochen

oft in der Informatik sind es halt irgendwie

Jochen

Formeln, mathematische Formeln, die da drin stehen müssen,

Jochen

weil das ist halt das, was man irgendwie da reinschreiben kann.

Jochen

Code ist halt, kann man nicht so wirklich publizieren.

Jochen

Aber das muss sich irgendwie ändern, weil das ist, ja, das ist eigentlich alles, ja, ja, relativ furchtbar.

Thomas

Ja, also ich stimme dir voll zu.

Thomas

Also weil es, also welches Paper kann heutzutage noch geschrieben werden, was nicht auf Code beruht?

Thomas

Also das ist wahnsinnig, absolut fundamental, die Ergebnisse, und die Ergebnisse sind davon gestützt.

Thomas

Also wenn da ein Bug drin ist, dann kriegst du ein falsches Ergebnis raus.

Thomas

dass das bisher immer noch

Thomas

nicht, also fairerweise

Thomas

muss man sagen, das verstehen schon

Thomas

immer mehr Leute und es gibt auch immer mehr Wissenschaftler, die

Thomas

das auch anfangen zu machen und die ihre GitHub-Repositories

Thomas

haben.

Thomas

Der Danilo Bistock zum Beispiel, mit dem habe ich

Thomas

letztens ein Paper gemacht, also

Thomas

der stellt alles immer

Thomas

online und ich kenne auch viele andere Kollegen,

Thomas

die das machen und

Thomas

das ist super, also gerade jüngere

Thomas

Wissenschaftler, aber

Thomas

das ist halt bisher noch größtenteils

Thomas

freiwillig. Also ich glaube, das muss schon

Thomas

einfach auch ein Zwang sein, dass die Methoden und der Code

Thomas

alles online kommt. Und wenn das online ist,

Thomas

dann ist natürlich auch automatisch oft der Anspruch an die Code-Qualität

Thomas

höher. Also das heißt, man möchte dann vielleicht doch ein bisschen mehr Zeit darauf verbringen,

Thomas

auch den Code zu kommentieren und ein paar Tests zu schreiben. Das sind ja alles

Thomas

Peer-Pressure.

Thomas

Ja, genau, so ein bisschen gesunde Peer-Pressure

Thomas

da reinbringen.

Thomas

Ja.

Thomas

Ja.

Thomas

Genau.

Thomas

Gab es irgendwas

Jochen

sehr Interessantes oder was du nicht

Jochen

erwartet hattest irgendwie beim

Jochen

Bauen der

Jochen

Modelle für dieses Problem

Jochen

oder

Jochen

ich weiß nicht genau, ob ich jetzt

Jochen

irgendwas...

Thomas

Ja, also das, was am schwierigsten daran ist, ist, dass man sich halt leider auf die Grunddaten nicht so richtig verlassen kann. Also angefangen habe ich zum Beispiel dann mit den Fallzahlen einfach. Aber die Fallzahlen sind natürlich wahnsinnig abhängig davon, wie viel überhaupt getestet wird. Und in Südkorea wurde wahnsinnig viel getestet, in Deutschland wird auch ziemlich viel getestet, in den USA wird kaum getestet bisher.

Thomas

Ja, und das ändert sich natürlich auch über die Zeit. Das heißt, wenn ich mir teste, finde ich mir Fälle. Das heißt, das ist auch schon für einen Anstieg allein verantwortlich. Da gibt es aber auch nicht wirklich verlässliche Daten, so wie viel da genau jetzt getestet wurde. Und dann ist ein anderer Ansatz zum Beispiel, sich die Todesfallzahlen anzusehen, um da zu denken, okay, die sind wahrscheinlich verlässlicher. Die sind leider auch nicht so genau.

Thomas

Also, ja, es ist ein sehr, sehr schwieriges Problem, weil die Datenqualität oft nicht wirklich gegeben ist, was natürlich dann die ganzen Vorhersagen da beeinflusst und auch, ja, also, und das allerdings ist natürlich auch eine Chance für diese Modelle, denn das sind alles Sachen, die man damit einbauen kann.

Thomas

Also zum Beispiel kann ich hingehen und sagen, okay, und das ist das Modell, an dem ich gerade arbeite, ich fange jetzt an mit den Todeszahlen, weil ich denke, dass die am verlässlichsten sind. Und dann weiß ich, ah, okay, also es ist mittlerweile recht gut etabliert, das ist ungefähr ein Prozent, die es bekommen, sterben daran.

Thomas

Das heißt, das kann ich dann hochrechnen und sagen, okay, also jetzt hatte ich 100 Tote, das heißt, das mal 100 und dann kriege ich die Anzahl der Infizierten, aber nicht die Anzahl der Infizierten an dem Tag, sondern vor zwei Wochen, weil oft dauert es von der Zeit der Infizierung bis zum Tod zwei Wochen.

Thomas

Und das heißt, das kann ich dann alles in das Modell mit einbauen und sagen, okay, jetzt kann ich da zurückrechnen und dann habe ich also den Wert der Infizierten vor zwei Wochen von den Toten und dann kann ich den vergleichen mit dem, wie viele Fälle, positiv getestete Fälle gab es denn vor zwei Wochen.

Thomas

Und das sind natürlich wenige, also wir haben ja nicht alle getestet und dann kann ich da so einen Faktor rausfinden zum Beispiel, wie viel Prozent der Fälle, die es denn scheinbar gab, wurden dann überhaupt getestet und das sind dann, ja, also mit diesen Modellen, die man halt da so ganz spezifisch bauen kann und das ist natürlich was, vorhin haben wir über Machine Learning gesprochen, das kann man natürlich absolut nicht damit machen, aber mit Probabilistic Programming kann man diese ganzen Annahmen da halt reinbauen

Thomas

und das Expertenwissen, was man hat

Thomas

über zum Beispiel die Growth Rate

Thomas

oder halt die Sterblichkeit oder wie lange

Thomas

es dauert, sind halt alles

Thomas

Annahmen, die man da mit reinstecken kann.

Thomas

Aber auch jetzt nicht

Thomas

ganz fix und sagen, okay, es sind exakt zwei

Thomas

Wochen, sondern sagen, okay, naja, könnte irgendwas

Thomas

zwischen sieben und

Thomas

18 Tagen sein. Also so eine Ungenauigkeit

Thomas

kann man auch in dem

Thomas

Bereich einsetzen und

Thomas

das wirkt sich dann natürlich auch darauf aus, auf

Thomas

die Ungenauigkeiten,

Thomas

die man aus dem Modell rausbekommt.

Thomas

Ja, ist ja interessant.

Thomas

Hast du irgendein Land gefunden, wo du sagst,

Dominik

dass die Fallzahlen, die du da so rausfindest,

Dominik

relativ nah an der

Dominik

Realität sind oder an der Wirklichkeit?

Dominik

Kann ich noch nicht sagen.

Dominik

Das ist

Dominik

eine sehr gute Frage, ja.

Thomas

Da habe ich noch gar nicht dran gedacht, aber werde ich mir

Thomas

auf jeden Fall anschauen. Ich würde erwarten,

Thomas

dass es Südkorea ist, weil die

Thomas

am meisten getestet haben.

Thomas

das wäre ein guter Test auf jeden Fall,

Thomas

das Modell zu sehen, wer da

Thomas

am genauesten dran ist und wer nicht.

Thomas

Wenn ich jetzt hier nach

Thomas

dem Podcast reinschaue,

Thomas

sind die Modelle wahrscheinlich gerade fertig und dann

Thomas

kann ich es dir schreiben.

Thomas

Schicken wir die Shownotes.

Jochen

Ja, genau. Wir packen das alles da an die Links.

Jochen

Ja.

Jochen

Ja, ja, ja, sehr interessant.

Jochen

Ja, ich weiß nicht, wollen wir noch, haben wir noch

Jochen

irgendwas, was wir mit diesem

Jochen

Corona-Geschichte

Jochen

besprechen wollten.

Jochen

Ich überlege gerade.

Jochen

Thomas hat so viele interessante Sachen,

Dominik

auch über Quanz-Sachen gesagt, die mich noch viel mehr interessieren

Dominik

als die Corona-Geschichte.

Dominik

Ja.

Dominik

Also genau,

Dominik

ich glaube, zu Corona auf jeden Fall

Thomas

haben wir, also ich glaube, zu allem haben wir eigentlich recht

Thomas

gut was,

Thomas

also alles, was ich, glaube ich, so sagen wollte,

Thomas

habe ich da gesagt.

Thomas

Ja.

Thomas

Aber also wenn ihr noch Sachen habt, die ihr vertiefen wollt.

Dominik

Das ist für uns der Virus ab jetzt auch offiziell beendet.

Jochen

Ja, wir erklären das jetzt mal für beendet.

Jochen

Halt mir die Augen zu und die Ohren zu.

Jochen

Ja, ansonsten, ich weiß nicht genau.

Jochen

Aber das ist vielleicht auch noch so ein Ding,

Jochen

wo es Überschneidungen gibt.

Jochen

Auch interessant, wie veröffentlicht man eigentlich solche Daten?

Jochen

Und wie kann man die am besten so,

Jochen

dass das halt alle lesen können, irgendwie übermitteln und so.

Jochen

Ja, aber die Notebooks sind doch total super.

Dominik

Man kann ja relativ einfach das plotten.

Jochen

Ja, ja, aber die Daten, auf denen das basiert,

Jochen

ist ja meistens dann irgendwie CSV oder so.

Jochen

Google Spat Chat.

Thomas

Ja, also genau, das ist auf jeden Fall echt so ein Ding.

Thomas

Also Johns Hopkins hat da die Daten aus den WHO-Berichten,

Thomas

die als PDF da geschickt werden, benutzt.

Thomas

Und die waren die ersten, die das Dashboard da hatten.

Thomas

Und dann haben andere Leute angefangen,

Thomas

diese Daten dann auf GitHub zur Verfügung zu stellen,

Thomas

als CSV-Dateien.

Thomas

Und dann kann man sich da halt immer die aktuelle Datei runterladen.

Thomas

Und das hat eigentlich auch so funktioniert, wie es hätte funktionieren sollen, nämlich die Daten natürlich, klar, hatten alle möglichen Probleme und dann haben Leute da GitHub Issues und Pull Requests gestartet, um dann die Datenprobleme, die es da gab, zu reparieren.

Thomas

Leider haben die, die das

Thomas

Report da laufen, dann sind nicht sehr

Thomas

aktiv, sondern stellen halt die Daten rein

Thomas

und oft enthalten

Thomas

die echte Fehler. Und

Thomas

die werden dann nur sehr schleppend bis gar nicht

Thomas

da

Thomas

gefixt. Und

Thomas

die andere Webseite,

Thomas

die ich jetzt angefangen habe zu nutzen, ist

Thomas

European Center for Disease Control,

Thomas

ECDC, und die

Thomas

haben deutlich bessere Daten.

Thomas

Also die Webseite, die ich jedem empfehlen würde,

Thomas

ist nicht mein Dashboard, sondern

Thomas

Our World in Data.

Thomas

Die haben da, finde ich,

Thomas

mit die besten

Thomas

Datenquellen und von denen

Thomas

habe ich das, dass die da umgestiegen

Thomas

sind auf die Daten von der ECDC.

Thomas

Die benutze ich jetzt auch und die

Thomas

sind ein bisschen verlässlicher.

Thomas

Ah ja, okay.

Thomas

Ja, sehr cool.

Jochen

Ja, das ist also, ich meine, auch da,

Jochen

das ist natürlich wahrscheinlich eine der Geschichten, die man daraus

Jochen

dann irgendwie lernen sollte, auch in

Jochen

Europa ist halt so, das ist überhaupt nicht einheitlich,

Jochen

genau wie diese Daten eigentlich erhoben werden oder

Jochen

wer da was an wen meldet und so.

Jochen

Und das ist halt alles überhaupt nicht miteinander vergleichbar.

Jochen

Aber wenn man

Jochen

jetzt auch, dass das halt irgendwie aus PDFs,

Jochen

also ich meine, auch in Deutschland ist das ganz, ganz

Jochen

krude Geschichten, hört man dann von irgendwie Faxen,

Jochen

die notergeschickt werden oder

Jochen

irgendwie werden Leute telefonisch

Jochen

irgendwie informiert über bestimmte Sachen und dann tragen sie

Jochen

das halt irgendwo ein oder halt auch nicht oder vergessen das halt auch mal.

Dominik

Das wird dann ausgedruckt und dann per

Dominik

Postgeschickten wieder eingescannt?

Jochen

Ja, also irgendwie, da ist auf jeden Fall

Jochen

eine Menge Verbesserungspotenzial, offenbar.

Jochen

Aber...

Dominik

Da haben ja einige Gruppen an dem Hackathon

Dominik

dran gearbeitet.

Dominik

Ja, das gab es ja jetzt.

Dominik

Auch in Python.

Dominik

Ich habe tatsächlich so ein bisschen versucht, da Projekte zu finden.

Dominik

Ich habe jetzt tatsächlich nicht die allercoolsten entdeckt.

Dominik

Ich habe ein bisschen gecodet, Telegram-Bot

Dominik

zur Aufklärung und es ging um

Dominik

Supermärkte. Aber ich habe ehrlich gesagt

Dominik

eher Leute da getroffen und versucht, so ein bisschen was Sinnvolles

Dominik

zu tun, aber wirklich viel

Dominik

kam da, glaube ich, nicht bei raus. Es waren sehr viele Menschen.

Dominik

Das hat mich ein bisschen gefreut, ein bisschen Hoffnung gegeben.

Dominik

Ich glaube, über 42.000 Anmeldungen gab es und hinterher über 1.000 Devs, die dann tatsächlich irgendwas gecodet haben.

Dominik

Das war ganz schön.

Thomas

Gab es irgendein Projekt, was du besonders cool fandest, woraus du was gewonnen hast?

Dominik

Ja, es gibt so ein paar Sachen, die tatsächlich sich um Menschen halt irgendwie versuchen zu kümmern und denen halt die Ängste abnehmen

Dominik

oder vernünftiges Handlingen von den Fragen zu machen, dass die Telefone nicht mehr überlastet werden.

Dominik

Aber dass da jetzt so richtig das Projekt rausgekommen ist, ich glaube, die brauchen alle noch ein bisschen.

Dominik

Ja, es dauert halt noch einen Moment, ja, es waren viele Sachen, die vom Ministerium dazu kamen, was man halt als Datenanalyse machen kann, auch für die die Wirtschaft, für kleine Unternehmen irgendwie gute Ideen sind, aber am Wochenende, glaube ich, kann man da noch nicht ganz was Brauchbares bauen.

Dominik

Aber ich glaube, da entsteht was draus und das war wirklich, glaube ich, ein guter Effekt, der mal wirkliche Digitalisierung in Deutschland gezeigt hat, dass gerade so der Anfang jetzt vielleicht gemacht worden ist, den man die ganze Zeit schon seit 20 Jahren erwartet hat.

Thomas

Absolut, ja. Das finde ich auch wirklich so das möglicherweise Positive an dieser ganzen Sache ist, dass wir diese ganzen Trends, die da angefangen sind mit Heimarbeit, Homeoffice oder auch Telemedizin, sind alles Sachen, wo man schon Ewigkeiten drüber spricht, aber es ist nie so richtig in die Gänge gekommen. Jetzt ist da eine sehr starke Forcing Function dahinter, dass wir das halt alle machen müssen und dann bewegt sich auch was.

Dominik

Breitbandausbau, vielleicht werden endlich mal

Dominik

wieder ein paar Kliniken privatisiert, man weiß es nicht.

Dominik

Und

Thomas

ich meine, das sind alles Sachen, die

Thomas

dann, wenn wir diese

Thomas

ganze Corona-Geschichte überstanden haben,

Thomas

hoffentlich auch bestehen bleiben.

Thomas

Die ganzen Arbeitgeber

Thomas

haben jetzt Erfahrung damit,

Thomas

die Ärzte haben Erfahrung damit,

Thomas

Konferenzen auch zum Beispiel,

Thomas

viele wurden abgesagt, aber einige sind auch virtuell

Thomas

geworden. Und das ist auch eine Sache,

Thomas

die schon immer so gefordert wurde,

Thomas

Weil es natürlich auch CO2 sehr schlecht für die Umwelt ist,

Thomas

wenn da 100.000 Leute zu dieser Konferenz fliegen.

Thomas

Und das kann man viel virtuell machen.

Thomas

Und das wurde auch nur lange gefordert.

Thomas

Jetzt wird es tatsächlich umgesetzt, weil es nicht anders geht.

Dominik

Apropos virtuell, da muss ich einmal kurz einhaken.

Dominik

Weiß ich nicht, wann wir die Folge veröffentlicht bekommen.

Dominik

Aber jetzt am Wochenende ist der virtuelle Düsseldorfer Python Sprint,

Dominik

der sonst immer bei Trivago stattfand, auch

Dominik

auf virtuelle Ebene verschoben wurden.

Dominik

Das Python-Camp

Dominik

auch, also das

Dominik

in

Jochen

Deutschland stattfindet.

Jochen

Ja, und das ist jetzt auch,

Jochen

das ist noch nicht so richtig klar. Und sogar die EuroPython

Jochen

auch, auch virtuell. Ach, ernsthaft?

Jochen

Das habe ich im Blog gelesen, ja. Das habe ich noch gar nicht

Jochen

mitbekommen, weil, ja, okay, das wäre nämlich,

Jochen

weil da war, hatte ich ja auch, oder hatten

Jochen

wir auch überlegt, da hinzugehen.

Jochen

Ja, also ich hatte schon gebucht, ich habe

Jochen

schon hinbekommen, aber ja.

Jochen

Hm, interessant. Ja, aber ich bin auch gespannt, wie das dann jetzt am Wochenende wird. Die ganzen Geschichten müssen sich jetzt halt da erstmal so finden, aber ich bin auch überzeugt, dass das eigentlich im Prinzip kein Problem ist. Es sollte schon gehen.

Dominik

Es hat halt schon ein paar Vorteile, wenn man die Leute tatsächlich persönlich sehen kann, als nur remote. Ja, das ist natürlich schon auch mal schön, lieber Thomas, aber wir hätten dich natürlich gerne alle begrüßt.

Dominik

Genau, richtig.

Dominik

Mit Handschlag und

Thomas

ja, aber genau, also

Thomas

ich glaube,

Thomas

diese ganzen Nachteile gibt es auf jeden Fall,

Thomas

aber ich würde mich wundern, wenn es da nicht auch

Thomas

sehr viel Potenzial für innovative Ideen

Thomas

gibt, wie man das

Thomas

Nachteil

Thomas

ausgleichen und Vorteile ausweichen kann.

Thomas

Ja, und es gab

Dominik

eine Kegel-Competition gab es noch jetzt

Jochen

irgendwie neu. Ja, da gab es mehrere.

Jochen

Ja,

Jochen

Moment,

Jochen

Genau, es gab einmal

Jochen

eine Geschichte.

Thomas

Genau, da geht es darum, haben sie

Thomas

einen riesen Datensatz mit Research-Papern

Thomas

zur Verfügung gestellt und da wird

Thomas

NLP drauf gemacht.

Thomas

Auch bei Quantopian sind wir auch

Thomas

gerade dabei, eine neue Challenge zu starten.

Thomas

Und

Thomas

das haben wir immer gemacht mit gewissen

Thomas

Datensätzen oder so. Jetzt

Thomas

generiert man Algorithmen auf

Thomas

den Insider-Daten oder so.

Thomas

Das, wie wir es jetzt machen wollen, ist ein bisschen eine andere Idee.

Thomas

Da geht es auch um Covid-19 und den Einfluss davon auf die Wirtschaft und auf die Finanzmärkte.

Thomas

Und da geht es nicht darum, irgendwelche Algorithmen zu entwickeln,

Thomas

sondern stattdessen interessante Analysen und Visualisierungen davon zu machen.

Thomas

Also wer macht die coolste Analyse, wie der Einfluss von Covid-19 auf die Supply Chains ist oder auf die Aktienmärkte?

Thomas

Das wird nicht so.

Dominik

Ich zeichne mal mit, dass du so einen Aktienmarkt und dann kommt irgendwie so ein großer Hammer und dann macht es boom.

Dominik

Ja, genau sowas.

Dominik

Aber genau, also bis

Thomas

der Podcast dann raus ist, ist es wahrscheinlich

Thomas

schon unter Kontra mit Website. Also jeder, der da

Thomas

Interesse hat, sollte sich das mal

Thomas

ansehen. Gibt auch einen Preis.

Thomas

Ah, cool. Ja.

Jochen

Genau, da sehe ich gerade auch schon,

Jochen

es gibt eine Forecasting-Competition

Jochen

auf Karel auch, wo halt die Leute auch schon ihre

Jochen

Notebooks, da sehe ich auch schon diese

Jochen

SIR-Modelle und

Jochen

Leute, die interessante Visualisierungen gemacht

Dominik

haben. Ich fand das mit dem Preis auf Kantor-Penis aber

Dominik

deutlich interessanter. Ja, das ist, ja,

Jochen

genau, das packen wir auf jeden Fall auch mit rein, das

Jochen

genau.

Jochen

Ja, nee, sehr schön.

Jochen

Ja, schreibt uns, wenn ihr irgendwie

Dominik

ein tolles Projekt habt, wo ihr Unterstützung versucht,

Dominik

das werden wir natürlich dann in der nächsten Zeit

Jochen

versuchen zu berücksichtigen. Ja, ich weiß

Jochen

nicht genau, vielleicht kann man nochmal so ein bisschen allgemein, also

Jochen

was auch interessant ist, wenn man da auf dem Laufenden bleiben

Jochen

will, was gerade so passiert, diese

Jochen

Geschichte, es gibt vom CCC irgendwie

Jochen

einen

Jochen

Link-Liste und ein Wiki

Jochen

und auch ein Bulletin, das sie halt

Jochen

jeden Tag veröffentlichen mit allen

Jochen

aus ihrer Sicht irgendwie

Jochen

wichtigen Entwicklungen und das

Jochen

ist auch interessant. Also ich meine,

Jochen

die organisieren sich irgendwie um

Jochen

so ein Streamer-Channel

Jochen

oder Gruppe

Jochen

und das sind irgendwie so 100,

Jochen

etwas über 100 Leute oder so, die halt alle aus diesem

Jochen

medizinischen oder Katastrophenschutz-Bereich kommen

Jochen

und die da auch halt echt

Jochen

Ahnung von haben und da stehen

Jochen

auch immer sehr interessante Sachen

Jochen

Sachen dabei. Also wenn da irgendwas

Jochen

Neues erschienen

Jochen

ist, was irgendwie

Jochen

interessant ist, dann findet man das da eigentlich immer.

Jochen

Und die machen das halt auch anders. Das ist auch

Jochen

sowas, was mich irgendwie

Jochen

in letzter Zeit, also ich hab da jetzt auch so ein bisschen,

Jochen

naja, ich meine, man konnte dem eigentlich nicht entgehen.

Jochen

Man hört ja die ganze Zeit von

Jochen

allen möglichen Richtungen strömt das auf einen ein.

Jochen

Wenn man so

Jochen

sich anguckt, was so in Zeitungen

Jochen

oder eben klassischen journalistischen

Jochen

Publikationen irgendwie geschrieben wird, was mich

Jochen

immer so ein bisschen stört, ist, dass oft nicht die Quellen

Jochen

dabei stehen oder so. Und das machen die

Jochen

zum Beispiel eben auch anders, dass sie halt immer die Quellen

Jochen

alle mit verlinken und dass man halt gucken kann, wenn das steht,

Jochen

wenn das steht halt nicht nur irgendwie, es gibt eine

Jochen

Studie, die irgendwie das und das sagt, wenn man sich denkt,

Jochen

okay, zeig mir doch mal die Studie, ich möchte mal gucken,

Jochen

was haben die denn da wirklich gemacht, dann

Jochen

ist das da halt auch alles verlinkt und

Jochen

das ist schon mal sehr praktisch.

Jochen

Ja, ähm,

Jochen

hm.

Jochen

Ja, es gibt leider auch wieder sehr viele

Jochen

Alternativmedien, die irgendwelchen Schrott erzählen.

Jochen

Ja, das ist, äh, das ist. Eva Herrmann

Jochen

sagt, das wäre wie die Grippe.

Jochen

Ja.

Jochen

Ja.

Jochen

Wie wird man dem her?

Jochen

Gute Frage. Ja, keine Ahnung.

Jochen

Ja.

Jochen

Genau, genau.

Jochen

Was ich noch,

Jochen

worauf ich noch hinaus wollte, mit dem,

Jochen

wie man Daten austauschen kann, also was ich ja persönlich hoffe,

Jochen

ich habe auch so keine Ahnung, ob das irgendwie jemals passieren wird,

Jochen

aber das habe ich auch,

Jochen

die Idee ist ja nicht von mir, sondern das ist halt,

Jochen

habe ich auch irgendwann mal gehört

Jochen

und dachte so, also zuerst dachte ich,

Jochen

ist vielleicht keine tolle Idee, aber dann so

Jochen

je länger man drüber nachdenkt, desto

Jochen

irgendwie interessanter sieht das aus, irgendwie

Jochen

halt als Standard-Datenaustauschformat

Jochen

für solche Art von Daten halt SQLite

Jochen

zu etablieren,

Jochen

weil eben CSV

Jochen

irgendwie diverse böse Nachteile

Jochen

hat und man mit SQLite halt

Jochen

auch sehr schöne Geschichten

Jochen

bauen kann gerade.

Dominik

Das Problem mit SQLite ist natürlich, du brauchst immer ein Interface,

Dominik

mit dem man das beschreiben kann und du hast

Dominik

halt bei CSV einfach eine offene

Dominik

Tabelle, wo du einfach in irgendwelche Zellen irgendwas rein

Dominik

pasten kannst. Und das

Dominik

kenne ich so für Sikulite

Dominik

so low-levelig, für

Dominik

den Privatanwender nicht.

Jochen

Ja, natürlich. Also wenn du

Jochen

sozusagen tatsächlich da Daten verändern willst,

Jochen

dann ist das natürlich

Jochen

alles sowieso schwierig. Aber

Jochen

wenn du es jetzt nur irgendwie lesen und auswerten willst,

Jochen

dann ist vielleicht

Jochen

Sikulite gar keine so schlechte Idee. Also ich finde die Idee super,

Dominik

so aus technischer Perspektive. Ich frage mich halt nur, wie

Dominik

Herr Meier

Dominik

und Frau Kunze das umsetzen wollen, wenn sie

Dominik

zu Hause sind. Und

Jochen

dann ihre

Dominik

Daten bereitstellen. Also vielleicht sind diese

Dominik

Menschen, die da arbeiten, ja irgendwie

Dominik

an der Quelle und haben halt dieses Fax in der Hand

Dominik

zum Beispiel und müssen halt diese Daten aus dem Fax irgendwo

Dominik

eintippen. Und man

Dominik

hat halt vielleicht gar nicht diese Schnittstelle, dieses Interface,

Dominik

dass das halt direkt in eine zentrale, gute

Dominik

Datenbank kommt, sondern man

Dominik

muss halt irgendwie sich so ein

Dominik

Überträger-Datenformat überlegen, was

Dominik

halt dann oft

Dominik

so eine Tabelle ist einfach.

Jochen

Ja, aber also was man tatsächlich

Jochen

mit SQL, also mit Data Setter zum Beispiel,

Jochen

Das ist halt das Projekt, was ich

Jochen

in dem Zusammenhang, weil es gibt auch zum Beispiel für diese

Jochen

Covid-Daten jetzt

Jochen

eine Datasette

Jochen

irgendwo auf.

Jochen

Das hatten wir noch ein, zwei Mal schon mal erwähnt,

Dominik

aber vielleicht erklärst du kurz, was ist das, eine Datasette?

Jochen

Ja, also

Jochen

da geht es darum, eben genau

Jochen

Daten halt

Jochen

öffentlich machen zu können.

Jochen

Das ist ein Projekt von, war

Jochen

jahrelang Side-Project, sozusagen das Haupt-Side-Project

Jochen

von Simon Willism, ein der

Jochen

Gründer von Django, von dem Django-Projekt.

Jochen

Webgeschichte

Jochen

und der hatte halt auch irgendwie

Jochen

eine Zeit lang

Jochen

beim Guardian gearbeitet

Jochen

und

Jochen

hatte da halt gesehen, dass es

Jochen

irgendwie deren Haupt

Jochen

Datensammlung von jemandem

Jochen

betreut wurde, der halt irgendwie hunderte von

Jochen

CSV-Files und Dingen irgendwie

Jochen

auf seinem Desktop liegen hatte

Jochen

und halt wusste, was da drin stand.

Jochen

Aber das ist natürlich nicht so eine gute

Jochen

Ausgangsbasis, um da irgendwie

Jochen

Daten dann zu veröffentlichen, also das könnte

Jochen

man gar nicht so richtig veröffentlichen, weil

Jochen

wenn man halt nicht weiß, was da überall drinsteht, dann kann man mit

Jochen

dieser Datensammlung gar nicht so viel anfangen

Jochen

und hätte dann

Jochen

überlegt, was man tun kann, um das

Jochen

irgendwie, ja

Jochen

auf so einer

Jochen

Toolbasis irgendwie daran

Jochen

aufzubereiten und das ist halt

Jochen

das, was daraus entstanden ist, halt die Tassette

Jochen

und das ist halt

Jochen

besteht aus mehreren Teilen, ein Teil ist halt

Jochen

man wirft irgendwie CSV-Dateien

Jochen

da rein oder sagt halt auch nur zu

Jochen

einem Verzeichnis, in dem viele CSV-Dateien

Jochen

drin liegen, so

Jochen

werdet mal zu einer SQLite-Datenbank

Jochen

und

Jochen

dann wird das mehr oder weniger automatisch

Jochen

transformiert und wenn es dann eine SQLite-Datenbank

Jochen

ist, dann

Jochen

kann man da halt beliebiger

Jochen

SQL-Anfragen drauf stellen,

Jochen

weil man kann halt bei SQLite

Jochen

sagen, das ist auch eine schöne Geschichte,

Jochen

das ist in der Python-Standard-Bibliothek direkt mit drin.

Jochen

Das heißt, man muss da nichts installieren

Jochen

oder so, sobald man einen Python-Interpreter hat, hat man

Jochen

das dabei und kann

Jochen

das Read-Only sozusagen aufmachen.

Jochen

Und er kriegt dann das Schema

Dominik

dann daraus, was er in den Daten gegeben hat.

Jochen

Ja, und was Setter-Setter macht, ist, es macht

Jochen

halt automatisch eine API drumherum.

Jochen

Sodass du halt auch direkt eine Web-API

Jochen

hast auf deine

Jochen

SQLite und sozusagen

Jochen

du hast jetzt nicht irgendwie GraphQL

Jochen

mit dem du als Abfragesprache

Jochen

mit der du das abfragst, sondern du hast halt direkt

Jochen

SQL und kriegst dann halt JSON oder

Jochen

CSV zurück.

Jochen

Und ja, das ist eigentlich

Jochen

sehr, sehr schick.

Jochen

Aber ja, es ist natürlich

Jochen

ja klar, also ich meine...

Dominik

Also das heißt, man könnte jetzt diese ganzen Repos

Dominik

auf GitHub, wo die ganzen Datensätze als CSV

Dominik

drin sind, einfach in irgendeine Datasette kippen

Dominik

und hätte direkt als SQL die Abfrage.

Jochen

Ja, nicht nur das, sondern man hat sogar

Jochen

einmal ein Interface, wo man

Jochen

SQL hin tun oder reinposten

Jochen

kann sozusagen und dann kommt halt

Jochen

irgendwie eine HTML-Tabelle im Browser

Jochen

zurück oder halt eben CSV oder JSON,

Jochen

wenn man es als API verwenden möchte und man hat

Jochen

direkt eine API auf die Datenbank.

Jochen

und es ist sogar so, dass man das nicht

Jochen

mal selber husten muss, sondern es gibt dann diverse

Jochen

Provider, die halt so

Jochen

Dinge anbieten, wie du kannst dann

Jochen

das habe ich jetzt gar nicht nochmal genau

Jochen

nachgeguckt, aber es gibt glaube ich Glitch, mit Glitch geht das

Jochen

irgendwie oder es gibt halt auch mit

Jochen

es gibt auch diverse

Jochen

die einfach so Docker-Container anbieten, die man

Jochen

wo man halt so ein freies Kontingent

Jochen

hat an Containern irgendwie

Jochen

und dann damit kann man das halt auch

Jochen

hochziehen und sodass man

Jochen

halt ohne

Jochen

irgendwie selber da irgendwie

Jochen

Hosting bezahlen zu müssen,

Jochen

die CSVs halt als

Jochen

SQL-Datenbank mit

Jochen

API irgendwie ins Netz stellen

Jochen

kann. Und das ist auch mit diesen

Jochen

John Hopkins-Daten passiert.

Jochen

Und das fand ich auch schon

Jochen

sehr interessant. Aber na gut, ich meine, das

Jochen

fixt natürlich die grundlegenden Datenprobleme

Jochen

darunter halt dann nicht.

Jochen

Aber es ist auf jeden Fall

Jochen

eine ganz

Jochen

interessante Geschichte, finde ich. Wenn man jetzt zum Beispiel

Jochen

irgendwie ein Notebook baut, was halt irgendwie

Jochen

diese Daten verwendet,

Jochen

dann kann man halt auch direkt, das könnte man direkt

Jochen

die Datasette, diese

Jochen

COVID-19-Datasette einfach

Jochen

verwenden und dann halt die ganzen Daten

Jochen

über eine API bekommen, ohne dass man da selber

Jochen

CSVs parsen muss oder so.

Jochen

Cool.

Jochen

Ja.

Jochen

Aber, genau.

Jochen

Ja, also

Dominik

Feedback und Anregungen und Fragen und

Dominik

alle eure Sorgen an hallo.python-podcast.de

Dominik

Ja.

Dominik

Thomas, bist du noch da?

Dominik

Ich bin noch da.

Dominik

Ja, ich weiß nicht.

Dominik

Sind wir dann schon durch?

Dominik

Haben wir noch irgendwas Interessantes?

Jochen

Haben wir noch irgendwelche Dinge, die ansonsten...

Dominik

Naja, also News aus der Szene, die ganzen Konferenzen

Dominik

abgesagt und...

Jochen

Das ist die eine große Neuigkeit.

Dominik

Ja, wenn ihr zum Peißenbuch kommen wollt,

Dominik

der stattfindet, der ist jetzt auch virtuell.

Dominik

Könnt ihr auf dem Chaosdorf mal gucken, welche Räume es da gibt.

Dominik

Ja, dann vielen Dank,

Dominik

dass du heute da warst.

Dominik

Vielen Dank, weil du ganz viele Dinge erzählt hast.

Dominik

Ja, vielen Dank

Dominik

für die Einladung. Es war sehr cool

Dominik

mit euch zu sprechen.

Dominik

Wir freuen uns schon, wenn alle wieder gesund sind.

Dominik

Dann müssen wir es hier mal live wieder vor Ort wiederholen.

Dominik

Sehr gerne.

Dominik

In der Nähe. Ist ja gar nicht so weit.

Dominik

Ja, vielen Dank fürs Zuhören.

Dominik

Bleibt uns gewogen. Hört wieder rein. Bleibt gesund.

Dominik

Vor allen Dingen in diesen unruhigen Zeiten.

Dominik

Hört mal wieder rein. Wir hören uns.

Dominik

Bis zum nächsten Mal. Tschüss.