Transcript: Corona aus der Data-Science Perspektive

30. März 2020 · Back to episode

Full episode transcript. Timestamps refer to the audio playback.

Ja, hallo liebe Hörerinnen und Hörer. Willkommen bei einem Python-Podcast, mittlerweile in der 19. Episode.

Heute unser Thema ist wieder Data Science. Wir haben leider ein bisschen den Coronavirus, Covid-19, die wir in der 19. Folge etwas besprechen möchten,

aber aus einer Data Science Perspektive. Das heißt, wir hoffen, dass ihr euch nicht zu viel mit dem Virus nerven, von dem ihr bestimmt alle die Schnauze und die Nase voll habt.

Ja, wir sind tatsächlich alle remote dabei. Ich bin der Dominik, dabei ist natürlich wieder Jochen.

und wir haben einen Gast, den Thomas.

Hallo, ja, vielen Dank für die Einladung.

Ja, schön, dass du da bist.

Ja, vielleicht sollten wir diesmal auch tatsächlich dazu sagen,

an welchem Datum, das wollten wir sowieso immer machen,

aber heute ist es vielleicht besonders relevant,

das 26. März 2020.

Also, keine Ahnung, an welchem Punkt irgendwie

der ganzen Corona-Krise wir uns befinden.

Vielleicht am Anfang, vielleicht mittendrin, wer weiß.

Ich hoffe, das ist alles direkt bald vorbei

und ich mache die Augen zu und will nicht sehen und hören davon.

naja, ich hoffe, ihr seid alle gesund.

ich weiß nicht,

möchtest du dich vielleicht kurz selbst

vorstellen, Thomas?

Klar, gerne. Also ich bin der Thomas

Wiki, ich

T-Wiki auf Twitter.

Ich habe in

Tübingen Bioinformatik studiert und dann da

am Max-Panck-Institut nebenbei noch so ein paar

Sachen gemacht und da

habe ich mich auch angefangen für

Machine Learning und Statistik zu interessieren.

Dann bin ich in die USA gegangen und in der Brown University habe ich einen Doktor gemacht.

Und das war im Bereich von Computational Psychiatry.

Und da geht es darum, dass man Modelle vom Gehirn baut.

Und dann an diesen Modellen von Teilen des Gehirns überlegt man sich,

okay, jetzt weiß ich, wie das in der gesunden Person funktioniert.

Und dann kann man gewisse Neurotransmitter hoch- oder runterregulieren

und sehen, okay, wie verändert sich das Verhalten?

Und stimmt das dann zum Beispiel mit dem, wie man es in Parkinson oder in anderen psychiatrischen Erkrankungen sieht, überein?

Und darüber habe ich mal eine Zertifizierung geschrieben.

Während des Doctors und auch schon davor, allerdings war mir immer klar,

okay, die freie Wissenschaft ist zwar sehr cool, macht viel Spaß,

aber ein sehr unstetiger und steiniger Karriereweg.

Und das war dann, wo das aufkam zu dieser Zeit mit dem Griff Data Science.

Da war dieser riesige Artikel, Data Science is the sexiest job of the 21st century und den habe ich gelesen und habe mir gedacht, krass, das ist ja genau das, was ich mache, ohne es zu wissen, dass es jetzt auf einmal Data Science heißt.

Und dann habe ich mir überlegt, okay, Wissenschaft ist ja schön gut, aber wer weiß überhaupt, wie die Industrie ist, also ich habe das nie wirklich kennengelernt und deswegen habe ich dann angefangen, da so ein paar Fühler auszustrecken.

Und bin dann auch auf diese Pi-Data-Konferenzen gegangen und über den Wes McKinney, der Pandas geschrieben hat, bin ich dann mit dem Forst in Kontakt gekommen und der CEO von Kotopion.

Und dann habe ich da angefangen, einmal in der Woche zu arbeiten, also während des Studiums. Und dann danach bin ich zurück nach Deutschland gezogen und seitdem bin ich da remote als Vice President of Data Science und leite da das Research Team bei Quantopion.

Kannst du das nochmal ganz kurz wiederholen? Ich glaube, wir hatten einen kleinen Knacks in der Verbindung. Deine letzte Station. Das klingt sehr spannend.

Genau, nach meinem Dokument bin ich dann nach Deutschland gegangen und die Banken haben gesagt, willst du nicht weiter für uns arbeiten? Und da bin ich VP of Data Science und Leiter des Research Team.

Okay, cool.

Ja, cool. Was macht Quantopien denn so?

Das klingt irgendwie so ein bisschen nach Finanzbranche.

Quants und so.

Genau, richtig. Daher kommt auch der Name.

Und also wir stellen eine Plattform bereit im Internet,

wo jeder, der möchte und so ein paar rudimentäre Python-Skills hat,

auf die Plattform kommen kann.

Und da findet er zum Beispiel einen Jupyter-Notebook,

wo er direkt, er oder sie,

alle möglichen Finanzdaten hat und die ganzen Bibliotheken, die man haben möchte und dann kann man da direkt loslegen und

Analysen machen, wie sich zum Beispiel jetzt die Corona-Krise auf den Aktienmarkt auswirkt.

Und wenn man dann eine gute Idee hat, dann kann man daraus einen Rhythmus entwickeln, einen Trading-Algorithmus,

der dann in den Markt

investiert, was auf gewisse Ziele zurückgeht. Wenn das tatsächlich funktioniert, dann

kann man die Algorithmus-Plattform zum Beispiel bei unseren Trading-Competitions einreichen

und Cash-Prize gewinnen oder auch Allokationen.

Also wir arbeiten mit Asset-Managern zusammen, um dann diese Algorithmen sozusagen zu vermitteln an andere

und dann wird man da gewinnbeteiligt zum Beispiel.

Und das andere, was wir auch noch machen, ist diese Finanzplattform,

diese Research-Plattform, die wir da gebaut haben,

dann auch noch an Kunden zu vermitteln.

Also es gibt ja auch ein Enterprise-Business,

aber die Community-Edition ist kostenlos.

Und wenn man da rauf geht,

dann, also die Ergebnisse und das Intellectual Property,

was man da entwickelt, bleibt auch immer bei den Usern.

Und da sind unsere Terms of Service sehr genau,

weil das oft eine Frage ist.

Ich meine, um da irgendwie Modelle bauen zu können,

braucht man ja auch irgendwie Zugriff auf eine ganze Menge historische Daten.

Werden die dann schon angeboten?

Oder muss man da irgendwie gucken, wo man die herbekommt?

Ich glaube, ganz lange war irgendwie Yahoo Finance

irgendwie eine ganz gute Quelle, aber...

Die Abis sind nicht mehr frei.

Nee? Ah, okay.

Ja, also die haben es schwieriger gemacht, die Daten zu kriegen.

Also ja, das habe ich dann irgendwann aufgegeben.

Also es gibt eigentlich kaum wirklich gute Datenquellen,

die kostenlos sind.

Aber bei uns auf jeden Fall auf der Plattform gibt es die alle.

Also internationale Equities, Price Volume, alles Mögliche in Minutenauflösung über, ich glaube, die letzten 14 Jahre oder so.

Und auch eine wichtige Sache ist, dass die Survivorship-Bytes frei sind.

Also das heißt, wenn eine Firma untergeht, oft werden die dann zum Beispiel über EU Finance nicht mehr aufgelistet.

Bei uns allerdings schon.

Und wir haben da sehr viel Arbeit reingesteckt,

dass die Daten auch wirklich sauber sind

und dass da, wenn da Splits in dem Stock oder Dividend Payments sind,

dass das akkurat reflektiert wird.

Zusätzlich haben wir noch alle möglichen anderen Datenquellen

wie Estimates, also was Leute glauben,

wie sich die Earnings entwickeln

oder Transactions von Leuten,

gewisse Reglementierung haben. Wenn man bei einer Firma arbeitet, dann darf man nur in

ganz gewisser Art und Weise diese Firma, für die man arbeitet, traden. Das ist ja klar,

weil man natürlich Insider-Informationen hat. Und man muss es auch angeben. Und das

sind auch zum Beispiel Daten, die zur Verfügung sind. Also wir sind die ganze Zeit dabei,

alle möglichen neuen Datenquellen dazuzufügen. Und das ist auch immer wichtig, denn diese

Daten ist eigentlich das, worum es geht.

Wenn man nur Preisdaten hat,

das gibt es seit 50 Jahren,

also da ist nichts mehr,

Alpha nennt sich das, wenn man

ein Signal hat, was Vorhersagekraft hat,

was der heilige Kral ist

in Quant Finance,

braucht man immer diese neuen Datenquellen

und das ist immer so ein Wettrüsten zwischen

den verschiedenen Hedgefonds.

Wer kriegt die neuesten Daten,

die noch das

am besten vorhersagen?

Klingt sehr interessant. Habt ihr da bestimmte Favoriten oder sowas? Oder wie ihr dann den Markt auch performen könnt? Oder bist du da selber irgendwie, machst du da selber Investments?

Also wir sozusagen auf der Plattform machen das nicht, einfach weil es ein Conflict of Interest ist. Das heißt, das übernimmt nur unsere User und nicht nur Conflict of Interest, sondern unsere User können das auch viel besser.

Also ich bin erstaunt, wenn ich mit denen spreche, was für interessante Hintergründe die haben und wie viel Ahnung die auch wirklich haben von der Materie. Und die kommen von allen möglich verschiedenen Bereichen, also Leute, die haben VWL studiert und haben sich dann auf unserer Plattform, also wir haben da alle möglichen Tutorials, Python selber beigebracht und implementieren dann da ihre eigenen Ideen oder aber auch viele Software-Engineers, die eigentlich Python können und dann da so ein bisschen Data Science lernen wollen.

Und genau, da haben wir halt alle möglichen Tutorials für jedermann, was auch immer man da lernen möchte. Und dadurch, dass alles auch natürlich gehostet ist, keine Installations-Delays oder so, also man kann direkt loslegen.

Gut, also läuft alles auf dem Jupyter-Notebook dann bei euch?

Genau, also Jupyter Notebook ist das eine, das ist so das Primäre und dann gibt es aber auch noch einen separaten Backtester, wo man dann wirklich den Algorithmus schreiben kann und dann hat man so ein Web-Interface, wo man dann sagen kann, okay, das möchte ich jetzt auf historischen Daten starten von 2000 bis heute und dann, genau, wird das dadurch simuliert und dann schaut man sich die Ergebnisse an und möglicherweise, ja.

Ja, das ist auch interessant, genau, Backtesting ist vielleicht auch nicht jedem irgendwie ein Begriff direkt, ich meine, wenn man jetzt irgendwie evaluieren will, ob irgendwie ein Modell, so im Machine Learning Bereich zum Beispiel, irgendwie, ja, das tut, was man haben möchte oder so, dann macht man da irgendwie Cross-Validation oder sowas und bei solchen Zeitreihen-Geschichten muss man ja irgendwie ein bisschen was anderes machen, weil man ja gar nicht quasi sozusagen, man muss ja die Zeitrichtung irgendwie berücksichtigen.

Kannst du was dazu sagen, wie das genau funktioniert

oder wo man da aufpassen muss, was man da macht?

Ja, also aufpassen muss man auf jeden Fall.

Das größte Risiko ist immer Overfitting

und das ist sehr, sehr schwer, das nicht zu machen.

Also dadurch, dass wir uns die Algorithmen anschauen,

also wir schauen uns nicht mehr den Code an,

aber wir schauen uns die Ergebnisse an,

also wie viel Profit haben die deklariert

und wie viele Positionen traden die

und den Output von den Algorithmen schauen wir uns an.

Und da können wir auch immer sehen, okay, also hier ist die Zeitperiode, wo der Quant, der User, Zugriff drauf hatte und hier ist die Zeitperiode, wo er keinen Zugriff drauf hatte. Und in der Regel sieht man, dass es nur im Backtest, also historisch, wo man es drauf entwickelt hat, gut funktioniert und dann out of sample eben nicht.

Und um das zu umgehen, muss man auf jeden Fall da sehr diszipliniert dran gehen und genau auch da cross-validisch machen. Die funktionieren ein kleines bisschen anders, aber die Idee ist trotzdem die gleiche.

Also es geht immer darum, gewisse Training-Daten zur Verfügung zu haben und darauf entwickelt man seine Ideen und dann andere Daten, die man nicht anrührt und dann wirklich nur ganz am Ende benutzt zum Testen, um zu wissen, ob die Idee auch wirklich valide ist oder nicht.

Und da gibt es verschiedene Ansätze, zum Beispiel eine Sache, die ich recht elegant finde,

ist, dass man die geraden und die ungeraden Quarte, also Business Quarte, Vierteljahre immer austauscht.

Also man trainiert nur auf den geraden Quartern, also 1. und 3. und dann 2. und 4. benutzt man zu testen.

Denn das, was immer die riesige Schwierigkeit ist bei allem, was Quant Finance ist, ist es nicht stationär.

Also das heißt, der Markt ändert sich permanent und irgendwas, was damals funktioniert hat, funktioniert dann vielleicht nicht mehr.

Aber vielleicht fängt es auch wieder an zu funktionieren.

Also man weiß nie so genau, was da Sache ist.

Das klingt so ein bisschen schwierig, wenn man so Quartale rausnimmt.

Ich stelle mir jetzt vor, es gibt Saisongeschäfte oder sowas und die würde man ja dann verlieren.

Also dann würde ich fast lieber das ungerade Jahr rausnehmen oder so

und dann alle zwei Jahre gucken.

Ja, also es gibt da wenig, was wirklich perfekt ist.

Bei Jahren zum Beispiel hat man 2009, was natürlich ein besonderes Jahr ist.

Also ja, also das mit den Quartalen zum Beispiel, die kann man dann auch randomisieren,

also dass man vielleicht nicht nur die geraden und ungeraden nimmt,

sondern das randomisiert.

Genau, und das Klassische natürlich auch einfach, und das ist eigentlich auch eine solide Methode, ist einfach dann zu sagen, okay, die letzten zwei Jahre schaue ich mir nicht an, denn die Annahme ist so ein bisschen, was jetzt funktioniert, was noch nicht so lange her ist, das, was hoffentlich auch dann funktioniert, wenn man es wirklich live schaltet.

Also, ja, gibt verschiedene Philosophien und leider keine, die so richtig zufriedenstellend ist, hat so alles seine Vor- und Nachteile.

Spannend, also sehr, sehr interessant. Es geht ja auch das Gerücht um, dass dieser große Absturz jetzt gefolgt ist, der hauptsächlich auf so Quant zurückzuführen wäre.

Ich glaube, der ist eher auf Covid-19 zurückzuführen.

Ja, aber in der Kombination und in der Härte.

Also da ist vielleicht auch was dran,

weil die halt dann alle stumpf sagen,

okay, jetzt raus, raus, raus, verkaufe.

Also das ist auf jeden Fall so,

dass Hedgefonds und Quantfonds da auf jeden Fall

ihr Risiko minimiert haben und rausgegangen sind.

Aber das haben die gemacht, so wie jeder andere auch.

Gerade die großen Anleger,

die gehen wahrscheinlich früher raus noch als vielleicht Private,

weil die halt ihr Stop-Loss dann irgendwann haben

und sagen, nee, jetzt muss weg.

Ja und nein, also die sind natürlich sehr hinterher, aber gleichzeitig haben die natürlich auch Investments, die in einer anderen Größenordnung stattfinden.

Also wenn das halt nicht die Rentenanlage von irgendeiner Privatperson ist, der damit 100.000 oder sowas ETFs hat, sondern ein Rentenfonds mit Gott weiß wie vielen Milliarden.

Das kann man nicht von heute auf morgen

in einem absoluten panischen Markt direkt abstoßen.

Das ist so ein bisschen, also die sind da sehr viel langsamer

und natürlich auch, wir gehen jetzt auch nicht einfach so im Cash.

Also die machen natürlich trotzdem weiter,

aber es ist, ja, also das Risiko wird minimiert

und das hat dann immer diese Feedback-Effekte.

Also die Ersten fangen an und dann werden die Stop-Losses bei,

den nächsten getribbt und die

verkaufen dann sehr rapide und

das triggert dann weitere Stop-Losses

und ja, also

das sind so Schneeball-Effekte, die da ganz leicht entstehen.

Interessant, also da könnte man auch irgendwie

einen Algorand ansetzen, der es vielleicht

erkennt oder so, so ein Muster an diesen Losses.

Ja, durchaus, also

wird auch gemacht.

Wir sind jetzt allerdings gerade aber

natürlich echt in einem

Marktregime oder einfach auch

allgemein in einer Weltsituation, die wir

so noch hatten.

Das ist ja ein komplett irrationales Verhalten, das hast du herzulagen, glaube ich.

Das ist sehr, sehr tough.

Also ob das überhaupt geht, ist halt die Frage.

Glasuhl, Reibeln und...

Ja, also irrationales wird sich

herausstellen,

denn ich meine, die Effekte

auf die Weltwirtschaft sind natürlich

schon jetzt schon massiv und

werden wahrscheinlich

nur noch viel stärker werden.

Also es ist echt eine sehr

neue Art der Situation und diese ganzen

Anlagestrategien

wie wir schon gerade besprochen haben,

haben natürlich schon immer so die Annahme mit eingebaut,

dass sich die Geschichte zum gewissen Teil schon wiederholt.

Aber das ist jetzt halt im Moment gerade nicht so.

Und da sind die genauso von überrascht wie alle anderen auch.

Also ich habe relativ interessante Artikel dazu gelesen,

was dann die Zentralbanken machen könnten, um zu reagieren

und wie man halt das dagegen wirken könnte.

Und da kommen einige spannende Effekte bei raus.

Von Deflation über mehrere Inflationen in Folge angefangen

und die man dann halt mit Geld bewerfen kann.

Wenn man es schafft, diesen Wirtschaftskreislauf mit Geld wieder anzukurbeln, dass halt die Umschlagsgeschwindigkeit wieder hochgeht und so, das würde dann bedeuten, dass es sich auf einem ähnlichen Niveau wie jetzt vor kurzem einpendeln könnte. Ja, aber das ist sehr, sehr schwierig vorauszusagen, ob das überhaupt klappt und ob das alles wieder anläuft. Und man muss halt erstmal alles mögliche mit Geld beschmeißen und dann machen die Staaten vielleicht noch den Adler oder so. Das ist alles sehr kompliziert.

Ja, also ist auf jeden Fall jetzt eine sehr schwierige Situation und die Noten sind jetzt auch nicht in einer Situation, wo sie noch so viel mehr Spielraum hatten.

Also die FED zum Beispiel hatte den Leitzins, bevor das überhaupt passiert ist, ziemlich angezogen dann und ihn dann aber sehr frühzeitig schon direkt runtergesetzt und die Märkte haben nicht wirklich darauf reagiert.

Also das ist schon eigentlich so mit der einzige Hebel, den die wirklich haben.

Ich habe gehört, um minus 6% ist das neue Ziel.

so ungefähr.

Also in der EU zum Beispiel müssen wir

das was machen, denn die EZB war ja schon

immer bei null.

Da ist kaum noch

Spielraum überhaupt vorhanden,

diesen Hebel zu benutzen.

Und das, was ich auch denke,

ist, dass es natürlich

ein anderes Problem ist.

Es ist halt jetzt nicht wie 2009, wo es

ein Problem in der Finanzbranche

war, was sich dann ausgebreitet

hat und andere

gemacht hat, aber wo die

Weltwirtschaft trotzdem ja noch

funktioniert hat, sondern es war halt einfach so ein

ja auch so ein Schneeball-Effekt, der

sich da dann ausgebreitet hat, aber im Moment

steht die Weltwirtschaft dann einfach

auf Angebot und Nachfrage-Seite,

das gleichzeitig und

egal wie viel Geld man druckt,

das wird

allein die Wirtschaft nicht wieder ankurbeln,

wenn alle zu Hause bleiben müssen.

Ja, bestimmte Sachen kann man auch gar nicht wieder so schnell anfahren, wenn man bestimmte Fabriken oder bestimmte Kraftwerke erstmal stillgelegt hat oder so, weil da halt auch keine Abnehmer für den Strom sind, dann kann man die auch nicht wieder gut anfahren und so weiter und so, das ist halt alles jede Menge Konsequenzen.

Im bis nebenan, wenn der dann erstmal breiter ist, ob die dann direkt den neuen aufmacht, weiß man nicht, da muss sich jemand wieder finden, der dasselbe nochmal macht.

Ja, was ich dann auch noch echt interessant fand, ist, dass halt auch die politischen Konsequenzen von solchen Sachen, wenn sich so viel ändert, sind ja auch immer so völlig unklar. Das hatte letztens irgendwie auch mit jemandem drüber gesprochen, der meinte dann so, ja, also gerade zum Beispiel in der EU ist ja gar nicht so klar, wie das irgendwie mit dieser ganzen Brexit-Geschichte zum Beispiel ausgeht.

Und das könnte ja politisch desaströse Konsequenzen haben, wenn diese Geschichte wirtschaftlich funktioniert.

Aber ob die wirtschaftlich funktioniert oder nicht, hängt ja jetzt von ganz vielen komischen Dingen ab.

Wie zum Beispiel könnte es sein, dass es in einer Pandemie eine gute Idee ist, wenn man auf einer Insel lebt.

Das kann ja sein. Das hat jetzt gar nichts mit der Brexit-Geschichte zu tun.

Aber wenn das jetzt irgendwie dazu führt, dass die wirtschaftliche Situation in Großbritannien irgendwie deutlich besser ist als anderswo in Europa,

dann hat das halt politische Konsequenzen

für alle anderen, die unter Umständen

sehr unangenehm werden. Es kann aber auch andersrum

ausgehen, das weiß einfach keiner.

Es gab

einen Artikel von Taiwanesen, die auch gesagt haben,

ja, also Großbritannien ist ja eigentlich auf einer Insel, die müssen das

ähnlich machen wie wir und dann wären die von dem Virus relativ geschützt

und haben gesagt so, ähm, nee.

Das hat nicht funktioniert und naja,

von daher, wir werden sehen.

Die hatten da durchaus ihre eigene Ernährungsweise, ja.

Aber vielleicht gehen wir nochmal zu dem Ganzen zurück,

das ist alles sehr spannend, aber wie macht man das denn in Python?

Also diese ganzen Quant-Sachen,

die du da eben beschrieben hast, die total spannend sind.

Was würdest du dann da machen?

Und vielleicht kannst du gerade den Hörern

so ein bisschen detaillierter erklären,

also wie man damit so anfangen würde

und welche Bibliothek man vielleicht benutzt

und wie das Schema wäre und die Struktur,

um das so ein bisschen aufzubauen.

Also oft fangen Leute so ganz simpel an,

zum Beispiel, also der Klassiker,

und das funktioniert schon längst nicht mehr,

aber ist so ein Dual Moving Average.

Und da ist...

Entschuldigung, bitte was?

Dual Moving Average.

Also ein doppelter gleitender Durchschnitt?

Ja, genau. Also ein Durchschnitt, den man berechnet über zum Beispiel jetzt den Preis.

Also ich sage, okay, ich nehme immer den durchschnittlichen Preis der letzten zehn Tage

und vergleiche das mit dem durchschnittlichen Preis in 100 Tagen.

Also das heißt, das eine ist was, was sich sehr schnell anpasst an die aktuelle Preisentwicklung

und das andere ist mehr so ein Langzeittrend.

Und dann kann ich zum Beispiel sagen, okay, also wenn der Kurzzeittrend,

also die 10 Tage, den Langzeittrend durchbrechen,

also höher werden von unten,

dann glaube ich, ah, okay, das ist Momentum,

also der Stock geht wohl gerade nach oben.

Und dann glaube ich, dass der auch noch weiter nach oben geht.

Das heißt, das ist dann, wann ich einkaufen möchte.

Und wenn dann diese Linie mit dem 10-Tage-Moving-Average

wieder von der anderen Seite kommt,

dann denke ich, ah, okay, jetzt ist der Trend,

wo das Momentum von dem Stock nach unten geht

und dann möchte ich das verkaufen.

Das kann man auf Einzelhandel anwenden und so fangen viele Leute an, aber in Hedge-Funds

ist es oft so, dass man dann ganz viele Stocks traden möchte, also wie im Casino, also wenn

man jetzt 51% Winschancen hat oder auch nur deutlich weniger, möchte man einfach ganz

Bets machen, um

irgendwann halt über den Mittelwert,

das Law of Large Numbers,

Edge da kriegen,

aus dem ganz kleinen

Vorhersagekraft, die man da hat.

Und deswegen

macht man dann Strategien, die halt

nicht nur einen Stock, sondern tausend Stocks

oder zweitausend Stocks

traden. Und

die gleiche Logik, die ich gerade beschrieben habe, kann man

natürlich auch nicht nur auf einen Stock anwenden,

sondern auf all diese gleichzeitig.

Also da würde ich dann einfach sagen, okay, wenn jetzt diese 2000 Stocks,

die ich mir da rausgesucht habe, davon gehen manche gerade nach oben,

also haben Abwärtsmomentum und andere nach unten, die haben Downward-Momentum.

Und dann kann ich zum Beispiel hingehen und sagen, okay, also die,

die gerade nach oben gehen, die möchte ich gerne nach unten und die,

die nach unten gehen, die möchte ich gerne verkaufen sozusagen.

Also Long Selling und Short Selling. Also Short Selling heißt, dass ich Geld verdiene, wenn die Aktie nach unten geht. Und das ist so ein ganz klassischer Trick, dass man sagt, okay, also 50% meiner Anlage möchte ich gern Long anlegen, also Geld verdienen, wenn der Stock nach oben geht und die anderen 50%, da möchte ich gern Geld verdienen, wenn der Stock nach unten geht.

Und die Idee hinter dieser Long-Short-Strategie ist, dass es dann alles ist, was der Markt macht. Also der Markt geht nach oben und das interessiert mich aber nicht, denn die Long 50% verdienen Geld und die anderen Short 50% verlieren Geld, aber das gleicht sich aus.

Und genauso, wenn der Markt nach unten geht, dann gewinne ich mit meinen Shorts und verliere mit meinen Monks. Das heißt, ich isoliere wirklich nur das Signal, was ich auch wirklich glaube, wo ich eine Vorhersagekraft habe in dem Moment. Also in dem Fall jetzt zum Beispiel, dass halt Stocks Aktien Momentum haben und dass sie halt anfangen nach oben zu gehen, dass sie dann noch ein bisschen weiter nach oben gehen und umgekehrt nach unten gehen, dass sie dann noch ein bisschen weiter nach unten gehen.

Das ist so eine sehr klassische, aber dennoch moderne Quant-Strategie.

Also dieses Long-Short ist ganz klassisch

und dass man das auf ganz vielen Aktien anwendet.

Wenn ich jetzt versuchen, also im Grunde geht es darum,

dass ich sagen können möchte,

ob jetzt morgen irgendwie eine Aktie hoch oder runter geht,

so mehr oder weniger, oder für einen bestimmten Zeitraum.

Also ich glaube eher das Portfolio vielleicht, das spielt eine große Rolle und wenn ich das jetzt höre, dass sie sich ausgleichen sollen, dann ist vielleicht das Portfolio wichtiger als die Einzelpositionen?

Genau, richtig, ja. Also es ist natürlich wichtig, auf welcher Seite von meinem Portfolio ist dann die Aktie, die ich da trade, aber also es geht so ein bisschen weg eigentlich davon, sich dann für einzelne Aktien zu interessieren, sondern es geht vielmehr darum, wie sich jetzt diese Aktien, also sagen wir mal, wir haben 1000 Aktien, die wir uns anschauen und die wir zu jeder Zeit traden und das hat 500 davon,

sind dann auf der Long-Seite

und 50% sind auf der Short-Seite

da geht es dann darum, wie

in welcher Form,

also wie sortiere ich die so,

die, die ich natürlich

Short habe, sollen abstürzen, denn dann

verdiene ich Geld und die, die ich auf der Long-Seite habe,

sollen nach oben gehen und dann verdiene ich Geld.

Aber ich verdiene wirklich nur Geld

immer auf den relativen Unterschied

zwischen denen und nicht

zu dem, was der Markt macht. Also man

Und deswegen heißt Hedge Fund, also Hedge heißt, dass man sich absichert von diesen anderen Risikofaktoren. Was zum Beispiel sehr hilfreich ist, zum Beispiel, wenn so eine Pandemie zu 20% Losses täglich führt. Also das ist genau dann, wenn man sowas haben möchte, denn da ist man gewissermaßen abgesichert.

Allerdings sind auch die Hedgefonds davon sehr stark betroffen gewesen.

Allerdings aber auch nicht so stark wie jetzt der Markt.

Also das funktioniert schon, aber es ist auch nicht so,

dass man dann sagt, okay, da ist man komplett immun

gegen solch starke Events.

Also das hat einen Einfluss auf jeden.

Ja, da kann man natürlich auch nicht so viel gewinnen,

als wenn jetzt Leute auf gute Einzelpositionen setzen würden,

die sich damit ganz besonders toll auskennen oder so.

Die können natürlich den Markt deutlich mehr outperformen

als jemand, der so einen Mittelwert dann bildet.

Also zumindest theoretisch, ihr könnt natürlich auch mehr verlieren.

Ja, also es gibt da alle möglichen

verschiedenen Ansätze, also der Quant-Ansatz ist auf jeden Fall

diese statistischen Signale

zu finden und die dann auf

sehr großen Portfolios anzulegen,

aber natürlich gibt es auch die

Discretionary, also die, die

wirklich einzelne Firmen dann

sich sehr im Detail anschauen

und da wirklich Analysen machen und dann

sagen, okay, also ich weiß, dass jetzt

Apple möglicherweise halt irgendwas

in einem coolen neuen Produkt rauskommt

Und deswegen werde ich so alles auf Rot setzen.

Also das sind ganz unterschiedliche Anlagen.

Also hier habe ich jetzt wirklich nur den Quant-Ansatz beschrieben.

Aber ist das, ich meine, ich würde jetzt,

wie gesagt, ich mache ja normalerweise so andere Data Science Machine Learning Modelle.

Ich würde jetzt denken, wenn man irgendwie Kurs vorhersagen möchte,

also das Allersimpelste, was mir jetzt einfallen würde,

wäre, ich mache einfach lineare Regressionen oder so.

Ich nehme einfach, weiß ich nicht, den Aktienkurs von gestern,

von vor einer Woche, vor einem Monat oder sowas

und habe halt irgendein Jahresmodell,

was halt dann mir den für morgen halt vorhersagt.

Also das ist auch ziemlich nah dran eigentlich,

wie es oft gemacht wird.

Und dann, so wie du jetzt angefangen hast,

zu sagen, okay, also ich nehme jetzt den Aktienkurs

von vor einer Woche und das ist dann das erste Feature.

Und dann kann ich auch noch sagen, okay,

vielleicht nehme ich auch das Volumen oder so vor einer Woche.

Und dann nehme ich noch das Twitter Sentiment,

Also was haben Leute auf Twitter über diesen Stock geschrieben?

Und das ist dann mein drittes Feature.

Und dann sozusagen so fange ich dann an, immer mehr und mehr.

Und dann werden es Tausende von Signalen, die man hat,

und dann oft lineare Aggressionen.

Die funktionieren erstaunlich gut.

Also jeder sagt immer, er macht da super fancy Machine Learning.

Aber 80 bis 90 Prozent sind schon noch lineare Aggressionen,

weil die einfach so robust sind.

Also das ist immer das große Problem bei Quant Finance,

das Rauschen in den Daten ist so massiv und das Signal ist so klein,

dass wenn man da sehr fancy Methoden macht,

dann ist das immer der Nachteil, dass die halt nicht so robust sind.

Deswegen sind lineare Modelle da sehr mächtig.

Welche Bibliotheken benutzt man denn da so?

Ich glaube, ich habe einmal so ein bisschen was mit Zeit reingemacht.

Das ist jetzt auch schon wieder ein bisschen was her.

Da hatte mich auch so erstaunt, dass das Interface ganz anders ist.

Weil normalerweise mache ich immer so Sachen mit Cycad Learn oder so.

Oder Interfaces zumindest, die so ähnlich aussehen.

Und das war dann Stats Models irgendwie.

So Arima, Sarima Modelle.

Und die sahen halt alle schon so ein bisschen anders aus.

Ich weiß gar nicht, ist das das, was man dann auch...

Jetzt musst du kurz erklären, was ist Arima, was ist Sarima?

Oh je, genau, Thomas erklärt es besser.

Ja, also das sind so klassische statistische Modelle.

ARMA steht für Auto-Regressive, also AR, Auto-Regressive,

AR für Moving Average.

Und das heißt einfach, dass ich mir anschaue,

okay, wie war denn der Wert vor zehn Tagen

und wie ist der Moving Average?

Also einfach so ein ganz klassisches statistisches Zeitreinmodell.

Und die werden unter anderem von Stats Models der Python-Bibliothek unterstützt.

Und allerdings kommen die gar nicht so sehr zum Einsatz in Quant Finance. Also das wurde viel gemacht, aber es ist eigentlich tatsächlich oft der klassische Missionsansatz, der, und das funktioniert nicht immer ganz so gut, oder man muss dann immer ziemlich viel extra Arbeit reinstecken, um das Problem, was ja ein Zeitrahmenproblem ist, das so zu übersetzen, dass es dann trotzdem in das klassische Psychic-Learn-Framework passt,

wo man ja eben keine Zeit rein in der Regel hat.

Also so wie man es oft macht,

ist es einfach, dass man die Zeit eigentlich so ignoriert

und sagt, okay, also ich habe halt einfach Features

und so ein, also es nennt sich dann Walk Forward,

dass man sagt, okay, jetzt habe ich irgendwie Daten von 2017,

auf denen trainiere ich,

dann habe ich Vorhersagen und teste dann das Modell

und jeden Tag mache ich neue Vorhersagen für 2018

und dann, wenn ich 2018

getestet habe, dann

die Training-Daten, die 2018

und 2017 und sage

für 2019 vorher. Und dann gehe ich halt

immer so Schritt für Schritt in der Zeit

nach vorne und

retraine immer mein Scikit-Learn-Modell.

Und Scikit-Learn ist auf jeden Fall

das, was auch

sehr häufig eingesetzt wird, einfach

weil es wie bei dem anderen

Pi-Data auch

mit die klassische Bibliothek ist.

Es gibt auch ein paar andere, die dann noch besser

skalieren, aber das ist schon

der gute Standard.

Tja, ja.

Genau, ich weiß,

ich hatte mal,

wie hieß das,

Zip-Line, glaube ich, gab es noch irgendwie.

Genau, ja.

Also, wir haben

selber

fast alle unsere Software eigentlich

als Open-Source.

Also wenn man auf GitHub Quantopian schaut, dann findet man da mögliche Projekte, die wir auf unserer Web-basierten Plattform benutzen.

Genau, richtig.

Zipline ist unser Open-Source-Backtaster, den wir auch auf der Plattform benutzen.

Und das war am Anfang echt so eine ziemlich schwierige Entscheidung eigentlich, wo wir lange überlegt haben.

Also ich war immer der Meinung, dass es eine gute Idee ist, das Open-Source zu stellen.

Aber unser CEO musste sich da noch von überzeugen.

Aber das war sehr, sehr positiv

für uns. Also das

in vielerlei Hinsicht. Also eins ist

natürlich, wir bekommen Pull-Requests, also dass

andere Leute, die die Software verwenden,

dann ihre eigenen Verbesserungen

daran machen und dann uns diese Verbesserungsvorschläge

auf GitHub zuschicken. Und

dann kriegen wir da

Pull-Requests, wie das heißt,

über zum Beispiel jemand, der

unsere Simulations-Engine

um Faktor 4

beschleunigt hat. Wow.

Voll cool.

Vielen Dank.

Ja, genau. Vielen Dank. Und das haben wir dann natürlich

gemerged und das kommt dann natürlich auch der Plattform

zugute, weil das die gleiche Software ist, die wir da auch benutzen.

das ist zusätzlich

dann auch, und in dem Fall hat es auch sehr gut funktioniert,

haben wir uns natürlich diese Person dann genau

angeschaut und so, ja, okay, was

machst du denn so? Und wir

haben den dann eingestellt, einfach weil

erst mal jemand, der das kann,

ist so das beste Vorstellungsgespräch, was man sich

vorstellen kann. Und

er hat auch schon bewiesen,

also er hat es bewiesen, dass er es kann und er ist natürlich auch schon

direkt mit der Codebase vertraut.

Also der hat

dann keine lange Eingewöhnungszeit, sondern

wir wissen, dass er es kann und er

weiß, worum es geht und wie

der ganze Code aussieht. Also das

war eine sehr

positive Erfahrung in vieler Hinsicht

für uns und wir machen das auch schon seit

vielen Jahren.

Ja, also GitHub, das ist halt auch

Open Source schon eine coole Sache. Ja, auf jeden Fall.

Wenn ich jetzt nochmal da einen Angriff an

so diese einfachen Linearenmodelle oder ich meine

irgendwas, was man so bei Scikit-Learn oder so an

Machine Learning-Geschichten üblicherweise so verwendet,

das, was du machst, ist ja jetzt eher so,

ich glaube, du hast ein Großteil von PyMC3

geschrieben oder die

probabilistischen Modelle. Warum

würde ich denn eher sowas verwenden wollen? Oder was

ist eigentlich der, ja, sozusagen

der grundsätzliche Unterschied zu den

Dingen, die man vielleicht eher so aus dem

Scikit-Learn-Bereich kennt oder so?

Ja, gute Frage.

das ist auf jeden Fall mein Lieblingsthema

angekommen.

Was ist das denn

überhaupt, PyMMC? Vielleicht fangen wir damit kurz an.

Genau, also PyMMC3

steht einfach nur für Python und

MC, also Markov-Chain

ist so der Algorithmus,

der da verwendet wird.

Und das

in gewisser Hinsicht kann man es schon

zum Beispiel jetzt mit Scikit-Learn vergleichen, aber es ist

doch eigentlich eine andere Idee.

Vielleicht einmal noch mal ganz kurz, was eine Markov-Chain

ist, für alle Hörer, die es kennen.

Ja, also das ist nicht so leicht zu erklären.

Es ist leichter, so die Idee dahinter zu erklären,

was das überhaupt kann.

Und dann macht das mit der Markov-Chain

vielleicht irgendwann auch ein bisschen mehr Sinn.

Aber genau, also wenn man sich jetzt Cycle-Learn anschaut,

dann ist es ja, dass man einfach gewisse Muster in Daten

lernen möchte, um dann Vorhersagen machen zu können.

Also ich habe Trainingsdaten und Labels

und natürlich mit den Trainingsdaten die Labels Vorhersagen.

Und das ist ein ganz klassisches Problem,

aber die Daten, die man da reinfüttert,

sind dann natürlich ziemlich rudimentär oft.

Also zum Beispiel ist halt alles tabular.

Also das heißt, jeder Datenpunkt ist unabhängig von anderen Datenpunkten.

Zum Beispiel jetzt nehmen wir Handschrifterkennung oder sowas her

mit dem ganz berühmten MNIST-Datensatz.

Und da ignoriert man einfach zum Beispiel, dass die einzelnen Pixel eigentlich ja was miteinander zu tun haben und man sagt einfach, okay, jedes Bild ist einfach ein ganz langer Vektor und dann lerne ich halt, was für eine Zahl da drauf ist und das gebe ich dann einfach ganz viele Daten und hoffe, dass der das dann daraus lernt.

Und das kann dann ein lineares Modell sein, was in dem Fall nicht gut funktioniert oder ein Random Forest oder ein neuronales Netzwerk.

Und das ist oft allerdings natürlich schade, wenn man da viele Informationen hat über seine Daten.

Also zum Beispiel jetzt weiß ich, dass die einzelnen Pixel da einen Zusammenhang haben. Also zwei Pixel, die direkt nebeneinander sind, ist die Wahrscheinlichkeit, dass die den gleichen Wert haben, sehr viel höher als jetzt irgendwas, was ganz rechts oben oder ganz links unten ist.

Aber der ganz naive Ansatz berücksichtigt es nicht.

Also natürlich, klar, wenn man es mit normalen Netzen macht,

die sind dafür gebaut.

Aber hier geht es jetzt eher darum,

dass wir Strukturen in unseren Daten haben,

die wir wissen und die wir ausnutzen wollen.

Und wir wollen nicht alles nur aus unseren Daten lernen.

Ein anderes gutes Beispiel ist auch immer hierarchische Strukturen.

Also sagen wir mal, ich habe jetzt einen Supermarkt

Und ich möchte gerne voraussagen, wie sich gewisse Warengruppen absetzen, also einzelne Produkte.

Wie viel verkaufe ich jetzt nächste Woche von Snickers und wie viel verkaufe ich nächste Woche von Hackfleisch?

Und das kann man natürlich auch ganz normal als machine learning Problem betrachten.

Allerdings weiß ich doch, dass zum Beispiel jetzt Snickers gehört ins Schokoladensortiment.

Und das wird sich wahrscheinlich schon auch ähnlich verhalten. Also Schokoladen, Sachen und Süßigkeiten allgemein werden sich ähnlich verhalten. Und Hackfleisch oder so gehört zu einer anderen Warengruppe. Und da gibt es auch gewisse Ähnlichkeiten zu denen. Und diese Ähnlichkeiten möchte ich gerne auch in meinem statistischen Modell oder in meinem Vorhersagen abbilden.

Und wenn man diese Modelle spezifischer bauen möchte, die diese Strukturen auch wirklich abbilden, da ist dann PyMC oder jedes andere probabilistic programming, wie es oft genannt wird, oder Bayesian statistische Modelle, das ist beides so das gleiche, die sind dann da sehr viel geeigneter.

Denn was die einem erlauben, ist, diese Modelle zu bauen,

die ganz spezifisch sind für das Problem,

was man auch wirklich lösen möchte.

Machen die dann irgendwie lineare Abhängigkeiten mit dann?

Oder anders?

Zum Beispiel.

Also das kann ich so komplett einbauen, wie ich gerne möchte.

Also ich kann sagen, okay,

der Zusammenhang zwischen diesen Sachen hier ist linear

und hier ist es aber logarithmisch oder nicht linear.

Und genau, oder hier sind gewisse hierarchische Strukturen in meinen Daten drin und über die weiß ich Bescheid und ich weiß, dass sich jetzt die Süßigkeiten-Sachen ähnlich verhalten und Fleischprodukte verhalten sich auch ähnlich zueinander, aber dennoch erlaube ich auch, dass zum Beispiel Snickers und Mars, was beides in der Süßigkeiten-Kategorie ist, Unterschiede hat, aber auch gleichzeitig lerne ich die Ähnlichkeiten davon.

Also ich lerne die Unterschiede, aber auch die Ähnlichkeiten und dadurch kann ich dann natürlich deutlich besser Vorhersagen machen. Und das ist aber nicht nur auf Vorhersagen beschränkt. Also diese Statistikmodelle können alles machen. Also die können auch einfach nur Daten erklären.

In der Wissenschaft zum Beispiel geht es dann oft darum, okay, ich habe zwei Versuchsgruppen, gibt es da einen Unterschied zwischen denen und nicht die einen bekommen das Medikament, die anderen das Placebo. Ist das ein statistischer, signifikanter Unterschied, den es da gibt? Und da kann man natürlich auch ein statistisches Modell bauen.

Also man kann es immer ganz gut so vergleichen, dass vielleicht Machine Learning ist so ein bisschen Playmobil, ist schon alles vorgebaut und man kauft es einfach und so wie es ist, dann kann man nichts daran ändern und Probabilistic Programming ist so Lego.

Also da hast du deine eigenen Bausteine, die du zusammensetzen kannst und baust dir ganz spezifisch das statistische Modell, was du genau haben möchtest. Und wenn für das nächste Problem, baust du dir dann ein anderes Modell. Also ja, es ist ein sehr viel manuellerer, aber auch dadurch natürlich sehr viel flexiblerer Ansatz.

Ja, ja, ich glaube, so einiges Problem hatte ich auch schon mal, das stimmt, das hätte ich dann vielleicht irgendwie mit hierarchischen Modellen irgendwie besser in den Griff kriegen können, dass man halt zum Beispiel eben das, was man vorhersagen möchte, dass das sehr spars ist, irgendwie eben, um bei dem Supermarkt Beispiel zu bleiben, man hat einen sehr, sehr großen Supermarkt mit ganz, ganz vielen unterschiedlichen Sachen und man beobachtet nur ganz selten Käufe, möchte aber trotzdem vorhersagen irgendwie, was wird denn jetzt irgendwie, oder was ist denn der durchschnittliche, wie viel wird denn da ungefähr verkauft von irgendeiner speziellen Geschichte, wo man nie irgendwas beobachtet hat.

Und dann war halt so der Ansatz in dem Machine Learning Teil, den wir dann benutzt haben, eher sowas wie, eben man clustert das in sowas wie Süßwaren oder so und sammelt dann dafür halt irgendwie Daten, die man dann wieder als Features verwendet. Das ging auch irgendwie, aber das, wenn man es explizit in ein Modell reinpacken kann, ist natürlich, ja.

Ja, genau. Also das ist ein gutes Beispiel. Also zum Beispiel jetzt kommt eine neue Süßigkeiten-Kategorie dazu, wo ich noch keine Daten habe und ein Machine Learning Modell wird einfach sagen, naja, habe ich vorher nicht gesehen, kann ich nichts zu sagen. Aber wenn ich diese hierarchischen Strukturen abbilde, kann ich natürlich das, was ich von den anderen Produkten gelernt habe, auch darauf dann anwenden.

Oder aber auch, und das ist ein anderer wichtiger Punkt, der ein großer Vorteil ist von Bayesian Statistics generell, ist, dass man sogenannte Prior setzen kann. Und das ist Wissen, was ich schon habe, bevor ich überhaupt irgendwelche Daten gesehen habe.

Und um da auch zum Beispiel bei dem Supermarktbeispiel zu bleiben, wenn ich jetzt in den Supermarkt gehen würde und den Manager da fragen, dann wird er mir alle möglichen Sachen erzählen können darüber, wie sich das verhält. Also er sagt zum Beispiel Schokolade vor Weihnachten geht halt immer nach oben. Das muss ich nicht auf den Daten lernen, das wissen wir schon.

Und das kann ich mein Modell dann auch schon einprogrammieren in Form von diesen Pryern. Also da kann ich Expertenwissen direkt schon injizieren in das Modell, was bei Machine Learning auch oft sehr schwer ist, weil ich wirklich alles von den Daten lernen muss.

Ja, das stimmt.

Ja, das heißt, Programming nennt man das oder Probability Programming?

Also Probabilistic Programming, genau.

Und die PIMC ist ja für die Bibliothek

deiner Wahl und du hast da viel mitgearbeitet.

Genau, also ich habe die auch

mitentwickelt und benutze die

auch sehr viel und

die erlaubt einem

dann, also das ist nicht so,

dass man diese Modelle halt dann von der

Stange hat, wie zum Beispiel jetzt bei Second Learn

habe ich einfach eine

Klasse, die macht lineare Aggressionen oder Random Forests

und hier habe ich stattdessen

von der Stange

Wahrscheinlichkeitsfunktionen,

die ich dann zusammenstöpseln kann,

um mir mein statistisches Modell zu bauen.

Also da kann ich aus diesen Wahrscheinlichkeitsverteilungen

kann ich mir dann zum Beispiel auch eine Linear-Aggression zusammenbauen,

aber das muss ich halt erst noch machen.

Und das ist mit PyMC3 sehr leicht möglich.

Und das heißt, erstmal geht es darum, das Modell zu bauen

und dann im zweiten Schritt geht es darum,

okay, jetzt habe ich das Modell gebaut,

wie fitte ich das überhaupt zu meinen Daten?

Und da kommen dann alle möglichen Algorithmen zum Tragen,

die diese Probleme automatisch lösen.

Also oft ist es so, irgendein Modell, was man sich ausmalt

und was man dann in Code zusammenschreibt,

mit PyMC3 zum Beispiel,

das lässt sich dann nicht einfach so lösen.

Also man braucht da ziemlich ausgefeilte Algorithmen

Und da ist es dann, wo das mit dem Markov Chain Monte Carlo MCMC hinzukommt. Das ist so eine Klasse von Algorithmen, die auf so fast allen Modellen, die man sich vorstellen kann, automatisch funktionieren. Und das ist so was echt cool an dem Approach ist, dass man sagt, okay, ich baue jetzt irgendein total verrücktes Modell und dann drücke ich einfach den Inference Button, wie ich das nenne, und der fittet dann das Modell zu den Daten.

Und das andere, was auch noch sehr wichtig ist, ist, dass ich nicht nur eine Antwort bekomme. Und das ist auch ein Unterschied zum Beispiel zu Machine Learning. Also wenn ich da jetzt eine lineare Aggression laufen lasse, dann bekomme ich eine Antwort. Und das ist die Antwort, also in dem Fall jetzt halt die Steigung und die Intercept, ist zwei Parameter, skalare Parameterwerte, die ich bekomme.

und die beschreiben die Daten

am besten. Aber

ist natürlich trotzdem die Frage, wenn ich jetzt

nicht so viele Daten habe, gibt es vielleicht noch andere

Linien, die

die Daten beschreiben können. Also wenn ich jetzt

die Steigung

um 0,01 verschiebe,

dann passt das wahrscheinlich trotzdem noch ganz gut.

Ich bin mir halt nie so richtig

sicher, diese Antwort, die mir jetzt

das Machine Learning Modell gegeben hat,

ist das wirklich die

allerbeste

und wie gut funktionieren dann andere

antworten. Und da

geht es um Uncertainty oder halt

um Gewissheit. Also wie

sicher kann ich mir sein,

dass die Antworten, die mir mein Modell geben, auch wirklich

die richtigen sind? Also wie sicher sind die Datenpunkte

irgendwie klassifiziert und wie gut sind

die voneinander trennbar überhaupt von einem Modell?

Genau, richtig. Und

da ist

auch ein gutes Beispiel zum Beispiel

im Gesundheitssektor. Wenn ich da

jetzt vorhersagen möchte, hat diese

Person Diabetes

oder nicht und ich habe irgendwelche

Tests, die ich gemacht habe, und diese meine Inputs, und dann ist die Frage, wie sicher bin ich mir denn überhaupt in diese Antworten? Und das ist natürlich in dem Fall

extrem wichtig. Und da sind diese

Probabilistic Programming, das ist so eine der Kernstärken davon,

dass man diese Ungewissheit, die Unsicherheit in den Antworten

und aber auch in den Parametern von dem Modell immer direkt mit spezifiziert.

Also man arbeitet ja nie mit einzelnen Werten, sondern

immer nur mit Wahrscheinlichkeitsverteilungen, die einem angeben, okay, also

die Steigung von meiner linearen Aggression kann 0,5 sein,

Aber 0,6 kann es eigentlich auch sein.

Also beschreibt beides das eigentlich sehr gut.

Und genau, das ist...

Ihr habt ja einen schönen Fehler-Schätzler mit drin,

den ihr mitbestimmt dann.

Oder wird der ausgerechnet von dem Modell

oder könnt ihr den auch einschätzen?

Also genau, man kann es so einstellen in Form der Pry.

Also da kann ich zum Beispiel sagen,

ich weiß eigentlich schon, dass der Wert sehr nah 0,5 ist,

ohne überhaupt irgendwelche Daten gesehen zu haben.

Und dann kann ich da schon mal dem Modell vorher sagen,

Okay, das hier ist die Richtung, in die du da schauen solltest. Und dann schätze ich das Modell und kriege eine neue Wahrscheinlichkeitsverteilung, die mir sagt, okay, das ist jetzt, nachdem ich die Daten gesehen habe, in welchem Bereich spielen sich denn die Parameterwerte ab, die das dann am besten erklären.

Also ich kann beides machen. Also ich kann im Vorfeld schon mal das spezifizieren, je nachdem, wie genau ich das möchte. Und dann wird das mit, nachdem ich die Datenpunkte gesehen habe, werden diese Algorithmen es abschätzen und ich kriege eine neue Wahrscheinlichkeitsverteilung, die einfach nur beschreibt, wie viel habe ich gelernt.

Also man kann es sich so vorstellen eigentlich, ich fange an mit einem gewissen Wissen und dann sehe ich Daten und dann update ich dieses Wissen und habe dann einfach neue Wahrscheinlichkeitsverteilung.

Ja, das klingt schon sehr gut. Das ist immer so ein Problem auch bei diversen Modellen. Bei manchen fällt ja eventuell auch eine Wahrscheinlichkeit direkt raus, aber manchmal einfach nur eine Distanz zu irgendwas oder so.

und dann muss man das halt irgendwie kalibrieren

auf eine Wahrscheinlichkeit.

Und dann meistens nimmt man nur irgendwie

die Signet-Funktion oder sowas.

Und da ist natürlich jetzt COVID-19 auch ein super Beispiel,

wenn ich da jetzt Vorhersagen treffen möchte

mit gewissen statistischen Modellen.

Und da gibt es aus der Epidemiologie

alle möglichen Modelle, die man da finden kann.

Und dann ist die Frage,

also wenn ich jetzt das nicht in einem bayesianischen Ansatz mache,

dann kriege ich halt eine Kurve raus,

die vorhersagt, okay, so wird sich das jetzt

über die nächste Woche entwickeln.

Aber klar, wir haben noch nicht so viele Datenpunkte.

Das kann sich, also so wie ich die historischen Daten,

ich kann die historischen Daten halt nicht nur auf eine Weise beschreiben,

sondern auf potenziell unendlich viele Weisen.

Und jede unterschiedliche Weise,

wie ich die historischen Daten beschreiben kann,

führt zu unterschiedlichen Vorhersagen,

wie sich die Zukunft verhalten wird.

Und das heißt, ich möchte halt nicht nur die Linie sehen

und die Vorhersage sehen, die die Daten am besten beschreiben,

sondern halt alle, die das einigermaßen gut beschreiben.

Denn das sind alles dann Ausgänge, die passieren können.

Und das sieht man dann immer super gut bei diesen Modellen,

dass es halt nicht nur eine Linie gibt, die dann in die Zukunft zeigt,

sondern ganz viele Linien, die so auseinanderstreuen.

Also je nachdem, je weiter ich in die Zukunft gehe,

desto weniger kann ich mir sicher sein, wie sich das entwickelt.

Also kann sein, dass es exponentiell weiter nach oben schießt

und wir bald Millionen von Infizierten haben.

Es kann auch sein, dass aber natürlich die Interventionen,

die wir jetzt machen, effektiv sind und sich die Kurve abflacht.

Und das sind alles Vorhersagen, die dann aus dem Modell rauskommen.

Ja, das wäre natürlich genau interessant.

Also ich meine, ich könnte mir jetzt vorstellen,

dass wenn man zum Beispiel eben macht irgendeine Maßnahme

oder überlegt sich halt, wenn ich jetzt, keine Ahnung,

irgendetwas tue, also ich glaube,

die Zahlen, die ich da schon mal gehört habe,

sowas wie seit, zumindest in Deutschland,

Beginn der

etwas heftigeren Maßnahmen

ist halt der,

ich glaube in dem Modell vom Robert-Koch-Institut

werden irgendwie Landkreise

als kleinste Einheiten

benutzt, sozusagen,

wenn die Reisetätigkeit zwischen Landkreisen

irgendwie sozusagen,

ist irgendwie schon um 40% runtergegangen

seitdem,

dann ändern sich halt entsprechend Parameter

in dem Modell und dann kann man halt gucken, okay,

wie geht denn das jetzt aus?

Die Frage wäre jetzt sozusagen, okay, wenn ich jetzt irgendeinen dieser Parameter ändere, wie wirkt sich das dann zum Beispiel auf diese Basisreproduktionszahl aus?

Also wie stark führt das dazu, dass jetzt der Anstieg der infizierten Zahlen halt hochgeht oder gleich bleibt oder so?

Und dann wäre halt die ganz interessante Frage, mit welcher Wahrscheinlichkeit kann ich diese Vorhersage machen?

es könnte ja auch sein, also wenn ich

ein 30-prozentiges

Risiko habe, dass sich das ganz anders

verhält als das, was ich

vorhersage, dann

möchte ich mir das vielleicht nochmal überlegen, weil ich ja gar nicht

so ein großes Risiko eingehen möchte vielleicht.

Sondern ich möchte vielleicht eine Maßnahme machen, wo

ich dann ziemlich sicher sein kann,

dass das dann halt auch hilft.

Und ja,

das wäre dann sozusagen etwas, was ich direkt aus so einem

probabilistischen Modell rauskriegen würde, wie dann

die Erfolgswahrscheinlichkeit

oder wie wahrscheinlich es ist, dass es dann

halt auch in dem Bereich bleibt, sozusagen.

Genau, also das ist

sehr wichtig. Also

nicht jeder Ausgang ist ja auch gleich. Also

jetzt habe ich vielleicht, wenn ich jetzt

das so fitte,

dass ich wirklich nur eine Linie bekomme, dann sieht

die vielleicht okay aus. Und dann sage ich, ah ja, okay,

muss ich ja gar nicht mehr wirklich

Gedanken machen. Und möglicherweise ist es

auch der wahrscheinlichste Ausgang. Aber

was ist, wenn mit einer

fünfprozentigen Wahrscheinlichkeit

das exponentiell

weitergeht und diese Maßnahmen

halt nicht greifen. Naja, das möchte ich ja unbedingt

wissen. Was ist der Worst-Case-Szenario?

Das ist vielleicht unwahrscheinlich, aber nicht so unwahrscheinlich,

dass wir es außer Acht lassen dürfen.

Und da kann man

dann auch, je nachdem,

das Modell verändern, also

in verschiedenen

Hinsichten. Und das ist auch so ein bisschen das, was

ich so mächtig an diesem Ansatz

finde, ist, dass es so oft

ein sehr iteratives Arbeiten

ist mit diesem Modell. Also ich fange an mit

einem ganz einfachen Modell, und das habe ich auch

gemacht, also ich habe einfach ein exponentielles Modell genommen,

und das funktioniert dann am Anfang

zum Beispiel ziemlich gut und

dann aber sehe ich auch, ah ja, okay, ich habe ja nicht

nur ein Land, sondern ich habe mehrere Länder

und diese Kurven verhalten sich bei allen

Ländern eigentlich ziemlich ähnlich.

Nicht immer gleich, aber ähnlich und da

kommt es dann wieder rein mit der hierarchischen Struktur,

die ich vorhin erwähnt habe,

wo ich genau das auch in mein Modell einbauen

kann und sage, okay, also da gibt es Ähnlichkeiten

in diesen

Growth Rates, in diesen

Steigerungszahlen und das heißt,

dann habe ich ein hierarchisches Modell,

was für jedes einzelne Land einzelne Parameter hat.

Aber diese Parameter sind dann auch auf einem höheren Level

noch miteinander verbunden.

Und ich lerne also beides zugleich.

Und dann zum Beispiel könnte ich hingehen und sagen,

na gut, exponentiell ist ja vielleicht gar nicht mal so ein gutes Modell,

denn das nimmt ja an, dass das einfach immer weiter nach oben geht

und immer und immer schneller wird.

Irgendwo ist ja da schon spätestens bei der Anzahl der Menschen,

die in einem Land leben,

ein ganz natürliches physikalisches Limit gesetzt.

und dann kann ich das Modell

verbessern und sage, okay, dann nehme ich stattdessen eine logistische

Funktion, die am Anfang auch

steil nach oben geht, aber dann sich wieder abflacht.

dann kann ich

aber auch hingehen und sagen, okay,

modelliert schon die Steigungssache

vielleicht ganz gut, aber

ich weiß, dass es da,

zum Beispiel habe ich jetzt vielleicht

gerade ein Buch von Nassim Taleb gelesen,

den Black Swan, und ich weiß, dass es

sehr wichtig ist, da nicht auch nur

anzunehmen, dass sich alles in der Welt

nach einer Normalverteilung verhält, sondern

es gibt halt auch das Tail-Risk und

dann nehme ich halt nicht eine Normalverteilung,

sondern eine zum Beispiel

Student-T-Verteilung, also eine T-Verteilung

und die hat sehr viel mehr

Wahrscheinlichkeiten, dass da auch

extreme Ausreißer passieren können.

Und dann habe ich das in mein Modell

integriert und arbeite dann halt

mich immer weiter vor und verbessere das

Modell immer weiter und kriege dann auch immer besser

Vorhersagen, die natürlich

dann ja auch die

möglichen Handlungen,

die man machen möchte,

hoffentlich da bessere

Antworten zu liefern.

Ja, ja, das ist für mich,

das ist auch

irgendwie ein Twitter-Account,

der hat einen Twitter-Account, dem ich auch folge und da

sind manchmal sehr lustige Sachen dabei.

Er hat jetzt auch was über diese

statistischen Modelle, die irgendwelche Dinge vorhersagen,

gesagt. Das fand ich

auch ganz bemerkenswert, weil

es halt, ich weiß,

Ja, also er hat ja schon so einen gewissen Punkt. Er sagt halt im Grunde, naja, also da einige wenige Ereignisse, was so Pandemien angeht, halt sehr, sehr böse Auswirkungen haben können, ist es halt eigentlich, sobald man sieht, dass das irgendwie in die Richtung geht, dann ist das eher so wie eine Lawine.

wenn man irgendwann am Berg steht und sieht, da kommt eine Lawine

runter, dann fange ich jetzt nicht an, mir auszurechnen,

ob die mich jetzt treffen kann oder nicht.

Und bei so einer Pandemie ist halt auch

so ein bisschen, und der hat ja einen schönen Vergleich benutzt,

der meinte dann, also wenn ich jetzt anfange, da

statistisch ganz genau zu werden, dann

ist das so ein bisschen wie Löffelzellen auf der

Titanic, ja, das ist halt so.

Sondern da muss man halt

dann irgendwie das Extremste machen, was man irgendwie

hinkriegt, um halt zu verhindern, dass diese ganz

schlimmen Sachen halt passieren.

Ja, also der ist auf jeden Fall

sehr extrem in seinen Ansichten,

dass man eigentlich, also der sagt

eigentlich, so extrem

sagt er es nicht, aber dennoch,

dass 90, 95 Prozent aller

Statistiken komplett in die Tonne gekloppt

werden können, weil das

alles Phänomene sind, die halt

diese Ausreise-Events haben, die

das alles bestimmen.

Ich finde das

ein bisschen oft sehr extrem, denn

die Modelle funktionieren doch schon

oft auch ganz gut, aber klar muss man sich immer

bewusst sein, dass das Modelle sind und dass es diese

Terrors gibt und die auch

idealerweise natürlich ins Modell

integrieren, dass man das

mit berücksichtigt.

Das kann man ja machen.

Genau diese unvorhergesehenen Ereignisse.

Da kannst du halt so viel modulieren

und Statistik machen, wie du willst, wenn halt Ereignisse

auftreten, deren Dimensionen man

nicht abschätzen kann oder deren Auswirkungen

auf die einzelnen Achsen in dieser Verteilung.

Das wird natürlich dann

schwer zu pronostizieren.

Woher soll man das wissen, dass solche Events kommen?

Ja und nein.

Also genau, diese Ausreißer sind fast unmöglich zu modellieren, aber jetzt zum Beispiel die Modelle, die ich da gebaut habe, um vorherzusagen, wie sich das Wachstum weiterverhält, sind bisher erschreckend akkurat gewesen.

Jetzt hören sie auf, also zu funktionieren und das ist gut. Also das erste Modell, wie ich schon gesagt habe, war so ein exponentielles Modell und das, ja, also am Anfang hatten wir exponentielles Wachstum, jetzt scheint es sich ein bisschen abzuschwächen, was ja sehr gut ist, aber dennoch, also das, ja, also diese Modelle haben schon eine volle Sache Kraft und das ist ja auch genau das, was man wissen möchte.

Und das ist auch das, was ich so erschreckend fand, dass es eigentlich, wenn man sich das angeschaut hat, also zum Beispiel vor drei Wochen noch gab es in Deutschland, weiß ich nicht, zehn Fälle oder so und in Italien aber war es schon sehr dramatisch.

Und dann hierzulande wurde es gesagt, naja, aber es sind nur 10 Fälle, das muss uns ja nicht interessieren.

Aber gut, also beziehungsweise sagen wir mal 10 Fälle und in drei Tagen sind es halt 100 Fälle.

Und da sagt man, na gut, 100 Fälle ist ja trotzdem noch nicht viel.

Aber vollkommen egal, es geht darum, was für eine Steigerung haben wir da und das ist exponentiell.

Und das heißt, in drei Tagen sind es dann von 100 auf 1000.

Du hast da auch ein Notebook zu, online, wo man da so ein bisschen angucken kann.

Genau, das hatten wir noch gar nicht erwähnt, aber ja, das war auch einer der Gründe,

warum das jetzt halt ein guter Zeitpunkt ist,

vielleicht dieses Gespräch zu führen.

Ich hatte da irgendwie diese Notebooks gesehen.

Ich weiß nicht, es gibt mehrere.

Das Erste ist, glaube ich, das Daily.

Wir packen den Link in die Show Notes.

Das ist ein Repository, in dem mehrere Notebooks sind.

COVID-19 Growth ist, glaube ich, das Erste.

Und das ist sozusagen das exponentielle Modell.

Und da gibt es halt so einen Graph mit einer Lockscale sozusagen,

was die Anzahl der Infizierten angeht.

Und dass man das halt so ein bisschen linearer sieht.

Und auf der X-Achse die Zeit, auf der Y-Achse die Infizierten.

Und dann halt sozusagen Tage nach den ersten bestätigten 100 Fällen.

Und die Kurven sehen alle relativ ähnlich aus, am Anfang zumindest.

Ist auch China mitgeplottet.

Weil ich hatte nämlich von einem Freund von mir gehört,

der aus Shanghai geflohen ist.

Schon Ende Januar, weil die Flüge alle gestrichen wurden,

dass das die Situation wohl sehr dramatisch sein soll

und dass wir uns auf was gefasst machen müssen.

Ja, also genau.

China ist nicht mit dabei, weil das Modell das nicht abbilden kann.

Also dieses nicht, das Modell, was ich jetzt gerade gebaut habe.

Das logistische Modell des Kantons, denn da gibt es diesen Effekt,

dass die auch wieder stehen bleiben, die Neuinfektionen.

Und das scheint China nach den offiziellen Zahlen, die wir haben,

Das ist die Frage, wie sehr man die glauben möchte. Wobei ich, also meine Meinung ist, ich glaube schon, dass die es geschafft haben, das abzuschwächen. Also ich glaube nicht, also die absolute Zahl ist möglicherweise viel höher, aber ich glaube trotzdem nicht, dass die Neuinfektionen haben. Und zumindest auch in Korea. Also diese Länder haben es geschafft, dieses Wachstum zu stoppen, eigentlich effektiv.

Und das sieht man, dass das Modell das nicht kann. Also die sind auf jeden Fall ausgebrochen aus dem Exponentiellen und dafür braucht man das logistische Modell, was genau diesen Effekt modellieren kann. Und das sieht man jetzt auch bei anderen. Also das ist ganz interessant bei dem logistischen Modell.

Also das interpretiert dann schon, dass wenn man aus dem Exponentiellen rauskommt und sieht, ah, okay, es fängt sich an abzuschwächen und man nimmt an, dass dieser logistischen Funktion folgt, dann kann man auch vorher sagen, okay, also jetzt dauert es vielleicht noch zwei Wochen, bis sich die Neuinfektionen dann zurückgegangen sind und es keine neuen gibt.

Ja, ich glaube auch, dass das in China ist. Klar, man kann da immer zweifeln, aber eben bei so einer exponentiellen Entwicklung, das hätten wir dann halt schon über die Zeit gemerkt, wenn das irgendwie nicht geklappt hätte, weil dann wäre das schon überall jetzt und das ist es irgendwie nicht.

Und daher, in Südkorea ist ein ganz interessanter Fall, weil da man das relativ gut verfolgen konnte, weil das irgendwie hauptsächlich irgendwie ein Community-Cluster irgendwie war, in dem das aufgetreten ist und dann haben halt diese ganzen, wir verfolgen das jetzt mit auch großem Personalaufwand-Aktionen halt da tatsächlich sehr viel gebracht, aber das geht halt anderswo nicht so gut.

Also das ging halt in dem Fall super. Und naja, ist halt immer auch die Frage, inwiefern irgendwelche Geschichten vergleichbar und übertragbar sind. Wenn jetzt irgendwie alle Leute sagen, man muss das nur so machen wie in Südkorea, dann ist es kein Problem.

Naja, irgendjemand meinte dann so satirischerweise irgendwie, ja, ich habe gehört, in Südkorea wird ganz viel Kimchee gegessen. Lass uns alle einfach Kimchee essen und dann ist es okay.

Aber was ich auch interessant finde, ist, dass halt einige, so Japan, Taiwan, Hongkong, Singapur, die ja dann auch schon seit langer Zeit irgendwie da relativ viel Maßnahmen machen, dass die auch irgendwie von dieser exponentiellen Entwicklung relativ gut verschont wurden.

Die haben aber alle unterschiedliche Methoden gemacht.

Japan hat zum Beispiel einfach die Anzahl an Tests

unheimlich hoch gefahren, indem sie einfach jeden Menschen

getestet haben und dann diese Kette auch

versucht haben, damit zu unterbrechen.

Weil die halt relativ genau wussten, wer jetzt da vielleicht dann

Kontaktperson war. Das mag auch

ein Vorteil sein. Aber von China glaube ich übrigens

keine einzige Zahl. Also ich habe Dunkelziffern

gelesen, die man jetzt alle mit Vorsicht genießen

möchte, aber dass irgendwie 700.000 Fälle

alleine in Wuhan noch irgendwie offen waren,

die nicht registriert waren und

naja, was man da glauben kann,

ich weiß ja nicht.

Und also eine Sache auf jeden Fall noch zu den Notebooks, also diese Modelle habe ich dann online gestellt und die haben auf jeden Fall da sehr viel Interesse bekommen.

Ich wurde auf jeden Fall auch dafür kritisiert, dass es, also ich bin kein Epidemiologe und habe mir das angeschaut und diese Modelle gebaut, dass das ja nur jeden verwirren würde und dass exponentielle Modelle ja sowieso komplett falsch sind.

Und ich kann das verstehen, allerdings sind im Moment diese exponentiellen Modelle erschreckend akkurat.

Also die letzten Wochen war es ein sehr guter Fit.

Klar, dass das nicht sehr weit in die Zukunft projizieren kann, ist klar.

Und das andere, was aber auch sehr interessant ist, was passiert ist, ist, dadurch, dass man dann diese Sachen shared,

also das ist halt dieses Open-Source-Prinzip, dann kam der Hamel und hat dann,

ein Dashboard daraus gebaut, dass das halt täglich

updatet. Und das heißt,

das ist jetzt eine coole Webseite, wo das

Notebook dann automatisch geladen wird

und ist auch interaktiv.

Andere Leute haben es benutzt,

um dann das Modell zu verbessern oder

einfach nur sich selber dann

das Modell auf andere Daten anzuwenden.

Ich habe selber viel Feedback bekommen,

was ich dann einpflege und das Modell verbessere.

Also dieser iterative

Ansatz, der

in der Öffentlichkeit stattfindet und auch den Code zu posten,

wo halt dann auch andere Leute Bugfixes schicken

oder so,

ist also meiner Meinung nach überwiegender

die Vorteile einfach viel mehr

als die Nachteile, dass

ich halt erst mal

sechs Monate

mit Epidemiologen zusammenarbeite,

um das absolut wasserdichte Modell zu

bauen, was dann aber

vielleicht nicht richtig funktioniert, weil ich halt nicht das Feedback

von der Community habe und auch nicht diese ganzen Netzwerkeffekte,

die Open Source da

bringen.

Ja, das würde ich auch sagen.

Das ist auch etwas, wenn das halt in der Öffentlichkeit passiert. Also ich meine, im Grunde kann man ja nur durch Feedback irgendwie Dinge lernen. Das ist auch etwas, was ich immer sehe, dass es halt dann, ich meine, das ist halt auch unter Umständen ein schmerzhafter Prozess, öffentlich Feedback einzusammeln. Aber es hilft auch tatsächlich, während ich da große Bedenken habe, wenn da Leute irgendwie jahrelang an irgendwas arbeiten oder so und da gab es nie wirkliches Feedback, ob das dann so wirklich stimmt.

Da habe ich letztens den ersten Tweet gesehen von einem Epidemiologie-Professor,

der da einen super akkuraten Simulator geschrieben hat,

der halt da verschiedene Agenten simuliert, die sich treffen und die infizieren sich.

Und das ist ja also das absolute Nonplusultra-Modell.

Und das hat er aber schon vor langer Zeit gemacht, also als Epidemiologe.

Und da aber natürlich bisher nur Paper drüber geschrieben.

Und dann ist natürlich sofort die Frage, okay, du hast ja vor zehn Jahren dieses super coole Modell gebaut, was sagt es denn jetzt voraus? Und kann man das denn nicht benutzen, um das halt upzudaten? Naja, und dann war halt die Frage, ja, was ist denn mit dem Code? Und dann so, oh, okay, naja, die Codes sind irgendwie 50.000 Zeilen C++-Code, den eine Person versteht, der unkommentiert ist, ungetestet ist.

Also ich war selbst in der Forschung, ich weiß ganz genau, was die Codequalität da ist und die ist oft sehr niedrig. Und in dem Fall jetzt, weil der Code einfach so wahnsinnig wichtig ist, arbeitet er mit Microsoft zusammen, um den Code dann da tatsächlich zu testen und zu wissen, dass der funktioniert.

Da werden bestimmt einige Wachs gefunden. Und das ist natürlich auch sehr gefährlich. Also diese ganz klassische, so wie die Wissenschaft da bisher immer arbeitet und wie wenig die sich wirklich für Codequalität da einsetzen, glaube ich, dass wir da viel voneinander lernen können.

und zum Beispiel oft sind die halt auch nicht

bäsianisch, also gibt es wirklich den

Epidemiologen, der ein Top-Coder ist

und gleichzeitig halt

natürlich epidemiologisch

total fit ist und dann zusätzlich auch noch

weiß, wie man Pianti 3 benutzt,

wahrscheinlich gibt es den nicht,

deswegen, wenn wir da alle unseren Teil

dazu beitragen, glaube ich,

wird es am besten funktionieren.

Ja, ja, ich bin

auch, gut, das ist jetzt auch wieder ein bisschen her,

ich habe auch eine Zeit lang irgendwie viel

Pepper gelesen und versucht Dinge

zu reproduzieren und so und das hat

also das

war schon, also oft

bekommt man dann ja Code, wenn man

irgendwie ein Paper hat und dann sich überlegt, okay

das sieht sehr interessant aus für das Problem, was ich

habe und wenn man dann die Autoren anschreibt

und sagt so, ich würde das mal gerne reproduzieren

könnt ihr mir den Code dann mal irgendwie

so, wie mache ich das denn dann?

Dann kriegt man meistens den Code, meistens mit

einer länglichen Entschuldigung

für die Codequalität.

Und ganz oft

ist es dann halt auch so, wenn man das dann

tatsächlich versucht, nochmal selber zu implementieren.

Aber man merkt so, oh ne, das tut nicht so wirklich genau

das, was da in dem Paper drin steht.

Und also da muss

irgendwie, ich meine,

ich kann auch verstehen, wie das passiert. Das ist halt,

man kann halt Code nicht veröffentlichen

in der Zeitschrift, sondern da ist halt dann halt

ein gesetztes Paper

irgendwie das Entscheidende oder halt sogar

oft in der Informatik sind es halt irgendwie

Formeln, mathematische Formeln, die da drin stehen müssen,

weil das ist halt das, was man irgendwie da reinschreiben kann.

Code ist halt, kann man nicht so wirklich publizieren.

Aber das muss sich irgendwie ändern, weil das ist, ja, das ist eigentlich alles, ja, ja, relativ furchtbar.

Ja, also ich stimme dir voll zu.

Also weil es, also welches Paper kann heutzutage noch geschrieben werden, was nicht auf Code beruht?

Also das ist wahnsinnig, absolut fundamental, die Ergebnisse, und die Ergebnisse sind davon gestützt.

Also wenn da ein Bug drin ist, dann kriegst du ein falsches Ergebnis raus.

dass das bisher immer noch

nicht, also fairerweise

muss man sagen, das verstehen schon

immer mehr Leute und es gibt auch immer mehr Wissenschaftler, die

das auch anfangen zu machen und die ihre GitHub-Repositories

haben.

Der Danilo Bistock zum Beispiel, mit dem habe ich

letztens ein Paper gemacht, also

der stellt alles immer

online und ich kenne auch viele andere Kollegen,

die das machen und

das ist super, also gerade jüngere

Wissenschaftler, aber

das ist halt bisher noch größtenteils

freiwillig. Also ich glaube, das muss schon

einfach auch ein Zwang sein, dass die Methoden und der Code

alles online kommt. Und wenn das online ist,

dann ist natürlich auch automatisch oft der Anspruch an die Code-Qualität

höher. Also das heißt, man möchte dann vielleicht doch ein bisschen mehr Zeit darauf verbringen,

auch den Code zu kommentieren und ein paar Tests zu schreiben. Das sind ja alles

Peer-Pressure.

Ja, genau, so ein bisschen gesunde Peer-Pressure

da reinbringen.

Genau.

Gab es irgendwas

sehr Interessantes oder was du nicht

erwartet hattest irgendwie beim

Bauen der

Modelle für dieses Problem

ich weiß nicht genau, ob ich jetzt

irgendwas...

Ja, also das, was am schwierigsten daran ist, ist, dass man sich halt leider auf die Grunddaten nicht so richtig verlassen kann. Also angefangen habe ich zum Beispiel dann mit den Fallzahlen einfach. Aber die Fallzahlen sind natürlich wahnsinnig abhängig davon, wie viel überhaupt getestet wird. Und in Südkorea wurde wahnsinnig viel getestet, in Deutschland wird auch ziemlich viel getestet, in den USA wird kaum getestet bisher.

Ja, und das ändert sich natürlich auch über die Zeit. Das heißt, wenn ich mir teste, finde ich mir Fälle. Das heißt, das ist auch schon für einen Anstieg allein verantwortlich. Da gibt es aber auch nicht wirklich verlässliche Daten, so wie viel da genau jetzt getestet wurde. Und dann ist ein anderer Ansatz zum Beispiel, sich die Todesfallzahlen anzusehen, um da zu denken, okay, die sind wahrscheinlich verlässlicher. Die sind leider auch nicht so genau.

Also, ja, es ist ein sehr, sehr schwieriges Problem, weil die Datenqualität oft nicht wirklich gegeben ist, was natürlich dann die ganzen Vorhersagen da beeinflusst und auch, ja, also, und das allerdings ist natürlich auch eine Chance für diese Modelle, denn das sind alles Sachen, die man damit einbauen kann.

Also zum Beispiel kann ich hingehen und sagen, okay, und das ist das Modell, an dem ich gerade arbeite, ich fange jetzt an mit den Todeszahlen, weil ich denke, dass die am verlässlichsten sind. Und dann weiß ich, ah, okay, also es ist mittlerweile recht gut etabliert, das ist ungefähr ein Prozent, die es bekommen, sterben daran.

Das heißt, das kann ich dann hochrechnen und sagen, okay, also jetzt hatte ich 100 Tote, das heißt, das mal 100 und dann kriege ich die Anzahl der Infizierten, aber nicht die Anzahl der Infizierten an dem Tag, sondern vor zwei Wochen, weil oft dauert es von der Zeit der Infizierung bis zum Tod zwei Wochen.

Und das heißt, das kann ich dann alles in das Modell mit einbauen und sagen, okay, jetzt kann ich da zurückrechnen und dann habe ich also den Wert der Infizierten vor zwei Wochen von den Toten und dann kann ich den vergleichen mit dem, wie viele Fälle, positiv getestete Fälle gab es denn vor zwei Wochen.

Und das sind natürlich wenige, also wir haben ja nicht alle getestet und dann kann ich da so einen Faktor rausfinden zum Beispiel, wie viel Prozent der Fälle, die es denn scheinbar gab, wurden dann überhaupt getestet und das sind dann, ja, also mit diesen Modellen, die man halt da so ganz spezifisch bauen kann und das ist natürlich was, vorhin haben wir über Machine Learning gesprochen, das kann man natürlich absolut nicht damit machen, aber mit Probabilistic Programming kann man diese ganzen Annahmen da halt reinbauen

und das Expertenwissen, was man hat

über zum Beispiel die Growth Rate

oder halt die Sterblichkeit oder wie lange

es dauert, sind halt alles

Annahmen, die man da mit reinstecken kann.

Aber auch jetzt nicht

ganz fix und sagen, okay, es sind exakt zwei

Wochen, sondern sagen, okay, naja, könnte irgendwas

zwischen sieben und

18 Tagen sein. Also so eine Ungenauigkeit

kann man auch in dem

Bereich einsetzen und

das wirkt sich dann natürlich auch darauf aus, auf

die Ungenauigkeiten,

die man aus dem Modell rausbekommt.

Ja, ist ja interessant.

Hast du irgendein Land gefunden, wo du sagst,

dass die Fallzahlen, die du da so rausfindest,

relativ nah an der

Realität sind oder an der Wirklichkeit?

Kann ich noch nicht sagen.

Das ist

eine sehr gute Frage, ja.

Da habe ich noch gar nicht dran gedacht, aber werde ich mir

auf jeden Fall anschauen. Ich würde erwarten,

dass es Südkorea ist, weil die

am meisten getestet haben.

das wäre ein guter Test auf jeden Fall,

das Modell zu sehen, wer da

am genauesten dran ist und wer nicht.

Wenn ich jetzt hier nach

dem Podcast reinschaue,

sind die Modelle wahrscheinlich gerade fertig und dann

kann ich es dir schreiben.

Schicken wir die Shownotes.

Ja, genau. Wir packen das alles da an die Links.

Ja, ja, ja, sehr interessant.

Ja, ich weiß nicht, wollen wir noch, haben wir noch

irgendwas, was wir mit diesem

Corona-Geschichte

besprechen wollten.

Ich überlege gerade.

Thomas hat so viele interessante Sachen,

auch über Quanz-Sachen gesagt, die mich noch viel mehr interessieren

als die Corona-Geschichte.

Also genau,

ich glaube, zu Corona auf jeden Fall

haben wir, also ich glaube, zu allem haben wir eigentlich recht

gut was,

also alles, was ich, glaube ich, so sagen wollte,

habe ich da gesagt.

Aber also wenn ihr noch Sachen habt, die ihr vertiefen wollt.

Das ist für uns der Virus ab jetzt auch offiziell beendet.

Ja, wir erklären das jetzt mal für beendet.

Halt mir die Augen zu und die Ohren zu.

Ja, ansonsten, ich weiß nicht genau.

Aber das ist vielleicht auch noch so ein Ding,

wo es Überschneidungen gibt.

Auch interessant, wie veröffentlicht man eigentlich solche Daten?

Und wie kann man die am besten so,

dass das halt alle lesen können, irgendwie übermitteln und so.

Ja, aber die Notebooks sind doch total super.

Man kann ja relativ einfach das plotten.

Ja, ja, aber die Daten, auf denen das basiert,

ist ja meistens dann irgendwie CSV oder so.

Google Spat Chat.

Ja, also genau, das ist auf jeden Fall echt so ein Ding.

Also Johns Hopkins hat da die Daten aus den WHO-Berichten,

die als PDF da geschickt werden, benutzt.

Und die waren die ersten, die das Dashboard da hatten.

Und dann haben andere Leute angefangen,

diese Daten dann auf GitHub zur Verfügung zu stellen,

als CSV-Dateien.

Und dann kann man sich da halt immer die aktuelle Datei runterladen.

Und das hat eigentlich auch so funktioniert, wie es hätte funktionieren sollen, nämlich die Daten natürlich, klar, hatten alle möglichen Probleme und dann haben Leute da GitHub Issues und Pull Requests gestartet, um dann die Datenprobleme, die es da gab, zu reparieren.

Leider haben die, die das

Report da laufen, dann sind nicht sehr

aktiv, sondern stellen halt die Daten rein

und oft enthalten

die echte Fehler. Und

die werden dann nur sehr schleppend bis gar nicht

gefixt. Und

die andere Webseite,

die ich jetzt angefangen habe zu nutzen, ist

European Center for Disease Control,

ECDC, und die

haben deutlich bessere Daten.

Also die Webseite, die ich jedem empfehlen würde,

ist nicht mein Dashboard, sondern

Our World in Data.

Die haben da, finde ich,

mit die besten

Datenquellen und von denen

habe ich das, dass die da umgestiegen

sind auf die Daten von der ECDC.

Die benutze ich jetzt auch und die

sind ein bisschen verlässlicher.

Ah ja, okay.

Ja, sehr cool.

Ja, das ist also, ich meine, auch da,

das ist natürlich wahrscheinlich eine der Geschichten, die man daraus

dann irgendwie lernen sollte, auch in

Europa ist halt so, das ist überhaupt nicht einheitlich,

genau wie diese Daten eigentlich erhoben werden oder

wer da was an wen meldet und so.

Und das ist halt alles überhaupt nicht miteinander vergleichbar.

Aber wenn man

jetzt auch, dass das halt irgendwie aus PDFs,

also ich meine, auch in Deutschland ist das ganz, ganz

krude Geschichten, hört man dann von irgendwie Faxen,

die notergeschickt werden oder

irgendwie werden Leute telefonisch

irgendwie informiert über bestimmte Sachen und dann tragen sie

das halt irgendwo ein oder halt auch nicht oder vergessen das halt auch mal.

Das wird dann ausgedruckt und dann per

Postgeschickten wieder eingescannt?

Ja, also irgendwie, da ist auf jeden Fall

eine Menge Verbesserungspotenzial, offenbar.

Aber...

Da haben ja einige Gruppen an dem Hackathon

dran gearbeitet.

Ja, das gab es ja jetzt.

Auch in Python.

Ich habe tatsächlich so ein bisschen versucht, da Projekte zu finden.

Ich habe jetzt tatsächlich nicht die allercoolsten entdeckt.

Ich habe ein bisschen gecodet, Telegram-Bot

zur Aufklärung und es ging um

Supermärkte. Aber ich habe ehrlich gesagt

eher Leute da getroffen und versucht, so ein bisschen was Sinnvolles

zu tun, aber wirklich viel

kam da, glaube ich, nicht bei raus. Es waren sehr viele Menschen.

Das hat mich ein bisschen gefreut, ein bisschen Hoffnung gegeben.

Ich glaube, über 42.000 Anmeldungen gab es und hinterher über 1.000 Devs, die dann tatsächlich irgendwas gecodet haben.

Das war ganz schön.

Gab es irgendein Projekt, was du besonders cool fandest, woraus du was gewonnen hast?

Ja, es gibt so ein paar Sachen, die tatsächlich sich um Menschen halt irgendwie versuchen zu kümmern und denen halt die Ängste abnehmen

oder vernünftiges Handlingen von den Fragen zu machen, dass die Telefone nicht mehr überlastet werden.

Aber dass da jetzt so richtig das Projekt rausgekommen ist, ich glaube, die brauchen alle noch ein bisschen.

Ja, es dauert halt noch einen Moment, ja, es waren viele Sachen, die vom Ministerium dazu kamen, was man halt als Datenanalyse machen kann, auch für die die Wirtschaft, für kleine Unternehmen irgendwie gute Ideen sind, aber am Wochenende, glaube ich, kann man da noch nicht ganz was Brauchbares bauen.

Aber ich glaube, da entsteht was draus und das war wirklich, glaube ich, ein guter Effekt, der mal wirkliche Digitalisierung in Deutschland gezeigt hat, dass gerade so der Anfang jetzt vielleicht gemacht worden ist, den man die ganze Zeit schon seit 20 Jahren erwartet hat.

Absolut, ja. Das finde ich auch wirklich so das möglicherweise Positive an dieser ganzen Sache ist, dass wir diese ganzen Trends, die da angefangen sind mit Heimarbeit, Homeoffice oder auch Telemedizin, sind alles Sachen, wo man schon Ewigkeiten drüber spricht, aber es ist nie so richtig in die Gänge gekommen. Jetzt ist da eine sehr starke Forcing Function dahinter, dass wir das halt alle machen müssen und dann bewegt sich auch was.

Breitbandausbau, vielleicht werden endlich mal

wieder ein paar Kliniken privatisiert, man weiß es nicht.

ich meine, das sind alles Sachen, die

dann, wenn wir diese

ganze Corona-Geschichte überstanden haben,

hoffentlich auch bestehen bleiben.

Die ganzen Arbeitgeber

haben jetzt Erfahrung damit,

die Ärzte haben Erfahrung damit,

Konferenzen auch zum Beispiel,

viele wurden abgesagt, aber einige sind auch virtuell

geworden. Und das ist auch eine Sache,

die schon immer so gefordert wurde,

Weil es natürlich auch CO2 sehr schlecht für die Umwelt ist,

wenn da 100.000 Leute zu dieser Konferenz fliegen.

Und das kann man viel virtuell machen.

Und das wurde auch nur lange gefordert.

Jetzt wird es tatsächlich umgesetzt, weil es nicht anders geht.

Apropos virtuell, da muss ich einmal kurz einhaken.

Weiß ich nicht, wann wir die Folge veröffentlicht bekommen.

Aber jetzt am Wochenende ist der virtuelle Düsseldorfer Python Sprint,

der sonst immer bei Trivago stattfand, auch

auf virtuelle Ebene verschoben wurden.

Das Python-Camp

auch, also das

Deutschland stattfindet.

Ja, und das ist jetzt auch,

das ist noch nicht so richtig klar. Und sogar die EuroPython

auch, auch virtuell. Ach, ernsthaft?

Das habe ich im Blog gelesen, ja. Das habe ich noch gar nicht

mitbekommen, weil, ja, okay, das wäre nämlich,

weil da war, hatte ich ja auch, oder hatten

wir auch überlegt, da hinzugehen.

Ja, also ich hatte schon gebucht, ich habe

schon hinbekommen, aber ja.

Hm, interessant. Ja, aber ich bin auch gespannt, wie das dann jetzt am Wochenende wird. Die ganzen Geschichten müssen sich jetzt halt da erstmal so finden, aber ich bin auch überzeugt, dass das eigentlich im Prinzip kein Problem ist. Es sollte schon gehen.

Es hat halt schon ein paar Vorteile, wenn man die Leute tatsächlich persönlich sehen kann, als nur remote. Ja, das ist natürlich schon auch mal schön, lieber Thomas, aber wir hätten dich natürlich gerne alle begrüßt.

Genau, richtig.

Mit Handschlag und

ja, aber genau, also

ich glaube,

diese ganzen Nachteile gibt es auf jeden Fall,

aber ich würde mich wundern, wenn es da nicht auch

sehr viel Potenzial für innovative Ideen

gibt, wie man das

Nachteil

ausgleichen und Vorteile ausweichen kann.

Ja, und es gab

eine Kegel-Competition gab es noch jetzt

irgendwie neu. Ja, da gab es mehrere.

Moment,

Genau, es gab einmal

eine Geschichte.

Genau, da geht es darum, haben sie

einen riesen Datensatz mit Research-Papern

zur Verfügung gestellt und da wird

NLP drauf gemacht.

Auch bei Quantopian sind wir auch

gerade dabei, eine neue Challenge zu starten.

das haben wir immer gemacht mit gewissen

Datensätzen oder so. Jetzt

generiert man Algorithmen auf

den Insider-Daten oder so.

Das, wie wir es jetzt machen wollen, ist ein bisschen eine andere Idee.

Da geht es auch um Covid-19 und den Einfluss davon auf die Wirtschaft und auf die Finanzmärkte.

Und da geht es nicht darum, irgendwelche Algorithmen zu entwickeln,

sondern stattdessen interessante Analysen und Visualisierungen davon zu machen.

Also wer macht die coolste Analyse, wie der Einfluss von Covid-19 auf die Supply Chains ist oder auf die Aktienmärkte?

Das wird nicht so.

Ich zeichne mal mit, dass du so einen Aktienmarkt und dann kommt irgendwie so ein großer Hammer und dann macht es boom.

Ja, genau sowas.

Aber genau, also bis

der Podcast dann raus ist, ist es wahrscheinlich

schon unter Kontra mit Website. Also jeder, der da

Interesse hat, sollte sich das mal

ansehen. Gibt auch einen Preis.

Ah, cool. Ja.

Genau, da sehe ich gerade auch schon,

es gibt eine Forecasting-Competition

auf Karel auch, wo halt die Leute auch schon ihre

Notebooks, da sehe ich auch schon diese

SIR-Modelle und

Leute, die interessante Visualisierungen gemacht

haben. Ich fand das mit dem Preis auf Kantor-Penis aber

deutlich interessanter. Ja, das ist, ja,

genau, das packen wir auf jeden Fall auch mit rein, das

genau.

Ja, nee, sehr schön.

Ja, schreibt uns, wenn ihr irgendwie

ein tolles Projekt habt, wo ihr Unterstützung versucht,

das werden wir natürlich dann in der nächsten Zeit

versuchen zu berücksichtigen. Ja, ich weiß

nicht genau, vielleicht kann man nochmal so ein bisschen allgemein, also

was auch interessant ist, wenn man da auf dem Laufenden bleiben

will, was gerade so passiert, diese

Geschichte, es gibt vom CCC irgendwie

Link-Liste und ein Wiki

und auch ein Bulletin, das sie halt

jeden Tag veröffentlichen mit allen

aus ihrer Sicht irgendwie

wichtigen Entwicklungen und das

ist auch interessant. Also ich meine,

die organisieren sich irgendwie um

so ein Streamer-Channel

oder Gruppe

und das sind irgendwie so 100,

etwas über 100 Leute oder so, die halt alle aus diesem

medizinischen oder Katastrophenschutz-Bereich kommen

und die da auch halt echt

Ahnung von haben und da stehen

auch immer sehr interessante Sachen

Sachen dabei. Also wenn da irgendwas

Neues erschienen

ist, was irgendwie

interessant ist, dann findet man das da eigentlich immer.

Und die machen das halt auch anders. Das ist auch

sowas, was mich irgendwie

in letzter Zeit, also ich hab da jetzt auch so ein bisschen,

naja, ich meine, man konnte dem eigentlich nicht entgehen.

Man hört ja die ganze Zeit von

allen möglichen Richtungen strömt das auf einen ein.

Wenn man so

sich anguckt, was so in Zeitungen

oder eben klassischen journalistischen

Publikationen irgendwie geschrieben wird, was mich

immer so ein bisschen stört, ist, dass oft nicht die Quellen

dabei stehen oder so. Und das machen die

zum Beispiel eben auch anders, dass sie halt immer die Quellen

alle mit verlinken und dass man halt gucken kann, wenn das steht,

wenn das steht halt nicht nur irgendwie, es gibt eine

Studie, die irgendwie das und das sagt, wenn man sich denkt,

okay, zeig mir doch mal die Studie, ich möchte mal gucken,

was haben die denn da wirklich gemacht, dann

ist das da halt auch alles verlinkt und

das ist schon mal sehr praktisch.

Ja, ähm,

Ja, es gibt leider auch wieder sehr viele

Alternativmedien, die irgendwelchen Schrott erzählen.

Ja, das ist, äh, das ist. Eva Herrmann

sagt, das wäre wie die Grippe.

Wie wird man dem her?

Gute Frage. Ja, keine Ahnung.

Genau, genau.

Was ich noch,

worauf ich noch hinaus wollte, mit dem,

wie man Daten austauschen kann, also was ich ja persönlich hoffe,

ich habe auch so keine Ahnung, ob das irgendwie jemals passieren wird,

aber das habe ich auch,

die Idee ist ja nicht von mir, sondern das ist halt,

habe ich auch irgendwann mal gehört

und dachte so, also zuerst dachte ich,

ist vielleicht keine tolle Idee, aber dann so

je länger man drüber nachdenkt, desto

irgendwie interessanter sieht das aus, irgendwie

halt als Standard-Datenaustauschformat

für solche Art von Daten halt SQLite

zu etablieren,

weil eben CSV

irgendwie diverse böse Nachteile

hat und man mit SQLite halt

auch sehr schöne Geschichten

bauen kann gerade.

Das Problem mit SQLite ist natürlich, du brauchst immer ein Interface,

mit dem man das beschreiben kann und du hast

halt bei CSV einfach eine offene

Tabelle, wo du einfach in irgendwelche Zellen irgendwas rein

pasten kannst. Und das

kenne ich so für Sikulite

so low-levelig, für

den Privatanwender nicht.

Ja, natürlich. Also wenn du

sozusagen tatsächlich da Daten verändern willst,

dann ist das natürlich

alles sowieso schwierig. Aber

wenn du es jetzt nur irgendwie lesen und auswerten willst,

dann ist vielleicht

Sikulite gar keine so schlechte Idee. Also ich finde die Idee super,

so aus technischer Perspektive. Ich frage mich halt nur, wie

Herr Meier

und Frau Kunze das umsetzen wollen, wenn sie

zu Hause sind. Und

dann ihre

Daten bereitstellen. Also vielleicht sind diese

Menschen, die da arbeiten, ja irgendwie

an der Quelle und haben halt dieses Fax in der Hand

zum Beispiel und müssen halt diese Daten aus dem Fax irgendwo

eintippen. Und man

hat halt vielleicht gar nicht diese Schnittstelle, dieses Interface,

dass das halt direkt in eine zentrale, gute

Datenbank kommt, sondern man

muss halt irgendwie sich so ein

Überträger-Datenformat überlegen, was

halt dann oft

so eine Tabelle ist einfach.

Ja, aber also was man tatsächlich

mit SQL, also mit Data Setter zum Beispiel,

Das ist halt das Projekt, was ich

in dem Zusammenhang, weil es gibt auch zum Beispiel für diese

Covid-Daten jetzt

eine Datasette

irgendwo auf.

Das hatten wir noch ein, zwei Mal schon mal erwähnt,

aber vielleicht erklärst du kurz, was ist das, eine Datasette?

Ja, also

da geht es darum, eben genau

Daten halt

öffentlich machen zu können.

Das ist ein Projekt von, war

jahrelang Side-Project, sozusagen das Haupt-Side-Project

von Simon Willism, ein der

Gründer von Django, von dem Django-Projekt.

Webgeschichte

und der hatte halt auch irgendwie

eine Zeit lang

beim Guardian gearbeitet

hatte da halt gesehen, dass es

irgendwie deren Haupt

Datensammlung von jemandem

betreut wurde, der halt irgendwie hunderte von

CSV-Files und Dingen irgendwie

auf seinem Desktop liegen hatte

und halt wusste, was da drin stand.

Aber das ist natürlich nicht so eine gute

Ausgangsbasis, um da irgendwie

Daten dann zu veröffentlichen, also das könnte

man gar nicht so richtig veröffentlichen, weil

wenn man halt nicht weiß, was da überall drinsteht, dann kann man mit

dieser Datensammlung gar nicht so viel anfangen

und hätte dann

überlegt, was man tun kann, um das

irgendwie, ja

auf so einer

Toolbasis irgendwie daran

aufzubereiten und das ist halt

das, was daraus entstanden ist, halt die Tassette

und das ist halt

besteht aus mehreren Teilen, ein Teil ist halt

man wirft irgendwie CSV-Dateien

da rein oder sagt halt auch nur zu

einem Verzeichnis, in dem viele CSV-Dateien

drin liegen, so

werdet mal zu einer SQLite-Datenbank

dann wird das mehr oder weniger automatisch

transformiert und wenn es dann eine SQLite-Datenbank

ist, dann

kann man da halt beliebiger

SQL-Anfragen drauf stellen,

weil man kann halt bei SQLite

sagen, das ist auch eine schöne Geschichte,

das ist in der Python-Standard-Bibliothek direkt mit drin.

Das heißt, man muss da nichts installieren

oder so, sobald man einen Python-Interpreter hat, hat man

das dabei und kann

das Read-Only sozusagen aufmachen.

Und er kriegt dann das Schema

dann daraus, was er in den Daten gegeben hat.

Ja, und was Setter-Setter macht, ist, es macht

halt automatisch eine API drumherum.

Sodass du halt auch direkt eine Web-API

hast auf deine

SQLite und sozusagen

du hast jetzt nicht irgendwie GraphQL

mit dem du als Abfragesprache

mit der du das abfragst, sondern du hast halt direkt

SQL und kriegst dann halt JSON oder

CSV zurück.

Und ja, das ist eigentlich

sehr, sehr schick.

Aber ja, es ist natürlich

ja klar, also ich meine...

Also das heißt, man könnte jetzt diese ganzen Repos

auf GitHub, wo die ganzen Datensätze als CSV

drin sind, einfach in irgendeine Datasette kippen

und hätte direkt als SQL die Abfrage.

Ja, nicht nur das, sondern man hat sogar

einmal ein Interface, wo man

SQL hin tun oder reinposten

kann sozusagen und dann kommt halt

irgendwie eine HTML-Tabelle im Browser

zurück oder halt eben CSV oder JSON,

wenn man es als API verwenden möchte und man hat

direkt eine API auf die Datenbank.

und es ist sogar so, dass man das nicht

mal selber husten muss, sondern es gibt dann diverse

Provider, die halt so

Dinge anbieten, wie du kannst dann

das habe ich jetzt gar nicht nochmal genau

nachgeguckt, aber es gibt glaube ich Glitch, mit Glitch geht das

irgendwie oder es gibt halt auch mit

es gibt auch diverse

die einfach so Docker-Container anbieten, die man

wo man halt so ein freies Kontingent

hat an Containern irgendwie

und dann damit kann man das halt auch

hochziehen und sodass man

halt ohne

irgendwie selber da irgendwie

Hosting bezahlen zu müssen,

die CSVs halt als

SQL-Datenbank mit

API irgendwie ins Netz stellen

kann. Und das ist auch mit diesen

John Hopkins-Daten passiert.

Und das fand ich auch schon

sehr interessant. Aber na gut, ich meine, das

fixt natürlich die grundlegenden Datenprobleme

darunter halt dann nicht.

Aber es ist auf jeden Fall

eine ganz

interessante Geschichte, finde ich. Wenn man jetzt zum Beispiel

irgendwie ein Notebook baut, was halt irgendwie

diese Daten verwendet,

dann kann man halt auch direkt, das könnte man direkt

die Datasette, diese

COVID-19-Datasette einfach

verwenden und dann halt die ganzen Daten

über eine API bekommen, ohne dass man da selber

CSVs parsen muss oder so.

Aber, genau.

Ja, also

Feedback und Anregungen und Fragen und

alle eure Sorgen an hallo.python-podcast.de

Thomas, bist du noch da?

Ich bin noch da.

Ja, ich weiß nicht.

Sind wir dann schon durch?

Haben wir noch irgendwas Interessantes?

Haben wir noch irgendwelche Dinge, die ansonsten...

Naja, also News aus der Szene, die ganzen Konferenzen

abgesagt und...

Das ist die eine große Neuigkeit.

Ja, wenn ihr zum Peißenbuch kommen wollt,

der stattfindet, der ist jetzt auch virtuell.

Könnt ihr auf dem Chaosdorf mal gucken, welche Räume es da gibt.

Ja, dann vielen Dank,

dass du heute da warst.

Vielen Dank, weil du ganz viele Dinge erzählt hast.

Ja, vielen Dank

für die Einladung. Es war sehr cool

mit euch zu sprechen.

Wir freuen uns schon, wenn alle wieder gesund sind.

Dann müssen wir es hier mal live wieder vor Ort wiederholen.

Sehr gerne.

In der Nähe. Ist ja gar nicht so weit.

Ja, vielen Dank fürs Zuhören.

Bleibt uns gewogen. Hört wieder rein. Bleibt gesund.

Vor allen Dingen in diesen unruhigen Zeiten.

Hört mal wieder rein. Wir hören uns.

Bis zum nächsten Mal. Tschüss.