Transcript: PyPy - Just in Time

27. Januar 2023 · Back to episode

Full episode transcript. Timestamps refer to the audio playback.

Ja, hallo liebe Hörer und Hörer, willkommen beim Python Podcast, Episode 48.

Heute geht es um PyPy.

Hallo Jochen.

Ja, hallo Dominik.

Hallo Karl.

Herzlich willkommen.

Hallo Karl.

Ja, wir wollen wie immer erstmal News machen.

Was hast du denn da, Jochen?

Oh, oh, oh, jetzt muss ich mal ein bisschen hochscrollen.

Ja, also es gab jetzt ein Python Enhancement Proposal tatsächlich, der glaube ich schon,

also ich meine, das richtig gelesen zu haben, dass das

jetzt schon für Python 3.12 irgendwie

einen Compiler-Flag

einführen soll, das den Global Interpreter

Log optional macht.

Also die letzten Woche große Neuigkeit,

also ich glaube, zwei große Themen,

Packaging und

irgendwie diesen

PEP 703.

Ja, und ich habe dann auch so ein bisschen reingeguckt, ich bin ja

immer so ein bisschen der Ansicht, oder ich habe

dir so ein bisschen vertreten, dass

ich das eigentlich nicht so ganz nachvollziehen kann, warum das

nur so ein Riesenthema ist, weil, ehrlich gesagt,

betrifft es mich meistens nicht, weil ich bin eigentlich bisher kaum je in die Situation gekommen,

dass dieser Global Interpreter-Log für mich jetzt ein großes Problem gewesen wäre.

Aber ich habe mir den jetzt nochmal angeguckt und tatsächlich, also es gibt da schon viele Situationen,

wo einen das halt Ärger machen kann. Also mein Beispiel war, ich hatte ja mal gefragt,

ob jemand ein anderes Beispiel hatte, also wenn ich jetzt eine Datenbank in Python schreiben will,

dann könnte einem das Ärger machen. Und es gibt aber noch viel mehr Beispiele

und da standen auch welche drin, wo ich dann sagen muss, okay, doch, das hat schon,

Da haben Leute schon Probleme dann eventuell

Gerade so im Data Science Bereich

Das war mir gar nicht klar, also ganz wichtig ist

da wohl, dass man halt nicht von

unterschiedlichen Prozessen aus auf

den GPU-Speicher zugreifen kann

Tatsächlich, so richtig

Und dann kriegt man natürlich sehr schnell ein Problem, wenn man da nicht

mehrere Sets auf unterschiedlichen CPUs

laufen lassen kann

Ja, genau

Das war so, das ist

ganz interessant gewesen

Aber ist noch voll auch in Diskussion, oder?

so einen klaren Konsens gibt es da noch nicht, oder? Hast du da einen Überblick?

Ne, genau. Also die Diskussion habe ich mir teilweise angeguckt, aber auch nicht komplett und

ob es jetzt wirklich kommt oder nicht, keine Ahnung. Es stand auch irgendwann ein Zeitplan in dem

PEP selber drin, der eher so sagte, ja, also der Plan ist eher,

das ab 2024 einzuführen und dann 2025,

26 dann halt irgendwann dazu überzugehen,

dass halt quasi...

Ich weiß jetzt gar nicht mehr, welche Relation

es war, so 13, 14, 15,

dann irgendwann umzusteigen

auf per default ist der

Global Interpreter locker aus und dann

irgendwann es zu deprecaten

und dann bis irgendwann 2030 oder so wegfallen zu lassen.

Aber das ist dann halt sehr weit in der Zukunft.

Keine Ahnung.

Und der Plan ist aber erstmal, das quasi hinter einer

Interpreter-Compile-Time-Flag

zu verstecken.

Ja, okay.

Jetzt haben wir ja direkt am Anfang

sowas Schwieriges gemacht.

Können wir vielleicht nochmal ganz kurz erklären, was nochmal ein Gehör ist?

Ja, soll ich?

Ja, gerne.

Also das Problem ist einfach, dass der Python-Interpreter selber nicht Thread-safe ist,

dass quasi die ganzen Datenstrukturen, die quasi der Interpreter selbst verwendet,

halt nicht mit irgendwelchen Logs versehen sind,

sondern es einfach nur davon ausgegangen wird in der Implementierung überall,

dass zu jedem Zeitpunkt halt nur ein Thread wirklich Python-Code ausführen kann.

und das führt dazu, dass man halt quasi, wenn man Python-Code schreibt,

nur von einem Thread aus wirklich gerade ausführen kann.

Und dazu, das hat halt die Auswirkung, es war lange kein Problem,

weil halt keiner irgendwie ein Multiprozessor-System hatte,

aber jetzt, wo es halt Multi-Core gibt seit 20 Jahren oder so,

ist es halt immer wieder ein großes Diskussionsding,

dass es halt nicht so toll ist, dass man wirklich Multithread-Algorithmen in Python schreiben kann.

Ist das brauchbar zusammengefasst?

Ja, doch, klingt gut.

Und ich glaube, das Coole an der PEP ist eigentlich, dass halt wirklich eine Firma,

nämlich Facebook, soweit ich das verstanden habe,

die den nötigen, nicht ganz kleinen Engineering-Aufwand halt mal investiert hat,

um sich anzuschauen, wie man den loswerden könnte.

Also und halt auch, das Loswerden ist jetzt gar nicht so das prinzipielle Problem,

sondern das Problem ist halt, man will den loswerden

ohne dass Single-Threaded

Python viel langsamer wird. Das ist quasi

das Schwierige.

Ja, weil es gab ja schon mal, Larry Hastings oder so

hatte das, das ist jetzt auch fast 10 Jahre her oder so,

hatte dieses

Gilectomy-Projekt, wo

eben halt auch versucht hat, das loszuwerden

über so Fine-Grained Locking, weil

normalerweise ist halt

also für den Garbage-Collector braucht man

das ganze Reference-Counting

ist halt hinter dem Gil oder ist halt

der Grund dafür, warum der Gil

und Jochen unterhalten sich über die Programmiersprache Python

und es gibt halt schon ein Ding, das kann man auch über Python installieren, ich habe das mal ausprobiert,

das nennt sich irgendwie Python Nogil oder so, das macht nur 5% Performance einbußen,

aber das hat auch noch ein paar Sachen da drin, die jetzt in dem aktuellen PEP nicht drin sind.

Daher wäre das ein bisschen langsamer, aber 10% ist jetzt noch nicht so allzu viel.

Es gibt auch noch so ein paar andere Sachen, wie zum Beispiel, man muss jetzt halt da,

Es gibt dann so ein paar Tricks, die da verwendet werden

und einer ist halt auch,

dass es jetzt

halt immer einen Pointer auf den Thread

gibt in jedem Python-Objekt,

der das erzeugt hat,

weil man, wenn man gar nicht kritisiert hat, zwar kann man nur

innerhalb von einem Thread erzeugten Sachen aufräumen,

oder Reference-Counting macht,

dann muss man das halt vielleicht nicht mehr locken,

aber dann muss man halt sich merken, welcher Thread das war

und das sind halt ein 64-Bit-Ding

und dann hat man noch so

einen Pointer auf,

das ist gar nicht mehr genau, das sind insgesamt drei Pointer,

die jedes Objekt mehr kriegt,

und das sind halt

24 Byte

mehr pro Objekt, das ist schon nicht so ohne.

Also Speichermess ist auch ganz schön.

ja, also

es sind halt nur Trade-offs. Wenn man es gebrauchen kann,

ist es vielleicht gut, aber wenn man es halt

irgendwie nicht braucht, dann

kann es auch sehr nervig sein.

Und deswegen,

und die C,

dass dieses

Application

Binary Interface ist halt auch nicht mehr kompatibel,

sodass halt man

im Grunde halt die

C-Extensions, also für

Paket, das

halt eine C-Extension ist,

muss man halt die

entsprechend richtige Version installieren,

für den Interpreter, den man verwendet.

Also man muss quasi jede C-Extensions

einmal anfassen und zum Teil die

Usage irgendwie dann

korrekt machen und die Logs einführen,

wenn das nicht 3D-safe ist.

Also das ist halt möglicherweise schon auch Aufwand.

Ja, ja.

Also das wird dann tatsächlich ein Breaking Change

sein, wenn die CX-Expansions

dann nicht mehr gehen.

Das ist dann eigentlich Python 4?

Nee, also sag mal so, du kannst es ja parallel

verwenden. Also wenn du das nicht nutzen willst...

Ja, aber wenn der Default sich ändert...

Ja, aber das ist dann irgendwann, das ist dann in der

weiteren Zukunft. Also das ist dann noch Jahre heran.

Ja, aber wenn das Python 3.5 ist, dann ist es Python 4.

Ja gut, ich meine,

wenn niemand bis dahin umgestellt hat und es keine

Pakete gibt, dann wird man das wahrscheinlich einfach nicht machen.

Wenn es alle schon machen, alle Relevanten,

dann ist es halt auch nicht mehr so schlimm, wenn man das deflocated

also, ja, keine Ahnung,

ist wahrscheinlich jetzt sehr schwer, da irgendwelche Voraussagen zu machen.

Aber, ja.

Ich glaube, wir müssen nachher einfach, aber auf jeden Fall

uns merken, dass wir noch ein bisschen über C-Extensions

reden müssen. Oh ja, das finden wir.

Wer war denn da bei Facebook nochmal mit dabei?

War das Sam Gross?

auch. Genau.

Du hattest vielleicht den Vortrag auf der Europe

halt den letzten Tag gesehen. Ja, ja.

Ich habe nicht so viel verstanden, aber ich habe mir

angefühlt. Okay, ja.

Ja, ja, ist auch ein schwieriges Thema,

glaube ich. Also

einige der Ideen

sind auch schon, also diese Geschichte mit den

drei Pointern, die es jetzt gibt, es gab ein akademisches

Paper dazu, wie man das denn bauen kann

und da wurden diese Informationen,

die darin stecken, in einen Pointer

reingefiemelt irgendwie, reinkodiert

und das war den Leuten aber dann

jetzt zu heiß.

Das ist zu gefährlich.

Was kann da alles bei Overflows passieren?

Daran sieht man schon,

dass sie sich das nicht getraut haben,

das einfach so zu übernehmen. Es ist kompliziert.

Würdest du das Paper bitte auch verlinken?

Das klingt eigentlich spannend.

Ja, kann ich machen.

Mach auch den Talk von der Europython rein, wenn es den irgendwo schon gibt.

Okay, ich füge es mal hinzu.

Alles klar.

Er hat das nämlich genau erklärt, wie er das so vorhat.

Und das ist schon...

Er hat einige clevere Ideen dabei gehabt.

auch ein spannender Typ, ja

okay, habt ihr noch nichts

du hast gesagt Packaging, ja ich hab noch

ja Packaging

ja das war ein anderes großes Thema, auch

vor zwei Wochen oder so gestartet

oder noch ein bisschen länger und das

könnte halt immer noch so passieren, es gibt einen sehr sehr langen

Thread

ich weiß gar nicht genau wo war das denn

das Ding heißt irgendwie

Packaging Strategy Discussion Teil 1

das ist auf DiscussPython.org

ja und

habe ich nicht ganz gelesen, das war mir dann zu viel,

aber es gab,

dann haben auch diverse Leute da

längere Blogposts geschrieben, was sie denn so denken.

Also ja, das Problem ist natürlich

irgendwie bei allen Umfragen, die man zum Thema

Python macht,

dann wird das von Leuten, die da nicht

so erfahren sind, immer als Painpoint Nummer

eins beschrieben, dass es halt so kompliziert

ist und dass man nicht weiß, was man

denn jetzt nehmen soll für welche Tools und

wie man die denn jetzt, am besten wie rum man die

hält, damit es nicht irgendwie

keine furchtbaren Sachen passieren und

ja, das ist ein Problem und

aber es gibt auch keine so richtig einfache

Lösung.

Ja, und ich weiß es nicht so genau. Ich glaube, das

Fazit war mehr so, ja, es liegt halt

vor allen Dingen daran, dass halt auch Python einfach sehr alt ist

und Leute das auf sehr unterschiedliche Art verwenden und

man kann es nicht gut lösen, weil

man kann nicht allen gerecht werden,

weil manche Leute brauchen halt sehr feingranulare

Geschichten und andere lieber

ein Einfaches Interface und das kann man

ja, wie will man das unter einen Hut bringen?

Das ist schwierig. Also, auch interessant,

fand ich genau, ich weiß nicht, ob das in dem Zusammenhang

aufgetaucht ist, aber das war auch erst wenige Wochen alt, von

Nathaniel Smith, ein

neuer Paketspracher, Posey heißt er,

oder Posey, ich weiß nicht genau, wie man das ausspricht,

der ist das eine, ein Rust-Binary,

die quasi das ganze Zeugs von

Python übernehmen soll, also den Interpreter mit ausliefern

und Pakete bauen und

Dependencies bauen und

deren Graphen bauen und so, und das

sah, fand ich, relativ interessant aus, weil genau

das auch eines der Pages, die allen Leuten, mit denen ich

irgendwas mit Python machen will, erstmal

erklären muss, hä, wie geht denn das? Oh, das ist aber kompliziert

und warum ist das denn so?

Ja, also bald dann halt, also wenn die einen Python machen,

okay, aber wenn die nochmal eine andere Python-Version, irgendwann habe ich es ja später

so, geht alles kaputt und Python-Python

und dies, das ist für einige Menschen gar nicht so einfach

zu handeln. Ja, und Natalia ist auch jemand,

der man quasi dem Geschmack zutraut,

das richtig gut zu machen.

Ja, ja, ja, also bekannt

wie, er hat ja Trio

geschrieben, also eine andere Implementation

für so Async-Geschichten

und eine andere

Art, das zu machen, hat auch einen sehr

tollen Artikel geschrieben

irgendwie für Structured Concurrency,

den verlinke ich auch mal gerne

oder sage Leuten, dass sie das mal durchlesen sollen.

Ja, insofern,

ja genau, das habe ich auch direkt

aufforschen lassen und nicht gehört, wer das gemacht hat.

auf der anderen Seite weiß ich jetzt nicht so genau,

also er schreibt, gut, er macht das jetzt in Rust, weil

er wollte schon immer mal was für Rust machen.

Ich weiß nicht genau, wo man das unbedingt, also alle

Leute machen momentan irgendwie Dinge, Tooling in Rust.

Bei JavaScript verstehe ich das so ein bisschen, weil

die haben da, also jede Änderung

im Code führt halt dazu, dass irgendwie so 20

Transpiler, irgendwelche

Linter, sonst was irgendwie loslaufen und Dinge machen

wenn dann jedes Mal so ein fetter Node.js-Prozess

gestartet wird, dann

dauert das, dann addiert sich das

natürlich irgendwie auf in der Latenz, aber

Python hat man das ja so eigentlich auch nicht

Ja, aber immerhin hast du eine vorkompilierte Binary

die du irgendwie ausliefern kannst und in Rust ist das

vielleicht so einen Typen sicher und irgendwie ordentlich

schnell. Und ich glaube, man kann

die halt auch relativ leicht dann so statisch

verlinken und hat halt wirklich nur eine

Datei. Ja, genau. Ja, okay.

Ansonsten hat man das Bootstrapping-Problem, dass man erstmal

einen Package-Manager installieren muss, damit man

sich den richtigen Package-Manager, also das Problem

das Poetry hat mit dem

curl und get Poetry

schrecklich Shell-Skript irgendwie von

einer Webseite ausführen, ja.

Ja, okay. Gut, das löst es. Das stimmt.

Ja. Das sind so ein paar Sachen,

die glaube ich echt gar nicht schlecht sind. Also ja, aber was das

Cool, also ich hab's auch mal ein bisschen ausprobiert

in Advent of Cody, aber

die Weihnachtszeit ist ja jetzt schon wieder

vorbei. Ich weiß nicht, was ich

finde, also ich meine,

das, was ich meistens verwende, ist halt für Pakete

bauen, Flit, das macht

eigentlich nur das, ansonsten verwende ich für Abhängigkeit

PipTools

und, ja.

Ja, PipTools fand ich ja fürchterlich, aber du findest Poetry

fürchterlich und was Poetry ist auch... Ich hab Poetry lange

verwendet, also fürchterlich ist...

Ja, wir hatten uns ja, glaube ich, das war schon

ein, zwei Folgen her, mal über dieses

Problem mit den Dependencies

irgendwie schon auseinandergesetzt.

Warum das vielleicht blöd ist, aber ich sage mal so,

theoretisch kann man die ja trotzdem einfach dann

selber einstellen in der

PyProject-Hummel.

Das Problem ist, dass

Poetry implizit halt,

wenn man sagt Poetry

add irgendein Paket,

irgendwie ein Upper Bound auf die

Version macht,

was für, wenn man eine Library schreibt,

für andere halt sehr blöd ist, weil die dann sofort

und Dependency-Problemen laufen, Konflikte laufen.

Man muss ja manuell quasi tatsächlich dann...

Ja, aber...

Naja, gut.

Ach ja, genau.

Das ist, glaube ich, eine gute Idee.

Keine Lösung.

Ich habe letztens gesehen,

PipTools in PyProject Hummel irgendwie reingemeldet.

Ja, letzte Woche war PyGDF-Treffen

und Jens hat mir das mal erzählt,

dass er das jetzt macht, er benutzt PipTools.

Ist auch nicht so super, nicht hundertprozentig zufrieden,

aber irgendwie

benutzt er das auch häufiger

und hat einen Weg gefunden, wie man das

relativ einfach, die Abhängigkeiten auch in

der PyProject-Tunnel da reinschreiben

kann und hat mir mal gezeigt, wie man das macht

das könnte ich auch verlinken, stimmt

ist natürlich auch nicht so schlecht

weil dann hat man alles wieder

im Moment ist das ganze Packaging und

Dependency-Management-Zeugs irgendwie relativ

furchtbar

das funktioniert auch nicht US-übergreifend gut

und das ist

ziemlich amiss. Ich hoffe ja wirklich, dass dieses RAS-Paket da einiges

ändert, weil das will man so alles nicht haben.

Ja, wird uns noch eine Zeit lang begleiten.

kommen wir zu erfreulicheren Dingen. Django gibt es jetzt eine neue Alpha-Version,

also die Django 4.2 kommt im März irgendwann, hoffentlich.

Ist das wieder die LTS? Ja,

Ja, genau, wobei das

nicht so eine große Rolle spielt, die offizielle Empfehlung an der Stelle

ist immer, die letzte

Stabile zu nehmen und nicht LTS

LTS ist mehr so, naja, es gibt halt Firmen, die das

irgendwie haben wollen oder keine Ahnung, aber das

ist nicht mehr so, wie man das machen sollte, es wird nicht empfohlen

immer auf den LTS Version zu bleiben

dafür verlangt sich auch einfach zu wenig

also es gibt schon lange nicht mehr

irgendwie so große Probleme, wenn man

upgradet, daher braucht man das

eigentlich nicht mehr so wirklich

Genau, was dabei ist, ist

ganz nett, PsychoPG3

Support, das heißt Async

Datenbank

Unterstützung kommt damit halt so rücknäher.

Es gibt ja jetzt auch ein Interface

seit Django 4.1

für Async-Geschichten mit dem

ORM. Ist alles noch nicht wirklich implementiert,

aber das Interface ist schon mal da, sodass man das

halt so verwenden kann, dass wenn irgendwann

sich unten drunter das mal so verändert, dass halt mehrere

Sachen gleichzeitig irgendwie an die

Datenbank geschickt werden und dann

wieder zurückkommen, dass es einfach so,

Und wie stellt die Datenbank sicher, dass ich jetzt keine Probleme habe festzustellen, dass Dinge auf die gleichen Stellen zugreifen?

Ja, das ist ja das, was die Datenbank eigentlich...

Das ist ja so die Kernkompetenz eines Datenbankmanagementsystems sozusagen.

Ja, aber...

Wie soll das hängen?

Ja, aber das Problem hast du jetzt ja auch schon, wenn du mehrere Frontends hast oder mehrere Prozesse auf deinem Frontend, die gleichzeitig alle irgendwie...

Ja, aber die Datenbank muss ja gucken, dass sie einen Log setzt dann irgendwie und dann muss sie halt irgendwie gucken, ist das Log auch da oder muss halt eins setzen, wenn sie da irgendwie dran rumfuchtelt.

und dann muss ich es wieder machen.

Du meinst jetzt so Richtung Right-Zugriff oder was?

Ja, aber ich meine, dann schaust du an eine Transaktion

und siehst, dass dann

eine konsistente Sicht der Dinge

innerhalb der Transaktion

oder die wird halt dann committed oder aborted

und ich glaube,

ich stimme dir zu,

Jochen, zu, dass das halt genau das ist, was die Datenbank

im Prinzip richtig gut können sollte.

Aber das macht ihr doch eigentlich dann langsam, oder?

Ja, natürlich macht das alles

viel langsamer, wenn man Transaktionen ausschaltet

und F-Sync ausschaltet, dann wird das

mit der Datenbank viel schneller.

Aber das Problem ist halt, dann sind deine Daten eventuell auch weg.

Das ist ja doof.

Das ist doch wieder doof.

dieses Problem

hast du auch, wenn du zwei Frontends

hast, die auf den gleichen Daten arbeiten, hast du das ja auch schon.

Auch ohne, dass die Frontends

in sich selber nochmal irgendwie

Concurrent-Dinge machen. Die machen ja auch

Sachen Concurrent auf Prozessebene

oder auf Rechner-Ebene,

die da auf die gleiche Datenbank zugreifen.

also das sollten die Daten

schon können

gut, man hat nochmal ein bisschen Probleme

zum Beispiel Postgres kann halt nur

es kommt darauf an, welches Protokoll man verwendet

aber das Textprotokoll

von Postgres kann halt nur

eine Query gleichzeitig

beantworten, das heißt

bisher war das kein Problem, weil man kann sowieso immer nur

im Code

synchron eins nach dem anderen machen

aber jetzt kann man ja mehrere, das heißt man muss

auch mehrere Verbindungen aufmachen,

weil halt immer nur ein Query pro

Verbindung geht.

Das heißt, da muss man dann

intern poolen oder muss irgendwie

aus dem Pool

fallen. Das ist sowieso alles sehr kompliziert.

Auch die ganze Geschichte im ORM, was man dann umstellen muss,

das wird noch lange dauern, bis das alles

richtig funktioniert. Aber wenn es dann mal

irgendwann funktioniert, ist das ja cool.

Und das ist jetzt ein Schritt, ein weiterer

Schritt dahin. Also wir haben jetzt async ORM,

async Views, async Tests.

Ja, ja, also ORM haben wir noch nicht

Wir haben nur die Interfaces

Jetzt auch den Support für eine Library, die wir dafür brauchen

um das überhaupt machen zu können

Das heißt, das letzte was wir anstellen ist ORM

Genau, das ist halt

auch noch das komplizierteste Stück Arbeit

was noch da bevorsteht, genau

Ja, dann

es gibt jetzt Unterstützung

für Kommentare, für Spalten

und Tabellen, das ist irgendwie

ein Issue, der ist seit Jahren offen

und war irgendwie kompliziert zu fixen

ging nicht so gut, aus welchen Gründen auch immer, ich weiß gar nicht genau.

Das geht jetzt. Also sie haben irgendwie

einen Weg gefunden, wie sie das so hinkriegen, dass es kein Problem mehr ist.

Und das

ganz nett ist,

ab dann

wird man halt eventuell,

es gibt so Django

in-memory-storage, ich weiß nicht genau,

gibt es ein externes Paket, das sie nicht mehr brauchen,

das ist dann auch in Django selber drin. Das heißt,

man hat jetzt ein

in-memory-storage-backend für

Django mit dabei, das man einfach so verwenden kann

für Tests zum Beispiel.

und macht halt Tests einfach schneller.

Und, das freut mich

besonders, es gibt jetzt

eine Streaming-HTTP-Response

mit Async-Iteratoren

dran. Das ist im Grunde,

wenn man jetzt

zum Beispiel Files ausliefern will,

ist das halt

ein Problem. Das ging bisher nicht so gut,

einfach deswegen, weil man

da halt über die Blocks

eines Files, die man rausschicken wollte,

da so nicht Async drüber

iteriert hat.

und genau, ich habe da ja mal auf der Django 2021 einen Vortrag, wie kann man eigentlich Files mit Django

serven, gehalten, da habe ich das halt, dieses Ding rausgepatcht, irgendwie so per Monkey Patching

und es gibt auch ein Paket Django File Response, wo ich das so mache, das ist dann nicht mehr nötig,

weil das macht jetzt also ein Iterator, das heißt, es müsste eigentlich Files serven, müsste jetzt einfach so gehen.

Ja, das ist natürlich auch sehr cool.

Wir haben noch ein paar Konferenzen von zweien, weiß ich jetzt schon die Daten,

DjangoCon EU ist irgendwie 29. Mai bis 2. Juni 2023 in Edinburgh.

Edinburgh. Ich weiß gar nicht, sprechen wir uns auf?

Edinburgh.

Okay. Tja. Und PyCon.de oder PyData ist in Berlin 17. bis 19. April. Da gehe ich wahrscheinlich auch hin.

Europice ist vom 17. bis zum 23. Juli.

Aber ich weiß nicht wo.

Damit auch ja keiner

einen guten Flug buchen kann.

Das wird auch in Europa passieren wahrscheinlich.

Oder das ins Budget fürs Jahr einplanen kann.

Für was auch immer.

Ich glaube gerade das Management-Team hat da gewechselt.

Also die letzte hat noch

Mark and Re mit organisiert und jetzt machen das

irgendwie andere Menschen.

Die haben so eine neue Art und Weise wollen die machen mit

und wer das wie veranstaltet und sich was Neues Konzepte überlegt.

Mal gucken, ich bin gespannt.

Okay, ja, nee, dann, das wäre ja nach nur fast 20 Minuten mit den News durch,

diesmal relativ flott, dann kommen wir zum Hauptthema.

Dann eine ganz schnelle Folge.

Das glaube ich nicht.

Wie bei PyPy?

Warum mal, ja, die Folge ist ja PyPy.

Macht man damit nicht was schneller oder was ist der Zweck davon?

Oder weißt du was, womit wir anfangen?

Karl, wer bist du denn eigentlich?

Hallo.

Ich gehe hier schon die ganze Zeit so meinen Senf dazu.

Aber ja, also ich bin Karl-Friedrich Bolz-Tereik.

Ich bin hier an der Uni ein wissenschaftlicher Angestellter in Düsseldorf und habe da eine

halbe Stelle und bin im Prinzip angestellt, um eine Python-Einführung zu halten jedes

Semester für Leute, die nicht Informatik studieren.

Also das ist so Studium Universale mäßig.

und wenn ich die

gemacht habe, kann ich die restliche Zeit

so ein bisschen frei einteilen. Das ist eigentlich ein ganz

angenehmer Deal und ich bin

seit 2005

ungefähr einer der Kernentwickler des

PyPy-Projekts, über das wir jetzt auch dann gleich

noch mehr reden wollen. Also ich habe da halt irgendwie am Anfang

von meinem Studium angefangen. Ich war dann auch bei

den EU-Projekten,

die da am Anfang eine Zeit lang

für Finanzierung gesorgt haben,

recht intensiv

involviert und bin halt

so mit mal mehr, mal weniger

Involvierung seitdem immer wieder

halt dran beteiligt.

Also an dem Open Source

fandet Ding, was dann PyPy

direkt entwickelt.

Genau, also ich bin jetzt quasi einfach

erstmal nur so quasi

nur einer der Kernentwickler,

also die halt quasi Commit Rights

und Zeug machen.

Ich bin aber halt auch einer der

recht Aktiven im Moment, also

das Projekt schrumpft so ein bisschen,

da können wir vielleicht später auch noch drüber reden

und ich bin einer

derjenigen, die jetzt halt gerade noch viel,

recht viel machen.

Genau, aber das Projekt

hatte über seine Lebenszeit halt immer

wieder auch Phasen, wo das wirklich auch

viel Geld hatte.

so EU-Förderung,

Forschungsförderung,

immer mal wieder auch Geld von Firmen und

bei einigen von diesen

Forschungs-

oder Förderungsprojekten war ich halt auch dann

quasi aktiv dabei.

Da musst du auch mal direkt erzählen, was PyPy

überhaupt ist. Ja, genau.

Also genau, das ist quasi

die andere Frage. Also PyPy ist quasi

eine Alternative für CPython.

Wenn man halt irgendwie Python

in Python seine Programme schreibt, dann geht man halt normalerweise auf python.org

oder vielleicht kriegt man das auch irgendwann das her, aber man hat halt ein

Executable, das heißt Python 3 in der Regel oder Python, das führt man

aus und dann kriegt man halt irgendwie seine Shell und kann da Python-Code angeben oder kann halt damit

dann auch Python-Dateien ausführen und kann auf diese Art und Weise irgendwie seine

Programme laufen lassen. Und

dieses Programm, das wird halt von den Kernentwicklungen

der Sprache Python

geschrieben und

das gibt quasi vor, wie sich die Sprache

entwickelt und

dieses Programm ist in C geschrieben

und deswegen kann man das halt auch,

um es von der Sprache zu unterscheiden,

kann man das halt auch C-Python nennen.

Also das ist quasi so ein bisschen so ein Terminologie-

Trick, dass man halt

quasi die Sprache und die Implementierung,

dass man denen zwei verschiedene Namen gibt.

Also Python ist halt dann die Sprache

und das ist quasi erstmal so eine abstrakte

Entität und dann gibt es aber halt die konkrete

Implementierung, die man fast immer verwendet und das

ist halt CPython.

Und CPython funktioniert jetzt so, dass es halt ein

Interpreter ist. Also wenn ich jetzt damit irgendwie

meinen Python-Code ausführen will, dann

gibt es so ein bisschen so einen

versteckten Bytecode-Compiler-Schritt.

Also der

Python-Code wird dann irgendwie

analysiert und geparst und in

so ein Bytecode-Format übersetzt und

dann werden auch so PYC-Dateien

irgendwo auf der Festplatte

auch noch so ein bisschen zwischengespeichert

damit man das nicht jedes Mal machen muss,

aber dieser White-Code, der wird halt dann jedes Mal

von einem Interpreter ausgeführt.

was Piper

jetzt ist, ist quasi

der Versuch, Python-Code

schneller zu machen.

Es ist ja immer so ein bisschen

so ein Meme, dass Python halt irgendwie besonders

langsam sein soll und Piper ist halt

ein Forschungsprojekt oder halt auch ein

Open-Source-Projekt, mit dem man

das Ziel erreichen können möchte,

dass man den Python-Code einfach unverändert

schneller laufen lassen kann. Und das macht man eben so,

dass man eben sich sein Binary nicht

von Python.org runterlädt, sondern von PyPy.org.

Man kriegt dann ein Binary,

das heißt halt irgendwie PyPy und das

verhält sich erstmal eigentlich ganz genau so,

idealerweise quasi ununterscheidbar so,

wie der Interpreter,

den man von Python.org kriegt.

Vielleicht nochmal ganz kurz, PyPy ist nicht

PyPI. Genau, also Py, Py,

über die, also

das ist so ein bisschen doof, dass die

so ähnlich sind, aber

Ja, weil man von PyPI ja auch viel runterlädt.

Genau, ja, ja, absolut.

Aber PyPI lädt man

quasi in Python geschriebene

Bibliotheken runter, die dann auf

der Python-Implementierung laufen, aber

PyPy ist eben

wirklich das Binary, also

die Exit-Datei sozusagen.

Du hast nicht mehr erzählt, eigentlich war diese, weil ihr relativ

gleich alt seid als Projekte, war die

Unterscheidung früher gar nicht so einfach, weil das

andere waren die Cheesecakes. Genau, also

der PyPI hatte halt vorher dieses

Cheese-Shop-Branding, weil das ist so ein Monty Python-Sketch

mit dem

Cheese-Shop, wo man halt keinen Käse

kaufen kann. Ich weiß nicht, ob du das kennst.

Ja. Genau, da geht halt der Kunde

dann so ganz viel Sorten durch und die gibt es aber alle nicht.

Und kennst du auch das Wortspiel mit den Wheels?

Naja, im Cheese-Shop gibt es halt Käseräder.

Ja. Und die Wheels

sind halt Käse.

Okay, ah. Also, ja.

Das heißt, im Käseshop gibt es so Wheels.

Ja, okay, verstehe. Und deswegen gibt es Reels

auf PyPI.

Genau, und irgendwann haben die halt dann aufgehört mit diesem,

weil Cheese Shop ist halt doch sehr

idiosynkratisch

oder verspielt.

Der erste Draftnamen

von unserem Podcast war so Ministry of Silly Talk.

Ja, ist gar nicht schlecht.

Und also irgendwann wurde halt PyPI

dann ein bisschen ernsthafter und hat halt angefangen

dann sich nicht mehr

das Cheese Shop zu nennen. Und dann wurde halt

die Verwechslungsgefahr plötzlich dann auch akuter.

aber weil halt PyPI und PyPi

ziemlich genau gleich alt sind, also

PyPI ist ein kleines bisschen älter, so ein paar

Monate oder so,

haben halt beide Projekte nicht so richtig eingesehen

sich jetzt umzubenennen und

deswegen müssen wir jetzt halt mit dieser

Verwirrung leben.

Genau, also wir waren an dem Punkt, man kann von

PyPi.org sich ein Binary unterladen, das heißt

PyPi.excel unterbinden oder halt einfach nur

PyPi und das verhält sich eigentlich

idealerweise ganz

genauso wie das Binary, was man

von Python.org kriegt. Man kann damit

Python-Code ausführen, man kann damit

einen interaktiven Interpreter

kriegen und alle

Command-Line-Switches sind die gleichen.

Mit dem einzigen Unterschied, dass

der Python-Code,

den man damit ausführt, halt hoffentlich schneller ist.

Was ist mit Paketen

und Libraries und so weiter?

Genau also alles was quasi in Python geschrieben ist sollte halt gehen Wir haben nat ab und zu Bugs Es gibt immer irgendwelche super spezifischen Feinheiten

wo man dann halt doch so ein bisschen Verhaltensunterschiede finden kann.

Aber so der Anspruch an uns selber ist halt,

dass wir quasi wirklich das komplette Verhalten der Sprache eins zu eins nachbauen.

Und zwar bis in die Bugs rein.

Also es gibt halt immer wieder so Randfälle, wo man dann anfangen kann zu diskutieren

und sagen kann, naja, was ist denn jetzt mit diesem

Randfall, könnte man da nicht argumentieren,

dass C-Python da halt irgendwas komisches macht.

Aber das machen wir halt nicht, sondern wir sagen halt

immer, im Zweifelsfall

bauen wir halt auch die ganz, ganz komischen Sachen nach,

weil es stellt sich halt raus, dass

irgendjemand verlässt

sich so ein bisschen auf alles.

Es gibt eigentlich keinen

Randfall, der so merkwürdig ist,

dass es nicht eine Bibliothek gibt,

eine kleine vielleicht,

die sich dann beschwert, wenn man das kaputt macht.

Selbst wenn man halt dann sagt,

Wir sind aber viel konsistenter und das macht ja so viel mehr Sinn.

Das ist halt doof.

Für so eine Bibliothek ist das doof, wenn sie

dann so unterscheiden muss,

auf welcher Python-Implementierung

sie jetzt gerade laufen.

Deswegen versuchen wir da auch nichts mehr

zu verbessern.

Es gibt natürlich trotzdem Stellen.

Wir haben halt dann, was weiß ich, mal eine leicht andere Fehlermeldung.

So etwas kommt da schon vor.

Vom Anspruch her

sollte sich halt genau gleich verhalten und der einzige Unterschied ist quasi wirklich

idealerweise, dass bei uns die Programme halt viel schneller laufen.

Und warum macht man das dann nicht direkt immer mit PyPy? Alles?

Ja, also genau, jetzt können wir so ein bisschen über die Nachteile reden.

Also das eine ist halt, wir sind halt nicht die maßgebende

Implementierung, die jetzt die Evolution der

Sprache selbst vorgibt. Also C-Python hat

halt so eine Doppelfunktion, dass es

einmal

ist das die Default-Implementierung, die

halt von fast allen verwendet wird, aber auf der

anderen Seite ist es halt

auch die Gruppe an Leuten,

die letztlich darüber entscheiden,

in welche Richtung sich die Sprache

weiterentwickelt. Weil in jeder neuen Version

von C-Python ist es ja so, dass da

eben nicht nur, jetzt sage ich mal, irgendwie technische

Verbesserungen an der Implementierung

gemacht werden. Das kommt natürlich auch mal

vor, also jetzt in 3F zum Beispiel ganz doll.

Aber insbesondere gibt es halt

auch bei jeder Version irgendwelche neuen Sprachfeatures.

Das heißt,

Python.org, diese Community, die ist halt

für zwei Sachen zuständig. Einmal

dafür, dass das alles funktioniert, aber auf der anderen Seite

eben auch für so Fragen wie,

welches Pad nehmen wir an, welches neue

Language-Feature wollen wir haben, welche neue

Standard-Bibliothek,

so Geschichten. Und da, also da

sind wir halt raus. Also aus diesen ganzen

Sprachdesign-Fragen, da haben wir keine

Meinung zu. Ihr nehmt euch dann einfach das

letzte offizielle Release und dann

das Prinzip heißt und baut das dann eure Änderungen.

und es ist schon dann mal so, dass wir bei den

C-Python-Diskussionen dann auch mitreden und

sagen, ja aus unserer Sicht hat das die und die,

also gibt es jetzt hier diese

Trade-offs oder so, aber

wir versuchen uns halt so erstmal aus

Sprach-Design-Fragen auch

irgendwie erstmal rauszuhalten.

Also einfach auch, weil das unser Leben so ein bisschen leichter

macht, dann gibt es halt,

ich meine, ich habe da natürlich dann quasi so privat

auch manchmal eine Meinung dazu, was es jetzt an Featuren

gibt und manche finde ich cool und manche finde ich

weniger cool, also ich meine, das geht

ja allen Python-Programmierern so, dass

man halt eine Meinung hat, aber wenn ich

dann quasi meinen

Pipeline-Hut aufhabe, dann versuche ich diese

private Meinung halt dann auch zurückzunehmen und zu sagen,

das ist jetzt halt so, das ist Teil der Sprache

und das implementieren wir jetzt halt.

Also du bist ja eigentlich gar kein Python-Programmierer, hast du selber gesagt.

Ja, über die Architektur reden

wir gleich noch, also irgendwie

dann schon, aber halt auf ein bisschen

indirekte Art und Weise. Also ja,

ich wollte noch was zu den Versionen

sagen, wir sind immer so ein bisschen hinterher,

das ist nicht so gut

eigentlich haben wir immer so ein bisschen den Anspruch

dass wir quasi eine Major Version hinterher sind

also wir können halt nicht Schritt halten

C-Python hat halt einfach viel mehr Leute

und die

die rennen uns halt davon

und was halt so ein bisschen unser Ziel ist

ist dass wir quasi

immer so eine Major Version hinterher sind

das ist auch immer ganz gut

wenn dann quasi 3.11 rauskommt

dann haben so langsam alle Bibliotheken

sich darauf eingestellt, dass sie 3.10 supporten

und wenn wir dann auch mit unseren 3.10 rauskommen,

dann passt das so ganz gut zusammen.

Gerade sind wir ein bisschen mehr,

also wir haben jetzt nicht so krass getaktete

Releases wie C-Python, sondern

das wird halt, also wir machen

alle paar Monate Release, aber das heißt nicht unbedingt,

dass dann auch die neue C-Python-Version

supported wird.

Und gerade sind wir

so ein bisschen hinterher, also 3.9

ist jetzt eigentlich sehr, sehr stabil

und 3.10

ist in der Mache, aber noch nicht released.

und danach kommt halt dann 3.11.

Also das ist quasi ein Nachteil,

warum man PyPy halt nicht nehmen sollte.

Ist ein bisschen hinterher.

Und dann

habe ich vorhin gesagt, naja, jedes Python-Programm

sollte halt gehen und idealerweise schneller sein.

Da gibt es jetzt zwei

Fußnoten an dieser Aussage.

Die eine Fußnote ist halt C-Extensions.

Aber Lampai ist kaputt?

Nee, kaputt halt nicht.

Also inzwischen ist das so, dass wir so eine

komplette Kompatibilitätsschicht

haben, mit der

80% aller

in C geschriebenen

Bibliotheken in PyPy auch gehen.

das ist wirklich, wir emulieren halt

dieses Interface. Für C-Python ist das

Interface halt wirklich genau

so, wie der Interpreter auch wirklich funktioniert.

Und der Interpreter benutzt halt

Reference Counting und

die C-API, die

hat halt überall

die Tatsache, dass das Reference Counting ist exposed.

Es gibt halt ein Increase Reference

Count Makro und einen Decrease Reference Count Makro und alle

Libraries, die dann gegen diese API implementiert sind, die müssen das halt überall

auch korrekt verwenden. Aber bei uns ist es so, dass wir unseren Speicher halt nicht

mit Reference Counting verwalten. Das heißt, wir müssen dann für die Bibliotheken

so tun, als hätten wir einen Reference Count. Und das kostet halt so ein bisschen

Performance. Das heißt, bei uns sind in C-geschriebenen Erweiterungen halt

quasi, die funktionieren, die können aber halt oft einfach

langsamer sein. Und das ist natürlich doof, weil...

Du machst einen Paket, der schneller sein will, aber die Sachen wird langsamer, als wenn du die eigentlich auf normalem Python-Offenheitsfeld

hast. Genau. Also ich meine, der Grund, warum man... Es gibt ja so ein bisschen zwei Motivationen,

warum man in C geschrieben die Bibliotheken verwendet. Einmal, weil man halt gerne mit irgendwelchen

Bibliotheken reden will, die halt in C geschrieben sind. Das ist halt

ein Ansatz. Aber ein anderer Grund ist halt, wenn man irgendwas schneller machen will, indem man es in C

schreibt. Und diese Motivation, die funktioniert halt dann auf PyPy

oft nicht. Und es wäre dann

zum Teil einfach auch echt besser, wenn man halt einfach

Python-Code nehmen würde.

Aber weil halt für C-Python alle jetzt schon

ihre tollen NC-geschriebenen Optimierungen gemacht haben,

ist das dann für uns oft

auch halt eine Verschlechterung.

Könnte man da nicht vielleicht einfach auch den

C aus PyPy heraus

irgendwie einfach den C-Python-Interpreter

wieder aufrufen und den diesen

Kram händeln lassen? Ja,

da gab es auch immer mal wieder so ein paar Experimente.

Aber dann verliert man halt, also man

will halt, dann verliert man halt möglicherweise die Vorteile für den Python-Code wieder.

Also das Problem ist, du willst ja halt beide Seiten auch miteinander reden lassen.

Wenn du halt nur C-Code hast, dann ist halt eh die Frage, was hast du da noch mit Python

zu tun.

Spannend wird es halt dann, wenn dein Programm aus interessanten Teilen auf der Python-Seite

besteht und interessanten Teilen auf der Bibliotheksseite.

Die andere Fußnote ist, dass es manchmal nicht klappt.

also es gibt halt, manchmal

hat man wirklich einen Python geschriebenen Code

der wird nicht schneller, also man muss

halt einfach messen

und um mal so ein bisschen so eine

Größenordnung zu nennen, wir haben halt

so Speedups

zwischen, so im allerbesten

Fall, wenn halt alles ganz toll ist und du

Pure Python Code hast, gar keine Bibliothek, die ins hier geschrieben ist

und das ist alles

jetzt sag ich mal sehr numerisch, also hast viele

Zahlen und irgendwie

viele Floats oder, aber du machst das auch wirklich alles

in Python. Dann kannst du halt so Speedups von 50 Mal schneller

als in Python kriegen. Also das ist schon, also alle Leute, die halt sowas wie

Advent of Code machen. Advent of Code ist eigentlich so,

ich scherze, aber ist irgendwie auch was wahres dran. Advent of Code ist halt irgendwie einer der Haupt

coolen Use Cases für PyPy. Es ist halt

irgendwie nicht so viel Code, es passt auf ein paar Bildschirme, es ist irgendwie sehr algorithmisch

und man braucht nicht so viele Bibliotheken und Performance ist irgendwie auch

wichtig und da ist halt PyPy einfach

mega gut dafür.

Genau, also bei Performance

ist es halt so, man muss halt einfach messen.

Du kannst halt nicht

quasi so a priori entscheiden,

dass es immer jetzt

Speedup X

bringt, sondern es führt

quasi keinen Weg darum, dass du deine konkrete

Anwendung halt ausprobierst und schaust,

bringt es was oder halt nicht.

Habt ihr da irgendwie ein Referenzsystem oder macht ihr das einfach mal

so objektiv von dem überliegenden Rechner?

Du meinst jetzt quasi

inwiefern das von der darunterliegenden Hardware abhängt?

Ja, zum Beispiel, ja

Das ist glaube ich nicht so ein Problem

Wir unterstützen so einen Haufen

CPU-Architekturen, aber

da sind wir nicht so sensitiv

Es geht eigentlich dann eher darum, was für

Bibliotheken benutzt dein Projekt und sind die eher

so C-lastig oder was

Es gibt halt

Teile der Sprache, wo wir einfach richtig, richtig gut drin

sind, die schneller zu machen

und Teile der Sprache, wo wir dann

nicht ganz so viel rausholen können.

Wie viel lernt C-Python von euch?

Das ist eine gute Frage.

Achso, ich wollte kurz

die andere Abschätzung. Also im besten Fall so

30-40x.

Und im schlechtesten Fall ist man halt auch

mal 30% langsamer.

Und das ist halt dann doof. Da will man halt dann nicht sein.

C-Python,

ich habe manchmal so

quasi so Momente

des Zweifelns. Ich verbringe

seit 18 Jahren

ein Teil meiner

Freizeit und ein Teil meines Berufs

damit an diesem Projekt zu basteln.

Und so richtig,

was weiß ich, 99% von allen

Deployments sind halt dem C-Python.

Und man kann sich dann halt die Frage stellen,

warum macht man das eigentlich?

Also mir macht das natürlich

irgendwie einfach unglaublich viel Spaß.

Ich bastel da gerne dran rum, aber es ist natürlich

auch schön, dann so ein bisschen so quasi

externe Motivationen aufzukriegen.

klar, es gibt immer wieder Leute, die das halt dann benutzen

und das ist halt auch sehr cool, aber

es gibt halt immer wieder auch Momente,

wo wir dann quasi so rück

so rück

politische

Rückauswirkungen auf C-Python haben

und das ist quasi meiner Ansicht nach

auch so ein bisschen so ein

so ein, der zweite Grund, warum ich

halt der Ansicht bin, dass es eine

gute Sache ist, dass es eine

zweite, sehr ernsthafte Implementierung

der Sprache Python gibt, weil

wir quasi... Also doch so ein bisschen

Feature-Entwicklung durch die Hintertür.

So ein bisschen Feature-Entwicklung durch die Hintertür, ganz genau.

Und das ist zum Beispiel interessanterweise bei den

Fehlermeldungen passiert.

Also so ein paar von den...

Das war 3.10.

Ja, 3.10 und 3.11.

Ja, und bei beiden...

Also ich will jetzt wirklich nicht...

Keine Credits claimen.

Ich will keine Credits claimen.

Ich will auf gar keinen Fall, also was Pablo und

Batoan Toskaya und sowas, was die da an Aufwand

reingesteckt haben. Unglaublich

nervig

und auch wirklich sehr, sehr cool.

Ich bin sehr zufrieden mit der Verbesserung. Wie gesagt,

ich unterrichte Anfänger. Ich kriege das quasi immer mit,

wenn das halt mal schief geht mit

den Fehlermeldungen. Aber

so ein bisschen, so der

ursprüngliche Drive kam mal so ein bisschen von PyPy.

Also zum Beispiel dieses mit den

nicht gematchten Klammern. Das ist ja so

einer der neuen Fehlermeldungen, dass es halt steht

die öffnende Klammer, die öffnende

Ecke Klammer auf Zeile 5 wird mit einer runden

schließenden Klammer auf Zeile 9

geschlossen, da stimmt das nicht.

Das war halt einfach,

das habe ich einfach vor ein paar Jahren mal implementiert

und irgendwann hat es halt in C-Python dann doch

jemand mal gesehen und fand es cool genug,

um es halt dann doch

halt auch dann mal quasi nachzuimplementieren.

Und jetzt ist es

so ein bisschen, fast so ein bisschen so ein Race manchmal,

also gerade sind die,

haben die ganz schön auch vorgelegt, also

so ein paar der Fehlermeldungen haben wir

jetzt noch nicht wieder übernommen,

aber an ein paar Stellen gibt es halt

immer noch ein paar, wo ich mit unserem

dann zufrieden hat. Zum Beispiel so ein absoluter Standard-Anfängerfehler,

wo man halt echt Riesenprobleme hat, wenn man in Python

einsteigt, wenn man so Objektorientierung lernt. Man schreibt halt seine ersten Klassen und

schreibt Methoden und kommt halt vielleicht von Java und vergisst das Self.

Und dann versucht man, die Methode aufzurufen.

Erstes Argument fehlt. Und dann stimmt halt die Argumentzahl nicht. Und dann vergleicht man

halt einfach mal die Aufrufstelle mit

mit der Funktionsdefinition

und sagt, was ist denn eigentlich dein Problem?

Ich habe ja doch drei Argumente, warum

beschwerst du dich denn, dass ich da nur

zwei reinreiche?

Oder ja, das stimmt ja dann immer nicht.

Und da

mache ich in PyPy

einfach nur, wenn

es quasi einen off-by-one-error bei einem

Methodenaufruf gibt, genau

in diese Richtung, dann schaue ich,

dann schaut der Interpreter nach, ob das erste

Argument self heißt.

Und wenn nicht, steht einfach nur

noch da, did you forget self

in the method definition?

Ja, keine Ahnung, das ist natürlich, also

bei diesen Fehlermeldungen

ist es halt auch wirklich so, du hast

halt einfach tausend Fehler, also das ist auch nicht

übertrieben, es gibt halt ganz viele Stellen im

Interpreter, wo halt Fehler produziert werden

und jede einzelne ist

halt dann irgendwie vielleicht auch gar nicht so wichtig, also

diese Arbeit an Fehlermeldungen,

die ist halt wirklich auch in gewisser Weise

sehr nervig, weil man sich um jede einzelne

irgendwie halt Gedanken machen muss.

und da gibt es halt auch keine Shortcuts.

Aber das ist halt eine,

wo ich mal dann so einen Tag

dran Spaß hatte, mir zu überlegen, wie man das halt vielleicht

verbessern kann.

Aber ich bin halt,

ich habe so ein bisschen,

wie gesagt, ich will keinen Credit klauen, aber ich habe

so ein bisschen

das Gefühl, dass wir da einfach so ein bisschen so einen Push

gegeben haben, so einen Inzial-Push. Wir hatten halt an

vielen Stellen

da so ein paar Sachen dann zuerst implementiert

und das fließt jetzt

ganz stark in den T-Preisen an, da bin ich einfach mega glücklich drüber.

Das ist der Forscherdrang,

der so ein bisschen auch in die richtige Richtung geht.

Der was? Der Forscherdrang.

Ja, keine Ahnung,

eigentlich ist das nicht mein Forschungsgebiet.

Das war eher so ein bisschen,

ich habe halt dann wirklich gesehen, dass es für die

Studenten echt dann zum Teil wirklich blöd ist.

Das wurde jetzt auch

abgeschafft.

Ich glaube jetzt auch in 3.11.

Oder in 3.10, ich weiß nicht so.

Zum Teil gab es diese

Synthex-Fehlermeldung, die echt so ganz

komische Abkürzungen drin hatten, die halt

einfach nicht ausgeschrieben waren.

Insbesondere bei, zum Beispiel, wenn man die

wenn man die

die Quotes vergessen hat beim

String. Du hast einfach nur

x gleich A, B, C und dann

hast du hinten die Quotes vergessen. Da war früher

die Fehlermeldung

irgendwie EOL

while scanning string literal.

Endpalette runter oder sowas auch noch verteilt.

Genau, ganz genau.

Und das haben sie jetzt gefixt. Das heißt

jetzt halt wirklich end of line, weil ich meine,

Woher soll irgendjemand wissen, was EOL heißt?

Was Scanning heißt?

Und auch noch, was String Literal heißt?

Und das ist jetzt wirklich schöner.

Und das ist zum Beispiel in Triple Quoted String,

sagte dir jetzt auch die Fehlermeldung,

da war die Fehlermeldung halt immer in der allerletzten

Zeile der Datei.

Weil er sucht ja einfach

immer weiter.

Bei Triple Quoted String ist es halt einfach dann wahrscheinlich

der ganze Rest, der darin liegt.

Und am Schluss fehlt was dann.

und das wurde in 3.10

gefixt, ist es jetzt halt so, dass er dir

wirklich dann die Zeile zeigt, wo die öffnenden

Glöckelbots sind und das ist natürlich viel schöner

und die andere

Zeilennummer kommt aber auch vor in der

Fehlermeldung, das heißt, du hast dann wirklich beides

ja, also das ist alles schon

sehr, sehr cool und ich meine, die

in 3.11, die Position Informations

die sind halt auch so ein bisschen

das war quasi noch ein bisschen

FISA von mir. Das hatte ich noch nicht mal implementiert.

Da habe ich nur so ein Screenshot gefakt,

wo ich halt einfach nur im

Editor einfach mal

so diese

Tilde unter den Teil des Ausdrucks gemacht

habe, wo der Fehler herkommt. Dann habe ich

ein Screenshot davon getwittert und

das hat

Pablo gesehen und dann

super auffällig. Es war ja

ein wirklich sehr nerviges Feature.

Ja, das glaube ich. Ich habe mich schon gefragt,

wie das implementiert wurde,

weil das war ja sehr cool, aber

Oh mein Gott, wie ist das denn implementiert?

Wie kriegt man das denn alles raus an den Stellen?

Man muss halt wirklich einfach die gesamte Information

durch den gesamten

Stack so durchfädeln.

Und das ist an jeder Stelle, da muss man das weiterreichen

und an jeder Stelle hat man halt

am Anfang hatten die

Syntaxbäume halt auch die Informationen

gar nicht. Am Anfang hatte der Syntaxbaum halt

nur eine Zeilennummer und dann kam irgendwie noch

die Spaltnummer dazu, aber halt nur

den Anfang.

Also das Ende, bis wohin das dann geht, das war halt

das kam gar nicht vor.

Also nochmal für alle, es gibt halt

Fehlermeldungen, da wird ja jetzt die Position, wo das

der Fehler passiert ist, mit so

Dreiecken unterkringelt, quasi unterstrichen

wo das halt aufgetroffen wird

Und da hatte ich halt diesen Tweet gefakt und jetzt gibt's das

Also das ist mega geil, das sollte ich einfach

öfter machen

Also ich muss das jetzt

Das kommt dann wieder zu mir zurück

weil wenn wir dann 3.11 unterstützen, dann muss ich das ja auch

implementieren, also insofern

habe ich jetzt mich da ein Stück weit auch

selber mit reingelegt, aber dass es jetzt halt in C-Weiten drin ist

finde ich einfach mega cool

Dann weiß man halt schon, dass es sich lohnen wird, das zu implementieren

Und ich meine, das andere große Feature, wo wir halt dann quasi so ein bisschen

also jetzt nicht Druck ausgeübt, aber halt dann quasi

Einfluss produziert haben, sind halt die Ordered Dictionaries

Also das ist ja in 3.6 glaube ich

Informell, aber 3.7 wird dann auch tatsächlich garantiert

In 3.6 haben sie halt gesagt, ihr dürft euch nicht darauf verlassen, dass die Dictionaries

jetzt in der Einführungsreihenfolge

sind und

in 3.7 haben sie

dann gesagt, na, das funktioniert so gut, dass

wir jetzt halt sagen, wir werden das auch nicht wieder abschaffen

und man darf sich jetzt darauf verlassen, weil es halt an ganz vielen

Stellen echt auch viel Vorteil hat.

Und das ist ein Pi-Pi-Feature.

Achso, okay, das war gar nicht klar.

Da gab es halt von Raymond Hettinger, gab es mal so ein

Prototyp, aber in Python, in Pure

Python und

wir haben halt einfach gesagt, das

sieht halt als Algorithmus echt gut aus

und wir machen jetzt das Ganze in

Engineering, was man halt braucht, um

das dann wirklich quasi in Produktiveinsatz

in die Implementierung einzubauen.

Das haben wir halt einfach dann irgendwann mal gemacht.

Und zwar noch nicht mal

für unsere 3.6-Version, sondern halt für

unsere 2.7-Version.

Also bei uns sind halt Dictionaries schon immer,

also nicht schon immer, aber jetzt schon seit ungefähr 10 Jahren

irgendwie geordnet. Und das war auch

ganz schön, also das war auch dann schon

nochmal ganz schwierig der Aufwand. Also dieser

Python-Code war halt so ein

jetzt Sketch wäre ein bisschen untertrieben.

hat halt den Algorithmus

so irgendwie

präsentiert, aber quasi dann

das zu nehmen und es dann so weit

zu pushen, dass es halt so gut ist

und quasi an allen

Stellen mit dem

bisherigen Dictionary-Algorithmus dann auch

wirklich mithalten kann und

trotzdem die Insertion-Order halt quasi

erhalten bleibt, da haben wir halt dann wirklich

nochmal sehr viel extra Aufwand

reingesteckt, also

Maschek Fischakowski und Armin Rigo haben das vor allem gemacht

und dann hatten wir das halt irgendwie und dann gab es halt einen

C-Python-Entwickler, der

der hat das dann quasi wieder

rückportiert, also hat halt unseren Code genommen

und hat gesagt, ja cool, wir

bauen das jetzt in C-Python ein und hat dann die nötige

ich weiß nicht, ob es da ein PEP für gab oder ob er die nötige Mailing-Listen-Diskussion

geführt und dann landete das halt in

3.6 und dann wurde es halt quasi auch offiziell Teil der Semantik.

Und ich meine, das ist ja eigentlich auch ganz cool, weil es ist halt wirklich,

ich meine, das ist ja ein extra Feature.

Intuitiv.

Das ist intuitiv. Ich finde es auch zum Lehren viel nicer, wenn man halt sagen kann,

wenn man nicht immer erklären muss, warum beim Printen plötzlich halt einfach die

Keys halt so durcheinandergewirbelt werden. Das war ja früher so.

so eine komische Indirektion jetzt drin,

dass man quasi einmal die HashMap

hat und dann aber noch ein zweites Array,

wo die Sachen in der Insertion Order

drin sind. Und dann würde

man halt erstmal denken,

dass man halt da plötzlich ganz viel Speicher

irgendwie mehr braucht,

weil man diese Indirektion hat.

Und da gibt es halt dann so einen Trick

und das ist wirklich auch das, was ich nicht

verstanden hätte vorher, bevor die

Leute sich halt ausgedacht haben.

Der Trick ist jetzt, die HashMap,

die darf ja nicht voll sein, weil du sonst Collisions kriegst.

Also wenn du

quasi, wenn

dein HashMap irgendwie zu voll wird,

dann musst du halt irgendwie die verdoppeln,

um sicherzustellen, dass

du beim nächsten Mal speicherfrei bist, wo du irgendwas reinkriegst.

Genau, ja. Und der Trick ist jetzt aber,

dass du

mit dieser Indirektion jetzt

den großen Teil

einfach

linear speicherst.

Also du kannst

diese Lücken fallen dann weg.

Die Lücken sind nur noch in deiner

Indirektion drin, aber nicht mehr

in deinem wirklichen Array, wo

halt für jeden Eintrag ein

Hash, ein Key und ein Value gespeichert werden.

Weil ein Eintrag

von einem Dictionary besteht ja quasi aus

drei Maschinenwörtern und

wenn die dann quasi immer noch so Lücken haben,

hast du halt ständig Lücken, die

alle drei Maschinenwörter groß sind.

Aber wenn du die Indirektion einbaust,

dann ist quasi ein Eintrag nur noch

ein Index in den

dichtgespeicherten

Insertion Order

Speicher.

Jetzt sind wir an dem Punkt, wo wir eigentlich gerne ein Bild

malen würden.

Vielleicht ist dann der Blogpost.

Ich finde den mal und wir verlinken den dann.

Aber für mich war es halt

erstmal nicht klar, dass das wirklich

eine gute Idee ist.

Ist es aber. Also Schnelligkeit

raus, es ist es.

Ja, cool.

Echt interessant.

und dann hat man quasi dann

für drüber iterieren muss man dann einfach nur noch durch die

echte Liste gehen und es gar nichts mehr macht.

Das Iterieren ist halt auch besser, weil

vorher war es halt so, man musste

quasi über die Hashmap drüber iterieren

und bei jedem Eintrag gucken,

ist das überhaupt ein Eintrag oder nicht.

Jetzt kann man aber quasi über den

dichten Speicher drüber

iterieren, wo einfach alle Einträge gültige

Einträge sind.

Und man muss halt gar nicht mehr, man hat dann quasi,

verliert auch ein If in jedem

Next-Aufruf.

Also vorher war es so, dass man quasi in einem

Next aufrufen eine Schleife brauchte, um den nächsten

gültigen Eintrag zu finden. Und jetzt weiß man

halt einfach, es ist der nächste Eintrag.

Ja, schick.

Ja, genau.

Das wäre halt auch noch so ein Beispiel, wo wir quasi dann

die Implementierungsebene so ein bisschen beeinflusst

haben.

Aber sonst,

also so die ganzen Kerntechniken,

die wir,

also wir haben jetzt noch gar nicht so,

bisher haben wir eher so ein bisschen phänomenologisch darüber

geredet. Wir führen das aus, es wird schneller.

Und ich glaube,

jetzt müssen wir vielleicht so ein bisschen anfangen,

darüber zu reden, wie das eigentlich geht.

Also die Kern...

Vielleicht, ich hätte noch ein, zwei Fragen.

Ja, absolut.

Werden alle Sachen schneller?

Was mit anderen Sprachen?

Also kann da C++ irgendwie, wenn das angebunden ist,

ein Problem?

Es wird halt erstmal vor allem

Python schneller.

Also wirklich, wenn du Python-Code auswählst, wird das schneller.

Aber die anderen Sachen laufen noch?

Die anderen Sachen laufen noch und es kommt so ein bisschen

drauf an,

was die genau machen, ob die dann

vielleicht langsamer werden oder

halt einfach gleich bleiben oder

und dann gibt es halt

so Randfälle, zum Beispiel reguläre Ausdrücke

sind auch sehr, sehr schnell bei uns in PyPy,

obwohl die natürlich eigentlich kein

Python-Code sind, aber da haben wir dann extra

Optimierung dafür. Das ist ja quasi

so eine kleine DSL

in Python.

Kannst du die DSL nochmal beschreiben,

weil ich so ein Längenwissen weiß?

Genau, eine Domain-Specific-Language

für String-Matching.

Ich meine, das ist eine sehr häufige, die halt quasi überall

eingebaut ist, aber es ist ja schon eine andere

Programmiersprache als Python letztlich.

Aber wir haben halt dafür auch dann quasi

ganz viel Optimierung gemacht,

dass das halt auch schon ist.

Normalerweise kann ich die per PyEnv einfach

anzudämmen, dann mein

PyPy auch? Ich glaube, PyEnv

unterstützt auch PyPy, ja. Also Otox

hat eigentlich zum Beispiel PyPy-Support, wenn du das testen willst.

Das ist schon an vielen

Stellen quasi so ganz

gut in die

Infrastruktur.

Nach den Semesterferien

kriegen wir hoffentlich einen Alpha-Release.

Da arbeite ich gerade dran.

Heute Morgen habe ich

zwei Packs gefixt. Das ist das, was ich

jetzt gerade wirklich konkret mache.

Die großen

Features sind halt fast fertig.

Pattern-Matching ist da

3.10 hat außer Pattern-Matching

auch viele mittelgroße Sachen.

oder so.

Aber Pattern Matching, das war

wirklich auch, kann ich mir vorstellen, das

macht ja beim Parsen

ein relativ großes... Ich glaube, das konnte ja auch

nur deswegen in CPython

irgendwie gemacht werden,

weil da dann der neue

Packparser irgendwie verwendet wurde und ich weiß gar nicht,

bei PyPI

ist es mir reingefallen.

Da ist ja,

da weiß ich gar nicht, was da verwendet wird, aber das

könnte ja dann auch aussehen.

Da hatte ich zum Glück sehr gut...

Vor einem Jahr hatte ich dann 3.9 implementiert

und da war 3.10 ja schon

raus und da habe ich halt gesehen,

der Packparser wird wichtig

und ich habe dann quasi bei 3.9 schon die ganze

technische Vorarbeit

dafür geleistet.

Wir haben auch einen Packparser, quasi mehr oder weniger

die gleiche Architektur. Wir können nicht

ganz das gleiche Input-File nehmen,

weil, ich weiß nicht, ob du mal in diese Grammatik

das File reingeschaut hast?

Nee, nicht wirklich.

Also das ist halt im Prinzip so ein bisschen so eine kontextfreie Grammatik,

wie man das halt irgendwie

aus irgendeiner Informatikvorlesung

vielleicht mal gesehen hat, aber

im Unterschied zur alten Grammatik ist das so,

dass jetzt in der Pack-Grammatik

da sind halt so Schnipsel an C-Code

Und die wollen wir halt nicht

haben. Und wir müssen quasi

die Schnipsel an C-Code, die mussten wir halt quasi von Hand

einfach einmal überall ersetzen. Und das war

sehr, sehr nervig.

Und das ist auch so ein bisschen meine Kritik,

dass quasi

die Grammatik der Sprache

vermischt wird mit den Parsing Actions,

die in C geschrieben sind, bei C Python.

Bei uns sind die nicht in C geschrieben,

wir werden gleich noch darüber sprechen, worin

die bei uns dann geschrieben sind, aber

das war halt dann einmal sehr,

sehr nervig, da drüber zu gehen und alle

diesen C-Schnipsel dann da auszutauschen.

Und da gibt es, da habe ich dann auch

immer mal wieder einen Fehler gemacht, die finde ich dann jetzt

auch immer mal wieder einen, also

das war halt einfach Aufwand, aber

ich habe halt damals quasi schon vor dem Jahr

dann quasi schon vorgearbeitet und gesagt,

wenn dann 3.10 kommt, dann

will ich halt quasi auch schon darauf vorbereitet

sein, dass das Pattern Matching

dann in den Parser zumindest einfach

einzufügen ist. Aber

es ist halt nicht nur ein Parser, es ist

ganz viel neues Syntax, aber es sind halt

auch einiges an neuen Bytecodes und der

Bytecode-Compiler hat halt

ganz, ganz viel recht

komplexe Logik auch gekriegt

und das habe ich jetzt aber, das ist zum

größten Teil jetzt halt ziemlich fertig.

Also da fehlt mir noch so

einen Randfall, den muss ich jetzt irgendwann noch fixen, der

hat mich bisher noch zu sehr genervt, aber

also das ist quasi fast durch

und dann also jedes

also jedes Release

so der

ich versuche mal so ein bisschen ein Gefühl

dafür zu vermitteln, wie sich das anfühlt an so einer

neuen Python Version zu arbeiten, es gibt halt immer

irgendwie fünf große Features, die man halt auf der

What's New Seite

kennt und die implementiert man halt

das ist dann irgendwie halt auch nice, ja weil

da ist so ein klar umrissener Task

und man freut sich vielleicht halt auch über

vielleicht ist es halt auch ein Feature, was man gut findet

Ich weiß nicht, wie ist euer Bauchgefühl?

Wie gefühlt ihr dir Pattern Matching?

Ich liebe es.

Ich habe es noch nicht wirklich viel verwendet.

Ich mag das total gerne.

Statt if, elif irgendwie einfach schöne Cases zu machen.

Gerade für so API-Parsing.

Ich finde, man muss sich ganz...

Ich verstehe absolut, dass man das

total cool finden kann. Ich habe es auch noch nicht so

richtig im Produktiv...

Irgendwas geschrieben, was halt

nicht einfach so ein Toy-Beispiel ist.

Aber man muss sich schon so ein bisschen reindenken.

Ich finde, es unterscheidet sich halt in mancher Hinsicht schon so ein bisschen von dem Feeling von Python an so ein paar anderen Stellen.

Ich glaube, wenn man dann da so mal gedanklich drin ist, ist es, glaube ich, wirklich auch sehr, sehr cool.

Aber man braucht so ein bisschen.

Oder ich habe das Gefühl, dass ich so noch so ein bisschen brauche.

Man kann irgendwie so direkte Kommandos geben und man kann da direkt sagen, was das ist.

Und in Zusammenhang mit den Typen, finde ich, ist das sehr schön.

Wenn man halt tatsächlich Typen definiert hat, dann kann man halt einfach diesen Typ als Case nehmen.

und das ist halt

genau das, was man wahrscheinlich irgendwie...

Aber was man dann wirklich in die Pythons reinschreibt das ist halt quasi nochmal so ein bisschen so eine Sprache in der Sprache und die ist halt schon so ein bisschen anders halt auch als der Rest von

Python.

Du musst vielleicht gleich nochmal so ein bisschen

ausholen darüber, was eigentlich so eine Sprache aus deiner Sicht

halt ist.

Das ist jetzt ziemlich schwammig.

Genau.

Aber auf jeden Fall, man hat da so ein großes Feature,

sowas wie Pattern Matching, das ist halt

schön, da kann man,

weiß man, das ist relativ klar umrissen,

wenn man das Feature cool findet, dann macht es halt

auch richtig Spaß, das zu implementieren.

Über ein paar Tage hinweg fängt es halt

dann an zu funktionieren. Das ist halt einfach immer wieder

auch sehr cool. Und

irgendwann ist man halt dann mit allen großen Featuren

fertig und dann gibt es so ein bisschen

zu den fünf großen Featuren gibt es

halt vielleicht 30

kleinere und mittlere Feature.

Das ist halt so ein bisschen Fleißarbeit.

Und dann gibt es aber halt

einfach tausend Details.

Das ist der Teil, der quasi am längsten dauert und ein bisschen am nervigsten ist.

Also weil man halt jeden Tag einfach fünf kleine Details fixen kann

und man findet die, indem man halt die Testsuite,

die Teil der C-Python Standardbibliothek ist, ausführt

und dann halt die fehlenden Tests nach und nach fixt.

Und mit den großen Features ist man halt irgendwann durch.

Also es gibt halt Test-Pepma, das hat man halt irgendwann dann,

das passt dann, das ist super.

Aber dann ist halt in allen anderen Dateien

gibt es halt dann so einen fehlschlagenden

Test. Und jeder von diesen fehlschlagenden

Tests dauert halt zwei Stunden.

Und das ist halt einfach das, was einfach ganz

ganz...

Also da gibt es halt quasi dann so einen long tail an irgendwelchen

Details. Und der

Fortschritt, den man dadurch erzielt, dass man das

fixt, ist halt auch irgendwann dann nicht mehr so

groß. Wahrscheinlich denkt man sich dann irgendwann so

das lohnt sich nicht.

Wer das irgendwann mal benutzt.

Aber das ist tatsächlich dann

TDD auch, was ihr da macht.

Ja, also Python ist von

der Entwicklungsphilosophie sehr

also ich meine,

wir haben ja vorhin ganz kurz gesagt, dass es

jetzt irgendwie 20 Jahre altes Projekt ist.

Also es wurde

fast genau, also irgendwie 17. Februar

war das erste Treffen

von so ein paar Leuten in Hildesheim.

2003. 2003, genau.

Also völlig anderes Zeitalter

so ein bisschen.

Und damals war das halt irgendwie

so ein bisschen, hatte das so ein bisschen so

Extreme Programming

Kontext auf der Entwicklungsphilosophie

Seite, also so mit

Test Driven Development

und Agile

bevor das kommerzialisiert

wurde, so von der Idee her und

es ist wirklich so, dass

diese Implementierung von vornherein

komplett Test Driven

entwickelt wurde. Das ist halt an vielen Stellen

auch wirklich ganz tief

drin in der

Philosophie des Projekts.

und es ist auch so, dass PyTest

aus PyPy hervorgegangen ist.

Also der Holger Krickel,

über den haben wir, bevor wir

anfangen aufzunehmen, kurz schon geredet, der war

einer der Gründer

des PyPy-Projekts, also der hat das

erste Treffen in Hildesheim organisiert und

am Anfang

wurde dann

für die Tests halt einfach Unitest

genommen und Unitest ist ja

ein von

Java portiertes

an Java

Architektur angelehntes Testing Framework.

Ja, JUnit, aber ich glaube

JUnit ist irgendwie SUnit

von SmartHawk.

Aber durch diesen Umweg über Java

ist es halt irgendwie doch ein bisschen

ungelenk an vielen Stellen.

Und weil Holger halt dann

das alles auch ganz schön doof fand,

hat er recht früh als Teil

Projekt von PyPy halt

angefangen PyTest zu entwickeln.

und das ging dann quasi

aus dem PyPy-Projekt

irgendwie so ein Stück weit hervor und ist jetzt natürlich

eine Million Mal

erfolgreicher als alles, was PyPy

jemals sonst so macht.

Am Anfang habe ich es gehasst und jetzt finde ich es richtig gut,

weil es halt echt total gut ist und ich finde es

sehr PySonic und wenn man einmal so ein bisschen

verstanden hat, wie das funktioniert, das ist sehr, sehr, sehr schön

zu nutzen.

Also ich meine halt einfach so dieses, dass man davon wegkommt,

dass man diese 97

Self-Assert irgendwas

Funktionen braucht, um

gute Fehlermeldungen zu kriegen. Das ist halt schon

SafeAssert, Equal, irgendwie CamelCase

und sowas. Equal oder Equals?

Genau, ja, ja, genau.

Ja, und CamelCase natürlich auch mal.

Ja, und ich finde halt also gerade

so die Hürde, man schreibt halt einfach eine Funktion,

die Tests heißt dahin und dann geht halt,

das ist halt schon sehr, sehr cool.

Also Test-Driven-Development

war halt einer der

Kernideen, so auf der

wie entwickeln wir dieses Projekt?

Das andere war halt,

das ist so ein bisschen verloren gegangen über die Jahre, aber

einer der Ideen am Anfang war halt wirklich,

wir wollen eine sehr

gut verständliche Implementierung der

Sprache schreiben. Und da

müssen wir irgendwann jetzt halt dann

doch mal zur Architektur kommen.

Warum heißt das Ding eigentlich PyPy?

Weil es PyPy

noch nicht gab.

Nein, Entschuldigung.

Also das Projekt ist halt entstanden,

aus Diskussionen auf erst der deutschen

Python-Mailing-Liste und dann

irgendwie auch Complaint Python

von halt

Python-Fans, also halt so ein paar Leuten, die

irgendwie Python als Programmiersprache toll fanden

und die halt gesagt haben, naja, es ist doch philosophisch

eigentlich irgendwie blöd,

dass wir alle Python so toll finden,

aber der Interpreter

für Python, dass der ja in C geschrieben ist.

Piper ist halt wirklich, die Idee war

wirklich, wir schreiben jetzt eine Implementierung für

Python, aber wir wollen dafür halt nicht C nehmen,

weil C so eine blöde Sprache ist, sondern wir wollen dafür halt

Python nehmen, weil wir ja alle Python-Fans sind.

Und das war quasi, also

da kommt der Name her, PyPy ist Python in Python

und das war halt

so ein bisschen

die Ursprungsmodifikation, wir wollen jetzt die

Sprache nehmen, die wir cool finden, um

die Sprache selbst zu implementieren.

Und das klingt halt erstmal ganz

also nach einem sehr akademischen

Experiment und

das war es ein Stück weit, glaube ich, auch erstmal.

Also erstmal war halt so ein bisschen die Idee auch,

Wir wollen irgendwie Code schreiben, den man halt einfach erstmal schön lesen kann.

Und der soll natürlich schon auch irgendwie funktionieren,

aber insbesondere soll der halt einfach architektonisch toll sein und irgendwie elegant

und alles schön, diese Sprachsemantik soll irgendwie ganz klar ausgedrückt werden in diesem Python-Code.

Das war quasi eine der Ideen.

Und erst später kam es dann hinzu, dass quasi Performance eigentlich ein immer wichtiger Teil der,

der Projektmotivation war.

Also irgendwann hat man halt gesagt, naja,

okay, wir haben das jetzt, aber warum sollte man das machen?

Und wir machen jetzt halt auch noch ganz, ganz, ganz viel Aufwand,

um, also welchen Aufwand,

vielleicht sage ich noch ein bisschen was dazu,

wir machen halt ganz, ganz viel Aufwand,

um das dann doch irgendwie auch schnell zu kriegen.

So, und vielleicht können wir da auch einfach wirklich historisch vorgehen.

Also die erste Idee, um das jetzt schneller zu kriegen,

also man hat dann jetzt irgendwie so eine Python-Implementierung,

und die ist in Python geschrieben und die ist schön und elegant, man kann das lesen,

aber das bringt einem halt einfach gar nichts.

Weil man braucht ja einfach immer noch darunter

einen Python-Interpreter, um das ausführen

zu können. Und dann ist es halt einfach

quasi ein Python-Interpreter, der auf

C-Python läuft, das ist halt

einfach ganz, ganz langsam.

Aber man kann natürlich dann viel über die Sprache vielleicht lernen.

Genau, man kann dann was lernen und man kann da bestimmt

auch irgendwie dann schön einfach

Experimente durchführen, aber das

ist jetzt nichts, was man irgendwie im Produktiv-Einsatz

haben wollte.

Es wäre halt dann wirklich einfach eher so ein

cooler Blogpost oder so, oder? Ein cooles Buch.

Aber halt viel mehr auch nicht.

Und die erste Idee ist quasi,

dass man jetzt sagt,

machen einen Prozess, den man halt

Bootstrapping nennen kann.

Wir nehmen jetzt diesen

Python-Interpreter, der in Python geschrieben ist

übersetzen den, also

schreiben einen Compiler, der jetzt diesen Code

nehmen kann und den nach C übersetzen kann.

und das

geht halt nicht für allgemeinen

Python-Code, man kann Python-Code halt nicht

nach C kompilieren, das bringt nicht viel,

aber deswegen beschränken

wir uns auf eine Teilmenge von Python

in dem Code,

den wir in der Implementierung des Interpreters

verwenden. Also der Interpreter ist

quasi in einer Teilmenge geschrieben

und die ist so gewählt, dass man diese Teilmenge

gut nach C übersetzen kann.

Und dann wird man quasi dieses

Interpreter-Turm problemlos.

Also dann kann man quasi

den Python-Interpreter nehmen. Der ist nicht mehr in Python geschrieben, sondern in

R-Python. Das ist eine Teilmenge der Sprache

und die ist so gewählt, dass man sie nach C übersetzen kann. Und R-Python heißt das halt,

weil das Restricted Python ist, weil man halt einfach so ein bisschen

die ganz dynamischen Sachen, die man in Python machen kann,

die macht man halt einfach nicht, um eben das Übersetzen nach C zu ermöglichen.

Also man nennt keinen Typ einer Variable irgendwie on the fly. Ganz genau.

Das ist glaube ich sogar noch nicht mal ganz so schlimm.

Man macht halt so Sachen, man fügt

einer Klasse keine neuen Methoden zur Laufzeit

hinzu. Oder

in Python gilt ja alle möglichen komischen Sachen.

Man kann halt ja auch bei einer Instanz

dann da Class zuweisen und so.

So dieses ganze ganz

dynamische Metaprogrammierungszeug, das ist halt

einfach verboten, weil

da ist halt nicht so klar, wie der C-Code

dann aussähe, den man da generieren würde.

Also das ist der erste Schritt. Der erste Schritt ist,

das ist nicht mehr

Python in beliebigem Python-Code,

sondern das ist eine Implementierung

für die Sprache Python in einer Teilmenge von Python

und wir haben dazu noch ein anderes Tool,

was jetzt diese Teilmenge nimmt und daraus

C-Code erzeugt. Und so wird man C-Python

erstmal los. Also danach,

du drückst dann auf den Knopf und

dann nimmt der halt den Interpreter, der

in der Teilmenge geschrieben ist, erzeugt C-Code daraus,

dann startest du den C-Compiler

und der nimmt den C-Code und macht daraus halt

eben wieder ein Binary, über das wir

ja vorhin schon gesprochen haben, dass das

runtergeladen werden kann. Und das

ist halt dann quasi einfach

ein etwas merkwürdiges

geschriebenes, aber

das verhält sich jetzt

quasi noch näher dran an dem, was man von

Python.org runterladen kann.

Es ist halt ein nicht in Hand geschriebener

C-Code, sondern generierter C-Code,

aber es ist halt einfach dann ein Interpreter für

Python in C

letztlich.

Und das

bringt halt schon dann mal die ersten

also vorher

um mal so eine Größenordnung zu nennen,

Wenn man dann PyPy auf

CPython ausführt, dann hat man halt irgendwie so einen Interpreter,

der vielleicht 2000 Mal langsamer ist als

CPython. Also dann ist es halt

wirklich, das ist nur ein Spielzeug.

Und wenn man dann diesen

Bootstrapping-Trick macht, dass man eben wieder C-Code erzeugt,

dann gewinnt man halt von diesen

2000 Mal

langsamer, gewinnt man halt 1000 Mal

zurück. Dann hat man quasi einen Interpreter,

der ist...

Nur 2000 Mal langsamer? Nee, nur 2 Mal langsamer.

Also, Faktor 1000

kriegt man wieder, aber

ein Faktor 2 hat man halt immer noch

und das ist natürlich immer noch nicht gut.

Also warum sollte man das machen?

Weil es halt in Python geschrieben ist und wir alle

Python so toll finden. Das reicht halt irgendwie als Motivation

nicht. Und jetzt ist so ein bisschen die Frage,

wo kommt jetzt, wo

kommt eigentlich wirklich die Speed her?

Und da wird es halt dann so ein bisschen

akademisch, also

das ist quasi

der Forschungsanteil.

also ich habe da meine Doktorarbeit

drüber geschrieben, das ist quasi wirklich

so ein bisschen

ein, ja, also war wirklich

so ein ganz klassisches akademisches

Forschungsprojekt, da war ja währenddessen auch gar nicht

so klar, ob das wirklich klappen kann, so von der Idee

her und hat auch

sag ich mal vielleicht

fünf, sechs Jahre gedauert, bis es

dann klarer wurde, dass es halt wirklich geht

und die Idee daran ist, dass du

sagt man ja auch immer so ein bisschen so, wenn man halt

irgendwie das schnell kriegen will, dann braucht man halt irgendwie einen JIT-Compiler.

Also wenn man halt irgendwie eine dynamische Programmiersprache

schnell ausführen will, dann braucht man einen Just-in-Time-Compiler.

Und was ist das? Ein Just-in-Time-Compiler, also so ein normaler

Compiler, der funktioniert halt für Python nicht, weil man ja

gar keine Typen hat. Also das ist jetzt mit Typ-Annotationen heutzutage

so ein bisschen anders. Aber die Typ-Annotationen, die sind

ja auch so ein bisschen so eine Fiktion.

Die dürfen ja auch falsch sein.

also vergessen wir die erstmal

also das Problem ist, wenn man einfach Python-Code

anschaut, dann kann man

den halt nicht unbedingt

jetzt kompilieren

wenn man halt eine Funktion hat, die A und B als

Argumente nimmt und die Funktion macht irgendwie

return A mal 2

plus B, dann

kann man halt diese Funktion nicht

nach Machine-Code übersetzen, weil

man weiß halt gar nicht, was das

mal macht, also

man kann die Funktion halt mit ins aufrufen

man kann die mit Floats aufrufen, man kann die mit Strings aufrufen

oder man kann die halt

mit einer Klasse aufrufen, die halt

ein unterstrich unterstrich Ads Methode

hat und eine unterstrich unterstrich Mull Methode

und die halt irgendwas super weirdes

macht. Das muss quasi

die Anwendungsfälle kennen, in denen das

aufgerufen wird, irgendwann in diesem Programmablauf

und dann daraus jeweils unterschiedliche

Implementierungen im Machine Code zu

schreiben, die man dann vermittelt.

Und das kann man aber halt quasi nicht ohne

weiteres statisch machen. Also

Also, man kann jetzt, es ist nicht leicht, sich quasi nur den Quellcode anzuschauen und zu sagen, aha, A und B sind hier immer ins, weil es kann ja sein, dass es halt an sieben verschiedenen Stellen wird die Funktion jetzt aufgerufen und an zwei davon sieht es so aus, als könnten es ins sein, aber an den anderen drei weiß ich nicht so genau und das ist überhaupt in der Bibliothek drin und ich weiß halt überhaupt nicht so genau, wie die Bibliothek jetzt verwendet wird konkret von irgendeiner Anwendung.

Das heißt, so einfach

wenn ich mir nur den Quellcode anschaue, kann ich

für diese Funktion f

keinen guten Maschinencode erzeugen

und deswegen braucht man halt quasi

also ein normaler Compiler geht halt nicht

und deswegen

braucht man halt eben den Just-In-Time-Compiler

und das ist ein Compiler, der

erzeugt

zwar schon Maschinencode, aber der macht das nicht

einmal vor der Ausführung, sondern der

macht das quasi während

das Programm schon läuft

und der Grund, warum

ein Just-In-Home-Compiler eben

funktioniert ist, weil der einen

ganz krassen Informationsvorteil hat.

Der Just-In-Home-Compiler,

der kann halt einfach gucken,

mit was für Typen von Argumenten

die Funktion aufgerufen wird.

Also der ist halt einfach quasi,

der Compiler ist maximal faul und sagt, ich kompiliere

erstmal gar nichts. Ich führe einfach

alles ganz normal mit dem Interpreter aus

und wenn sich

dann herausstellen sollte, dass F jetzt

in dem Programm eine wichtige Funktion ist,

macht man so ein bisschen Profiling,

dann schaue ich halt mal, was für Typen

werden jetzt hier konkret verwendet.

Und dann irgendwann sehe ich halt,

na gut, das sind immer zwei Floats.

Und dann kann ich halt

auch guten Maschinencode erzeugen, weil

wenn ich weiß, dass es Floats sind, dann kann ich halt

das mal, also

ich hatte A mal 2 plus B gesagt,

dann kann ich halt das mal 2

durch einen

durch eine Maschinen

Instruktion

darstellen, die halt

Doubles auf der CPU direkt multipliziert.

Und das Plus kann ich eben auch dann durch eine Maschineninstruktion

abbilden, die halt Doubles addiert.

Und dieser Maschinencode, der funktioniert halt

genau nur für den Spezialfall, dass A und B halt wirklich auch

Float sind. Und wenn dann irgendwann

später im Verlauf des Programms halt diese Funktion jemand mit 2ins

aufruft, dann ist das kein Problem, weil

der Code wurde ja sowieso zur Laufzeit erzeugt.

und dann kann ich halt quasi auch

neuen Code für diese sich ändernden Situationen

erzeugen.

Und diese Flexibilität, die mir die

Tatsache, dass ich den

Maschinencode eben erst zur Laufzeit erzeuge,

dadurch kriege ich halt sehr viel Flexibilität

kann halt die extra

Informationen, die ich zur Laufzeit habe, auch benutzen, um

die ganze Dynamizität,

die man in Python halt theoretisch

verwenden kann, aber in der Praxis

nicht unbedingt verwendet,

die kann ich dann halt auch quasi wieder weg

optimieren, aber das kann ich eben nur

weil ich eben das zur Laufzeit mache und

mir die Typen anschauen kann

und halt auch reagieren kann, wenn sich dann die

Umstände ändern

das ist halt auch so ein bisschen die andere

Eigenschaft des

Time Compilers, der kann halt dann auch darauf reagieren

dass du nach

einer halben Stunde Programmlaufzeit

plötzlich den Debugger anmachen willst

dann muss man nämlich anfangen

wieder alles zurückzupacken

und das nennt man wirklich Deoptimierung.

Da muss man wirklich quasi wieder

die Frame-Objekte erzeugen, die man halt

braucht, um dann, dass der Debugger

auch funktioniert. Also der Debugger, der

introspeziert ja diese Frame-Objekte, die es in Python

gibt und

die würde der

JIT-Compiler natürlich gar nicht benutzen, weil

der Brauch der nicht. Aber wenn man den Debugger

anschaltet, dann muss man die halt jederzeit wieder

herzaubern können.

Okay, das ist die Idee des JITs.

Das ist quasi in gewisser Weise

heutzutage

relativ akzeptiert, weil jeder

Browser das halt macht. Also Java

macht das und insbesondere

machen das halt die Browser für JavaScript und die

Browser Wars haben halt dazu

geführt, dass quasi alle großen Browser

sehr, sehr,

sehr, sehr, sehr viel Geld da reingesteckt

haben,

halt Just-In-Time-Compiler

für JavaScript

zu schreiben, die halt wirklich

extrem aggressiv zur

Laufzeit den JavaScript-Code

optimieren und zur Laufzeit

nach Maschinencode übersetzen können.

Und deswegen ist JavaScript halt inzwischen

jetzt,

sag ich mal, nicht ganz so schnell wie C, aber halt

irgendwie vielleicht nur zwei oder dreimal langsamer

als C. Und einfach weil

da halt einfach viele

Millionen Dollar in jeder von

diesen Implementierungen reingesteckt wurde.

So, deswegen inzwischen weiß halt jeder

so ein bisschen, was ein JIT ist.

Das war aber halt, als das Projekt

anfingen nicht ganz so

sehr so. Es gab halt damals

ich weiß nicht, sagt euch Psycho

was? Ja.

Das ist so ein bisschen, jetzt sind wir stark in der

Ancient Python History drin.

Also das war so ein Extension Module

für Python

Jetzt kommt raus,

dass ich alt bin.

das war quasi ein sehr, sehr

schlauer, promovierter Mathematiker,

er hat dieses Extension-Modul geschrieben

und das war quasi ein

Dit für CPython

wenn man das Extension-Modul

geladen hat

dann hat halt Zyko angefangen zur Laufzeit

aus den Python-Funktionen halt irgendwie

Maschinencode zu erzeugen und das war halt auch

hat gut funktioniert an vielen Stellen

und das große Problem von Zyko war jetzt aber

jede neue Python-Version, die rauskam

hat das komplett kaputt gemacht

also weil

sobald ein neues Sprachfeature dazu kam

musste der Armin

Armin Rego heißt das

musste dieses Excel-Modul halt wieder

im Wesentlichen

jetzt nicht von Null schreiben, aber halt

quasi jede Zeile

nochmal neu überdenken, weil das halt

quasi immer so Interaktionen zwischen den

neuen Sprachvierteln und den alten Sprachvierteln gibt

und die waren halt nicht zu übersehen

also da, ich weiß nicht, was kam

mit 2.3 dazu?

Vielleicht Generatoren oder so?

Gab es da nicht auch irgendwie

Glaubwink-Änderungen?

weil es eher kann sein, ich weiß es nicht

genau, aber

auf jeden Fall, die haben

halt immer nicht funktioniert in Psycho

und Armin hat halt irgendwann auch aufgegeben

also Psycho ist glaube ich seit 2004

oder 2005 einfach auch tot

er hat halt aus

dieser Frustration raus dann angefangen

sich in PyPy

also war einer der Projektgründer von PyPy

und hat halt

aus dieser Frustration raus, dass man

den JIT aus Psycho

für jede Version von Hand dann anpassen muss,

sich so eine

relativ gewagte

akademische Idee ausgesucht,

die er gerne auf PyPy

anwenden wollte. Und das ist eben

die Idee, dass man den JIT

also JIT heißt, das ist die Abkürzung

Justin Time Cobiler, dass man den überhaupt

nicht von Hand schreibt.

Eben weil Python

eine Sprache ist, die sich ständig ändert.

Also einmal im Jahr oder vielleicht damals

alle anderthalb Jahre kommt eine neue Python-Version raus

da gibt es neue Sprachfeature

und das Anpassen des Dirt-Compilers an die neuen Sprachfeatures

das ist zu nervig

Insbesondere wenn man halt nicht

Google-Geld hat

Wenn man Google-Geld hat, dann kann man halt einfach 20 Ingenieure

auf das Problem einhalten

und die haben dann halt keinen Spaß, die schreiben ganz ganz

viel kompliziertes C++-Code und sind halt

jede Woche

sehr traurig

Aber wenn man dieses Budget halt nicht hat

dann ist es einfach zu anstrengend

mit C-Python mitzuhalten, also mit der

Sprachentwicklung mitzuhalten und deswegen hatte

er eben die Idee, dass es

doch irgendwie möglich sein sollte

den JIT-Compiler automatisch zu generieren

das ist so ein

bisschen so eine alte

sehr akademische

Idee, also da gibt's

halt irgendwie

ich glaube in den Ende der 70er gab's so einen

Aufsatz von Futamura

irgendwie, weiß nicht genau

wie der Titel ist, Compiler, Compiler.

Da gab es eben schon mal die Idee, dass

es theoretisch eben möglich sein sollte,

einen Compiler für eine Sprache

automatisch zu erzeugen aus einem

Interpreter für die Sprache.

Und das war aber halt ein

sehr akademischer... Ich meine,

ein Compiler, Compiler und so, das ist ja

Jack und so. Ja, aber da

ist der Input halt kein Interpreter.

Nee, nee, das ist die Dramatik.

Aber die

Idee von der Moira-Projektion ist

eben wirklich, man hat einen Interpreter für eine Sprache

und erzeugt mit einem komplizierten Prozess

aus dem Interpreter automatisch einen Compiler.

Und das gab es quasi als akademische

Idee, da gab es auch ein ganzes Forschungsfeld

und ganz unglaublich

viele Aufsätze zu.

Aber das hat sich halt in der Praxis

nicht so richtig umgesetzt. Und Armin

hat halt die Idee gehabt, wir machen das jetzt

einmal richtig.

Also wir machen das jetzt halt

da hat sich in gewisser Weise auch sehr viel

getraut. Er hat gesagt, ich habe jetzt diese Vision,

das müsste doch irgendwie gehen

und wir wollen das jetzt für eine echte Sprache halt auch

wirklich dann mal anwenden

und in gewisser Weise ist das Problem natürlich auch noch

erstmal schwieriger, weil er halt nicht nur einen Compiler

wollte, er wollte halt einen JIT Compiler

er hatte da so ein paar Ideen, wie man

diese alte Idee

Futamora Projektion, wie man die halt wirklich dann mal

so ganz konkret, nicht für irgendeine akademische

Minisprache, sondern für so eine richtige

Programmiersprache

wie Python halt dann auch anwenden kann

und das haben wir dann halt

in den

verschiedenen PyPy Research Projekten

auch dann gemacht. Das ging auch

ganz schön lange nicht. Also es hat halt

wirklich dann auch ein paar

Jahre gedauert, bis es dann wirklich auch funktioniert hat.

Also PyPy ist ein Compiler-Compiler?

Also PyPy hat

so ein paar

Komponenten, aber eine der Komponenten ist wirklich quasi

ein JIT-Compiler-

Generator.

Und du steckst quasi einen Interpreter

in diesen JIT-Compiler-Generator raus

und der Output davon ist

ein JIT-Compiler für die Sprache,

die von deinem Interpreter

spezifiziert wird.

Und das hat riesen Vorteile,

weil nämlich, wenn

nehmen wir mal sowas Konkretes wie Pattern Matching.

Pattern Matching kommt jetzt raus

in 3.10.

Dann implementieren wir das in unserem

Interpreter.

Also PyPy ist ein Interpreter für Python

und wir müssen das Feature halt implementieren,

weil unser Interpreter, der kann das erstmal nicht.

Also ihr implementiert das aber in C?

In R-Python.

In R-Python, genau.

Das ist alles in R-Python.

Aber wir interpretieren das quasi in dem in R-Python geschriebenen Interpreter.

Und dann drücken wir auf den Knopf

und dann kommt der JIT-Compiler-Generator

und der nimmt den Interpreter mit dem neuen Feature

und dann haben wir plötzlich einen JIT-Compiler,

der quasi Pattern-Matching versteht

und richtig guten Maschinen-Code für Pattern-Matching erzeugt.

der JIT-Compiler-Generator,

der kennt Pattern-Matching halt gar nicht,

sondern der kriegt quasi

die, der

lernt die Semantik von Pattern-Matching

halt wirklich, indem er sich anschaut, was der Interpreter

macht, um die Patterns auszuführen.

Aber das heißt eben,

wir müssen nicht, wenn so eine neue Version rauskommt,

müssen wir nicht jedes Mal

den JIT-Compiler anfassen,

weil der JIT-Compiler, der kann halt überhaupt kein Python,

sondern der kriegt halt die Semantik

von Python

ab, indem man

sich diesen Interpreter für Python anschaut und wenn man

in den Interpreter für Python neue Features

einbaut, dann hat man immer

automatisch auch noch,

kann man eben für diese neuen Features

dann auch den JIT generieren.

Aber ein weiterer Vorteil, den man damit

dann eventuell hätte, ist, man kann dann

damit ja einen JIT-Compiler für jede Sprache

erzeugen, für die man

in R-Python einen Interpreter

schreiben kann. Das geht ja dann wahrscheinlich für

viele Sprachen. Ja, zum Beispiel, wir hatten da schon

Beispiel vorhin für reguläre Ausdrücke.

Also wir hatten ja vorhin gesagt, dass wir

halt relativ gut darin sind, reguläre Ausdrücke

auszuführen und das liegt halt einfach daran, dass

in Python ist das auch schon so,

reguläre Ausdrücke, die werden

in so einen kleinen Bytecode

erzeugt, der ist übersetzt.

Das ist ein anderer Bytecode als der

Python-Bytecode und dafür gibt es dann

einen Interpreter, der Teil von

C-Python ist. Also C-Python hat halt

den Interpreter für Python, aber eben

auch noch einen anderen Interpreter für die

regulären Ausdrücke Bytecodes.

und den haben wir halt auch in R-Python geschrieben

und das heißt, wir können halt auch zur Laufzeit

dann die regulären Ausdrücke nach Maschinencode

übersetzen, weil

wir halt quasi für diesen

anderen Interpreter, der auch in R-Python

geschrieben ist, auch ein JIT erzeugen.

Und tatsächlich

gibt es halt so einen ganzen Haufen an

Research-Quality

Sprachimplementierung, die halt

diese ganze Maschinerie auch benutzen, um

alle möglichen Experimente zu machen.

Also wir haben halt auch mal eine Ruby-Implementierung

geschrieben und eine PHP-Implementierung geschrieben

und eine Prolog

geschrieben. Das war meine Wäschearbeit.

Und die sind jetzt alle

nicht so cool.

Da wurde halt einfach nicht der Aufwand

reingesteckt, den man betreiben müsste, um

da jetzt wirklich,

sag ich mal, eine Production

Ruby-Implementierung dann rauszukriegen.

Aber das

war halt eher so der Versuch

zu gucken, ob das mit Ruby

auch geht oder mit Prolog auch geht.

Ich habe zum Beispiel

auch mal, also auch nur Research Quality,

ich habe zum Beispiel auch mal

eine Datenbank

darin implementiert. Also ich habe halt

eine SQLite

kompatible,

also SQLite

kompiliert halt

den SQL-Code

auch in so ein Bytecode. Dafür habe ich halt

auch einen Interpreter in Python geschrieben.

Und damit kann man halt dann auch

ganz interessante Performance-Gewinne

sich dann irgendwie abholen.

Ja, die Datenbank muss das ja auch

interpretieren, was da anfällig zu kommen ist

Genau, und das ist ja auch

das weiß man ja auch immer so ein bisschen, dass

das SQLite mit den

der Spalten auch nicht so ernst nimmt

Ja, da kann man

Das heißt, es ist auch noch eine dynamische

Sprache, eine dynamisch typisierte Programmiersprache

Also da gibt es halt dann schon ganz schön viele Ähnlichkeiten

Ausführungen von Python, in gewisser Weise

Naja, auf jeden Fall, diese Idee

dass wir halt quasi einen JIT-Generator

haben und

diese Architektur

sorgt dafür, dass wir halt

mit einem relativ kleinen Team

halt mit C-Python

trotzdem ganz gut mithalten können.

Weil wir die Features halt eben nicht

in den JIT-Compiler

reinprogrammieren müssen,

sondern halt quasi

nur in einen Interpreter

und der JIT-Compiler, der kriegt die Features dann

automatisch. Das war jetzt

so ein paar Verallgemeinerungen

waren jetzt, also so ein paar Ungenauigkeiten

waren in meiner Story jetzt noch drin.

Es gibt dann noch so extra

Annotationen, die nennen wir irgendwie

Hints. Man kann halt quasi dem

JIT-Compiler dann noch so ein paar Tipps geben.

Ja, weil wahrscheinlich manchmal wird das halt dann

überraschend nicht gut funktionieren.

Ganz genau. Und man

kriegt halt dann einen Maschinencode und der ist

vielleicht noch nicht so gut, wie man den gerne hätte.

Und dann fügt man halt noch so ein paar Annotationen ein und kann

dann dem JIT-Compiler-Generator

helfen, doch noch

einen besseren JIT zu generieren.

und das muss man dann

an vier verschiedenen Stellen auch immer mal machen.

Also zum Beispiel, ich würde jetzt meine Hand

nicht ins Feuer legen, dass Pattern Matching halt

jetzt schon ultra schnell ist.

Also wir haben halt ein JIT für Pattern Matching,

aber ich weiß noch nicht, ich habe es noch nicht gemessen,

ob es wirklich ein ganz toller JIT ist.

Das ist eh ziemlich langsam.

In Zebraten ist es nicht so toll,

oder? Ich weiß nicht, was...

Ich glaube, also habe ich gehört, dass es nicht so schnell ist.

Ich weiß nicht.

Also ob das jetzt bei uns...

Wir würden halt dann wirklich aus dem Pattern Matching

Maschinencode erzeugen und ich weiß halt

noch nicht so richtig, ob das richtig guter Maschinencode ist

oder ob das halt einfach nur irgendwie so ein bisschen

leicht schrottiger Maschinencode ist.

Und wenn man das verbessern will, dann würde man halt

hergehen und sagen, na gut,

was für extra Hilfen können wir dem

JIT noch geben? Das habe ich jetzt halt noch nicht gemacht,

ich meine, das ist halt immer so ein bisschen,

das kommt halt als letztes.

Du musst halt quasi aber immer den Generator anlehnen, du kannst halt

quasi nie richtig in der Hand, was wirklich da liegt

an C-Code, der hinterher ausgeführt wird.

also indirekt Moment warum C Ja weil du doch dem Generator sagst was er tun soll der den C generiert der dann hinterher ausgef wird

Ja, der C-Code ist dir eigentlich so ein bisschen egal.

Also wichtig ist halt, du generierst

einmal C-Code, aber du generierst halt

auch noch einen

und der JIT, der übersetzt den Python-Code

nicht nach C-Code, sondern wirklich direkt nach

Machine-Code. Also wir

erzeugen dann wirklich, wir nehmen den Python-Code, führen

den aus und nach einer Weile sagen wir halt,

und sagt, oh okay, diese Schleife hier, die scheint irgendwie wichtig zu sein und dann nehmen wir wirklich diese Schleife und erzeugen daraus halt wirklich direkt ins RAM Maschinencode-Instruktionen.

Und das geht halt nicht mehr den Umweg über C. Den Umweg über C brauchen wir nur, um einmal das Binary zu erzeugen.

Das machen halt wir einmal auf unserem Server und das passiert aber dann quasi nach dem Deployment auf die Produktivumgebung nicht mehr,

sondern da wird halt wirklich direkt

ins RAM, werden halt die Maschineninstruktionen

für die

aktuelle CPU-Architektur

emitted und dann führen wir das

halt direkt raus.

Sprich, wenn du das halt auf irgendwie so

einem x86

Server laufen lässt, dann

schnappen wir uns halt einfach vom Betriebssystem

so einen großen Buffer an

RAM und

da kommen halt dann

Instruktionen rein und dann wird

als ausführbar markiert

und dann springen wir einfach hin.

Und dann von da an läuft

halt wirklich der Maschinencode und der

also wenn man Glück hat, ist der halt

einfach dann auch sehr, sehr schnell, weil

der das ganze teure Zeug, was

in Python halt normalerweise die ganze Zeit

passieren muss, halt nicht mehr macht.

Und den ganzen Overhead von den ganzen Sachen.

Ja, also und der Overhead,

also man hat halt

die Frame-Objekte nicht mehr, man hat die ganzen

Typ-Überprüfungen nicht mehr, idealerweise.

also Python allociert ja auch die ganze Zeit Speicher

also jeder

Integer ist ja

so ein bisschen Heap Memory

also jede Addition

macht halt einen Malloc-Aufruf

und das ist ja eigentlich absurd teuer

also ein Malloc-Aufruf und

es wird eben

der Reference-Count auch noch immer manipuliert

vielleicht auch nochmal ganz kurz für die Leute, die ja nicht ganz so

einen Malloc-Aufruf, also eine Memory-Aggregation

ist ein C, eine Funktion, die

auf dem Heap. Was macht das?

Vielleicht nochmal ganz kurz.

Ganz die freien Hektien, was die versteckt.

Vielleicht kann man das einfach nochmal so ein bisschen

den Kontrast herstellen mit

wir schreiben jetzt wirklich ein Programm in C.

Und wenn du da halt irgendwie eine Integer-Variable

also long A und long B

hast und dann machst du A plus B,

dann sind A

und B halt nicht

auf dem Heap, sondern irgendwie direkt in

CPU-Registern.

Und die werden dann direkt von CPU-

Instruktionen addiert.

und mit dem Ergebnis wird halt irgendwas gemacht.

Wenn du

so einen Ausdruck A und B

in Python hinschreibst und das

in C-Python ausführst,

dann ist das halt nicht, also die

Integer-Werte, die sind dann nicht in CPU-Registern,

sondern die sind quasi im RAM.

Und um dann wirklich

das Ergebnis berechnen zu können, musst du die

Werte erstmal aus dem RAM,

also erstmal musst du gucken,

sind das überhaupt Integers, die ich da addiere.

Und dann musst du gucken,

dann musst du quasi die Werte der Integer aus dem Integer-Objekt vom RAM in CPU-Register laden

dann machst du wirklich die Addition

dann musst du gucken, ob das Ergebnis immer noch klein genug ist, um in einen Maschinen-Wort reinzupassen

das könnte ja auch irgendwie ein Overflow geben, dann brauchst du irgendwie ein kompliziertes Objekt

und dann brauchst du Speicher für das Ergebnis-Objekt, weil das Ergebnis ist ja auch wieder ein Integer-Objekt

das heißt, du rufst einmal mal log auf

dann kriegst du ein neues Stück

RAM zugewiesen von dem

in C geschriebenen Allokator

und dann

packst du den Ergebnis

Zahlenwert in dieses neue Stück

RAM rein, erhöhst den Reference Count

von diesem Stück RAM

und das ist dann dein Ergebnisobjekt

und das passiert aber halt bei

jeder arithmetischen Operation und deswegen ist

halt Arithmetik

und wir haben auch noch so ein paar Schritte weggelassen

deswegen ist Arithmetik halt

in Python klassischerweise wirklich

sehr, sehr ineffizient.

Weil du halt wirklich ständig

Melloc aufrufst und auch ständig

wieder Free aufrufst. Zum Beispiel, wenn du jetzt so einen komplizierteren

Ausdruck hast, wenn du halt sowas wie

A mal 2 plus B,

das war ja unser Standard

arithmetischer Ausdruck

schon in der Zeit, dann hast du

halt das Zwischenergebnis A mal 2.

Das brauchst du ja gar nicht lang.

Das brauchst du ja

quasi nur...

Das verfällt ja beim nächsten Aufruf.

Das heißt, beim nächsten Aufruf, wenn du dann

wenn du dann das Plus rechnest, dann

verringerst du den

Reference Count von dem Zwischenergebnis

und dann sagst du, oh, das ist ja

jetzt Null, das brauch ich ja gar nicht mehr

und dann rufst du Free auf, das ist

wieder quasi so ein teurer Aufruf

zu dem

Memory-Subsystem.

Schreibt der Null den Speicher oder löscht der einfach

die Speicheradresse aus, dem wir benutzen

das? Genau, und dann kannst du quasi

den Speicher wiederverwenden, das nächste Mal, wenn jemand

mehr da braucht. Aber der schreibt dann nicht vorher irgendwie

was rein.

Doch, der muss sich

schon irgendwie merken, dass der Speicher jetzt verwendet

werden kann. Also es gibt halt so ein bisschen

es gibt quasi so ein bisschen

Overhead-Datenstrukturen, die

verwendet werden, um

sich zu merken, dass das

jetzt ein Stück freier Speicher ist.

Am Anfang von einem Speicherblock schreibt der irgendwie so

Das ist

glaube ich gar nicht so wichtig. Das funktioniert auch sehr

unterschiedlich, je nach Betriebsthemen und

je nach

verwendetem Allokator.

Also da gibt es halt auch verschiedene

C-Bibliotheken, die man da verwenden kann.

Python hat da auch so ein bisschen

seine eigenen Algorithmen, die

für den typischen

Use Case, der halt in Python

besonders oft auftritt, dann optimiert ist.

Also da ist quasi dann

ganz, ganz viel Engineering und

das ist kompliziert und

wir müssen das hoffentlich nicht verstehen.

Also das ist

quasi, da kenne ich mich dann irgendwann ziemlich schnell halt auch nicht aus.

Ja, aber letztlich das Problem ist halt, dass es halt

Speicheralluzieren ist halt eine relativ

komplexe, weil man halt auch das Betriebssystem in den Kernel fragen muss letztlich.

Am Schluss, ja nicht jedes Mal, aber irgendwann schon letztlich und dann

das natürlich alles sauteuer ist. Und dieser ganze Overhead fällt halt weg,

wenn du A plus B mal C mit ins ausführst und der

dann kann das quasi

im Return-Register

der CPU halt auch dann

einfach weiterverwendet werden vom Aufrufer.

So ein bisschen, wenn alles

genau richtig ist, wenn alles genau richtig läuft.

Und dann fällt halt einfach ganz,

ganz, ganz viel Arbeit,

die normale

Python-Implementierung halt immer

machen muss, fällt halt weg.

Und ich meine, so ein bisschen die

Einsicht, also warum man halt

Python überhaupt optimieren kann,

ist. Es ist theoretisch

alles sehr dynamisch, aber

in der Praxis nicht.

Also die dynamischen Möglichkeiten,

die werden halt... Sehr selten genutzt

tatsächlich. Ja, jetzt nicht selten,

aber halt nicht immer.

Also ich glaube halt,

jedes Programm ist schon an irgendeiner Stelle dynamisch,

aber nicht die ganze Zeit.

Es ist zum Beispiel

relativ oft so, dass man beim Importen

halt ganz viel Zeug macht, aber

danach nicht mehr. Das ist so ein

Muster an Dynamigkeit.

Also du importierst halt eine Bibliothek, beim Importieren macht sie ganz merkwürdige Sachen und macht halt so ein bisschen Metaprogrammierung und schreibt irgendwelche Sachen in das Globals Dictionary mit einem Globals Aufruf oder sowas, schreibt es da rein, aber dann ist fertig.

und danach ist alles quasi

harmloser

Python-Code, wo die Typen relativ fix sind.

Also das ist so

eine Sache, die wir immer wieder sehen.

Da gibt es auch Aufsätze zu, die das studieren.

Das findet

sich halt recht häufig wieder, dass man komische,

dynamische Sachen am Anfang

des Programms macht, aber dann irgendwann nicht mehr.

Also so ein

ORM ist halt auch so ein Beispiel.

Man generiert halt dann so ein bisschen Klassen,

aber das macht man halt

nicht die ganze Zeit, sondern halt

oder halt so ein Debugger

ist halt auch ein, also ein Debugger braucht

quasi ganz, ganz viele dynamische Features,

aber der ist halt meistens nicht an

und du musst

quasi die Möglichkeit haben, dass du den

zu einem beliebigen Zeitpunkt anschalten

kannst, aber

du solltest nicht die ganze Zeit den Preis dafür bezahlen

müssen, aber du willst dich halt

auch nicht vorher entscheiden müssen.

Ja, also du willst halt quasi

trotzdem immer die Möglichkeit haben zu sagen, jetzt

brauche ich denn aber? Debuggen, weil

wenn es zu unterschiedlich ist, dann kann man

nicht mehr debuggen.

Man möchte es ja dann machen können,

wenn es eigentlich normal läuft.

Und selbst wenn es jetzt nicht um den Debugger geht, also selbst

sowas wie schöne Tracebacks, die

halt auch noch die Locals rausschreiben oder so.

Wenn halt dein Web-Server

dann wirklich crasht, dann willst du diese

Informationen halt haben.

Und dann zu sagen, ja, ups,

jetzt haben wir das aber so doll optimiert,

dass wir wissen halt gar nicht mehr, was die

Locals sind.

also das kann dir halt passieren in so einem Compiler

also in T gibt es das ja immer mal

da musst du ja wirklich sagen, will ich jetzt

die VG-Informationen haben oder nicht

und wenn du die nicht hast, dann kriegst du

dann sagt dir halt keiner mehr, was jetzt gerade

in deiner Variable drin steht

meiner Ansicht nach gehört das halt zur Philosophie von Python

auch dazu, dass man halt

zu jedem Zeitpunkt das auch dann

machen kann, wenn man halt

in einer Situation landet, wo man

die Information braucht.

So, jetzt haben wir glaube ich so ein bisschen alle Ideen.

Also historisch gesehen

Python, Python, Python

also historisch

gab es diese Verständigkeitsidee, die verschwindet

ein bisschen.

Es gibt jetzt schon ganz viele Stellen, wo wir

Sachen halt quasi komplizierter machen, um

Performance zu kriegen. Also es ist jetzt

nicht mehr nur so ein

architektonisch reines Ding,

womit man halt irgendwie die Sprache

ganz toll verstehen kann, sondern halt

wirklich viel pragmatischer und

wir wollen halt auch wirklich schnell einen Code machen.

Aber stattdessen kam

diese andere Idee dazu, wir wollen einen

Justin-Helm-Copiler für die Sprache haben

und weil sich die Sprache eben

einmal im Jahr ändert,

können wir den nicht von Hand schreiben,

weil wir halt nicht Google-Geld haben,

sondern irgendwie ein Open-Source-Projekt sind

und stattdessen wurde halt dann dieser Forschungsansatz gewählt, wir erzeugen den

Justin-Tab-Compiler und das hat geklappt.

Also das hätte auch schief gehen können, aber die Kernidee

funktioniert ganz gut. Und jetzt sind wir quasi

so ein bisschen auf dem Plateau der Produktivität, dass die ganze Kerntechnologie

den JIT-Compiler zu erzeugen, die ist halt relativ stabil.

Es gibt jetzt schon irgendwie da noch so ein paar Features, die wir gerne

irgendwie mal machen würden, wenn wir mal

ganz motiviert sind

oder ganz viel Zeit haben, aber so die ganzen

Kernideen sind halt einfach

jetzt inzwischen auch

drin und stabil und halt über viele

Jahre halt auch wirklich

so ganz

gut stabilisiert.

Und jetzt sind wir halt

an dem Punkt, dass wir

dass die Hauptarbeit,

die wir wirklich machen, ist halt zu versuchen

von C-Python nicht komplett abgehängt

zu werden.

Ist R-Python, hat das

Type Annotations zum Beispiel auch?

Ja, jetzt kommen wir zu

ein paar der dunklen Geheimnisse

PyPy ist so alt

dass es gegründet wurde als

Python 2.2 glaube ich gerade aktuell war

oder 2.3

Das heißt

R-Python ist leider

tatsächlich noch komplett Python 2 basiert

wir haben halt sehr, leider

auch sehr, sehr wenig

Motivation, das zu ändern, weil

wir haben halt leider sowas wie

eine halbe Million Zeilen

Code in diesem

blöden Python 2 Dialekt

und wir könnten uns jetzt

hinsetzen und einfach

eine Schätzung abzugeben,

zwei Person Years reinstecken,

das nach Python 3 zu portieren,

aber das wäre halt wirklich,

ich denke, wirklich zwei Jahre Arbeit

und danach hätten wir einfach kein einziges

neues Feature.

Das heißt, da hat halt einfach niemand so wirklich Lust drauf

Und das ist natürlich

Wir sind da natürlich so ein bisschen in so einer

Also Falle wäre jetzt viel gesagt, aber

Ein bisschen in so einer

Blöden Situation, weil

Das ist halt nix

Wofür momentan sind das halt wirklich

Eher so Open Source

Modell, da ist jetzt keiner

Der dafür wirklich jetzt bezahlt wird

Sag ich mal

Und jetzt so eine Portierungs

Aktion zu starten

ist halt einfach nur so,

also mir würde das halt

nicht so viel Spaß machen.

Aber das ist natürlich trotzdem in gewisser

Weise auch kein Zustand, weil irgendwie

man will halt auch

letztlich dann irgendwie auch nicht komplett abgehängt

werden.

Das wird dann wahrscheinlich irgendwann auch ein Problem,

da neue Leute

ranzuführen, weil man denen dann ja

irgendwie...

Das hast du jetzt schon vergessen.

in das Github.

Aber das Print hat keine Klammern.

So genau.

Das andere, so ein bisschen

doofe Problem ist halt, dass

so ein Interpreter,

der benutzt halt an keiner Stelle Unicode.

Das heißt so halt,

eines der Hauptargumente, wo Python 3

halt ein paar Sachen so richtig schön gemacht hat,

die fallen weg, weil wir halt einfach immer nur

Byte-Strings benutzen.

deswegen, das wäre halt,

das ist halt quasi auch nochmal so ein Grund,

Python 3

jetzt halt auch letztlich

jetzt nicht so wirklich so eine Verbesserung ist,

sondern halt, wir würden das wirklich

machen, um halt nicht abgehängt zu werden, aber nicht,

weil wir

jetzt wirklich von den Python 3

Features so mega motiviert wären.

Und das ist halt so ein bisschen doof.

Würde denn irgendwie

diese, keine Ahnung, TypePins oder andere

Features von Python 3

jetzt für die

Annotation von dem Compiler

irgendwas bringen?

nicht so richtig. Also man könnte

sich, klar, man kann dann so ein paar der

APIs vielleicht ein bisschen schöner machen,

aber wir haben jetzt halt Dekoratoren und die sind jetzt auch nicht so

schrecklich. Ich meine,

ob du jetzt halt das dann

mit Doppelpunkt direkt

hinter die Argumente schreiben kannst oder in der Zeile

drüber mit dem Dekorator, den wir uns selber

ausgedacht haben.

Ja, das wäre schon ein bisschen netter, aber

das wäre jetzt nicht,

also das wäre jetzt halt für mich nicht so

eine ganz ausreichende Motivation, um halt

so ein riesen Refactoring-Projekt

zu starten. Also ich denke halt so ein, also das wird halt stattfinden, wenn wir irgendjemand

finden, der da mega Bock drauf hat oder wenn wir halt Geld finden. Und ich glaube, wenn

beides nicht stattfindet, dann vielleicht bin ich da zu pessimistisch, aber dann sehe

ich das im Moment halt nicht. Also ja, also ich persönlich, ich kann nur über mich

sprechen. Ich persönlich hätte da halt keinen

Spaß dran.

Ja, aber ich meine, ist es dann, wenn man

tatsächlich keinen Unicode hat, sondern nur ByteStrings

oder... Ich meine, es gibt ja da so

automatische Geschichten. Könnte man das nicht

eventuell auch automatisch irgendwie...

Also, aber...

Ob man da halt einfach einmal so

zwei 2-to-3 draufschmeißt...

Ja, wir müssen halt einfach...

Irgendwann müssen wir das mal gucken und wir haben

noch nicht so ganz...

Wir haben noch nicht so ganz den pragmatischen

Weg gefunden, den man halt gehen kann.

Weil es ist halt auch so die Frage,

macht man dann einmal einen Cut und sagt,

Leute, halt,

niemand macht mir neue Features für sechs Monate.

Das ist halt auch doof.

ja, aber wir sind ja auch nicht

die Einzigen. Es gibt ja auch wirklich

leider noch ganz viele Firmen, die

große Mengen

an Python 2 gut haben.

Aber ja, es ist halt,

also man will das jetzt halt keine zehn Jahre

so weitermachen.

Aber so den idealen Weg, wie wir da jetzt wieder rauskommen aus der Geschichte, den wissen wir halt im Moment halt auch nicht.

Außer wir finden jetzt jemanden, der sagt, hier habt ihr eine Million Dollar, macht doch bitte mal.

Dann ist sowas halt auch wieder...

Also ihr könnt hier schreien.

Ja, ja.

das ist,

bei Django-Projekten gibt es so etwas ähnliches mit dem

Admin,

mit dem

Django-Admin, das ist halt auch so ein Ding,

das ist, Django-Projekte sind ja auch alt, 15 Jahre

oder so, das ist halt über die Zeit gewachsen.

Teilweise ist da halt auch Geld reingesteckt worden,

das zu entwickeln und inzwischen ist es halt auch so,

die Schätzung ist ähnlich,

etwa Leute, die sich damit auskennen, sagen halt so,

ja, das jetzt mal so richtig neu zu schreiben und

natürlich, wir wissen inzwischen, was wir alles gerne

lieber machen würde. Würde wahrscheinlich so eine Million

kosten und tja, die haben wir halt nicht.

So ist es halt ein bisschen auch.

Und ich meine, das sieht man ja auch wirklich

ganz konkret bei C-Präsen. Also C-Präsen

3.11 und 3.10 sind

halt einfach auch

wirklich viel schneller geworden.

Und das ist halt einfach eine Geldfrage.

Also wenn du halt plötzlich fünf Leute hast, die

einfach fulltime

bezahlt werden und das sind ja auch jetzt nicht

irgendwelche Leute, sondern halt auch gute Leute,

dann passiert halt auch was.

wir können halt quasi so ein bisschen durch

schlaue Architektur,

die wir vor

zehn Jahren halt quasi geschrieben

haben, dadurch

können wir halt irgendwie

ziemlich gut mithalten,

der DIT-Generator halt da ist und gut

funktioniert.

Aber halt

alles, was jetzt mal so

Bonus wäre,

ist schon zu negativ, aber alles, was

eine ganz tiefgreifende Veränderung

bräuchte.

Das kriegen wir halt

mit dem jetzigen Fundingstand

nicht hin.

Weil das kriegst du halt nicht durch...

Also wir haben halt auch schon so ein

Open Collective-Dings und wir kriegen auch

Donations und wir sind da auch

super dankbar dafür. Da kommt auf jeden Fall auch

irgendwie immer wieder

gut was zusammen.

Aber es ist halt was anderes, wenn du plötzlich fünf Leute anstellen kannst.

Und da sind wir halt nicht.

und da haben wir halt auch gerade nicht so richtig die Person, die da hinterher wäre,

diese Gelder dann auch zu suchen.

Also hatten wir ja vorhin schon kurz drüber geredet, wir hatten halt irgendwie zweimal so wirklich große

Forschungsförderungsprojekte, also beides mal EU-finanziert.

Das eine war von 2004 bis 2006, das andere von 2008 bis 2010 so ungefähr.

und da hatten wir halt dann wirklich

einige Vollzeitleute, die da einfach

wirklich dann über diese Zeiträume halt auch wirklich immer

nur an diesem ganzen Zeug gearbeitet haben

und da kam halt dann auch

wirklich was raus.

Und dann

danach hatten wir halt viel so

immer wieder

Funding auch von Firmen, die halt dann bestimmte

Features gern haben wollten,

einer Weile gibt es halt niemand,

der jetzt Bock auf...

Es ist halt nochmal so ein ganz eigener Task

für Open Source Geld zu finden.

Und man braucht halt da so ein bisschen

eigene Skills auch.

Und so eine Person haben wir jetzt nicht mehr.

Und das ist in gewisser

Weise nicht so ein

perfekter Zustand.

Ich meine, selbst für

Projekte, die halt sehr viel

genutzt werden, also sowas wie Pandas, mich wundert das immer,

es gibt ja ganz viele,

wo die Basis für

für viel Menge.

Ja, ja, und NumPy.

Genau, das ist die Basis für Milliarden

Umsätze irgendwie in der Industrie, aber

trotzdem gibt es

da eigentlich für die Entwicklung nicht so richtig viel Geld.

Also der andere

momentan sehr aktive

PyPy-Entwickler, der Matipikus,

der ist tatsächlich bei

einer Firma angestellt,

die darauf spezialisiert ist, halt

NumPy voranzubringen

und halt dann da

einer der Leute, die halt wirklich

auch quasi finanziert

NumPy Bugs Fix.

Das ist auch Teil, heißt das auch Steering Council

bei NumPy, weißt du das so richtig?

Nee, keine Ahnung. Also das ist auch quasi Teil

des Komitees, das halt NumPy

verwaltet und ist da

sehr aktiv. Deswegen geht NumPy auch

gut auf PyPy, weil er sich halt da drauf kümmert.

Achso, genau.

Ja, also

bei NumPy passiert

es langsam eben schon. Also sowas wie Jupyter hat

halt auch Funding und da gibt's

halt inzwischen in den USA

schon auch halt

Firmen und Foundations,

die halt erkannt haben, dass es einfach

so ein wichtiges

Stück Infrastruktur ist, dass es halt

vielleicht doch auch eine gute Idee ist.

Da würde das ganze Internet an so einem kleinen Faden aufhängen.

Ja, also die Idee fand ich auch ganz charmant,

dass man sagt, ja, also eigentlich

müsste man das Firmen so verkaufen, dass es

halt eine Versicherung ist.

Wenn sie da nichts,

also sie zahlen sozusagen eine Art

Versicherungspolizei dafür, dass es das halt auch in Zukunft

gibt, weil wenn es das nicht mehr geben sollte,

Haben sie ein großes Problem.

Ich weiß nicht, was da die Antwort ist.

Ich finde halt auch letztlich,

in gewisser Weise ist das wirklich auch was, was man

über Steuern machen könnte.

Und passiert ja ein Stück weit auch.

Also halt sowas wie die,

ich glaube es ist ja...

Man muss halt Projektanträge schreiben.

Müsste man halt Projektanträge schreiben, ja.

Und da ist es halt dann so ein bisschen so,

da ist halt PyPy dann letztlich

auch vielleicht nicht wichtig genug.

Also bei PyPy kann man halt nicht sagen,

dass es jetzt eine absolut die

grundlegende Technologie wie NumPy,

so viele Leute benutzen es

halt dann irgendwie doch nicht.

Und klar, wir finden halt auch immer ganz

tolle Bugs in C-Python und ich glaube schon,

dass jetzt unser Wert halt jetzt

auch, selbst wenn man das nicht

einsetzt, es ist halt nicht null, da haben wir ja vorhin

über ein paar Beispiele geredet, aber

es ist halt auch nicht klar, ob wir jetzt

das Projekt sind,

für das irgendjemand ein paar

Vollzeitentwickler dann bezahlen sollte.

Also ich meine, klar, wir könnten die

und wenn wir die hätten, dann könnten wir ganz tolle Sachen machen.

Auf jeden Fall, ich habe eine ganz lange Liste.

Also schickt das gerne zu mir, aber wenn man dann so einen Antrag schreibt,

ist mir halt nicht so klar, ob man sagen kann, wir sind so wichtig wie OpenSSL.

Sind wir halt nicht, offensichtlich nicht.

Aber das viel grundlegende Problem ist halt, wir haben im Moment keinen, der da Lust drauf hat

oder in dessen Expertise das halt liegt.

und das ist nicht so gut.

Und es kann schon sein, dass ich da auch

vielleicht irgendwann dann auch nochmal drin besser werden muss.

Wenn ihr Lust drauf habt,

dann sagt Bescheid.

Wir nehmen gerne

Freiwillige an.

Ich finde zum Beispiel Read the Logs auch ein sehr interessanter Fall,

das ja auch letztlich

einen sehr guten

Weg gefunden hat für ein

für die Community

ultra wichtiges Problem, nämlich wo

wird eigentlich die Dokumentation gehostet

und wer bezahlt dafür, halt eine Lösung zu finden.

Und die Lösung ist halt,

wir finanzieren das einmal durch

akzeptable Werbung und eben

durch Firmen, die dann damit selber ihre Dokumentation

hosten. Und da gibt es auch coole

Podcasts, ich muss mal gucken, ob mir die

Folge einfällt, wo der

ReadTheDocs-Gründer halt auch so ein bisschen

über seine Philosophie von

Software-Funding redet.

Und ja, ich finde das auch

einen ganz coolen

Weg eigentlich, also weil

weil die haben ja wirklich jetzt auch

einige Entwickler, die halt

da an der Infrastruktur arbeiten,

die Sphinx voranbringen,

die Docutales-Patches schicken

da ist ja wirklich, also

da ist die Python-Community ja auch wirklich

ziemlich gut aufgestellt.

Ich finde es auch sehr interessant,

es gibt wirklich auch an einigen Stellen halt

dann Projekte in ganz anderen Sprachen,

die halt dann trotzdem

Read the Docs nehmen, weil es halt einfach wirklich auch cool ist.

ein großartiges Beispiel.

Ansonsten ist es halt so,

ich habe jetzt halt,

wir haben halt in gewisser Weise einen ganz guten Vorteil,

weil ich kann das halt

als Teil meiner Arbeit machen. Ich bin

an der Uni angestellt,

bin für die Lehre bezahlt, aber wenn die Lehre

zu Ende ist, dann darf ich quasi

forschen, was ich will.

Ich bin in eine Forschungsgruppe

eingebettet, die zumindest irgendwie

was mit Compilern

zu tun auch hat. Insofern bin ich da

jetzt auch nicht. Ich bin da so ein bisschen der Einzige,

der ganz konkret was mit

JetComputer macht im Moment, aber

ich bin da jetzt quasi thematisch auch nicht

fehl am Platz und mein Chef freut sich da auch, wenn ich da

dann was von mache. Insofern passieren

halt durch das Level, was

durch meine halbe Stelle,

das sind jetzt nicht

ultra viele Stunden, aber halt zumindest schon so

ein paar Stunden, die sind halt da und

die werden halt auch

solange, aus meiner Ansicht nach,

da halt es interessante Forschungsfragen gibt,

werden die halt auch für das Projekt auch

weiterverwendet werden.

Und das ist halt so ein Basislevel.

das muss man halt auch erstmal haben.

das reicht halt nicht, um jetzt

das reicht

jetzt nicht, um jetzt halt irgendwie so eine ganz krasse

neue Idee für

eine neue DIT-Optimierung

sich auszudenken.

Also manchmal

läuft es dann über Abschlussarbeiten ganz gut.

also ich hatte gerade eine unglaublich

coole Wettarbeit betreut

das ist jetzt noch nicht gemerged, aber der hat echt eine

eine sehr interessante

neue Optimierung für den DitCompiler auch geschrieben

wie auch gerade bei Programmen

die viel mit Integer machen, wirklich

nochmal ganz anders Sachen optimieren kann

also echt

ein super Student

Nico Rittinghaus

heißt der, der hat

der hat dann auch so die Originalliteratur aus den

70ern gelesen und meinte so, hier in diesem Paper

was mit Schreibmaschine geschrieben wurde

steht das hier drin

in eurem Code ist das doch ganz anders

sag doch mal

genau so

und er hat dann

auch immer recht

das war sehr sehr cool

mit dem, ich hoffe auch, dass er quasi weitermacht

und vielleicht

auch noch eine Masterarbeit schreibt

aber manchmal passieren dann so Sachen

bei so Abschlussarbeiten ist das halt

schon so, dass die Leute dann tendenziell auch wieder weg sind.

Ja, und dann muss man das maintaen, was sie gemacht haben.

Ne, das ist eigentlich okay.

Ja, stimmt.

Die schreiben ja dann auch...

Die schreiben halt Tests und ich bin halt dann schon...

Ich gehe dann dann schon auf die Nerven, dass sie jetzt halt auch

keinen Scheiß schreiben. Also so qualitätsmäßig.

Ja, also wir stecken schon

auch...

Ich meine...

Review und Kultur.

Und wir wollen halt schon

Wir sind halt jetzt nicht so ein normales Forschungsprojekt, was halt eigentlich

Code zum Weg, also viele Forschungsprojekte sind halt so Code zum Wegschmeißen.

Man schreibt Code, man schreibt ein Paper und dann ist man

damit mit dem Thema durch. Sondern wir sind halt so ein bisschen

in gewisser Weise so ein bisschen ein schlechtes Forschungsprojekt

in dem Sinne, dass wir halt versuchen, auch Code zu schreiben,

den Leute benutzen können. Und deswegen haben wir halt Aufwand,

der sich aus Forschungssicht halt irgendwie auch nicht lohnt.

Deswegen bin ich halt vielleicht auch kein Professor.

sondern weil mein Forschungsoutput

halt auch nicht

also weil ich diesen Job auch gar nicht

haben wollte

aber weil halt so der Output

an Aufsätzen bei mir vielleicht

halt nicht so ganz stimmt

also ich schreibe schon

Aufsätze und die sind halt zum Teil dann auch ganz gut

rezipiert und werden zitiert

und so aber vielleicht jetzt nicht

mit dem Nachdruck den man

bräuchte wenn man jetzt halt so ein

so ein reiner

Akademiker sein wollte

das ist auch eine faszinierende Geschichte

ich meine tatsächlich ist es ja dann doch oft so

dass dann Sachen wiederverwendet werden

also wenn man

also in der Physik

sieht man das dann häufig

dass dann doch irgendwie so

sich Sachen aufeinandertürmen

die halt man vielleicht dann doch mal

wenn man gewusst hätte

wo man hinterher rauskommt

hätte man das vielleicht anders bauen können

meine absolute Lieblingsgeschichte

die werde ich jetzt hier noch anbringen

Oh ja, sehr gerne. Ich habe tatsächlich

also ursprünglich habe ich mal

Mathe und Physik studiert und dann habe ich das abgebrochen

um bei einem

der PyPy-Firmen, die halt

von der EU Geld gekriegt haben

mitzuarbeiten für eine Weile

aber vorher habe ich quasi bei

den Teilchenphysikern halt immer so

Semesterferien, Hiwi

Jobs gehabt

und die Teilchenphysiker, die haben

so CERN und so, die haben halt

ein ganz interessantes Stück Technologie

Sprache lernen.

Die Physiker, die müssen ja eh

C++ lernen, um halt schnell einen Code zu schreiben,

aber die wollen ja auch Scripting machen

und wenn wir jetzt halt so einen C++

Interpreter haben, dann können die ja

mit der Sprache, die die eh schon können,

halt auch ihre Skripte schreiben.

Und das war

halt so, 2003 rum

war das halt echt noch

irgendwie so ein Stück Technologie, was die halt einfach

wirklich benutzt haben

in der Teilchenphysik.

und so nach und nach

kam halt dann die Erkenntnis, dass das doch

irgendwie vielleicht

halt so ein bisschen so eine merkwürdige Idee ist

und inzwischen

nehmen die halt auch einfach Python für Skripting,

ja, aber

das ist halt für mich immer so ein Beispiel, wenn man

also einer,

so ein Lieblingsaufreger von mir ist,

wenn Leute halt von interpretierten Sprachen reden.

Man sagt halt gerne, Python ist eine interpretierte

Sprache und das ist halt eigentlich eine Aussage,

die meiner Ansicht nach semantisch keinen Sinn

macht, also Sinn leer, weil

es ist halt eine Eigenschaft einer Implementierung, ob sie interpretiert ist oder nicht.

Also C-Python ist ein Interpreter, das stimmt, und PyPy ist halt ein

JIT-Compiler, das stimmt. Aber man kann jetzt eben nicht sagen, dass

C++ eine kompilierte Sprache ist, weil es gibt ja Cint und das ist halt

eine Implementierung von C++, die das interpretiert.

Und deswegen kann man halt nur sagen, na gut, wenn man halt GCC benutzt,

dann hat man eine kompilierte Implementierung von C++.

Das ist quasi so ein Randfall, den ich dann gerne anbringe, um zu demonstrieren, dass es halt ein Konzept ist, das keinen Sinn macht, von einer kompilierten Sprache zu sprechen.

Naja, also zum Glück ist das Ding inzwischen, glaube ich, tot.

Also ich, ja.

Naja, interessant.

Tja, ich weiß nicht

spielt eigentlich diese

da gab es ja auch so Geschichten mit

Software Transactional Memory und so

spielt das noch eine Rolle?

Also da gab es halt ein relativ langjähriges

Forschungsprojekt auch von dem Armin Rigo und einem

Doktoranden, der

in der ETH Zürich, glaube ich, promoviert hat

und die hatten halt diese Idee, dass

man halt irgendwie

Software Transactional Memory benutzen

können sollte, um

den Overhead von

einem Jill,

also Global Interpreter Log Free

Multithreading für Python

sehr klein zu halten.

Und dieses

Forschungsprojekt hat halt,

also die haben da auch wirklich

viele Jahre dran geforscht

und rein in Zeit investiert.

Das hat halt am Schluss

nicht so gut geklappt, wie sie sich erhofft hatten.

Was ist das überhaupt?

Also ich bin da sehr schnell

Ich habe das halt immer so

interessiert verfolgt und die hatten halt dann so ein Branch

und haben da auch jahrelang auch

wirklich sehr viel Aufwand

reingesteckt, aber am Schluss

waren sie halt irgendwie mit den Ergebnissen

nicht so zufrieden und halt auch

also technische Details, wie gesagt,

ist nicht so mein Ding

Was soll das denn theoretisch sein? Also ich habe gar nicht

verstanden, wo es da gehen soll

Also die Idee von Soft Trace Action

Memory ist, dass du quasi

du kannst halt dann mehrere Threads starten,

die alle Python-Code ausführen

und du machst so einen

optimistischen Ansatz, so einen Datenbank-Ansatz.

Jeder Thread hat

eine eigene Transaktion

und der Thread,

der läuft so ein bisschen und dann versucht er zu committen.

Committen heißt, dass

seine Sicht der Welt, also seine

Sicht des Zustands des Programms

mit der Sicht

der Welt der anderen Threads

gemerged werden muss.

Das ist die Transaction.

Und das macht man aber nicht

auf der Datenbank-Ebene, sondern wirklich auf der Sprachebene.

Also das ist die Idee von Software

Transaction Memory.

Und da gibt es halt dann Techniken, um das

effizient hinzukriegen.

wenn das alles gut geht, also wenn die

verschiedenen Threads sich nicht

gegenseitig auf die Füße rumtrampeln,

dann führt das halt dazu, dass du

wirklich sehr gut skalierenden Python-Code

schreiben kannst. Also skalierend heißt,

wenn du 16 Cores hast, dann kannst

du halt dann auch 16 Mal schneller

einen Code schreiben. Das Problem ist

jetzt, was machst du, wenn das

nicht so gut klappt mit den Transaktionen und du hast halt

einen Thread, der versucht, seine

Transaktion zu committen und einen anderen Thread

und da gibt es einen Konflikt. Dann bedeutet

das immer, der eine Thread, der

wirft die ganze Arbeit dir gemacht weg

und fängt halt nochmal ein bisschen weiter hinten an.

Wer ist denn der eine? Wer wirft den weg?

Es gewinnt halt einer von denen.

zufällig. Nee, nicht so richtig zufällig. Du musst

natürlich schon dann nach außen hin

die Python-Semantik dann

bewahren. Das

darf quasi nicht beobachtbar sein.

Und da wird es halt dann auch technisch sehr kompliziert.

Da weiß ich auch nichts zu.

von außen ist halt die Idee,

es gewinnt einer

und die Semantik ist erhalten.

Das Problem ist jetzt

nicht, dass sich das merkwürdig

verhält. Das Problem ist halt, wenn du Pech

hast, dann

ist dein,

dann sind alle deine 16 Cores

irgendwie busy, aber dein

Programm ist nur zweimal so schnell.

Und das ist quasi so ein

Performance-Bug und

die haben halt einfach,

ich glaube letztlich war das Problem, dass sie

nicht so richtig die Werkzeuge gefunden

haben, um an dieser

Stelle dann weiterzukommen. Du hast halt

diesen Performance-Bug, irgendwo

gibt es einen Konflikt zwischen den Threads, aber

was machst du jetzt als Programmierer?

wenn du halt Performanceprobleme in Python

hast, dann gibt es halt Tools, so Profiler und so

und dann kannst du die benutzen, um rauszufinden

wo du vielleicht was optimieren könntest

aber für dieses

wir haben jetzt zu viele Konflikte, Probleme, da gibt es halt

keine Tools

und da wussten sie halt zum Teil dann auch selber nicht

wo jetzt die Zeit bleibt

und die sind halt dann

ich habe so ein bisschen das Gefühl

irgendwann ist ihnen so dann

die Prüste ausgegangen vielleicht

also nach 6, 7 Jahren

Und es ist ja jetzt auch ganz interessant

Ich finde es halt interessant, dass es jetzt

diesen

diesen Prototypen von Facebook

gibt, wo halt in gewisser Weise

so ein ganz klassischer Ansatz

Also das ist halt immer

Amins Idee. Amins Ansatz war ja

mit dem Budgetgenerator auch schon so

Der hat eine Vision, die ist technisch irgendwie

elegant

und dann versucht er das umzusetzen

und bei Budgetgenerator hat es geklappt

und bei Software Transactional Memory hat es halt leider nicht geklappt.

Und vielleicht, wenn er noch ein paar Jahre weitergemacht hätte,

hätte es auch irgendwann geklappt, aber

momentan arbeitet er halt nicht mehr

daran weiter.

Aber jetzt, der Facebook-Code, der ist ja quasi

in gewisser Weise ganz klassisches

Engineering. Also die haben halt quasi

wirklich

ganz klassisch, so wie man halt

irgendwie Shared Memory Multiprocessing

macht, das

implementiert mit einer

sehr coolen neuen Einsicht.

und da haben wir vorhin auch schon ganz kurz drüber gesprochen,

nämlich, also wie gesagt,

das ist überhaupt nicht mein Gebiet, ich kenne mich da nur

sehr schlecht aus, aber die Idee ist glaube ich dieses

Bias Locking, oder?

Genau, Bias Reference

Counting. Genau, also die Idee ist

quasi, dass ein Objekt

meistens in dem Thread benutzt

wird, in dem es auch erzeugt wurde.

Und es gibt halt dann

so ein Fast Path, solange das Objekt

nur in diesem Thread benutzt wird,

sind die Zugriffe auf dieses Objekt

sehr schnell. Also da ist die

Synchronisierung zwischen den Threads

quasi umsonst.

Und erst wenn man das wirklich

dann in einem anderen Thread auch benutzen

will, wird es halt dann

performance-mäßig teurer.

das ist quasi eine neue Einsicht. Die kommt

jetzt in diesen klassischen Ansatz

Shared Memory Multiprocessing mit Logs und so zu machen,

kommt das dazu. Und es hat sich

herausgestellt, dass das quasi der richtige ist,

um den Overhead für

Single Threaded Code

klein zu kriegen.

Es gibt auch so ein paar Tricks also ein interessanter Trick ist weil es gibt dann ja deutlich viele Sachen die halt schon in allen Strats verwendet werden also alles was irgendwie globale Geschichten Imports und so Zeug Nun zum Beispiel Ja Nun

True, False, sowas, genau. Und die erklärt man dann

einfach zu unsterblichen Objekten, sozusagen macht kein

Reference Counting, weil man sagt, das wird sowieso nie differenziert. Ja, aber was mir zum Beispiel noch nicht so ganz klar ist,

man hat ja dann eigentlich oft auch

an irgendeiner Stelle doch eine gesharete

Datenstruktur. Also wenn du halt zum Beispiel

so ein Workstealing implementieren willst

und du nimmst halt einfach eine Liste,

geht das dann noch?

Oder ist dann zu viel Contention

auf dieser Liste?

Also diese Feinheiten,

wie sich die Performance dann in der Praxis

wirklich verhält.

Was ist ein Workstealing?

Ich glaube, das weiß halt keiner.

Also bei Workstealing ist halt quasi,

du hast verschiedene Arbeitspakete

und verschiedene Threads, die die abarbeiten

du koordinierst

diese Threads halt über irgendeine

Queue. Und die Frage ist jetzt,

welche Datenstruktur benutzt du, um diese

repräsentieren?

Und Work-Sealing ist einer, da hat

jeder Thread seinen eigenen Queue, glaube ich.

Und wenn ein Thread nichts mehr

in seiner eigenen Queue hat, dann klaut er was aus den Queues.

Also ich stelle mir jetzt immer so ein bisschen vor, wie

so eine Bank, wo irgendwelche Leute am Schalter stehen und warten,

bis sie dran können. Und dann sind bestimmte Schalter

halt auf, ein bestimmter Schalter halt nicht und da kann halt

irgendwie sich Leute anstellen an verschiedenen

Schaltern und wenn irgendwie

gerade keine Kunden

mehr sind, dann geht halt jemand drüber.

Aber ich glaube, also wie da

so, ich habe da kein gutes Metall, also

ich bin wirklich ein sehr single

threaded Mensch. Ich kann

das auch nicht, aber

ich habe mein metallisches Modell,

das existiert einfach noch

nicht. Ich weiß halt nicht, was passiert

mit der Performance, wenn man halt

17 Threads hat, die auf 17

Kurs laufen und die wollen alle auf eine Liste

zugreifen. Also das ist auch etwas, was irgendwie

sehr schlecht, also immer wenn ich mit sowas

zu tun hatte, musste ich feststellen,

wenn ich vorher nicht schon auch das Gefühl hatte,

ich kann das gar nicht, dass ich es dann

dachte, ich kann es theoretisch

und dann praktisch aber feststellen muss ich ganz nicht, weil es ist

wirklich,

es netzt halt nicht auf die Art, wie Menschen denken gut.

Und es ist auch ganz interessant, also es

gibt ja zwei, mindestens zwei

Implementierungen von Python, die halt auch

keinen Dill haben, nämlich Jython.

Jython ist, soweit ich

sehen kann, relativ tot, aber

so in der 2.7 ist es ein sehr guter

2.7 Interpreter der halt

Implementierung, der halt

keinen Jail hat, der halt wirklich Multithreading kann.

Das ist auch eine ganz, ganz

das war etwas, was ich jetzt bei dem

Durchführen der Folgen, eine der Neuigkeiten

die ich da mitgenommen habe, die ich vorher echt gar nicht

wusste und mich fragen, wie mir das entgegen konnte, aber

dass halt wohl, wenn man

einen JIT-Compiler hat, das viel besser geht mit dem

Fine-Grain-Blocking sozusagen,

dass man gar nicht unbedingt einen Jail braucht,

dass es halt mit einem

Interpreter, der NC geschrieben ist und der statisch

kompiliert ist, geht das gar nicht richtig.

Aber Java, wenn er

das von einem JIT

Compiler verwandelt, ist das kein Problem

sozusagen und da kann man das dann ohne

JIL mit Filing, Rant, Locking machen und es wird halt nicht langsam

dadurch.

Das ist nicht so

leicht, aber der JIT kann halt dann quasi

der JIT macht dann

so Reasoning über

darüber, ob man gerade von einem

Objekt den Lock schon hat und dann

muss man halt nicht bei jeder Operation

versuchen, sich das Log zu holen, sondern macht das

nur einmal in der

Funktion oder nur an bestimmten Punkten.

Und man macht halt dann nicht

bei jedem Fieldread muss man sich das Log

holen, sondern kann sagen, wir lesen hier

17 verschiedene Felder und wir holen uns das nur einmal.

Und das kann der JIT halt machen, das kann

der Interpreter nicht machen.

Aber ja, also

da sind wir noch nicht in Python.

Aber Python konnte das halt.

Und da hat sich aber interessanterweise halt dann rausgestellt,

dass es halt

unglaublich viele Bibliotheken gibt in Python

die halt einfach natürlich

überhaupt nicht thread-safe sind

natürlich nicht, weil wie soll denn

die Bugs gefunden werden, wenn halt

die Standard-Invalidierung

halt einfach immer Single-Threaded ist

selbst in der Standard-Bibliothek

hat halt Jython

damals quasi einiges an Bugs gefunden

wo es halt Deadlocks

und alles mögliche gab

weil der Code in der

Standardbibliothek von C. Weitem

halt einfach

den Gill präsent

poniert und ich denke

das wird halt schon dann auch nochmal

für die Community auch ein ganz schön

langwieriger Prozess, bis man halt

wirklich an dem Punkt ist, dass alle Bibliotheken dann auch

Ich wollte übrigens noch

eine Sache erwähnen, das kam noch gar nicht

vor in unserer Geschichte

Es gibt tatsächlich noch einen Bereich, wo

sehr, sehr viel Aktivität gerade noch stattfindet

im so weiteren PyPy-Umfeld.

Und da bin ich

auch nicht so ganz direkt beteiligt, aber der ist meiner Ansicht nach

auch schon sehr interessant. Und das ist nämlich genau

die Frage nach NC-geschriebenen

Bibliotheken.

Und das Projekt heißt

H-Py und das ist

ein relativ gut

finanziertes

eigenes Open-Source-Projekt, was quasi

als Idee hat, dass sie

eine Next-Generation

C-API für Python

entwickeln.

Und die

CLPI, die es eben jetzt bisher gibt,

die ist halt

in gewisser Weise so organisch

gewachsen aus C-Python

heraus. Weil das ist ja einfach,

wenn man die

CLPI benutzt, dann

greift man einfach direkt auf

die Datenstrukturen zu, die C-Python

halt einfach zufällig hat. Und wenn man eine andere

Implementierung schreiben will und die ist anders,

dann hat man ein Problem, weil dann passt

halt nicht zusammen. Und HPA ist halt die Idee, wir fangen einfach so nicht ganz auf dem Reißfaden, aber wir

machen einfach nochmal drei Schritte zurück und wir überlegen uns, wie würde denn eine

API in C aussehen, wenn man sie jetzt nochmal neu machen würde. Und da gibt es schon auch

dann, also das ist jetzt quasi noch in der Mache, es ist irgendwie Version 0,04 raus

oder so, die wollen jetzt irgendwann bald mal zu einem 1.0 kommen, aber da ist halt wirklich

die Idee, wie würde man eine API designen,

die für alle Implementierungen für

Python gleichermaßen funktioniert.

Und die hat ein paar sehr interessante

Eigenschaften. Zum Beispiel,

die ist halt absolut

AVI-kompatibel.

Du musst, vorwärtskompatibel,

du musst niemals neue

Shared Libraries kompilieren.

Du kannst die, die Idee ist, dass man

quasi so ein bisschen Windows-mäßig

unendlich lange in die Zukunft

alle alten

Shared Libraries weiter benutzen kann.

Das ist eines der Designziele

Ein anderes Designziel ist, dass man

den Debugging-Mode

anschalten kann

für den C-Code

ohne, dass man neu kompilieren muss

Sondern quasi zur Importzeit

kannst du sagen, hier ist irgendein komischer

Crash, mach mal bitte den

Debugging-Mode an

und dann findet er zum Beispiel Reference-Counting-Probleme

in der

C-Bibliothek, ohne dass man die neu

kompilieren muss. Das ist ein anderes, finde ich

sehr interessante Eigenschaft

und das Coole ist, dass

Oracle hat auch eine Python-Implementierung,

die heißt GraalPy

und die haben jetzt quasi zwei ihrer Entwickler

oder zweieinhalb ihrer Entwickler

dafür angestellt, sich eben

zu überlegen, wie man dieses HPy-Ding designt

und da passiert also quasi so richtig was

und ich habe halt die Hoffnung,

dass jetzt irgendwann in diesem 2023

es da die ersten Releases gibt

und das ist schon

auch so, dass es quasi jetzt

das Portieren von der existierenden

API auf Hby

nicht ganz

automatisiert werden kann, aber vielleicht so ein bisschen.

Also das ist jetzt auch an allen

Stellen, wo man quasi an der alten API

dranbleiben kann, haben sie

versucht, sich an der existierenden API zu orientieren,

um das Portieren eben möglich

zu machen. Und nur an den Stellen, wo

das eben nicht ging,

die Ziele zu gefährden,

haben sie dann eben sich entschieden, davon abzuweichen.

Naja also auf jeden Fall wie gesagt ich bin da nicht mit involviert ich rede manchmal mit denen das ist einer der GraalPy der GraalPy ist ein guter Freund von mir wir telefonieren dann ab und zu aber ich bin halt sehr hoffnungsvoll dass das bald mal ein Release gibt und vielleicht auch vielleicht in Python Support reingebaut wird das w sehr cool

und das würde eben dazu führen, dass

in Zukunft Extensions,

die H-Py benutzen,

halt auch wirklich schnell auf PyPy sind.

Und dann hätten wir unser,

also da,

es gibt dann ganz, ganz viele Fliegen, die mit einer

Klappe geschlagen würden,

unter anderem eben möglicherweise,

dass es effizient in PyPy ist,

dass es effizient in GraalPy ist,

trotzdem nicht langsamer ist auf C-Python

der Übergang zum vorigen

Thema ist jetzt, dass

dass sie gerade auch, soweit ich das verstehen kann,

so ein bisschen anfangen darüber nachzudenken,

ob man denn da auch die Jail-Änderungen, die nötig würden für die C-Extension,

auch noch mit unterbringen könnte.

Und das wäre halt sehr, sehr cool.

Weil das würde dann direkt funktionieren, ohne dass man da nochmal was ändern müsste.

Und wenn dann eine Extension quasi in der Situation kommt,

dass sie jetzt ganz viel anpassen müsste, um mit dem Jail zu funktionieren,

dann könnte die halt sagen, na gut

dann gehen wir halt vielleicht gleich zu dieser neuen API

nehmen noch einen ganzen Haufen andere

Benefits mit und sind aber trotzdem

auch kompatibel zu den neuen

Jail Features. Also das

ich bin mir nicht sicher, ob die das schaffen und

ich weiß auch nicht

also bei so Firmen

Funding durch Firmen, da kann halt auch mal

passieren, dass ein Manager sagt, so

brauchen wir nicht mehr, so genau

aber das wäre halt cool

also das ist ein Projekt, was ich sehr

exciting finde und wo ich hoffe, dass

dass da in diesem Jahr halt noch viel passieren wird.

Wir haben leider

offizielles Buy-in von

C-Python. Also es gibt einige

C-Python-Entwickler, die quasi

sehr wohlwollend sind,

aber wir haben quasi

kein offizielles Endorsement.

Wir sind immer mal ein bisschen am überlegen,

ob es ein sinnvolles PEP

also ich habe jetzt viel gesagt, ich bin

ich als interessierter Beobachter

bin nicht wirklich, also ich schreibe keinen Code dafür,

aber ja, also die HHP-Leute denken

auch immer mal darüber nach, was man für ein

Pep schreiben könnte und was da

ist halt gar nicht so ganz klar, was man

von T-Python wollen würde.

Weil es ist jetzt,

die wollen halt nicht sagen, die wollen

nicht die Designverantwortung wieder an T-Python

zurückgeben. Also eines der

Vorteile ist eben

gerade, dass es ein externes Team ist, was

das komplett unabhängig von T-Python macht.

Und deswegen, das soll

jetzt nicht irgendwie

wieder C-Python untergeordnet werden

so als Projekt. Aber

deswegen ist halt auch gar nicht so klar, was

ist das Ergebnis dieses Peps?

Ist das irgendwie ein reines, also

dieses hypothetische noch nicht geschriebenes Peps, ist das ein

reines Informationspapier? Wir arbeiten daran.

Nehmt uns wahr.

Also ja,

da denken wir halt

ein bisschen drüber nach. Also es gibt den

Lukas Langer, der auch

Vollzeit an über die PSF

an, teilweise arbeitet.

Der war auch bei dem

8-Pile-Sprint im

September hier in Düsseldorf.

Also der ist auch ein Core-Dev, der

informiert

und involviert und wohlwollend

Aber so von den

Hardcore-Performance-Leuten

gibt es jetzt quasi keine

offizielle Aussage, dass sie das irgendwie toll finden.

Aber ja.

Aber ich hoffe halt, dass da jetzt in diesem Jahr

halt noch ein paar interessante Sachen passieren.

interessant, ja.

Ja, ich meine,

mir sagt das gar nicht so viel, ich weiß nicht,

ich glaube, ich habe es nicht mal gehört,

dass es da noch einen Interpreter

für Python gibt.

So viele sind ja auch nicht mehr übrig, ne?

Jyton, Iron Python,

sind nicht mehr so richtig da.

Unladen Swallow gab es auch.

Ja, das ist lange tot.

Ja, PyPhy

ist so eine der ganz

wenigen überleben.

Also GraalPy halt auch.

GraalPy hat halt wirklich ein Team, die sind auch bezahlt

und von der Funding-Situation

sind die ziemlich gut.

Die haben so ein paar, deren JIT ist auch

ziemlich gut, die können wirklich schnell

einen Python-Code ausführen.

Die haben so ein bisschen das Problem, dass das nur

also dass

ihre Warm-Up-Zeit sehr lange

dauert. Also der Code wird halt erst

nach vielen Minuten schnell.

Und das heißt, du brauchst halt

die richtige Art von Anwendung.

Also so Long-Running-Server-Processes

funktionieren super, aber wenn du alle

fünf Minuten deployst, dann

halt nicht mehr.

Aber da kommen die auch noch hin.

Die haben halt Geld, im Moment.

Das ist halt für eine Implementierung

eine sehr angenehme Situation und der Tim weiß auch,

was er tut.

Ist sehr, sehr gut.

Tim Felgengriff heißt der

Taglet und

die sind, glaube ich, auch

3.10 kompatibel

supporten C-Extensions und

also das ist schon eine sehr ernstzunehmende

Empfehlung.

Ja, cool.

Warum schreibt man sich sowas dann direkt in Rust,

wenn man das eh statt in C neu zu schreiben?

Die schreiben das in Java neu.

Also gerade, wir wollen da,

ich glaube, da steigen wir jetzt nicht ein, aber gerade

ist so ein bisschen die Piper-Idee

nochmal in

mit Geld.

Also halt von Oracle,

deswegen haben die, die haben einen R-Java,

also sie können quasi ihren Java-Code nach C

übersetzen und

haben den JIT-Compiler in C geschrieben und die haben auch

diesen selben, technisch funktioniert

das ein bisschen anders, aber die haben auch so eine ähnliche Motivation

die haben so einen Meta-JIT-Ansatz

dass sie quasi keinen JIT schreiben, sondern

den JIT auch generieren

aus einem Interpreter

mit einer anderen Technik, aber

von der Motivation her ist das recht ähnlich

die benutzen das, also die haben irgendwie einen schnellen

JavaScript-Implementierung und

ein schnelles Python und

natürlich irgendwie auch ein schnelles Java

ja, und das ist

ein riesen Team, das muss man halt auch, also die haben halt

zweistellige Anzahl an Leuten, die halt

an diesem Zeug arbeiten und

ist in gewisser Weise auch

irgendwie

sehr erforschungslastig das Projekt, es ist auch eine

große, also ich würde sagen, es ist von Oracle eine große

Wette, also mir ist

nicht so, also ich glaube im Moment

verdient das Team halt kein Geld

ja, also das ist halt die Hoffnung, dass

das irgendwann mal

dann vielleicht doch Geld verdient, aber ich glaube

im Moment ist das halt wirklich eine Wette

und die läuft auch schon lang, also

das Projekt ist irgendwie 10 Jahre alt oder so

so irgendwie 30 Leute

über 10 Jahre anzustellen, das ist halt

das ist halt richtig teuer

naja, aber also da

weiß ich, also

was da die

Motivationen von so einer Firma sind, das weiß man

halt immer nicht

kann man halt dann

munter spekulieren, das mache ich natürlich auch immer gern

aber ja

das ist quasi so ein bisschen

Friendly Competition, aber

mit Betonung auf Friendly

aber nochmal die Frage

warum sowas nicht in Rust geschrieben wird

so ein neuer Link?

Mir ist noch nicht so ganz klar

also es ist so ein bisschen so eine grundsätzliche

Frage, in welcher Sprache

implementiert man

sein JIT

und die klassische Antwort ist halt C oder C++.

Und es gibt jetzt verschiedene

so forschungsaffine Projekte wie

Squeak ganz klassischerweise oder eben PyPy

oder GraalPy, die halt sagen, es ist doch eigentlich viel cooler,

wenn man eine Implementierungssprache nimmt, die halt irgendwie

ein höheres Abstraktionslevel hat als C, weil C ist halt doof und nicht memory safe

und stürzt die ganze Zeit ab und man kann

auch nicht schön abstrahieren und deswegen ist C

halt keine schöne Sprache.

Und genau,

das sind dann die genannten Projekte. Und jetzt ist so ein bisschen

die Frage, ob Rust

eine gut geeignete Sprache ist um den Compiler zu schreiben Und ich glaube das wei einfach noch keiner Also es gibt genau ein gro JIT

was Rust benutzt.

Das habt ihr auch, glaube ich, in einer Folge

darüber geredet. Das ist der neue

JIT für Ruby, der von Shopify

finanziert ist.

Es gibt übrigens auch ein großes

Ruby-Projekt, also das heißt

TruffleRuby, das auch von

Shopify zum Teil finanziert wird.

also die leisten sich mehrere

eigene Roof-Inflationen

das eben, heißt das

YGIT? YGIT heißt es, ne?

Ja, genau. Und der ist eben

in Rust geschrieben und ich glaube

die Jury ist halt noch so ein bisschen

out, ob das

ob das wirklich die richtige Sprache

für ein JIT ist und mit der

also die Maxime Chevalier

die das gestartet hat

YGIT bei Shopify

mit der zoome ich auch auf und zu.

Die ist auch extrem gut

aber was da

also was da ihre Conclusion wäre,

ist Rust die richtige Sprache, um so einen

JIT-Compiler zu schreiben?

Das weiß ich jetzt. Also das

weiß ich noch nicht. Ich glaube, das weiß man

dann, das kann man erst so ein bisschen

abschließen, beurteilen nach dem dritten JIT

vielleicht.

Also wenn man halt dann Rust nimmt, dann muss man

sich halt klar machen, dass man

dass man sich da

auf noch nicht ganz verstandenes

Terrain bewegt

ich meine

C++ ist halt

so die akzeptierteste Sprache um

virtuelle Maschinen zu schreiben

und das muss man jetzt nicht gut finden

also ich persönlich finde es halt vielleicht nicht so gut

aber das ist halt die Sprache

ich meine das ist auch die Sprache in der man halt in der Regel

einen Compiler schreibt

wenn man irgendwas anderes nimmt, dann muss man sich halt

klar machen, dass

dann ist man plötzlich für sich selbst

verantwortlich.

Da muss man mit seinen eigenen Konsequenzen leben.

Also ja,

ich weiß es nicht.

Es ist halt so ein bisschen die Frage,

an welcher Stelle

würde die Extra Safety

von Rust

wäre die Gewinnbringend,

im Compiler.

Weil das, was halt an so einem

JIT-Compiler

dangerous und scary

ist, ist halt nicht,

dass der selber in der Unsafe-Sprache

geschrieben ist. Das ist natürlich auch ein Problem.

Und das ist nicht das primäre Problem.

Das primäre Problem ist, dass man selber Maschinencode

erzeugt. Und der darf halt nicht falsch sein.

Der darf halt nicht falsch sein. Aber bei diesem Problem

bringt einmal Rust auch nichts.

Ja, weil Rust, dann ist der

Compiler, dann ist der

das Ding,

indem man den JIT-Compiler schreibt, ist dann halt,

das geht halt nicht kaputt. Genau. Beim Interpretieren

deines Interpreters, wenn etwas anderes geschrieben ist,

aber wenn der falschen Code erzeugt, dann ist

er immer noch schlecht. Genau.

Das ist halt gewisserweise ein Logik-Bug

und kein

Memory-Safety-Bug. Ja. Testen.

Genau. Es gibt also,

irgendwann werde ich den Teil

2-Blogpost zu How is Python Fyte-Tested

schreiben. Der ist auch deutlich länger.

How is Blitztestet?

Das ist nämlich wirklich auch nochmal

so ein bisschen so ein, das ist ein richtig

dass das da ganz viel

Also falls ihr mitmachen wollt, wie gesagt.

Ja, also

ich mache jetzt hier mal so einen allgemeinen

Aufruf. Es ist

also es gibt natürlich schon so ein paar

ich will es jetzt nicht zu schlecht reden,

es gibt so ein paar Hürden. Wir haben Python 2,

wir sind in Mercurial, wir sind nicht auf GitHub,

wir sind am Fork von GitLab,

der auch mit Mercurial geht.

Also es gibt so ein paar Nervigkeiten beim

Einstieg, aber

es ist in gewisser Weise

halt so ein bisschen auch

die netteste Python-Implementierung, bei der man einsteigen kann, weil man halt Python schreibt.

Und man nimmt halt PyTest und man schreibt PyTest und man kann halt

irgendwie seinen Debugger nehmen und man kann halt die ganzen Tools, die man

kennt, Python 2 ist da so ein bisschen doof, aber also die ganze

Arbeitsweise, die man halt kennt, wenn man sowieso schon Python kann, die kann man benutzen, um

da drin rumzuhacken. Und das macht halt auch ein Stück weit

einfach Spaß. Also man ist halt nicht in GDB

und man hat halt keinen Stack-Fault, sondern man kriegt

halt erstmal einfach einen ganz normalen Python

Stacktrace, der einem sagt, in deinem

Interpreter hast du jetzt hier einen Fehler gemacht.

Und man schreibt halt einen Unit-Test einfach in Python,

der die Datenstruktur des Interpreters halt auch

einfach testen kann. Und das ist halt

auch, also ich finde das

immer noch auch sehr, sehr

cool. Und deswegen, ich glaube so,

wenn man sich halt für das Gebiet

überhaupt so ein bisschen grob interessiert,

wie funktioniert eine Programmiersprache

oder wie funktioniert so ein Bytecode-Interpreter

oder irgendwann dann auch

wie funktioniert so ein JIT, ist das schon

auch ein Projekt, wo man

halt im Vergleich zu, ich lerne jetzt

erstmal C++ für ein Jahr

und es ist ja dann auch vielleicht in so einer

virtuellen Maschine auch komisches C++,

wo man dann doch auch recht leicht

irgendwie reinkommen kann.

Und ich

also ich sage das auch

immer mal wieder, wenn sich da jemand für

interessiert und dann da gerne

was machen möchte, ich mache da auch gerne

immer Mentoring, das ist halt auch

Teil meines Jobs, da ich betreue halt irgendwie

Studenten, die da dann auch

drin arbeiten, als Teil ihrer Arbeiten.

Insofern weiß ich halt dann,

also habe ich quasi viel Übung in Onboarding

und das ist auch was,

was mir Spaß macht. Also wenn sich jemand jetzt für irgendwas

konkret interessiert, es gibt

Themen verschiedenster

Art, dann

kann man sich

immer gerne bei uns melden und

ich zoome dann immer gerne auch

mit Leuten und mache so ein bisschen Pair-Programming

beim Einstieg, damit man halt

einfach so ein bisschen...

Also die erste Stunde in einem neuen Projekt

ist ja immer die schlimmste.

Man weiß halt nicht, man findet halt nichts.

Wo ist man da jetzt gelandet?

Was ist denn das hier für ein Ordner?

Und wie startet das eigentlich?

Wo kriege ich eigentlich das Python 2 her, was ich brauche?

Und wo geht es mit Tech-Essen?

Da versuche ich dann immer auf jeden Fall

deutlich den Leuten zu helfen.

Und das ist auch was,

was mir wirklich Spaß macht.

Meldet euch und

Ja, klingt auf jeden Fall sehr gut

Ja, vielen Dank

Wollen wir vielleicht noch Pics machen?

Ich hatte jetzt nur einen kleinen

der gar nichts mit sonst

die Dingen zu tun hat, über die wir gerade

geredet haben

Dann lassen wir es weg

Ja, dann vielen Dank, dass ihr eingeschaltet habt

Ja, sehr interessant diesmal

Danke sehr

Danke für die Einladung

Okay, dann bis zum nächsten Mal

Tschüss, bis dann