Transcript: Auphonic

· Back to episode

Full episode transcript. Timestamps refer to the audio playback.

Dominik

Hallo, liebe Hörerinnen und Hörer. Willkommen im Python-Podcast, Episode 61.

Jochen

Wirklich 61. Wir haben eben noch ein bisschen drüber zu erhalten.

Dominik

Heute geht es um Auphonikin. Hallo, Jochen.

Jochen

Hallo, Dominik. Herzlich willkommen und herzlich willkommen, Johannes.

Jochen

Hi, Johannes.

Jochen

Auch wieder mit dabei.

Jochen

Ja.

Jochen

Hallo zusammen.

Dominik

Wir haben ja schon ein paar Mal hier gehabt, glaube ich. Ihr kennt ihn.

Dominik

Genau.

Dominik

Und wir haben auch einen besonderen Gast heute wieder.

Dominik

Hallo, Georg.

Georg

Hallo, danke für die Einladung.

Georg

Ja, schön, dass du da bist.

Dominik

Eine Vorstellung machen wir vielleicht bestimmt noch später,

Dominik

wenn wir zu Wort kommen.

Dominik

Vielleicht fangen wir mit unserer klassischen Struktur an.

Dominik

Wir haben ja immer besonders viel Struktur im Podcast,

Dominik

habe ich gehört, Jochen.

Dominik

Ja?

Dominik

Ja.

Dominik

Okay.

Dominik

Vielleicht als erstes News,

Dominik

für alle, die es noch nicht mitbekommen haben,

Dominik

wir planen ein HörerInnen-Treffen.

Jochen

Ja, wir hatten ja letztes Mal da aufgerufen,

Jochen

sich zu melden.

Dominik

In der Region Rheinland.

Dominik

Es haben sich tatsächlich einige Leute schon gemeldet.

Jochen

Genau, wir haben gesagt,

Jochen

ihr solltet uns auf jeden Fall immer noch eine Mail schreiben,

Jochen

damit wir das dann ordentlich zählen können.

Jochen

Und genau einer hat uns eine Mail geschrieben.

Jochen

Die anderen Leute haben sich über alle Kanäle gemeldet.

Jochen

Manche haben sich auf LinkedIn gemeldet,

Jochen

manche haben sich über Discord gemeldet,

Jochen

manche haben sich einfach nur persönlich gemeldet.

Jochen

Aber wir kriegen das auch immer wieder.

Dominik

Also wer Lust hat, sagt auf jeden Fall Bescheid.

Johannes

Und ich habe gehört, dass die Stuttgart-Fraktion,

Johannes

die Süddeutschland-Fraktion,

Johannes

die ist gerade stark in Führung.

Johannes

Macht ihr eine Frage?

Dominik

Nein, leider nicht.

Jochen

Diese Gerüchte kann ich nicht bestätigen.

Jochen

Auf LinkedIn hat einer gesagt,

Jochen

er würde gerne das lieber in Stuttgart haben als in Düsseldorf.

Jochen

Aber ansonsten, zum Beispiel auf Spotify

Jochen

wollten vier Düsseldorf und

Jochen

keiner Stuttgart.

Dominik

Ja, und bei uns im Discord auch.

Dominik

Ja, also

Dominik

tut mir leid, du musst leider anreisen.

Jochen

Aber wir müssen uns halt noch überlegen, wie wir das machen wollen

Jochen

und wo.

Johannes

Also ist jetzt aber letzte Chance

Johannes

für die Süddeutschland-Hörer.

Jochen

Ja okay, wenn man jetzt wirklich will, dass in Stuttgart stattfindet,

Jochen

könnte man nochmal.

Jochen

Ihr habt noch die Chance. Stimmen Sie jetzt ab.

Johannes

Die Telefonleitungen sind geschaltet.

Jochen

Die Spuren sind

Jochen

scharf gestellt am Mischpult, mit dem wir

Jochen

nie Probleme haben. Genau, das war es doch schon wieder,

Jochen

dann bleibt uns gewogen, hallo at pythonpodcast.com.de

Jochen

Haben wir Picks? Nein.

Dominik

Wir wollten News machen, glaube ich, noch.

Jochen

Okay, gut. Ich habe

Jochen

ehrlich gesagt fast

Jochen

gar nichts. Also es gibt

Jochen

eine neue Rails-Version, die ein bisschen mehr

Dominik

Deployment dazu kann, aber... Okay, wir waren, glaube ich,

Dominik

erst vor zwei Wochen News gemacht und in den letzten

Dominik

zwei Wochen ist nicht so wahnsinnig viel passiert. Ja, und es ist nicht so wirklich viel passiert,

Dominik

keine Ahnung warum. Dann skippen wir heute die News

Dominik

oder hast du mit News mitgebracht? Oder hat jemand von euch

Jochen

irgendwas Interessantes, was in der Python-Welt

Jochen

passiert ist? Ne.

Jochen

Ich hab nix.

Dominik

Dann lassen wir einfach den Georg sich selbst vorstellen

Dominik

und ein bisschen was erzählen. Das finde ich eine tolle Idee.

Jochen

Obwohl, wir könnten auch einmal noch kurz Werbung machen

Jochen

für uns selber.

Jochen

Das ist eine gute Idee.

Jochen

Ja, ganz kurz.

Jochen

Miet mich, miet mich, miet mich.

Jochen

Jetzt hier.

Jochen

Ja, wie war das?

Jochen

Ja, man kann uns auch mieten.

Jochen

Ich hab gehört, das muss man wiederholen.

Jochen

Sonst merken sich die Leute das nicht.

Jochen

Wir haben das ja schon einmal gemacht.

Jochen

Aber einmal ist zu wenig.

Jochen

Und deswegen sagen wir das einfach nochmal, also wenn ihr interessante Projekte habt oder so, die meisten von uns sind irgendwie Freelancer und auch im Prinzip für schöne Projekte buchbar.

Jochen

Und ich wiederhole das jetzt mal in meiner Stimme auch nochmal, auch ich bin Mietbar und immer für interessante Projekte zu haben.

Johannes

Ja, wunderbar.

Johannes

Und Georg, wie ist das bei dir? Bist du auch Mietbar oder bist du irgendwo angestellt?

Georg

Wir sind alle Mietbar irgendwie, oder?

Georg

Ja, gut.

Dominik

Also ihr wisst ja schon, dass ihr alle für die Werbung im Podcast erst eine Rechnung bekommt.

Dominik

Von mir? Das war jetzt deine Überleitung, damit du den Georg vorstellen kannst.

Dominik

Ja, gut, dann.

Dominik

Okay, Entschuldigung, Georg, bitte.

Georg

Ja, ich bin der Georg, hallo.

Georg

Und ja, wenn man mich mieten will, ich bin aus Österreich an der slowenischen Grenze ganz im Süden, da in der Nähe von Graz.

Georg

Und warum bin ich da? Also wir haben so ein Projekt, Afonik nennen sie das, da geht es um Audio-Verbesserung.

Dominik

Vielleicht noch einmal ganz kurz einhaken darf, Afonik habt ihr auf jeden Fall schon mal gehört. Also zumindest, wenn ihr unseren Podcast schon mal gehört habt, habt ihr auf jeden Fall Afonik gehört, weil wir von Anfang an alle unsere Episoden durch Afonik jagen.

Dominik

Aha, so gehört, nicht schlecht.

Georg

Ja, zuerst mal zu mir.

Georg

Also ich habe bei uns da in Graz Toningenieur studiert.

Georg

Das ist eine interessante Studie,

Georg

weil man so Audiosachen und Informatik

Georg

und Elektrotechnik-Sachen in Kombination quasi hat.

Georg

Also du hättest das Audio-Problem hier,

Dominik

was wir am Anfang der Episode hatten,

Dominik

heute sehr viel schneller in den Griff bekommen.

Georg

Deswegen habe ich gesagt,

Georg

warum verwendet ihr einen Mischpuls?

Georg

Dann hat man keine Probleme,

Georg

wenn man keines verwendet.

Georg

Wie auch immer.

Georg

Und ja, dann mehr so in die Richtung Informatik, also alles ein bisschen so kombiniert,

Georg

also Audio und Informatik und Machine Learning und so weiter.

Georg

Und dadurch war ich sehr viel Podcast-Hörer immer und dadurch bin ich dann irgendwie zu Afonik gekommen,

Georg

wo es eben um die Verbesserung von Audi gegangen ist und was am Anfang auch noch ganz wichtig war,

Georg

das heißt verschiedene Dateien zu erstellen,

Georg

sei es mp3, AAC, da hat es ja alle möglichen Formate damals noch gegeben

Georg

und die Metadaten korrekt zu haben und so weiter und so fort.

Georg

Und so ist das ganze Projekt sozusagen entstanden.

Georg

Warum jetzt im Python-Podcast, wenn Sie einige fragen?

Georg

Also bei uns ist ja fast alles mit Python gemacht,

Georg

weil allein schon von der ganzen Algorithmen-Seite ist das alles mit Python,

Georg

das immer, wo das immer schafft, Byton,

Georg

das ganze Websystem haben wir auch mit Byton gemacht.

Dominik

Da erzählen wir bitte gerne gleich noch ein bisschen

Dominik

ausführlicher drüber, das interessiert unsere

Dominik

Hörerinnen natürlich sehr.

Dominik

Glaube ich.

Jochen

Ja, das klingt auch gut.

Jochen

genau, ich weiß nicht, wie kommt denn dann,

Jochen

also ich habe immer schon, also ich höre ja,

Jochen

ich habe schon ganz lange immer Podcasts gehört und

Jochen

gefühlt war so Aufhonig

Jochen

auch schon relativ früh mit dabei.

Jochen

war ein Podcast speziell

Jochen

irgendwie

Jochen

auch so eine

Jochen

Motivation dafür, irgendwie das zu

Jochen

machen oder ist das halt irgendwie später

Jochen

dazugekommen,

Jochen

dass das Podcast funktioniert

Georg

vielleicht, ja.

Georg

Ja, also zuerst

Georg

das erste System war quasi

Georg

explizit für Podcasts, ja.

Georg

Das war der Tim damals, der Tim

Georg

Britloff, der immer

Georg

gestöhnt hat, dass alles so kompliziert ist

Georg

und da denkt man sich dann natürlich, na okay, da braucht man halt immer so ein Tool

Georg

und das hat dann eben so angefangen, zuerst mit dem Leveling,

Georg

dass man eben verschiedene Lautstärken von verschiedenen Sprechern auf gleiche Levels bringt und so weiter

Georg

und dann eben so ein Web-System, also so ein Web-Interface dazu

Georg

und von dort weg ist es dann halt weiter gewachsen in andere Bereiche.

Georg

Der Tim hat das dann eben auch angekündigt

Georg

auf seinem Podcast damals.

Georg

Und so sind halt viele andere

Georg

Podcaster auch dazukommen.

Georg

Und dann hat sich das immer sehr schön

Georg

langsam weiter verbreitet.

Jochen

Ja, ich glaube, ich habe es auch daher

Jochen

mal gehört, denke ich, wahrscheinlich, ja.

Jochen

Genau, ja.

Jochen

Ja, das ist ja auch interessant.

Jochen

Ich habe auch den Eindruck,

Jochen

dass ihr da am Anfang

Jochen

relativ viel so Scikit-Learn

Jochen

verwendet habt zumindest

Jochen

für irgendwie

Jochen

diese ganzen Anpassungen?

Georg

Ja, also wir

Georg

ganz am Anfang

Georg

so viel mit NumPy, Scikit-Learn,

Georg

SciPy, also diese ganzen

Georg

Signalfarbedrucks

Georg

und Machine Learning Packages, was es

Georg

eben damals so gegeben hat.

Georg

Und das war eh...

Georg

Vielleicht kannst du kurz sagen, wann damals war?

Georg

Damals, also gestartet

Georg

sind wir 2013,

Georg

wenn ich das richtig im Kopf habe.

Dominik

Also ist das von bald das zwölfte Jahr.

Dominik

Schon ein bisschen was sehr Gutes dort.

Georg

Ja, das waren halt die

Georg

frühen 2010er Jahre quasi,

Georg

wo die erste Version entstanden

Georg

ist. Und

Georg

ja, was

Georg

ich schätze mal, eure Hörer kennen

Georg

eh diese ganzen Packages, also

Georg

NumPy, so

Georg

Array Processing und

Georg

SciPy setzt eben drauf auf,

Georg

hat ein paar zusätzliche

Georg

Algorithmen, vor allem

Georg

im Signalverarbeitungsbereich

Georg

und Scikit-Learn

Georg

waren halt früher

Georg

hauptsächlich alle möglichen Klassifikations-

Georg

und Clustering-Algorithmen,

Georg

auf denen wir dann halt auch

Georg

aufgebaut haben und

Georg

ja, vielleicht mal

Georg

ein Beispiel, was wir damals da so machen

Georg

haben können, so,

Georg

geht natürlich jetzt auch noch, aber jetzt gibt es halt

Georg

andere Techniken auch. Wir haben halt

Georg

damals versucht, früher hat es ja

Georg

eigentlich nur so Audio-Plugins

Georg

gegeben, was halt Signalverarbeitung

Georg

Algorithmen waren, die halt irgendwie

Georg

abgelaufen sind und man hat ein paar Rahmen

Georg

da dann eingestellt und

Georg

im Prinzip war das immer noch sehr schwer

Georg

zu bedienen, wie man es am Mischpult sieht

Georg

und

Georg

das Ganze

Georg

haben wir versucht eigentlich einmal zu

Georg

automatisieren, das heißt wir haben halt

Georg

nicht nur diese DSP Algorithmen gehabt

Georg

die man aufs Audio irgendwie anwendet, sondern

Georg

versucht mit Klassifikatoren

Georg

gewisse Sachen im Audio zu erkennen, also

Georg

wo zum Beispiel verschiedene Sprecher sind

Georg

oder wo Musikteile sind, wo jetzt nur

Georg

nur Rauschteile sind oder

Georg

eben nur Hintergrundgeräusche

Georg

oder Hintergrundmusik, Vordergrundmusik

Georg

und lauter solche Sachen. Und mit

Georg

diesen

Georg

Ergebnissen, die wir eben von den

Georg

Klassifikatoren dann bekommen haben,

Georg

dafür haben wir zum Beispiel

Georg

Scikit-Learn-Sachen verwendet,

Georg

wie jetzt SVMs

Georg

oder irgendeine

Georg

Decision Trees mit Feature Extraction

Georg

vorher. Und aufgrund

Georg

von diesen Analysedaten haben wir dann

Georg

eben die Parameter der

Georg

der ganzen DSP-Algorithmen automatisch

Georg

gesetzt, also zum Beispiel

Georg

wenn man einen D-Noiser

Georg

hat, haben wir das Auto mal segmentiert

Georg

in verschiedene Abschnitte, wo

Georg

verschiedene Noise-Profile sind, also

Georg

zum Beispiel wären wir jetzt hier in einem Raum,

Georg

dann geht man raus, dann hat man natürlich ein anderes

Georg

Noise-Profil, da haben wir so ein Clustering

Georg

gemacht, dass das Auto segmentiert

Georg

und dann in den einzelnen

Georg

Segmenten

Georg

haben wir geschaut, wo jetzt Sprecher sind,

Georg

oder Musikteile und in den stillen

Georg

Teilen, wo eben keiner spricht, also

Georg

wo nur der Noise-Floor sozusagen unten überbleibt.

Georg

Diese haben wir dann so zusammengestitcht und daraus Noise-Profile extrahiert

Georg

und diesen Noise dann quasi vom Gesamtsignal abgezogen

Georg

und wiederum entschieden, ob das überhaupt Sinn macht, dass man das macht

Georg

oder ob das nicht Musik ist und da wollen wir das vielleicht nicht abziehen.

Georg

Also die Grundidee ist halt, dass man so verschiedene Klassifikatoren hat

Georg

und mit denen dann die Algorithmen steuert.

Georg

Und für das hat das ganz gut funktioniert, ja.

Jochen

Aber diese Algorithmen sind dann quasi noch so die klassischen,

Jochen

ich weiß jetzt nicht, ich habe jetzt so im Hinterkopf,

Jochen

da gibt es irgendwie so Audio Workstations

Jochen

und irgendwelche Plugins und so

Jochen

und da kann man dann wahrscheinlich die Parameter einstellen,

Jochen

aber sozusagen die sind dann halt übernommen,

Jochen

aber wie man die einstellt, ist automatisiert über halt irgendwie...

Georg

Übernommen, also die haben wir natürlich schon selber entwickelt,

Georg

aber vom Prinzip her ähnlich natürlich.

Georg

Also man hat halt bestimmte Filter oder Kompressoren, Limiter

Georg

und was gibt es noch

Georg

alles in der FFT-basierten Prozesse

Georg

so wie dieses Denoising zum Beispiel

Georg

und

Georg

auf diese Weise

Georg

steuert man dann diese

Georg

klassischen DSP-Algorithmen quasi.

Georg

Ja,

Jochen

aber genau gibt es da nicht

Jochen

irgendwie, wenn man jetzt zum Beispiel

Jochen

das ist ja auch ein spezieller Anwendungsfall

Jochen

eigentlich, dass man halt

Jochen

so ein fertiges Audio hat, was man dann

Jochen

post-processen will,

Jochen

kann man da nicht auch noch irgendwie

Jochen

vielleicht irgendwie

Jochen

Informationen, mehr

Jochen

Informationen verwerten, wenn man halt das ganze

Jochen

Audio, weil normalerweise diese

Jochen

Audio Workstations sind ja immer mehr so drauf ausgelegt,

Jochen

dass man halt irgendwie einen Mix

Jochen

so live erzeugt und

Jochen

da hat man ja gar nicht so

Jochen

viel Informationen.

Georg

Das ist eben das,

Georg

der Unterschied

Georg

von unserem System gewesen zu den

Georg

anderen Sachen oder zu den meisten anderen Sachen.

Georg

Also, dass eben

Georg

das ganze Konzept, wie es im

Georg

Computer meistens funktioniert.

Georg

Also in Audio-Plugins

Georg

ist es halt eigentlich ein

Georg

Realtime-Konzept, also ein Plugin

Georg

sieht ja nur einen kleinen Buffer an Audio,

Georg

den er prozessiert und

Georg

den muss er jetzt auch so schnell wie möglich

Georg

prozessieren und dann spuckt er ihn wieder aus,

Georg

weil das System ja auf Realtime

Georg

ausgelegt ist und

Georg

es hat zumindest damals

Georg

sehr wenig Programme gegeben, die

Georg

jetzt ja wirklich so

Georg

Offline-Audio-Berechnung gemacht

Georg

haben und

Georg

das war damals eben der

Georg

Levelator, den es da gegeben hat, das war auch so

Georg

ein Programm, das einfach die Levels

Georg

quasi gleich geregelt hat von

Georg

Aufnahmen,

Georg

nämlich Brute Force, also

Georg

der hat nicht geschaut, ob da irgendwie Musik ist, das hat er

Georg

vollkommen zerstört, aber halt einfach versucht, alles

Georg

irgendwie gleich laut zu machen

Georg

und

Georg

dieses Programm hat mich damals ein bisschen

Georg

fasziniert, weil ich doch aus der Audio

Georg

Bubble sozusagen gekommen bin und das haben mir

Georg

die Podcaster damals gezeigt und

Georg

Und ich habe mir gedacht, warum habe ich noch nie von dem gehört?

Georg

Das ist ja eigentlich ganz praktisch.

Georg

Weil in der ganzen professionellen Audio-Welt

Georg

dieses Konzept einfach nicht existent war.

Georg

Also wirklich.

Georg

Weil es da natürlich die super speziellen Plugins geben,

Georg

die von den namhaften Herstellern und so weiter.

Georg

Aber dieses Konzept haben wir dann auch versucht ähnlich zu machen.

Georg

Also weg von dem Plugin-Konzept und eben einfach das gesamte Audio analysiert.

Georg

Das heißt, man hat vorher schon mal schauen können, wo was passiert.

Georg

Und danach die Algorithmen dann darauf anpassen.

Georg

Zusätzlich ist das natürlich praktisch.

Georg

Das kann man dann als Web-Service anbieten, weil da kann man dann das ganze File hintun.

Georg

Und das wird dann halt einfach sozusagen im Hintergrund prozessiert.

Georg

Und dann bieten sie natürlich auch andere Sachen an, dass man das File dann gleich mal hindistributiert.

Georg

Also auf YouTube und auf Soundcloud wird auch immer so ziemlich populär.

Georg

Und alle möglichen anderen Targets auf den eigenen Server oder verschiedene andere.

Georg

Publikations- und Encoding-Steps

Dominik

dann dazu tun. Darf ich noch so ein paar

Dominik

Fragen stellen, vielleicht zu diesem Audio-Ding? Das würde mich so ein bisschen

Dominik

mehr interessieren. Also du hast das aus der Tontechnik-Welt

Dominik

quasi gedacht, ja? Und wenn du sagst,

Dominik

okay, du möchtest die Sachen auspegeln irgendwie, dann

Dominik

guckst du darauf, dass das so ein bisschen harmonisch

Dominik

ist und du guckst, dass das so ein bisschen Raum gibt

Dominik

und du versuchst dann mit den Filtern,

Dominik

die durch das Machine Learning trainiert sind,

Dominik

zu erkennen, was jetzt ein Störgeräusch ist

Dominik

und nicht zur Stimme gehört.

Dominik

Und ja, also ich versuche es so ein bisschen

Dominik

einfach darzustellen, weil ich möchte gerne

Dominik

diesen Prozess aus dieser Audio-Perspektive

Dominik

so ein bisschen eher verstehen.

Georg

Ja, naja, ich rede jetzt immer noch aus der Perspektive,

Georg

wie das quasi früher war.

Georg

Aber nehmen wir vielleicht mal dieses Leveling-Beispiel, was muss man da machen?

Georg

Also wenn man jetzt verschiedene Sprecher hat, zum Beispiel wie wir da,

Georg

einer ist halt viel lauter, einer ist viel leiser und das wechselt sich dann ab.

Georg

Und wo war ich jetzt? Ja genau, dann hat man irgendwelche anderen Sachen noch dabei,

Georg

also Intro-Musik zum Beispiel oder dann ist wieder mal Pause und dann hört man irgendwelche anderen Geräusche.

Georg

Dann nennt sich das so Voice Activity Detection, also man detektiert eben, wo jetzt wirklich die Sprache aktiv ist und wo jetzt Pausen sind.

Georg

Dann detektiert man zum Beispiel, wo jetzt Musiksegmente sind und dann, wo jetzt irgendwas anderes ist, also irgendeine Störgeräusche, die jetzt weder Sprache noch Musik sind sozusagen.

Georg

Und dann, wenn man jetzt die verschiedenen Sprachsegmente hat und da sind große Levelunterschiede,

Georg

dann versucht man die so schnell wie möglich nachzuregeln, dass sie möglichst ähnlich laut klingen,

Georg

also relativ schnell zu faden.

Georg

Bei Musik muss man das jetzt wieder anders machen, weil wenn man in der Musik jetzt so schnell nachregelt,

Georg

dann würde man die ganze innere Dynamik der Musik zerstören, weil Musik braucht ja viel mehr Dynamik natürlich,

Georg

wäre alles ziemlich

Georg

eine Wurst. Eine Wurst

Georg

in dem Sinn, dass alles gleich laut ist und

Georg

dann nicht mehr gut klingt. Das heißt, bei Musik

Georg

muss man das natürlich wiederum anders machen, deswegen

Georg

muss man das vorher klassifizieren, dann hat man wieder

Georg

irgendwelche anderen Geräusche, die jetzt weder Musik

Georg

noch Sprache sind, die wird man wahrscheinlich

Georg

nicht raufregeln wollen.

Georg

Also das kennt man von

Georg

so alten Automatic Gain Control

Georg

Algorithmen bei diversen

Georg

Recording-Systemen, wenn man das

Georg

einstellt und dann stehen lässt und dann mal der Zeit lang

Georg

nichts sagt, dann wird auf einmal der Noise-Begel

Georg

komplett hochgezogen vom Hintergrund

Georg

und dann fängt wieder irgendwer zum Sprechen

Georg

an, dann regelt der

Georg

Begel wieder runter und dann ist der Noise wieder

Georg

unten und die Sprache kommt wieder.

Georg

Also genau solche Pumping-

Georg

Artefakte, dass irgendwas hochgezogen

Georg

wird, was man nicht will, will man

Georg

natürlich nicht haben und das

Georg

kann man natürlich viel besser machen, wenn man

Georg

das ganze Pfeil vorher klassifiziert, wo

Georg

welche Events

Georg

passieren, die relevant sind für diesen

Georg

Algorithmus jetzt und dann

Georg

weiß man schon, das ist da und das ist da und dann

Georg

kann man diese

Georg

Nachregelung natürlich

Georg

ein bisschen besser machen, ganz einfach.

Georg

Ich hoffe, das war jetzt deine Frage.

Georg

Ja, ich versuche mir noch vorzustellen,

Georg

wie das genau aussieht. Also wenn du

Georg

sagst, also die Musik braucht jetzt ein bisschen mehr

Georg

Dynamik, hast du gesagt,

Georg

dann lässt den Filter ein bisschen mehr

Georg

auf und du regelst halt nicht die einzelnen Frequenzen

Georg

alle auf laut, sondern willst dir ein bisschen

Jochen

auch Raum geben vielleicht. Ich weiß nicht,

Jochen

Ich versuche das so ein bisschen visuell zu verstehen,

Jochen

was bei Musik vielleicht nicht ganz so einfach zu erklären ist.

Jochen

Ja, aber ist Musik eigentlich überhaupt jemals sozusagen auch das Ziel gewesen,

Jochen

dass man das halt verbessern kann?

Jochen

Oder ist das auch vor allem nicht eher schon immer irgendwie Sprache,

Jochen

reine Sprache gewesen?

Georg

Ja, aber du musst ja mit der Musik auch irgendwas machen.

Georg

Ja, man muss auch damit irgendwie klarkommen, ne, ja.

Georg

Das Problem ist ja, du kannst ja nicht einfach nichts machen,

Georg

weil wenn du jetzt die Sprache irgendwie großartig nachregelst

Georg

und dann ist die Musik wieder ganz woanders,

Georg

dann passt das ja erst wieder nicht zusammen.

Georg

Also wir versuchen natürlich die Musik

Georg

so wenig wie möglich zu verändern,

Georg

sag ich mal,

Georg

also künstlerisch zu verändern,

Georg

sondern einfach so anzupassen,

Georg

dass sie zum Rest von der Produktion passt.

Georg

Also dass halt die Lautstärkenverhältnisse

Georg

zu den Sprechern und der Musik

Georg

einigermaßen passt,

Georg

dass die Lautstärkenverhältnisse in der Musik

Georg

nicht so viel verändert werden,

Georg

Also natürlich werden sie ein bisschen verändert, aber nicht zu extrem und spektral wird die Musik jetzt eigentlich auch nicht verändert, also zumindest bis jetzt nicht, vielleicht machen wir das in Zukunft nochmal, weil wir gehen natürlich davon aus, meistens hat man so einen Einspieler oder sonst irgendwas, das ist schon vorproduziert, das ist künstlerisch meistens so gewollt und da will man jetzt nicht großartig was ändern dabei, außer vielleicht ein bisschen Neues weglöschen oder eben die Pegel anpassen, dass sie zum Rest passen.

Georg

Was wir natürlich auch sehr oft an so Musikmixes machen, da macht es schon Sinn.

Georg

Also wenn man jetzt ein Stück hat, das sehr laut ist und sehr leise, das passt

Georg

Passen wir schon an, dass das dann wieder zusammenpasst.

Georg

Aber jetzt nicht den spektralen Content in der Musik.

Georg

Ja.

Jochen

Aber genau, ist das denn...

Jochen

Aber inzwischen hat sich ja auch im Machine Learning-Bereich

Jochen

so einiges getan, so in den letzten zehn Jahren.

Jochen

Ich meine, 2013 hat das mit dem Deep Learning

Jochen

und so gerade erst angefangen.

Jochen

Gibt es da inzwischen auch Geschichten,

Jochen

wo man das so mehr so richtig End-to-End,

Jochen

ohne dass man dann noch irgendwelche Blöcke dazwischen hat,

Jochen

die man konfiguriert, sondern einfach

Jochen

quasi, man könnte ja auch das alles irgendwie

Jochen

insgesamt lernen und dann halt

Jochen

Audio rein auf der einen Seite in

Jochen

irgendwie ein neuronales Netz und dann wieder Audio auch wieder raus.

Jochen

Hat sich

Jochen

das da eigentlich in die Richtung schon entwickelt?

Jochen

Weil ich habe da ehrlich gesagt ja keine Ahnung von.

Georg

Ja, so

Georg

funktioniert es im Moment

Georg

eigentlich. Also

Georg

wie gesagt, wenn man

Georg

jetzt von der Geschichte her kommt, mit von

Georg

NumPy, SciPy und

Georg

CKitLearn und so weiter,

Georg

sind immer

Georg

weitere Algorithmen gekommen. Also ich habe zum Beispiel

Georg

meine Blumenarbeit damals

Georg

auch schon mit so neuronalen Netzen gemacht.

Georg

Das war 2007 oder

Georg

2008. Da war das noch ganz

Georg

am Anfang, vor allem im Audi-Bereich.

Georg

Und am Anfang

Georg

von der Phonik haben wir das jetzt noch

Georg

nicht gehabt, weil es ja einfach

Georg

nur zu aufwendig war zum Rechnen.

Georg

Aber dann

Georg

sind wir eh gleich in diese

Georg

Richtung einmal gegangen.

Georg

Wenn wir jetzt schon in beiden Podcasts sind,

Georg

können wir von den Tools ein bisschen reden.

Georg

Zuerst war das Dancerflow

Georg

sehr beliebt am Anfang.

Georg

Vor allem mit diesem

Georg

Keras, dieser Keras

Georg

Library, das war damals so ein

Georg

Wrapper für Dancerflow, im Prinzip einfach mit

Georg

einer einfacheren

Georg

API, also einfacher

Jochen

zu verwenden. Ja, inzwischen ist es glaube ich

Jochen

die offizielle API-Aufwand.

Georg

Ja, die haben es glaube ich irgendwie, oder der

Georg

Typ bei Keras ist dann glaube ich irgendwann zu

Georg

Google und dann haben sie das gleich dazu

Georg

einbaut.

Georg

Wie auch immer, zuerst haben wir viel mit Keras

Georg

eben gemacht und dann irgendwann

Georg

sind wir dann eh so wie alle auch

Georg

auf PyTorch.

Georg

Mittlerweile machen wir eigentlich alles mit PyTorch,

Georg

also eh schon lang. Aber jetzt zu den

Georg

Algorithmen, wie funktioniert das jetzt?

Georg

Also eigentlich

Georg

ziemlich anders, also

Georg

wie du gesagt hast, mittlerweile

Georg

kommt eigentlich einfach nur mehr Audio

Georg

rein und Audio raus

Georg

dann. Also es ist viel mehr Blackbox als

Georg

vorher.

Georg

Und wie funktioniert das?

Georg

Das heißt, man ist jetzt natürlich hauptsächlich damit beschäftigt,

Georg

oder mit vielen Sachen beschäftigt, aber ein großer Punkt ist natürlich,

Georg

dass man jetzt die ganzen Datensätze eben zusammenstellt.

Georg

Nehmen wir nochmal den Beispiel mit denoising, also Störgeräusche weglöschen.

Georg

Dazu braucht man natürlich ganz viele Audiosprachfiles,

Georg

wenn wir jetzt nur Sprache betrachten, braucht man ganz viele Sprachfiles,

Georg

gut klingen, also ganz viele

Georg

Sprecher, verschiedene Sprachen,

Georg

verschiedene Geschlechter natürlich, verschiedene

Georg

Ausdrucksweisen, verschiedene

Georg

Sprachstile, emotionale Sprache,

Georg

Fadesprache, was auch immer

Georg

man sich flüstern,

Georg

was auch immer man sich denken kann, also alles mögliche,

Georg

was es dazu gibt. Das natürlich

Georg

in einer guten Qualität, ohne verrauschen.

Georg

Dann braucht man natürlich ganz

Georg

große Datensätze von

Georg

verschiedenen Neustarten,

Georg

also statisches Rauschen, dann ein Auto,

Georg

das hinten vorbeifährt oder

Georg

Klopfgeräusche am Computer

Georg

und so weiter.

Georg

Alles, was man sich irgendwie vorstellen kann.

Georg

Musik natürlich auch, falls man Musik auch wegrechnen

Georg

will. Baby streichen,

Georg

Hunde bellen.

Georg

Und

Georg

dann mischt man diese Daten

Georg

eben zusammen, also dass man

Georg

aus diesen schönen Daten eben das Rauschen

Georg

dazurechnet. Das ist dann quasi

Georg

das schlechte Signal, das ist

Georg

das Input von dem Netzwerk und als

Georg

Target hat man dann einfach das schöne

Georg

Signal und dann trainiert

Georg

man eben dieses Model, das Netzwerk

Georg

an, also ihr kennt das wahrscheinlich

Georg

alle, und

Georg

dann

Georg

hat das eben einen bestimmten

Georg

Lernalgorithmus, das die Gewichte

Georg

in diesem neuronalen Netzwerk eben

Georg

updatet und dadurch

Georg

versucht es eben zu lernen, wenn man das

Georg

reinschickt, kommt das raus und

Georg

versucht eben zu generalisieren

Georg

für alle möglichen anderen Sachen, die

Georg

dazwischen sind, die man eben nicht explizit

Georg

gelernt hat. Zusätzlich

Georg

zu diesen Daten und Modeln

Georg

gibt es ja noch

Georg

so Transformationen, also

Georg

das Audio wird nicht nur durch

Georg

zumischen von Neu schlechter gemacht, sondern

Georg

man kann auch noch alles mögliche andere machen.

Georg

Man kann Filter-

Georg

Artefakte draufrechnen, die das Netzwerk

Georg

dann wegrechnen soll

Georg

oder das Audio klicken zum Beispiel

Georg

und das versucht es wieder wegzurechnen

Georg

oder irgendwelche Kompressoren

Georg

am Target oder am Input drauflegen.

Georg

Also alles, was man früher so

Georg

eigentlich an Signalbearbeitungsalgorithmen

Georg

gehabt hat und

Georg

direkt angewendet hat,

Georg

ist jetzt für den End-User quasi weg,

Georg

aber die ganzen Algorithmen braucht man

Georg

trotzdem immer noch, weil man damit

Georg

im Endeffekt jetzt die ganzen Transformationen

Georg

von den Daten macht,

Georg

damit man sie so zusammenbasteln

Georg

kann, damit sie eben möglichst

Georg

variantenreich sind und damit man alle möglichen

Georg

Sachen abbilden kann, die das

Georg

Model dann eben machen soll.

Georg

Aber wenn

Georg

ja die Algorithmen nicht mehr direkt auf die Daten

Georg

an, sondern einfach auf den Trainingsdaten

Georg

und damit modelliert man sozusagen die

Georg

Trainingsdaten so, wie es dann eben fürs

Georg

Model sein soll.

Jochen

Ja, interessant.

Jochen

Ich hätte mir schon mal überlegt, irgendwie, keine Ahnung,

Jochen

ob man nicht sowas machen

Jochen

könnte, wie wenn man jetzt

Jochen

angenommen, man hätte irgendwie

Jochen

ganz viel hochqualitatives Audio irgendwo her,

Jochen

keine Ahnung, hat ein Archiv von

Jochen

einem Radiosender gefunden oder

Jochen

irgendwelchen Medien

Jochen

und man spielt das jetzt irgendwie

Jochen

in einem Raum ab und legt dann

Jochen

irgendwie ein Handy irgendwie in die Mitte oder sowas

Jochen

und nimmt das dann auf, dann könnte man

Jochen

ja eigentlich sozusagen, kann man dann nicht

Jochen

gutes Audio aus irgendwie einer Handy-Mikrofon-

Jochen

Aufnahme generieren. Könnte man nicht

Jochen

ein neuronales Netz trainieren, das halt

Jochen

irgendwie quasi dann halt auch, wenn ich dann selber

Jochen

wieder das Handy nehme oder reinspreche, dann quasi

Jochen

da einen guten Klang draus mache. Das ist glaube ich

Jochen

das, was Georg versucht, diese Folge. Genau

Jochen

das. Aber da lernst du doch

Jochen

nur einen Filter, oder?

Georg

Genau, im Prinzip

Georg

gibt es genauso Datensätze von

Georg

du meinst jetzt zum Beispiel Impuls-Responses,

Georg

also Impuls-Antworten von Räumen

Georg

zum Beispiel,

Georg

wo eben, keine Ahnung,

Georg

100.000 Impuls-Responses

Georg

von verschiedenen Geometrien

Georg

von Räumen, das heißt in dem Fall

Georg

hättest du ein Handy halt immer

Georg

an einem anderen Punkt, in einem anderen Raum

Georg

liegen.

Georg

Das sind eben genau diese Transformations.

Georg

In dem Fall rechnet man dann so

Georg

eine Impuls-Response drauf auf

Georg

das Input-Signal und am Target

Georg

soll das dann eben wieder weggeregnet werden.

Georg

Dann in deinem Fall hättest du noch so nicht-lineare Verzerrungen drinnen,

Georg

vom Handy, Mikrofon zum Beispiel.

Georg

Das kann man natürlich auch mit so nicht-linearen Verzerrungen ganz einfach simulieren.

Georg

Zusätzlich hast du noch Rauschen dabei, also man kann da noch ein neues dazu mischen.

Georg

Und mit diesen ganzen Dingen, dann hast du vielleicht noch spektrale Effekte drinnen,

Georg

also man kann noch so EQ-Dinger auf deinen Input drauflegen.

Georg

und wenn man diese ganzen Effekte

Georg

zusammen mischt, dann

Georg

kommt halt irgendein schlechtes

Georg

Audio sozusagen raus, das man dann

Georg

verwenden kann.

Jochen

Ja, und das kann man natürlich dann

Jochen

deutlich flexibler machen, als wenn man das jetzt

Jochen

irgendwie tatsächlich physisch irgendwie machen müsste.

Jochen

Man braucht ja auch viele Daten

Jochen

irgendwie wahrscheinlich.

Jochen

Was heißt denn viele Daten?

Jochen

Wie viele Daten braucht man denn?

Jochen

Braucht man da 10 Stunden

Jochen

oder 100 Stunden oder 1000 Stunden

Jochen

oder 100.000 Stunden?

Georg

Naja, mehr wie tausend. Also es kommt drauf an, wie gut das soll oder welcher Algorithmus jetzt und wie gut das funktionieren soll. Also für so ein neues Redaction-Sachen brauchst du schon einige tausend Stunden an Audio-Material, sage ich mal.

Johannes

Okay, also so ein Podcast-Archiv aus 150 Stunden Audio kommt nicht weit.

Georg

Naja, bei allem, wenn du jetzt ein Podcast-Archiv hast, das ist halt sehr einseitig, also du bist natürlich verschiedenste Podcast-Archive von verschiedenen Ländern, von verschiedenen Ausdrucksweisen, dann kommt natürlich noch die Qualität vom Audio dazu, also es ist ja nicht so leicht, wirklich gute Sprache zum Beispiel zu finden, wo jetzt kein Rauschen drin ist, weil sonst trainierst du ja auch erst wieder an, dass du Rauschen dabei hast.

Georg

Also wir machen das meistens

Georg

ein bisschen rekursiv, also

Georg

man hat natürlich einmal ein Modell, dann findet man

Georg

wieder neue Daten, die ein bisschen

Georg

verrauscht sind, die

Georg

neu ist man mit dem alten Modell, damit trainiert man

Georg

dann das neue Modell und so weiter,

Georg

damit man die Daten ein bisschen

Georg

besser aufbereiten kann.

Georg

Weil, was ja ganz interessant ist,

Georg

welche Effekte wir immer gehabt haben, also

Georg

wenn man natürlich schon mal Daten

Georg

gehabt hat, mit denen man

Georg

ein Model trainiert hat,

Georg

und der will mir dann danach noch einmal

Georg

den Neues mit dem gleichen Model, dann funktioniert

Georg

das natürlich nicht, weil das Model hat ja schon

Georg

gelernt, dass in den Daten Neues

Georg

drinnen ist und das reproduziert

Georg

den Neues ganz einfach wieder.

Georg

Also irgendwie ist das wirklich

Georg

drinnen gespeichert dann.

Georg

Na gut, aber

Georg

was

Georg

bei uns auch noch so ein Ding ist,

Georg

weil wir

Georg

ja vorher von der

Georg

klassischen DSP-Welt,

Georg

Machine Learning-Welt gekommen sind,

Georg

Der Vorteil dort ist natürlich, dass man Parameter zur Kontrolle hat, was oft ein Vorteil, oft ein Nachteil ist, weil es komplizierter werden kann. Ein Vorteil, weil man verschiedene Use Cases damit abbilden kann.

Georg

Und dieses Prinzip wollten wir jetzt halt auch nicht ganz aufgeben in der ganzen neuen Deep Learning Welt sozusagen, weil man kann natürlich auch so ein Model machen, das jetzt alle diese Transformationen und was auch immer drinnen hat und da kommt dann irgendwas raus und mit dem kann man dann leben oder nicht, aber oft will man halt auch mehr Kontrolle haben, was genau man mit dem Audio machen will.

Georg

Man will zum Beispiel nur gewisse Störgeräusche rausrechnen oder man will Musik auch rausrechnen oder Atme wegrechnen oder gewisse Sachen wegschneiden oder Lautstärken labeln, Lautstärken nicht labeln, Filtering anwenden oder nicht.

Georg

Also insofern ist unser Weg, dass wir verschiedene Stem-Models haben, die wir dann kombinieren.

Georg

Also zum Beispiel haben wir so ein Model, das im Filtering macht, das nennt sich der Auto-EQ-Model,

Georg

was auf das Filtering spezialisiert ist.

Georg

Dann haben wir verschiedene Denoising-Models, die verschiedene Teile von Audi weglöschen können oder überlassen können,

Georg

damit man dann die so kombinieren kann, um noch ein bisschen Kontrolle darüber zu haben,

Georg

Um auch verschiedene Use Cases, was ist das zum Beispiel, also in einem Radio Play, also in einem Hörspiel im Radio will man natürlich alle möglichen Soundeffekte hinten haben, also in einem Wasserfall, der plätschert oder der Knall, wenn die Tür aufgeht.

Georg

Oder in einem Yoga-Video will man natürlich das ganze Atmen im Hintergrund haben und nicht rauslöschen.

Georg

Jetzt in einem reinen Sprach-Podcast will man viel mehr natürlich rauslöschen.

Georg

Also alles, was Tippen ist oder das Plätschern vom Bach im Hintergrund oder der Vögel oder Atmen von mir.

Georg

Das kann man auch rauslöschen oder Pausen rauslöschen, wenn man es ganz extrem machen will.

Georg

Insofern.

Jochen

Also es ist quasi sehr kontextabhängig,

Jochen

also sehr auch davon abhängig,

Jochen

also man kann nicht ein Modell für alle

Jochen

Sachen verwenden oder das Modell

Jochen

muss er halt selber erkennen, was jetzt,

Jochen

eigentlich müsste man ihm das ja sagen, das kann er jetzt ja gar nicht

Jochen

wissen, ob der jetzt das

Jochen

oder schwierig wahrscheinlich,

Jochen

ob das ab und zu erwünscht ist oder nicht.

Jochen

Ja, klar.

Jochen

Ja, das

Jochen

Multitrack-Interface,

Jochen

ich meine, das ist ja auch schön,

Jochen

dass das alles geht, genau, aber ja,

Jochen

es ist nicht so ganz einfach einzustellen, das stimmt.

Georg

Ja, Multitrack ist nochmal besonders

Georg

komplex, vor allem vom Interface, weil

Georg

für jede Track kannst du alle

Georg

Settings halt einstellen und dann

Georg

wird das halt natürlich gleich einmal viel.

Georg

Ja.

Jochen

Ja, gar nicht so einfach.

Johannes

Ich glaube, wir sind so ein bisschen überfahren, oder?

Johannes

Von diesen ganzen

Johannes

Möglichkeiten, die es da gibt und von

Johannes

den ganzen coolen Sachen, die ihr da macht.

Johannes

Und

Johannes

als Außenstehender, also ich als,

Johannes

sag ich mal, Feldwald und Wiesen-Informatiker,

Johannes

mir fehlt da so ein bisschen

Johannes

der Bezug dazu. Also für mich ist es

Johannes

so ein bisschen so, ja, ich habe hier eine Audiodatei und

Johannes

da gibt es irgendwelche magischen

Johannes

Tools, die irgendwelche magischen Sachen machen und

Johannes

hinterher hört es sich besser an.

Georg

Ja, aber es ist ja auch okay, oder?

Georg

Als User willst du eh nicht mehr wissen im Endeffekt.

Georg

Jetzt hast du ja alles auf den User

Georg

degradiert. Idealerweise

Georg

möchte ich nicht mehr wissen, das stimmt natürlich.

Johannes

Aber

Johannes

wir wollen ja da schon gerne einen Blick reinwerfen

Johannes

und das ist

Johannes

irgendwie so eine ganz eigene Welt, diese

Johannes

Audiosachen. Ich meine, da ist die

Johannes

da gibt es spezielle Hardware und dann

Johannes

sehen die Knöpfe alle anders aus und dann sind die

Johannes

Interfaces so kompliziert, dass wir nicht damit klarkommen

Johannes

und

Johannes

ich finde es total

Johannes

faszinierend, wie tief

Johannes

das so ist, weil das so

Johannes

auf der Ebene

Johannes

die der User

Johannes

damit interagiert, ist das ja wirklich nur so. Ich habe eine

Johannes

Datei und die soll besser klingen und jetzt

Johannes

ist es so.

Georg

Das war natürlich auch der Punkt,

Georg

warum wir angefangen

Georg

haben mit Afonik überhaupt.

Georg

Weil Audio-Technik einfach vor 10, 15 Jahren sehr kryptisch war.

Georg

Das ist ja heute schon total anders.

Georg

Früher hast du echt wissen müssen, was ein Kompressor ist, was ein Limiter ist,

Georg

wie du den einstellst, wie du die ganzen Filterparameter einstellst,

Georg

wo man, wenn man eigentlich nicht wirklich Ahnung davon hat,

Georg

viel leichter, viel mehr schlecht machen kann, als gut machen kann.

Georg

Und das war eigentlich der Ausgangspunkt von uns,

Georg

weil wir halt gedacht haben, oder ich damals

Georg

gedacht habe, dass man kann

Georg

einfach einem normalen Menschen unter Anführungszeichen

Georg

sowas einfach nicht zumuten.

Georg

Der, wie du sagst, nur ein besseres

Georg

Audio haben will, das war

Georg

einfach alles viel zu kompliziert.

Johannes

Ja, ganz oft ist es ja auch so,

Johannes

dass gerade in dieser

Johannes

Audio-Welt, dass man als

Johannes

normaler Benutzer viele Dinge

Johannes

gar nicht hört

Johannes

oder gar nicht versteht.

Johannes

Man hat ja da gelegentlich Kontakt dazu

Johannes

Und wenn man dann so sieht, ja, da sitzt einer hier an seinem Mischpult und dann dreht er an irgendwelchen Reglern und es passiert eigentlich gar nichts. So, erster Eindruck, aber dann am Ende hört es sich doch irgendwie wesentlich besser an, als es sich vorher angehört hat. Und diese Intransparenz ist so für mich als Benutzer, ja, ich zähle mich da durchaus zu den Benutzern, super interessant, weil ich verstehe überhaupt gar nicht, was es da für, ich verstehe noch nicht mal, was es für Parameter gibt.

Johannes

Und dann gibt es aber Experten, die gucken sich das an und sagen, ja, nee, so kannst du es nicht machen und hier musst du diesen das hochdrehen und das runterdrehen und dann am Ende denkst du, verrückt.

Johannes

Und ich habe einmal so eine Erfahrung gemacht, da haben wir bei einem ehemaligen Arbeitgeber, wir haben ein Marketingvideo gedreht, das war ein großer Spaß für einen Programmiertwettbewerb und der war auch so ein Audio-Fan, der hatte sich selber in seinem Wohnzimmer ein kleines Studio reingebaut, auch mit so Schallschutzwänden und so Zeugs und dann hat er da mit seiner Band, was man halt so macht.

Johannes

Und dann hat er da so ein Stück Audio von mir aufgenommen und ich meine, jeder, der schon mal Audio von sich selber gehört hat, der weiß, dass das ganz schrecklich ist, wenn man sich das anhört, weil die eigene Stimme, die hört sich gruselig an.

Johannes

Aber dann hat er das da so reingetan und hat so ein paar Knöpfe gedreht und auf einmal habe ich mich angehört wie ein Radiomoderator und so eine richtig sonore Stimme mit Volumen drin und er hat das Reverb aufgedreht.

Johannes

Ja, und vielleicht auch ein bisschen die Bässe hochgedreht und, keine Ahnung, einen Kompressor reingemacht, weiß ich, was das bedeutet. Jedenfalls einige magische Regler und auf einmal war es viel, viel, viel besser. Und ich finde das super faszinierend, dass es so eine Welt gibt, die eigentlich so intransparent ist, aber die doch irgendwie jeder hört, weil man hört ja schon, ob sich Audio gut anhört oder nicht.

Dominik

Und meinst du jetzt, wenn du das Audio auf dem Telefon als Podcast hörst oder wenn du das bei deiner Serienanlage hörst oder im Auto?

Johannes

Wenn ich das in meinen Bluetooth-Lautsprechern zehn Meter von meinem Handy anhöre.

Dominik

Entschuldigung, ich wollte gerade, weil ich finde nämlich, dass die Sachen alle auf unterschiedlichen Geräten immer ganz anders klingen.

Johannes

Ja, das ist natürlich so. Aber ich meine, die ganz alten Sachen waren ja alle für Radio und auch da hat es sich sehr gut angehört. Also besser als ohne.

Jochen

Ja, wobei ich glaube, das muss man auch so ein bisschen lernen.

Jochen

Also ich habe jedenfalls irgendwie zum Beispiel bei den ersten Podcast-Episoden jetzt hier,

Jochen

dachte ich, ach, das klingt ja eigentlich ganz gut.

Jochen

Und wenn ich mir die heute anhöre, denke ich mir so, ah, das klingt aber eigentlich ganz schön schlecht.

Jochen

Und das war auch so ein Lernprozess.

Jochen

Das ging nicht von Anfang an.

Dominik

Und dann hat der Jochen sich ein ganz großes Mischpult gekauft,

Dominik

das wir immer noch nicht ordentlich bedienen können.

Dominik

Und damit ist es viel besser geworden.

Dominik

Ja, nee.

Dominik

Viel einfacher.

Dominik

Ja.

Dominik

Aber ich höre jetzt auch...

Johannes

Was die Hörer nicht wissen, ist ja, dass wir vorher eine Dreiviertelstunde gebraucht haben, um die Aufnahme zu starten.

Johannes

Das war tatsächlich das Nächste zum Vorbereiten, das wir ever hatten.

Johannes

Matrix.

Jochen

Aber es ist auch ein gewisserweise gebührender Einstieg, dass man dann schon mal so nicht denkt, dass es zu einfach wäre.

Johannes

Ich finde es auch sehr schön, Georg, dass du gleich als Profi gesagt hast, wisst ihr was, diese ganze Audio-Technik, alles weg.

Johannes

einfach nur ein Mikrofon, ein Kabel.

Johannes

Sehr sicher.

Georg

Aber nochmal zu deinem Punkt mit

Georg

dass es besser geklungen hat.

Georg

Weil der hat ein paar Regler gedreht

Georg

und dass es besser geklungen hat.

Georg

Das stimmt natürlich,

Georg

aber

Georg

man muss ja immer vor,

Georg

in dem Fall vor Ohren führen,

Georg

dass das natürlich

Georg

sehr subjektiv

Georg

ist und eigentlich von deiner Wahrnehmung

Georg

vom Radio her geprägt ist.

Georg

Da gibt es natürlich ganz unterschiedliche Stile

Georg

in unterschiedlichen Ländern auch, wie man

Georg

das handhabt. Also du bist

Georg

jetzt einem bestimmten Radiosound

Georg

vielleicht gewohnt, was deine Radiosender

Georg

bei dir in Deutschland jetzt haben.

Georg

In Amerika ist es meistens ganz anders

Georg

oder in anderen Ländern.

Georg

Das heißt, wenn jetzt

Georg

irgendwer deine Stimme so regelt, dass er

Georg

möglichst ähnlich an deiner

Georg

Referenz sozusagen ist, was du

Georg

als guten Sound verstehst oder

Georg

gewohnt bist zu hören, ganz einfach,

Georg

dann klingt das für dich gut.

Georg

Wenn du jetzt zum Beispiel

Georg

das, wenn das jetzt ein Südamerikaner

Georg

gemacht hätte und die haben eine andere Referenz,

Georg

dann hätte es vielleicht für dich gar nicht so gut

Georg

geklungen. Also das ist

Georg

sehr subjektiv und auch

Georg

vom Kontext oder

Georg

von der Herkunft

Georg

vor allem abhängig. Da gibt es

Georg

große Unterschiede, wie Länder das Handhaben.

Georg

Manche haben so diese richtige

Georg

Radiostimme, wo alles

Georg

total eng ist, sehr

Georg

basslastig und

Georg

tot komprimiert, also wie man es

Georg

auf dem Radio hört. Das andere

Georg

wieder andere Sender, wie zum Beispiel BBC oder was auch immer, viel offener, freier,

Georg

also ohne sehr wenig Komprimierung, nicht so dieser Nahbesprechungseffekt,

Georg

wo du so überhöhte, tiefe Frequenzen hast, wo es einfach viel normaler klingt. Also das

Georg

sehr subjektiv natürlich

Georg

diese Übernehmung.

Georg

Das kommt immer auf die Referenz drauf an.

Dominik

Diese Bilder, wenn man das zwar über Ton

Dominik

spricht, aber vom Klangbild auch redet,

Dominik

schon auch ein bisschen

Dominik

einordnen, oder?

Dominik

Es gibt schönere Bilder

Dominik

von besseren Künstlern und es gibt

Dominik

ästlichere Bilder vielleicht.

Dominik

Selbst wenn sie unterschiedlich sind und wenn es

Dominik

verschiedene Stilrichtungen gibt,

Dominik

kann man schon, glaube ich,

Dominik

eine Qualität

Dominik

eines Stückes hören.

Dominik

Es ist auch ein bisschen bei Musik, ja, also ich höre

Dominik

relativ einseitige Musik,

Dominik

obwohl ich auch von vielen Genres

Dominik

durchaus anerkennen kann, wenn es da gute

Dominik

Musik gibt, die man gut hören kann, die man nicht so gut hören kann.

Dominik

Und ich höre auch, ob eine Musik einfacher

Dominik

produziert ist oder komplexer, unabhängig jetzt von

Dominik

meinem Geschmack vielleicht dafür.

Dominik

Wenn ihr wisst, was ich meine, ja.

Dominik

Und ich finde, das ist auch bei Audio so.

Dominik

Und insbesondere

Dominik

halt bei dem, was du sagtest, wie du diesen

Dominik

Signal bearbeitest, was halt der

Dominik

Tontechniker, der, also ich weiß nicht, ist,

Dominik

kann man das so sagen, ist Harphonik ein virtuelles

Dominik

Tontechnik-Instrument.

Dominik

Ist das so?

Georg

Virtueller Tontechniker, ja.

Dominik

Und ja, was er dann tut,

Dominik

was er da machen kann, um

Dominik

ähm,

Dominik

ich will jetzt wieder in der Bildsprache bleiben, den Pinsel

Dominik

zu führen, ja, also tatsächlich diesen

Dominik

Ton zu skypen und

Dominik

ja, also klar, gibt's da

Dominik

vielleicht verschiedene Meinungen oder ich weiß nicht, ob du

Dominik

sowas hast wie Presets, die du

Dominik

sagen kannst, Afonik, hey, das ist jetzt

Dominik

Taste, du hast eben

Dominik

Südamerika erwähnt und das ist Taste

Dominik

Europe oder so, oder

Dominik

das ist Taste Radio und das ist Taste

Dominik

Big Cinema. Kann ja sein,

Dominik

dass du das auch machen kannst, aber der Trick

Dominik

wäre ja, genau das auch bauen zu können.

Dominik

Als Tontechniker sich quasi

Dominik

dieses Zielbild oder diesem

Dominik

Stil anzupassen und

Dominik

das dann halt auf einen gewissen Qualitätsgrad zu bringen.

Dominik

Und das aus Algorithmen zu denken,

Dominik

finde ich spannend, weil ich versuche auch überhaupt

Dominik

erstmal zu verstehen, wie das überhaupt geht, weil

Dominik

dieses Klang

Dominik

zu visualisieren,

Dominik

ist halt da wieder auch wieder der falsche Begriff, ja,

Dominik

Aber sich das so vorstellen zu können, wie man einen Klang überhaupt schafft, das ist irgendwie eine der großen Herausforderungen, die ich jetzt persönlich habe, wenn ich jetzt an Musik denke, auch was ich höre überhaupt umzusetzen.

Dominik

Dafür muss ich relativ viel üben oder so, dass ich das hinkriege oder halt auch in die Musikschule gehen und Theorie lernen und so.

Dominik

Und das ist durchaus, glaube ich, die spannende Sache dahinter vielleicht.

Dominik

Und warum es so einem Nutzer wie dir, Johannes, dann vielleicht schwerfällt, weil du sonst nicht so viel mit Ton machst.

Dominik

Absolut, blutiger Nutzer.

Johannes

Ich habe da überhaupt gar keinen Connect dazu.

Johannes

Ich habe da, glaube ich, eine sehr visuelle

Johannes

Ansicht. Sobald man mir

Johannes

eine FFT zeigt,

Johannes

dann komme ich damit klar.

Johannes

Aber solange nur die Geräusche da sind oder die

Johannes

Wellenformen, dann

Johannes

bin ich völlig verloren.

Jochen

Ja, ich weiß es nicht

Jochen

genau. Ich habe mal irgendwann

Jochen

auch ein Podcast-Episode gehört

Jochen

mit Rick Rubin

Jochen

und der meinte so, ach,

Jochen

das mit dem irgendwie Produzieren

Jochen

und so, eigentlich kann man es immer

Jochen

nur kaputt machen und wenn man das nicht

Jochen

kaputt macht, dann ist das schon sehr, sehr

Jochen

gut. Ich weiß gar nicht, ob man

Jochen

tatsächlich so viel an

Jochen

Mastering

Jochen

kann man

Jochen

damit tatsächlich prägen.

Dominik

Ich bin jetzt ja

Dominik

totaler Amateur, was Musik auch angeht

Dominik

und so, aber wenn ich jetzt mit einem Kumpel

Dominik

Musik mache und ich schaffe es halt

Dominik

schon, bestimmte Sachen da rauszuholen oder

Dominik

bestimmte Töne an der richtigen Stelle

Dominik

leiser oder lauter zu machen oder halt Raum zu schaffen

Dominik

für den Bass oder so

Dominik

einen Ducking hinzukriegen, das ist ja schon

Dominik

eher so Basics, ja, aber

Dominik

ich kann mir das überhaupt nicht vorstellen

Dominik

mit Sprache, weil ich damit überhaupt gar keine Erfahrung habe,

Dominik

ja, mit Podcast oder sowas, also

Dominik

wir machen jetzt Vereine, aber als Hontechniker

Dominik

jetzt würde ich sagen, würde ich mich jetzt auch nicht bezeichnen

Dominik

und das ist halt schon nochmal

Dominik

eine andere Herausforderung und wenn man gerade diese

Dominik

Klangbilder vor Uhren hat,

Dominik

ja, da

Dominik

kommt man vielleicht so ein bisschen näher dran, also

Dominik

das ist das, was Johannes meinte. Er hat genauso

Dominik

geklungen, wie er dachte, dass er im Radio steht und

Dominik

Und wenn ich jetzt weiß, okay, ich möchte das Audio-Klangbild haben, wie das hier mal so im Radio steht, dann weiß ich vielleicht, in welche, vielleicht wenn ich das Klang habe, das richtige Wort dafür, ich weiß nicht, ich das Ganze bringen möchte, ob ich jetzt, welche Frequenzen ich bewege.

Dominik

Und was ich jetzt spannend finde, ist, was kann ich denn noch machen eigentlich als Audio-Tontechniker, außer Frequenzen bewegen und Lautstärke mit, was ist das, Envelopes modifizieren?

Jochen

Die ausleveln.

Dominik

Ja, das ist ja, der Envelope ist ja...

Georg

Im Endeffekt ist alles

Georg

Frequenzen und Lautstärkung, mehr gibt's ja nicht.

Dominik

Ja, genau, aber ja.

Georg

Ja, gut, aber...

Georg

Wie man diese Regeln...

Georg

Ja, aber...

Georg

Grafiks sind auch nur ein paar Pixel, das ist jetzt

Georg

zu kurz geschaut.

Georg

Ja, ein paar Farben

Georg

an die richtige Stelle getan.

Georg

Na, du meinst jetzt, welche

Georg

Algorithmen es jetzt sozusagen noch

Georg

gibt, oder was?

Georg

Da können wir vielleicht gleich noch mal drauf eingehen.

Georg

Ich finde es gar nicht so unangenehm.

Jochen

Ich glaube, der Dominik möchte einfach in dem komplizierten Interface

Jochen

noch ein paar mehr Knöpfe haben, wo er dann sagen kann,

Jochen

jetzt lieber irgendwie Radio-Style oder lieber...

Jochen

Nee, er möchte wissen, welche Knöpfe mehr er drehen muss um den Radio-Style.

Jochen

Um mehr so...

Dominik

Ja, also ich würde tatsächlich, also ich würde gerne,

Dominik

wenn ich jetzt so ein perfektes Tonstudio-Ding mir vorstelle,

Dominik

wo es diese ganzen einzelnen Regelungen gibt,

Dominik

ja, dann möchte ich gerne wissen, welche Regelungen ich denn überhaupt...

Jochen

Ja, aber das ist jetzt halt neuronales Netz.

Jochen

einer Milliarde Knöpfe, die du drehen kannst.

Jochen

Die kannst du gar nicht mehr selber drehen,

Jochen

da musst du das vorher drehen.

Dominik

Ungefähr zu wissen, welche Richtung ich da möchte,

Dominik

ist vielleicht ja schon mal der

Dominik

erste Schritt.

Dominik

Also ich glaube, es ist schon klar, dass ich

Dominik

die Spur nicht drehe. Habt ihr euch selber neuronale

Dominik

Netze trainiert, Georg?

Georg

Wie meinst du, ob wir unsere

Georg

Netze selber trainieren? Ja.

Georg

Ja, sicher. Wir benutzen irgendwas

Georg

Vorgefertigtes und... Nein, nein, bei uns

Georg

ist alles selber

Georg

gemacht. Alles selber gemacht?

Georg

Ja, also alles natürlich nicht, aber

Georg

die Algorithmen, so muss man sagen.

Georg

SciPy und NumPy.

Georg

Und wie viele Parameter

Georg

habt ihr da drin?

Georg

Über welche Größe sprechen wir da?

Georg

Also ich meine, das ist ja eine dieser Kenngrößen, die man so

Johannes

sagt, hier, GPT-X hat

Johannes

eine Milliarde Parameter.

Georg

Ja, das kann

Georg

ich dir so gar nicht sagen,

Georg

weil, also diese

Georg

Netze im Audi-Bereich

Georg

funktionieren ein bisschen anders, weil

Georg

ich meine,

Georg

im Prinzip hat es schon

Georg

ähnliche Elemente, also man hat halt

Georg

meistens

Georg

irgendwelche rekursiven Elemente

Georg

oder Transformers drinnen, also

Georg

bei uns meistens

Georg

LSDMs oder Transformer

Georg

eben oder beides meistens und dann noch

Georg

so Convolution Layer natürlich

Georg

und alle

Georg

die Elemente sind eh ähnlich, aber

Georg

es gehen einfach viel mehr

Georg

Daten rein und raus natürlich, weil

Georg

Audio eine viel höhere Sampling Rate

Georg

hat und in einer kürzeren Zeit

Georg

viel mehr Daten rein und raus müssen.

Georg

Aber auf was

Georg

fällt jetzt eigentlich raus? Anzahl Parameter,

Georg

Größe, also

Georg

wir haben natürlich verschiedene Models, also

Georg

von manche

Georg

Gigabyte bis zu

Georg

ein paar hundert Megabyte,

Georg

also in der Größenordnung.

Georg

Das ist nicht so riesige Models wie

Georg

irgendeine Sprachmodelle,

Georg

aber doch schon ein bisschen was.

Georg

Und

Georg

ja, die Herausforderung ist natürlich auch, wie man

Georg

wie man die alle trainiert, weil es natürlich viel

Georg

Rechenleistung braucht. Insofern, wir bauen uns halt hauptsächlich

Georg

unsere eigenen Trainingsserver auf, beziehungsweise mieten

Georg

teilweise eben an, was aber leider halt sehr teuer ist, wenn man da versucht

Georg

auf Amazon oder sonst irgendwo anzumieten.

Georg

Bei den eigenen Rechnern ist wieder die Herausforderung, dass man die Kühlung halt hinbekommt,

Georg

dass man im Büro das noch irgendwie aushaltet oder

Georg

sonst wo die entsprechende

Georg

Entkühlung schafft und natürlich

Georg

die Kosten von der

Georg

Anschaffung, weil

Georg

die GPUs sind natürlich heiß begehrt

Georg

im Moment und jeder will

Georg

die kaufen, aber

Georg

das ist natürlich

Georg

zusätzlich zu den Daten

Georg

eben, dass man gute Daten

Georg

bekommt und vor allem im

Georg

Audi-Bereich sind die Daten ja auch

Georg

sehr subjektiv, wie wir vorher

Georg

schon geredet haben und das muss man irgendwie

Georg

einordnen trotzdem

Georg

und das ist nicht immer so ganz klar.

Georg

Also man kann dieses Data Labeling

Georg

jetzt nicht einfach nach Indien auslagern

Georg

und da gibt es jetzt ein paar Clickworker,

Georg

die das einfach kategorisieren,

Georg

sondern da muss man wirklich ein gutes Gehör haben dafür.

Georg

Und zusätzlich eben die ganze Computer-Hardware

Georg

ist eine Herausforderung,

Georg

dass man diese eben beschafft.

Johannes

Okay, aber trotzdem betreibt ihr ja ein System,

Johannes

wo ich als Endkunde eine Audiodatei hochladen kann.

Johannes

Und die wird in zehnfacher Geschwindigkeit verarbeitet. Allein das ist ja schon eine massive Leistung, dass ihr da einen Service hinstellt, der einfach so funktioniert und dann auch noch ungeheuer schnell ist.

Johannes

Also ich meine, wenn man sich die Leistung von solchen Systemen vor fünf oder vor zehn Jahren anschaut, würde man erwarten, dass es zehnmal so lange dauert, wie das Audio ist. Aber jetzt ist es gerade umgekehrt. Es ist zehnmal so schnell, wie das Audio ist. Wie kriegt ihr das hin, Georg? Ich habe mir das vorhin auf eurer Webseite durchgeschaut und habe mir gedacht, wie kriegt ihr das hin?

Georg

Naja, also ich meine, du redest jetzt natürlich nicht vom Training, sondern von der Influenz, also das, was deine Anwendung ist.

Georg

Ja, aber trotzdem.

Georg

Ja, trotzdem. Es gibt halt mittlerweile gute GPUs, um das kurz zu fassen.

Johannes

Okay, ihr habt ein paar horizontal skaliert. Dicke Rechner.

Georg

Naja, geht halt in dem Fall leider nicht anders, weil du musst die Models halt auf GPUs ausführen, weil auf CPUs sind sie halt einfach zu langsam.

Georg

Bei uns, wir sind in einer glücklichen Lage, dass wir eben nicht so riesige Modelle haben wie die ganzen Language Models, also wir können das auch auf einzelne GPUs ausführen und brauchen dann nicht GPU Cluster für ein Modell, das ist schon mal viel einfacher, aber das Schwierige ist natürlich die Rechenleistung beim Training, weil du halt da wochenlang das System rechnen lassen musst und ja, da brauchst du dann einfach viel mehr Rechenleistung.

Georg

die Inferance ist jetzt eh okay

Georg

also es gibt

Georg

die Standardanbieter wie

Georg

Hetzner und so weiter, die bieten eh

Georg

GPU-Server auch an mittlerweile und

Georg

da kann man sich einfach einmieten und

Georg

das war es dann im Endeffekt. Wie viel musst du mieten bei Hetzner?

Dominik

Für dein Modelltrainieren-Training? Ist es einfach den einen?

Dominik

Kostet er 200 Euro oder was? Fürs Trainieren

Georg

haben wir nichts bei Hetzner, das wäre zu teuer

Georg

für die

Georg

Inferance oder so

Georg

da haben wir

Georg

keine Ahnung

Georg

zwischen 10 und 20 herum

Johannes

Ja, ist schon eine ganz schön ordentliche Operation, was ihr da betreibt. Ist auch vom Betrieb her eine gewisse Herausforderung, weil da werden dann doch die Datenmengen auch, also ich meine Audio ist jetzt nicht so schlimm wie Video, aber trotzdem kriegst du ja doch da Teilen, die eine gewisse Megabyte Größe haben und die du dann verarbeiten musst und auch, soll ich mal, richtig verarbeiten musst.

Johannes

Also höchster Respekt hier.

Georg

Und vor allem, man braucht halt

Georg

natürlich auch Rechenleistung.

Georg

Das kostet es halt auch.

Georg

Das ist dann der Punkt im Endeffekt.

Georg

Das war halt

Georg

früher schon viel günstiger.

Georg

Da haben wir das nur auf CPUs

Georg

sozusagen laufen gehabt.

Georg

Hat natürlich auch ähnlich lange

Georg

gedauert, weil die Algorithmen

Georg

halt auch für damalige Verhältnisse

Georg

relativ aufwendig waren.

Georg

Aber war halt um einiges günstiger.

Johannes

Ja, das ist so ein bisschen die Kehrseite, oder, von dieser ganzen neuronale Netze-Geschichte. Auf der einen Seite muss man wesentlich weniger manuelle Arbeit reinstecken, wobei das vielleicht auch gar nicht stimmt. Aber auf der anderen Seite bezahlt man es halt mit Rechenzyklen.

Jochen

Ach, dazu fällt mir ein, genau, da war ich jetzt überrascht. Ich habe jetzt letztens irgendwie so ein bisschen mit Transkripten Dinge gemacht. Wir waren ja beide auf der Subscribe und da habe ich dann auch mit anderen Leuten so geredet, wie die das mit Transkripten machen, Podcast-Hosting-Software und ich habe mich dann mal so ein bisschen vorgedrückt, weil ich dachte so, oh, das ist aber so viel Arbeit.

Jochen

weiß ich nicht genau, ob ich das wirklich machen will

Jochen

und dann meinten aber

Jochen

alle anderen, achso, ja, das haben wir,

Jochen

das war jetzt auch nicht so schlimm, das ging schon

Jochen

und dann bin ich da rausgegangen mit, okay, ich muss

Jochen

es wohl doch mal machen und hab dann jetzt auch mal

Jochen

angefangen und

Jochen

das ist ganz gut geworden, ne?

Jochen

Ja, also tatsächlich

Jochen

irgendwie mit Whisper hat man jetzt ein

Jochen

Modell, das tatsächlich wirklich ganz gut

Jochen

sozusagen

Jochen

ja

Dominik

Also beim Pice Sprint hast du da so ein paar Sachen

Dominik

gezeigt. Ja, auf den Apps. Genau, hast du ja.

Dominik

CLI-Interface, du hast sogar einen Blog-Eintrag dazu

Dominik

geschrieben. Ja. Und, äh, ja.

Dominik

Und man kann es in der CLI benutzen,

Dominik

um Transkripte zu machen für Audio. Genau,

Jochen

aber das, das, das, das, äh, wo ich,

Jochen

weswegen ich das jetzt, äh, gerade erwähnt habe, ist,

Jochen

ähm, äh,

Jochen

wenn man das lokal laufen lässt, dann

Jochen

wird auch das Laptop heiß und der Akku wird alle

Jochen

und das funktioniert alles nur sehr langsam

Jochen

und dann, das macht keinen Spaß.

Jochen

Äh, aber es gibt da einen,

Jochen

einen Dienst, äh, Dienstleister

Jochen

Drog, ich weiß gar nicht, wie man die ausspricht,

Jochen

und die machen ja,

Jochen

die haben sich irgendwie auf Inferenz spezialisiert

Jochen

und machen das irgendwie schnell. Die haben auch,

Jochen

sagen sie jedenfalls, ich habe keine Ahnung, was sie wirklich

Jochen

machen, aber dass sie

Jochen

da halt eigene Hardware haben, die

Jochen

da irgendwie,

Jochen

wo man dann

Jochen

Modelle halt für Inferenz

Jochen

drauf laufen lassen kann, die dann halt noch schneller

Jochen

ist als, weiß ich nicht, GPUs oder so.

Jochen

Und da war es tatsächlich, also

Jochen

irgendwie Whisper V3 Large,

Jochen

also was halt

Jochen

auf meinem Laptop echt

Jochen

fies langsam ist, da geht halt so

Jochen

zwei Stunden Episode, geht da halt so in

Jochen

einer Minute ungefähr durch und ist fertig.

Jochen

Und das hat mich schon so

Jochen

krass, also

Jochen

das ging schon ganz gut. Naja, es gibt ja jetzt diese

Georg

schnellere Whisper-Model, das Whisper Turbo.

Georg

Ja, genau, das habe ich auch

Jochen

probiert, das geht schon ganz gut,

Jochen

aber

Jochen

bei Grog, die machen

Jochen

wohl wirklich das große

Jochen

Whisper V3 Large.

Jochen

Wir haben ja auch das V3.

Georg

Ja, das haben wir

Georg

auf den GPUs

Georg

ganz einfach laufen.

Georg

Ah ja, ja.

Georg

Ja, genau. Das ist super, ja.

Jochen

Ja, weil das hat auch, ich habe auch die so ein bisschen

Jochen

verglichen,

Jochen

V2 versus V3 und

Jochen

tatsächlich für Deutsch macht es, bei Englisch macht es gar nicht

Jochen

so einen Riesenunterschied, oder dachte ich jedenfalls jetzt so,

Jochen

aber bei Deutsch macht es halt noch schon einen Unterschied.

Jochen

Also V3 ist nochmal ein gutes Stückchen besser.

Jochen

Also bei Namen

Jochen

oder auch bei Python oder auch

Jochen

das geht eigentlich

Jochen

da oft das V2

Jochen

versteht es halt nicht so richtig

Jochen

und V3 meistens dann schon

Jochen

es sind auch immer noch Fehler drin, aber

Jochen

also merkbarer Unterschied für mich

Georg

Ja, ich weiß

Georg

jetzt nicht mehr welche Version, aber

Georg

auf irgendeiner Version ist dann auf einmal

Georg

immer Auphonic richtig erkannt

Georg

Ja, auch

Georg

Weil wir haben immer so ein Test-File

Georg

und Auphonic war zuerst immer

Georg

falsch und dann auf einmal hat es funktioniert

Georg

Da werden sich wohl die Daten geändert haben

Georg

Ja, ich meine, ihr seid einfach so bekannt, dass ihr jetzt in den Referenzdaten vorkommt.

Georg

Ja, genau.

Jochen

Ich finde das auch total komisch, dass man dem Street-to-Text-Model, dem kann man ja dann auch ein Prompt geben, dass man dem sagen kann, was es tun soll und wie Leute heißen und das funktioniert dann plötzlich.

Jochen

Das fand ich auch sehr eigenartig.

Jochen

Ich weiß jetzt auch noch nicht, dass man das wirklich einstellen kann, aber ich verwende jetzt immer das gleiche Prompt oder muss es halt umkonfigurieren.

Jochen

Aber das geht ja auch und das ist auch ganz eigenartig.

Jochen

Also, ja,

Jochen

das ist irgendwie anders als früher.

Georg

Ja, das hat beim Whisper leider

Georg

Seiteneffekte, also

Georg

der, sagen wir mal so,

Georg

das fördert Halluzinationen.

Georg

Ja, das kann natürlich sein, ja.

Georg

Deswegen verwenden wir

Georg

die Prompte im Moment eigentlich nicht.

Georg

Ah, okay, ja.

Jochen

Ja, ich habe mir auch die Transkripte nicht so komplett

Jochen

durchgelesen, da haben wir nur so Stichproben.

Jochen

Wer weiß, was da jetzt so komische Sachen sind.

Jochen

auf einmal für Dinge erzählen.

Jochen

Musst du auf die Podcast-Seite noch schreiben, es gilt das

Jochen

gesprochene Wort.

Jochen

Liebe Zuhörer, schauen Sie

Jochen

jetzt die Untertitel an.

Jochen

Ja, könnte so sein, dass das vielleicht nicht so

Jochen

Ja.

Jochen

Müssen wir jetzt ein paar exotische

Jochen

Wörter sagen, um das, um deine

Johannes

Transkriptionen zu verwirren.

Georg

Ja. Nein, es ist gar nicht so bei

Georg

Wörtern. Es ist meistens eben, wenn

Georg

nicht gesprochen wird oder wenn Pausen

Georg

sind, dass sie dann

Georg

irgendeine Halluzinationen bilden und dann

Georg

Wörter für Wörter abgespult werden, sozusagen.

Georg

Ah.

Johannes

Das hört sich so ein bisschen an,

Johannes

als ob das Modell nur erotisch wäre.

Dominik

Dann machen wir jetzt eine kurze Schweigeminute für

Dominik

eine Schweigeminute

Dominik

für Whisper V3.

Jochen

Wisst ihr auch mal, genau,

Jochen

das Mikrofon hier. Jetzt kommt Whisper

Jochen

zu Wort. Mal schauen, was da so rauskommt,

Jochen

wenn man das einfach mal so

Jochen

vor sich hin

Jochen

generieren lässt.

Jochen

Ja, schon.

Jochen

schon interessant.

Jochen

Ja, ich befürchte aber, Jochen,

Johannes

dass wir die nächste Episode einfach eine komplette

Johannes

Episode machen müssen, wo wir die ganzen

Johannes

Abkürzungen erklären, die wir heute

Johannes

gehört haben. Wir können auch einfach

Dominik

die ganze Zeit schweigen in der nächsten Episode und dann lassen

Dominik

wir es bei den Texten.

Dominik

Ja, das geht auch.

Georg

Und dann den Text wieder für den Delizieren.

Georg

Mit unseren Stimmen.

Johannes

Und das ein paar Mal im Kreis und dann schauen wir mal,

Johannes

was rauskommt.

Jochen

Ja, ansonsten

Jochen

Genau, ich weiß nicht,

Jochen

haben wir, genau, jetzt haben wir

Jochen

schon eine ganze Weile über so Modelle und

Jochen

Dinge. Der Rest der Infrastruktur

Jochen

ist ja vielleicht auch ganz interessant, also

Jochen

was so Webgeschichten

Jochen

zum Beispiel angeht. Django? Django, ja, natürlich.

Jochen

Ja, machen wir auch.

Jochen

Nein, wir machen Django wirklich?

Jochen

Ja.

Georg

Ja, wie gesagt, wir verwenden Django.

Georg

Das ist schon

Georg

seit 2013, oder wann das halt

Georg

gestartet ist.

Georg

Und was verwenden wir dann

Georg

noch dabei, ja so Frontend-mäßig, ein paar Sachen haben wir mit Vue gemacht, das ist ein Audio-Inspektor nennen wir das,

Georg

also Transcript-Editor, der ist mit Vue gemacht, dann prinzipiell fängt man so HTMX und solche Sachen mittlerweile

Georg

für so einfachere Interface-Elemente, also für alles, was jetzt nicht der Audio-Editor ist und am Frontend verwenden wir

Georg

noch Tailwind, CSS.

Georg

Was gibt's noch?

Georg

Ja, Alpine

Georg

teilweise für so kleine Charts.

Dominik

Das hört sich genau nach dem an, was wir auch machen.

Georg

Ja, machen jetzt alle, gell?

Georg

Ja, machen irgendwie auch alle.

Jochen

Aber es gibt auch einen Grund dafür, warum es so ist.

Jochen

Ja, weil man sich halt

Georg

nicht die geholfenen Frameworks einhandeln will, gell?

Georg

Ja, natürlich.

Georg

Gut, was gibt's noch

Georg

zum Erzählen? Dann

Georg

Backend-mäßig verwenden wir eben

Georg

Das ist eine Task Queue, die diese ganzen Audit Processing und Encoding Tasks verteilt.

Georg

Dafür verwenden wir Celery und das Celery läuft dann auf verschiedene Server verteilt.

Georg

Das sind unsere Worker Rechner.

Georg

Wir haben einen Hauptrechner, wo das Websystem läuft und der verteilt die ganzen Jobs dann auf die Worker-Rechner.

Dominik

Und magst du Celery? Funktioniert es gut?

Georg

Mögen ist übertrieben, aber es funktioniert seit 13 Jahren.

Georg

Aber mittlerweile gibt es auch modernere Tools, schätze ich mal.

Dominik

Wir hoffen, dass Django das

Dominik

Native kann, aber ich weiß nicht, ob das mit dem Distributed

Jochen

da gut geht. Ja, da kommt jetzt was,

Jochen

aber das kann nicht

Jochen

so viel wie Celery.

Jochen

Genau, wenn man halt wirklich

Jochen

da Last hat und da Dinge, viele Dinge

Jochen

macht, dann ist es wahrscheinlich, wenn

Jochen

für einen Celery funktioniert, dann sollte man das wahrscheinlich so lassen.

Jochen

Aber ich glaube

Jochen

auch, dass es, es gibt sonst nicht viel Konkurrenz

Jochen

da, das ist irgendwie für

Jochen

komplexere Geschichten in Celery immer noch.

Jochen

Inzwischen gibt es ja schon einige

Jochen

Task Queues. Ja, auch mit Django

Johannes

Integration, aber Celery ist halt so der

Johannes

bekannte alte Platzhirsch.

Jochen

Ja, aber es ist auch schwer

Jochen

zu benutzen. Das ist so ein bisschen wie das Mischpult hier.

Jochen

Nein.

Jochen

Das liegt doch in der Natur der Sache, oder?

Jochen

Wenn man nicht hinguckt, dreht sich

Jochen

das immer so mit dem Lauf Richtung Fuß

Jochen

und

Jochen

Ja, da braucht man doch noch eine Ausrede,

Jochen

dass es die Kinder waren oder jemand anders.

Jochen

Genau. Und dann war man es doch selber

Jochen

vielleicht, das kann schon sein.

Dominik

Ja, vor allem, weil das, eigentlich musste man ja klicken

Dominik

in deiner DAW,

Dominik

oder es riecht bei einer DAW, ich weiß nicht.

Dominik

Ja, und das hat

Dominik

gar nichts mit dem Meshwall zu tun.

Dominik

Naja, egal.

Dominik

Das sind kompliziert, ja, wir haben dann auch verschiedene

Georg

Dasks, das macht es mal komplizierter, also

Georg

einerseits diese ganzen CPU-Server,

Georg

die funktionieren eben

Georg

über Celery, dann haben wir eben noch

Georg

GPU-Server, die funktionieren

Georg

dann wiederum, die werden dann wiederum von den

Georg

CPU-Servern angesprochen,

Georg

mit den ganzen Audio

Georg

Abschnitten.

Georg

Und wie macht ihr das?

Georg

Die haben so, das nennt sich so ein NVIDIA Triton,

Georg

das ist ein NVIDIA System, wo man

Georg

eben so Models hosten kann am GPU,

Georg

der verteilt das relativ effizient

Georg

im Speicher, weil

Georg

der hat wiederum eine eigene

Georg

Task Queue integriert,

Georg

wie so kleine GPU Jobs verteilt

Georg

werden, weil das Problem

Georg

bei den Models ist, dass

Georg

man kann jetzt nicht für jeden

Georg

Request das Model, oder es wäre nicht sehr

Georg

effizient, wenn man für jeden Request das Model

Georg

jetzt neu ladet in den Speicher,

Georg

also in den GPU-Ran, weil das

Georg

Laden an sich von so ein paar

Georg

Gigabyte-Models dann

Georg

schon mal ziemlich lang dauert.

Georg

Deswegen gibt es eben zum Beispiel

Georg

das NVIDIA Triton, der

Georg

versucht es eben möglichst effizient zu

Georg

managen, dass

Georg

die Models halt immer im

Georg

V-Rahmen sind, beziehungsweise

Georg

nur wenn notwendig halt

Georg

ein anderes Laden und so weiter.

Georg

Und das ist dann

Georg

sozusagen die zweite Task-View hinter der

Georg

ersten Task Queue und

Georg

dann kommt es von den GPU-Servern

Georg

wieder Druck zur Celery-Task Queue

Georg

auf den CPU-Servern und

Georg

dort gibt es dann, dort wird dann

Georg

verschiedene Files, also wenn das

Georg

Auto-Processing fertig ist, gibt es dann

Georg

File-Encoding-Tasks und

Georg

dann Speech-Recognition-Tasks, dann wird es

Georg

wiederum zum GPU-Server, zum anderen geschickt.

Georg

Dann, was gibt es

Georg

noch, dann eben so Verteil-Tasks, der das

Georg

auf verschiedene Server dann schickt, also

Georg

Netzwerk-Tasks oder auf YouTube oder was auch immer

Georg

und so sichert das von

Georg

Task-to-Task dahin.

Georg

Im Celery und im NVIDIA

Dominik

Triton. Und den Status

Dominik

erfasst du irgendwie in einem Dango-Modell.

Dominik

Genau.

Georg

Die Tasks rufen sich dann eben

Georg

so seriell auf.

Georg

Es gibt ja bei Celery

Georg

also Chord-Tasks, nennen sie das.

Georg

Wenn jetzt zum Beispiel

Georg

ein Audit-Processing fertig ist

Georg

und man will daraus fünf verschiedene

Georg

File-Formate erstellen, dann kann man so

Georg

einen Chord-Task machen. Der macht dann diese

Georg

fünf Pfeilformate parallel

Georg

und dann sagt man, okay, wenn

Georg

jetzt alle von diesen fünf fertig sind, dann ruft

Georg

er den nächsten Task auf, also

Georg

das ist zum Beispiel dann der

Georg

Finish-Task, der wird dann

Georg

aufgerufen, wenn diese ganzen Tasks fertig sind

Georg

oder der Distribution-Task

Georg

und so kann man so Ketten

Georg

bauen, die sich

Georg

dann also quasi parallel verbreiten

Georg

und dann wieder irgendwann zusammenführen,

Georg

hoffentlich. Ja.

Georg

Bis das irgendwann fertig ist.

Jochen

Ja, man hat dann so ganze Task-Grafen

Jochen

oft irgendwie.

Jochen

Ja.

Jochen

Ja.

Jochen

Ist dann manchmal so ein bisschen

Jochen

schwierig, wenn man es testen will und

Jochen

manchmal hat man so komische Probleme,

Jochen

wenn das an einer unerwarteten

Jochen

Stelle schief geht, aber ja.

Georg

Aber testen ist auch nicht so schlimm.

Georg

Also man kann natürlich die Tasks

Georg

einzeln testen,

Georg

mit Unit-Tests ganz einfach.

Georg

Das Gesamtsystem ist wieder ein bisschen

Georg

komplexer zum Besten, ja.

Dominik

Ich hatte immer das Hauptproblem, was ich mal hatte,

Dominik

das war irgendwie aufzuräumen, wenn da irgendwas kaputt gegangen

Dominik

ist und das irgendwelche Geistertastungen waren,

Dominik

weil irgendjemand noch irgendwas geklickt hat

Dominik

und dann nicht genau klar war, wo jetzt

Dominik

welcher Tast in welchem Status hing oder so.

Dominik

Ja, klar.

Dominik

Und da war das ganze Ding

Dominik

schwierig zu verstehen und dann

Dominik

irgendwo noch so Reste drum hängen und

Dominik

wo die dann prozessiert werden wollen.

Dominik

Aber ich glaube, wenn man so ein

Dominik

stabiles System hat, vielleicht raucht das ja gar nicht so oft ab.

Georg

Nein, das ist eigentlich

Georg

relativ stabil, außer

Georg

wir machen wieder irgendwas

Georg

komisches oder so, was ja manchmal passiert.

Georg

Diverse Updates oder

Georg

Features.

Georg

Aber prinzipiell läuft

Georg

das eigentlich sehr stabil.

Georg

Das läuft bei uns jetzt natürlich auch sehr lang.

Georg

Also wir haben alle möglichen Dinge

Georg

drinnen, wie das

Georg

Fail-Checking und so weiter.

Georg

Aber das funktioniert ganz gut.

Johannes

Ja, ich glaube,

Johannes

das ist einfach auch so ein Thema, was man lernen muss.

Johannes

Das ist halt einfach noch eine weitere Ebene

Johannes

von dieser

Johannes

Async-Sache.

Johannes

Ja, das sind immer noch so viele

Johannes

Ebenen inzwischen. Ganz unten hast du

Johannes

Async, dann hast du Threads, dann hast du

Johannes

Multiprocessing und oben drüber.

Georg

Wir verwenden es gar nicht Async, wir verwenden das wirklich

Georg

Multiprocessing. Also du kannst

Georg

Celery mit Multiprocessing auch verwenden.

Johannes

Ja, klar. Das ist halt über

Johannes

mehrere Rechner verteilt.

Johannes

Das ist die nächsthöhere Ebene

Johannes

von diesen ganzen

Johannes

Parallel-Compute-Sachen.

Johannes

die sind alle kompliziert und dann kann man eigentlich

Johannes

irgendwie nicht erwarten, dass das

Johannes

auf der Ebene auf einmal simpel wird, aber

Johannes

ja gut.

Johannes

Es ist halt was, was man lernen muss und

Johannes

oder was man lernen kann und

Johannes

ich habe da

Johannes

eigentlich ganz gute Erfahrungen gemacht.

Johannes

Aber es hängt auch von der Systemart

Johannes

ab, ja.

Johannes

Und es hängt auch davon ab, wie man die

Johannes

Bauteile benutzt. Die Bauteile an sich sind ja

Johannes

sehr, sehr stabil. Wenn man jetzt ein Redis

Johannes

oder ein, was weiß ich, was ihr verwendet,

Johannes

RabbitMQ oder ZeroMQ

Johannes

oder was auch immer, die sind ja

Johannes

extrem stabil. Also

Johannes

bei einem anderen Kundenprojekt haben wir einen

Johannes

RabbitMQ-Server,

Johannes

der läuft seit, keine Ahnung,

Johannes

acht Jahren unterbrechungsfrei und

Johannes

die Bauteile an sich

Johannes

sind schon stabil.

Johannes

Nur,

Johannes

wie wir das alle wissen, ja,

Johannes

ich kann in jeder Programmiersprache schlechte

Johannes

Programme schreiben und

Johannes

ich kann auch schlechte verteilte Programme schreiben,

Johannes

wenn es sein muss.

Johannes

Auf alle Fälle, ja.

Jochen

Ja, vielleicht, genau. Wie ist das eigentlich mit Benutzerfeedback? Im Grunde, wenn man jetzt irgendwie Dinge verbessern will, dann ist man ja darauf angewiesen, diese ganzen subjektiven Geschichten, die wir eben auch schon da angesprochen hatten, die spielen da ja auch eine große Rolle.

Jochen

und wenn jetzt, jetzt weiß man aber

Jochen

vielleicht gar nicht so genau, wenn jetzt

Jochen

aus quasi

Jochen

Leute Feedback geben, weil sie das

Jochen

anders gewohnt sind oder so, wie man das unterscheidet

Jochen

von, da ist jetzt, hat irgendwas nicht richtig

Jochen

funktioniert oder so, da muss man ja wahrscheinlich,

Jochen

ich weiß auch gar nicht, in welchen Märkten oder

Jochen

wo Aufforderung überall benutzt wird,

Jochen

das ist ja dann wahrscheinlich auch unterschiedlich,

Jochen

auch je nach Kontext nochmal

Jochen

unterschiedlich, das ist wahrscheinlich gar nicht so

Jochen

einfach, das dann wieder einfließen

Jochen

zu lassen.

Georg

Ja,

Georg

Bei solchen Sachen ist es natürlich schwierig, aber deswegen versuchen wir eigentlich natürlich möglichst wenig subjektive oder künstlerische Sachen zu machen, auch wenn es natürlich nicht wirklich geht, aber gewisses Feedback ist natürlich leicht zu verstehen, wenn der sagt, okay, da ist da ein neues nicht rausgelöscht worden oder da ist irgendwas falsch rausgelöscht worden, dann kann man das natürlich leicht nachvollziehen.

Georg

dass irgendwer subjektiv

Georg

ein anderes EQing haben will,

Georg

das kann es immer geben.

Georg

Da werden wir auch nie was dagegen

Georg

machen können. Wahrscheinlich, man kann nur eine gewisse

Georg

Anzahl an Varianten anbieten und

Georg

irgendwann ist halt einmal Schluss.

Georg

Dann muss man es halt selber filtern

Georg

und das geht ja bei uns auch, dass wir halt

Georg

einfach, dass man das Filtering deaktiviert

Georg

und man hat halt selber das gefiltert, wie man es haben will.

Georg

Aber

Georg

das kommt jetzt auch nicht so

Georg

extrem oft vor, muss ich sagen.

Jochen

Also es ist schon eher eindeutig dann quasi,

Jochen

wenn Leute, ja, okay.

Georg

Ja.

Georg

Und aus dem Feedback,

Georg

das ist für uns natürlich extrem wichtig, also

Georg

da lernen wir halt extrem viel, wenn wir

Georg

Fehler haben, dann führt man das wieder

Georg

zu den Trainingsdaten dazu und so weiter.

Georg

Können die Klassifikatoren wieder damit

Georg

trainieren.

Dominik

Warum habt ihr das noch nicht live im Einsatz

Georg

eigentlich? Was live im Einsatz?

Dominik

Also jetzt beispielsweise auch von euch als Plugin

Dominik

in meiner DAW irgendwie.

Jochen

So, den Weg können wir auch gehen, ja.

Georg

Ja, weil wir eigentlich vom Offline-Konzept her kommen

Georg

und unsere Algorithmen halt alle drauf aufgebaut sind,

Georg

dass es offline funktioniert.

Georg

Bei Live bräuchtest du natürlich eine viel kleinere Latenz.

Georg

Wäre mit einigen Algorithmen eh möglich.

Georg

Also zum Beispiel denoising oder solche Sachen.

Georg

Oder Filtering natürlich.

Georg

Aber ja, alles können wir auch nicht machen.

Georg

Das Problem ist eigentlich, dass du halt spezielle Hardware dafür brauchst.

Georg

Wenn du es jetzt live machen willst, kannst du jetzt entweder einen Web-Service anbieten,

Georg

der das live macht, was wahrscheinlich nicht so interessant ist.

Georg

Das heißt, wenn, dann müsstest du eine Standalone-Lösung haben.

Georg

Die muss dementsprechend gut funktionieren jetzt auf allen Systemen

Georg

mit der beschränkten Hardware, die man dort hat.

Georg

Oder man hat spezielle Systeme mit GPUs oder M3-Chips, was auch immer,

Georg

wo das sicher ein bisschen besser geht.

Georg

aber es ist halt vor allem in der momentanen Phase noch ein bisschen schwieriger.

Georg

Also im Moment entwickeln sich die Modelle ja so schnell weiter,

Georg

also man braucht so viel Hardware dafür,

Georg

das wird in ein paar Jahren sicher wieder anders ausschauen, glaube ich mal.

Georg

Weil dann wird sich das so ein bisschen eingependelt haben,

Georg

dann wird da mehr Hardware dafür verfügbar sein auf normalen Standrechnern.

Georg

Dann wird sicher irgendwann wieder die Welle kommen,

Georg

wo diese ganzen Modelle dann auf den Personal Computer wieder überschwemmen oder überschwappen.

Georg

Aber im Moment ist es halt noch ein bisschen schwierig.

Jochen

Ja, also was ich schon gerne hätte, wäre sozusagen in den AirPods.

Jochen

Da gibt es ja auch so einen Transparenzmodus.

Jochen

Da jetzt statt einfach nur, dass das ein bisschen lauter oder leiser wird,

Jochen

wenn es Nebengeräusche gibt, dass das dann so richtig schön klar wird.

Jochen

Das wäre natürlich toll.

Jochen

Und man könnte ja auf dem Handy das auch irgendwie...

Jochen

Podcast-Modus.

Jochen

Ja, genau.

Jochen

Da kann man natürlich auch die Modelle laufen lassen.

Jochen

Aber ja gut, wahrscheinlich ist das alles nicht so ganz einfach.

Dominik

Da tauscht man bestimmt auch für Nose-Canceling auch wieder, ne?

Dominik

Wenn du es halt dann einfach umdrehst.

Georg

Ja, Hörgeräte, die sind voll in dieser

Georg

Entwicklung dabei.

Georg

Die machen eh das.

Georg

Da ist halt die Arbeit,

Georg

dass du die Modelle,

Georg

die es gibt, meistens so effizient

Georg

wie möglich hinkriegst.

Georg

Da geht es halt eher mehr um

Georg

Effizienz-Tuning für

Georg

eine bestimmte Plattform, dann im Endeffekt

Georg

für den Chip, was er in seinem

Georg

Hörgerät hat.

Georg

Und natürlich Akku schonen und so weiter,

Georg

weil das ist natürlich wichtig für Hörgeräte.

Georg

Aber ja, im Moment sind wir halt

Georg

mehr so in einer Phase, dass wir gerade noch

Georg

dabei sind, also jetzt nicht nur wir persönlich,

Georg

sondern generell schätze ich halt,

Georg

dass man mehr dabei ist,

Georg

die Modelle weiterzuentwickeln. Irgendwann wird

Georg

es eh saturieren, weil dann werden ja alle

Georg

einmal gut genug sein für die meisten

Georg

Tasks, sage ich mal.

Georg

Und dann wird sicher wieder die andere Welle kommen, wo

Georg

das wieder zurückgeht, glaube ich.

Georg

Aber wir werden sehen.

Jochen

So Exploration versus

Jochen

Exploitation und momentan sind wir im Exploration

Jochen

Modus, wo wir versuchen rauszufinden, was man

Jochen

überhaupt alles denn noch damit machen kann.

Georg

Und genau, ja.

Georg

Und wenn es dann aber gut genug ist,

Georg

wird es abgespeckt, dass es

Georg

auf allen möglichen Plattformen läuft,

Johannes

wahrscheinlich. Ja, also ich bin so ein,

Johannes

wie gesagt, so ein bisschen erschlagen von diesem

Johannes

ganzen Thema. Da gibt es

Johannes

irgendwie so viele Sachen, wo man in die Tiefe

Johannes

gehen könnte,

Johannes

wo ich aber jetzt gar nicht den,

Johannes

wo ich gar nicht weiß, wie man da in die Tiefe gehen

Johannes

könnte, weil sie mir sich nicht erschließen.

Johannes

Und ich finde es super spannend, dass das einfach so ein ganzes Riesenfeld ist, was es gibt und was man braucht und wo es auch viele Leute gibt, die daran arbeiten und auch viele Profis gibt, die daran arbeiten.

Johannes

Ich habe selbst, mein Cousin hat eine Konzertagentur, also die machen da auch ganz viel im Live-Bereich und im Analog-Bereich, sage ich mal.

Johannes

Und ich habe da überhaupt

Johannes

keine Ahnung.

Johannes

Ich habe so wenig Ahnung davon, dass ich keine sinnvollen

Johannes

Fragen stellen kann.

Johannes

Und ich glaube, an dem Punkt sind wir jetzt irgendwie so, oder?

Johannes

Dass wir so die grobe Form

Johannes

abgetastet haben von diesem System

Johannes

und dann haben wir uns schon mal mit der Task Queue beschäftigt,

Johannes

weil wir da alle was dazu sagen können.

Johannes

Aber

Johannes

so die richtigen Fragen kann man gar nicht mehr stellen.

Johannes

So geht es mir jetzt gerade. Ich weiß nicht, wie es euch geht.

Jochen

Ja, also genau.

Jochen

Ich würde dann eher so etwas fragen,

Jochen

dann vielleicht wie, was würdest

Jochen

du denn denken, sind die interessanten Entwicklungen

Jochen

in diesem ganzen Audiobereich,

Jochen

in welche Richtung können es da gehen, oder

Jochen

gibt es irgendwelche, wird es jetzt

Jochen

erstmal noch eine Weile quasi

Jochen

mehr Modelle

Jochen

geben,

Jochen

ja, ich weiß nicht genau,

Jochen

oder wird das,

Jochen

ja, wird das irgendwann

Jochen

sowieso alles,

Jochen

naja, das, ja, also,

Jochen

ja, keine Ahnung, ich weiß gar nicht, welche Frage ich stellen

Jochen

wollte. Nein, gerne.

Jochen

Also, ja klar, es gibt jetzt natürlich

Georg

viele, alle möglichen neuen Modelle

Georg

von vielen Firmen.

Georg

Was natürlich ein großes

Georg

Thema ist, was wir jetzt gar nicht

Georg

angegangen sind bis jetzt,

Georg

oder wahrscheinlich auch nicht gelernt, ist eben

Georg

Audiosynthese, wie ihr sicher alle wisst.

Georg

Ja. Eleven Labs und so

Georg

weiter. Oh ja. Also,

Georg

funktioniert ja schon echt extrem gut

Georg

und

Georg

ja, wird sicher viel,

Georg

viel Content über solche

Georg

wege produziert werden dann anderes großes thema ist natürlich musik da gibt es relativ wenig im

Georg

moment also im moment stürzen sich alle auf die sprachanwendungen bei musik gibt es echt sehr

Georg

wenig was es gibt sind so stem separation musikmodelle also wo man verschiedene instrumente

Georg

von einem mix extrahiert funktioniert meistens auch nur gut wenn man so vier instrumente extrahiert

Georg

oder vielleicht ein bisschen mehr, also Bass, Schlagzeug, Gesang, Klavier oder Gitarre halt,

Georg

die klassischen Setups.

Georg

Dann auch gibt es noch sehr wenig in der Richtung von Musik-Restoration oder Musik-Aufbereitung,

Georg

es gibt so Online-Mastering-Services schon sehr lang, einige, die machen natürlich ein bisschen was in diese Richtung,

Georg

aber jetzt so spezialisiertere Sachen, also im Prinzip das, was wir da bei Afonik machen,

Georg

wirklich auf Musik umgelegt.

Georg

Gibt es eigentlich noch nicht so wirklich.

Georg

Vielleicht gehen wir auch mal ein bisschen mehr in die Richtung,

Georg

mal schauen.

Georg

Dann bei Musik, was auch komisch ist,

Georg

was es nicht so wirklich noch gibt,

Georg

ist wiederum bei Sprache ist ja Transkription natürlich das heiße Thema.

Georg

Ist jetzt sehr viel weitergegangen in den letzten Jahren.

Georg

Analog dazu für Musik, Transkription gibt es wiederum sehr wenig.

Georg

Also Noten erzeugen.

Georg

Genau.

Jochen

Macht da nicht einer der

Jochen

ursprünglich

Jochen

Entwickler von Django?

Jochen

Nee, nee, der

Jochen

Adrian Holowaty.

Jochen

Ah, der Adrian.

Jochen

Der macht OCR, glaube ich, für Noten.

Georg

Ja, OCR ist wieder ein anderes Thema.

Jochen

Ist nochmal ein anderes Thema, aber möglicherweise

Jochen

auch Noten aus Musik.

Jochen

Das weiß ich aber gar nicht, ob sie das auch machen.

Jochen

Ja, ich glaube nicht. Ich glaube, das ist

Jochen

nur OCR.

Jochen

Ich habe es nur so

Jochen

quer gelesen, aber ich glaube, es ist hauptsächlich OCR.

Jochen

Also ich habe das jetzt

Jochen

jetzt wieder mal getestet, weil

Georg

einfach nur Band, Privat

Georg

und so weiter, habe ich gedacht, mal ein bisschen was

Georg

transkribieren lassen, aber

Georg

da habe ich irgendwie nichts Gescheites gefunden.

Georg

Obwohl es ja ähnliche

Georg

Techniken gibt. Packt der Jochen diesen Link in die

Georg

Shownotes? Ja. Ja, das macht er so wieder.

Georg

Ja.

Georg

Ja, ich meine,

Georg

genau, ich brauche

Georg

mir ja nur irgendwie

Georg

Eingabe, Ausgabe und ein bisschen GPU,

Georg

dann kannst du...

Georg

Ja, kann das sein.

Georg

Der Schwergewichtige ist nur, was du da gerade gesagt hast.

Georg

Und Noten mit Aufnahmen

Georg

dazu sollte es eigentlich auch geben.

Georg

Aber ja.

Georg

Insofern

Georg

kann wir ein neues Projekt machen.

Dominik

Herzlichen Dank,

Dominik

lieber Georg.

Dominik

Ja, ich weiß nicht, wollten wir noch irgendwie was picken oder so?

Dominik

Oder sparen wir uns das diesmal?

Dominik

Wir sparen uns das diesmal.

Dominik

Wir sind eh schon spät.

Dominik

Genau.

Dominik

Ach doch, nee, ich mach noch ganz kurz.

Dominik

Ich hab gesehen, es gibt das Update von Django irgendwie.

Jochen

Boost your Django Developer Experience von Adam Johnson.

Jochen

Die E-Mail hab ich auch gekriegt.

Jochen

Ja, ja, genau.

Jochen

Und jetzt, wenn man sich quasi da denkt, irgendwie hat man vielleicht mal kurz Zeit nochmal.

Jochen

Das lohnt sich, weil da ist doch einiges dazugekommen.

Jochen

Also es war ein großes Update.

Jochen

Da ist jetzt auch so viel Debugging drin

Jochen

und so und ja, das Buch

Jochen

fand ich, ja.

Jochen

Und er verkauft auch gerade, er macht gerade,

Jochen

gibt es das Sonderangebot noch, wo er irgendwie

Jochen

drei solche Pakete

Jochen

zusammen hat? Stand in dieser

Jochen

E-Mail drin. Keine Ahnung, aber wenn man die

Jochen

Episode im halben Jahr hört, dann ist es wahrscheinlich

Jochen

nicht mehr. Ja gut,

Jochen

wenn es das noch, das ist jetzt

Jochen

für die schnellen Hörer, das ist jetzt ein Anreiz,

Johannes

unsere Episoden immer sofort zu hören.

Johannes

Immer sofort.

Johannes

Wir werden diesen Link finden, sofern es

Johannes

ihn noch gibt. Ja, vielen Dank, Georg,

Johannes

für deine Einblicke auf Phonica.

Johannes

War großartig. Vielen Dank, Georg.

Georg

Vielen Dank für die Einladung.

Georg

Alles klar. Bleibt uns gewogen.

Georg

Hallo at peisenpodcast.de für alles Feedback und

Georg

kommt zu unserem Treffen. Ja, wo wir noch

Georg

ein bisschen rausfinden, wann und wo wir das machen, aber

Dominik

das machen wir dann. Bleibt hier bei uns im Rheinland.

Dominik

Tut mir leid, lieber Herr, du musst anreisen.

Dominik

Eine gute Gelegenheit,

Dominik

deine alte Heimat kennenzulernen.

Dominik

Aufruf an alle Hörer,

Johannes

jetzt sofort abstimmen für Stück.

Dominik

Ja, ihr könnt eine Mitfahrgelegenheit

Dominik

und eine Fahrgemeinschaft bilden.

Dominik

Ich kann Gras anbieten.

Dominik

Okay, dann kommen wir auch direkt an die Adria.

Dominik

Na gut.

Dominik

Viel Spaß, hört uns, bis bald.

Dominik

Tschüss.