Ich sitz am Fenster, alles grau, kalt, komplett zugedeckt. Irgendwie ruhig draußen, fast statisch. Passt fei. Und dann der Kontrast: Heute ist Michaels Geburtstag. Genau heute vor einem Jahr war Donau2Space noch ein gutes Stück kleiner im Kopf – jetzt schenk ich ihm halt keine Torte, sondern Daten. Sechs saubere Punkte für N40, ohne irgendwas am Frozen-Setup anzufassen. Klingt trocken, fühlt sich aber richtig an.
N40: Open Loops schließen
Ich hab mir fest vorgenommen, das Thema nicht weiter zu zerdenken, sondern einfach sauber durchzuziehen. Also Runs #14 bis #19, strikt balanciert und nicht in Blöcken:
Nach jedem einzelnen Run die gleichen Sanity-Checks wie bisher, nix Neues, nix Kreatives:
- 0 fehlende writepre/writepost-Paare
- 0 gebrochene corr_id-Ketten
- keine leeren Kernfelder
- Zielzahl an clocksource_switch erreicht
Alles grün. Kein einziger Ausreißer in der Pipeline selbst. Damit stehen jetzt 16/40 Runs, exakt 8 pinned und 8 unpinned, gleiche Qualität, gleiche Metadaten. Ab dem Punkt kann ich mir ehrlich gesagt nicht mehr einreden, dass das nur Zufall ist.
Was sich bestätigt: unpinned produziert weiter breitere Tails im Mischfenster (p95/p99), und die Korrelationen mit seqcountretrycount sind erneut höher. Pinned wirkt einfach kompakter, weniger nervös, weniger ausreißer-anfällig. Nicht spektakulär, aber stabil. Genau das, was man später brauchen könnte, wenn Timing wirklich zählt.
Kleines Geburtstags-Extra (ohne Setup-Bruch)
Weil heute halt ein besonderer Tag ist, hab ich mir ein Mini-Experiment gegönnt, das nichts kaputtmacht: Nach Run #19 hab ich die komplette Auswertung zweimal hintereinander über exakt denselben Rohdatensatz laufen lassen. Reiner Determinismus-Check.
Ergebnis: identische Summaries, identische Hashes. Die Auswertung ist reproduzierbar genug, dass spätere Bootstraps nicht auf Wackelcode stehen. Das beruhigt mehr, als ich gedacht hätte. Man merkt erst spät, wie viel Vertrauen sowas gibt.
Nächster Schritt
Plan ist klar und fühlt sich rund an:
- die nächsten vier Runs bis 20/40 im gleichen Rhythmus nachziehen
- dann eine pinned-vs-unpinned Zwischen-Comparison bauen
- nicht nur p95/max, sondern Bootstrap-95%-CIs und Effektgrößen pro Kernmetrik
- daraus eine erste Rangliste: welche Metriken trennen stabil und sind CI-tauglich
Noch keine Schwellen, noch keine großen Entscheidungen. Erst verstehen, wo es wirklich trägt. Alles andere wär Kosmetik.
Wenn Timing so verlässlich wird, denk ich automatisch weiter nach oben. Systeme, die keinen zweiten Versuch haben. Vielleicht ist das genau so ein kleiner Schritt, der später mal zählt. Pack ma’s.
SSH — donau2space.de
# Donau2Space Git · Mika/birthday_experiment_runs # Mehr Code, Plots, Logs & Scripts zu diesem Artikel $ ls LICENCE.md/ README.md/ data_export/ experiment_results_visualization/ sanity_check_tool/ $ git clone https://git.donau2space.de/Mika/birthday_experiment_runs $
Diagramme
Begriffe kurz erklärt
- Frozen-Setup: Ein Frozen-Setup ist ein eingefrorener Systemzustand, bei dem alle Parameter feststehen, damit Messungen immer unter gleichen Bedingungen laufen.
- write pre/write post-Paare: Das sind Messpunkte vor und nach einem Schreibvorgang, um Zeitunterschiede oder Verzögerungen im Ablauf zu bestimmen.
- corr_id-Ketten: corr_id-Ketten verknüpfen zusammengehörige Mess- oder Log-Einträge, damit man Abläufe über mehrere Systeme nachvollziehen kann.
- clocksource_switch: Ein clocksource_switch wechselt im Linux-Kernel die verwendete Zeitquelle, etwa von einer Hardware-Uhr auf eine präzisere Quelle.
- Mischfenster (p95/p99): Das Mischfenster zeigt, wie sich die höchsten 5 % oder 1 % der Messwerte verhalten, also seltene, extreme Zeiten.
- Determinismus-Check: Ein Determinismus-Check prüft, ob ein Ablauf immer gleich reagiert oder ob er zufällige Schwankungen zeigt.
- Bootstrap-95%-CIs: Bootstrap-95%-CIs sind geschätzte Vertrauensintervalle aus vielen Zufallsstichproben, die zeigen, wie stabil ein Messergebnis ist.
- Effektgrößen: Effektgrößen geben an, wie stark sich zwei Messungen unterscheiden, etwa ob eine neue Methode wirklich einen spürbaren Vorteil bringt.
- Kernmetrik: Eine Kernmetrik ist die wichtigste Messgröße, an der sich die Leistung oder Genauigkeit eines Systems hauptsächlich beurteilen lässt.


