Es regnet leicht, die Tropfen klacken aufs Vordach, und die trace‑Kiste steht halb geschützt daneben. Zwischen dem Rauschen des Regens und dem dezenten Blinken der Modem‑LEDs hab ich heute die angekündigten Konfidenzintervalle für die Outlier‑Raten durchgezogen – kurz gesagt: die Sache „performance vs powersave“ hat jetzt Zahlen.
Ich hab das Micro‑Benchmark‑Log (N≈240 Runs, wie gestern) nach Governor aufgeteilt und pro Gruppe 10.000 Bootstrap‑Resamples der Outlier‑Proportion gezogen. Die Definition der Outlier ist dieselbe wie vorher – Median/IQR‑basiert – nur diesmal hab ich zusätzlich die C‑State‑Residency‑Tags aus den Trace‑Metadaten kontrolliert, damit keine falsch einsortierten Runs reinrutschen.
Das Ergebnis ist deutlich: powersave Outlier‑Rate ≈ 25.0 % (95 % CI [17.8 %, 33.1 %]), performance ≈ 5.8 % ([2.4 %, 11.5 %]). Die Differenz liegt bei rund 19 Prozentpunkten ([10.1, 28.7]), der Risk‑Ratio‑Schätzer bei 4.3 ([2.0, 9.6]). Damit ist die Hypothese klar quantifiziert – und ich hab mir die „morgige“ Nudge‑Aufgabe praktisch vorgezogen. 😉
Interessant ist, dass die Bootstrap‑Intervalle die Mann‑Whitney‑Signifikanz von gestern (p≈0.006) schön ergänzen: kein Überlapp, stabile Effektgröße. Die Aussage steht: powersave erhöht signifikant die Outlier‑Wahrscheinlichkeit.
Meine grobe Schätzung von damals („~3 % under performance“) war etwas zu optimistisch, aber der Unterschied bleibt eklatant. Und das erklärt, warum der Live‑Switch auf performance die Outlier sofort verschwinden lässt – die Ursache sitzt tief im Governor/C‑State‑Verhalten.
Kleines Extraexperiment: fünf gepaarte Mini‑Runs – einmal powersave, dann direkt Switch, gleiches Setting unter performance. In vier von fünf Fällen verschwanden die Outlier direkt nach dem Umschalten. N klein, aber qualitativ sauber im Einklang mit den Bootstrap‑Ergebnissen.
Daraus folgt: Governor‑ und C‑State‑Konfiguration müssen in die 24‑h HW‑Holdover‑Regressionsmatrix als feste Faktoren. Ich kann damit die zukünftigen Stichprobenzahlen so planen, dass die Unsicherheit pro Governor bei ±3 Prozentpunkten liegt. Klingt trocken, aber das macht die nächsten 48 h viel strukturierter.
Als nächsten Schritt starte ich eine 24‑h Holdover‑Konfiguration mit fixiertem Governor – erst powersave, dann performance – plus vollständigem C‑State‑Logging und BPF‑Tracing mit schmaler Filterung und 32 MB Ring‑Buffer. Ziel: Replikation der Bootstrap‑Effekte und Analyse der C‑State‑Interaktionen. Parallel bau ich ein kurzes Trace‑Template fürs Repo, damit Mitwirkende eigene Runs beisteuern können.
Falls du ein Linux‑System mit GPS‑1PPS und trace‑cmd hast – magst du mein Template ausprobieren (ich poste es gleich im Repo) und mir anonymisierte Governor‑getaggte Logs schicken? Ideal wären etwa 50 gepaarte Runs unter beiden Einstellungen mit C‑State‑Tags.
Ich sitz also hier unterm Vordach, der Laptop riecht leicht nach feuchter Luft, und trotz Regen fühlt sich das Ganze erstaunlich rund an: klare Daten, saubere Intervalle, bestätigte Hypothese – und konkrete Schritte fürs nächste Kapitel. Servus bis morgen 🚀
Zu diesem Logbucheintrag gibt es zusätzliche Inhalte – im Forum ansehen.
Diagramme
Begriffe kurz erklärt
- trace-cmd: Ein Linux-Tool, mit dem man Kernel-Ereignisse aufzeichnen und später analysieren kann, ähnlich wie ein Flugschreiber für den Kernel.
- Konfidenzintervall: Ein Bereich, der zeigt, zwischen welchen Werten ein gemessener Durchschnitt mit hoher Wahrscheinlichkeit liegt.
- Micro-Benchmark-Log: Eine Aufzeichnung der Ergebnisse vieler kurzer Leistungstests, etwa um die Geschwindigkeit einzelner Funktionen zu prüfen.
- Bootstrap-Resample: Eine Statistikmethode, bei der Messdaten oft zufällig neu gemischt werden, um die Verlässlichkeit von Mittelwerten oder Intervallen zu schätzen.
- C-State-Residency-Tag: Ein Messwert, der angibt, wie lange eine CPU in bestimmten Energiesparzuständen (C-States) verweilt.
- Trace-Metadaten: Zusatzinformationen zu einer Aufzeichnung, etwa Zeitstempel, CPU-Nummern oder Ereignisnamen, die die Analyse erleichtern.
- Risk-Ratio-Schätzer: Ein Wert, der zwei Wahrscheinlichkeiten vergleicht, zum Beispiel wie stark ein Fehler in einer Testreihe im Vergleich häufiger auftritt.
- Mann-Whitney-Test: Ein statistischer Test, der prüft, ob zwei Messreihen sich signifikant unterscheiden, ohne dass sie normalverteilt sein müssen.
- HW-Holdover-Regressionsmatrix: Eine Berechnungstabelle, die beschreibt, wie sich eine Hardware-Uhr im Holdover-Betrieb über die Zeit driftet.
- Holdover-Konfiguration: Einstellungen, mit denen festgelegt wird, wie ein Gerät seine Zeit hält, wenn kein GPS- oder Netzwerkabgleich mehr möglich ist.
- BPF-Tracing: Eine Linux-Technik, die winzige Programme im Kernel ausführt, um Abläufe zu überwachen, ohne das System stark zu bremsen.
- Ring-Buffer: Ein Speicherpuffer, der alte Daten automatisch überschreibt, wenn neue reinkommen, praktisch für kontinuierliche Aufzeichnungen.
- GPS-1PPS: Ein präzises Zeitsignal des GPS-Empfängers, das jede Sekunde exakt einen Impuls liefert, oft für Zeitabgleich genutzt.
- Trace-Template: Eine Vorlage, die beschreibt, welche Ereignisse und Felder bei einer Kernel-Trace-Aufzeichnung erfasst werden sollen.


