Nutzt ihr ECC-Ram?

Gerrit · 25. März 2017

Zitat von anonymix

@ gerrit: könntest du bitte mal darlegen welche probleme das sein sollen? ich habe auch mit relativ unhandlichen dateien zu tun, bisher ist aber alles gut gegangen.

Woher weisst du das? Dir ist bisher nur noch nichts aufgefallen... Wie bereits beschrieben war ein Problem bei mir die Tatsache, daß ich beim Backup großer Dateien hin und wiede Bitkipper in der Datei hatte. So in 5 GB ein Bit. Aufgefallen ist es weil ich meine Backups auch mal verifiziere (machen viele nicht). Bei einer Mediendatei auf dem Heimserver mag man ein defektes Bit nicht sehen bzw. hören können (solange es nicht in einem Bereich ist wo die Datei dadurch unlesbar wird), aber wie sieht es mit wichtigerem Kram aus? Datenbanken, Excel-Sheets... Hier kann auch nur ein defektes Bit alles durcheinanderbringen.

Vielleicht bin ich da eigen, aber Bit-Rot mag ich nicht, die Daten haben so zu bleiben wie ich sie erstelle oder kopiere. Auch wenn ich sie mal ein paar Jahre nicht anfasse sondern immer nur mitziehe wenn ich umbaue erwarte ich, daß sie danach unverändert sind.

Fröhn · 25. März 2017

Zitat von anonymix

wenn man kein problem hatte, bisher?@ gerrit: könntest du bitte mal darlegen welche probleme das sein sollen? ich habe auch mit relativ unhandlichen dateien zu tun, bisher ist aber alles gut gegangen.
was hilft mir ecc dann außer (evtl.) besser zu schlafen?

ist im heimbereich sicherlich nice to have - aber mehr auch nicht oder?

DRAM error rates: Nightmare on DIMM street

Das du die Fehler nicht bemerkst heisst nicht, dass sie nicht da sind.

Es gibt noch sehr viel krassere Fehler, die erstmal den Betroffenen nicht auffallen aber extrem gefährlich sind. Hier mal ein Beispiel:

Traue keinem Scan, den du nicht selbst gefälscht hast

Claus · 25. März 2017

Ich verstehe diese Studien nicht: "a soft error event occurs once per month of constant use in a 128MB PC100 SDRAM module". Übertragen auf die heutige RAM-Ausstattung eines Stamdard-PCs mit 8GB heißt das naiv gerechnet ja immerhin 62500 Fehler pro Monat oder roundabaout alle 40s ein Bitfehler, wenn der Rechner durchgehend läuft und das RAM immer voll genutzt wird (was es ja mindestens als Cache in einem modernen OS wird). Ich denke es ist offensichtlich, dass das nicht der Fall ist, sonst wäre es vollkommen unmöglich überhaupt mit irgendwelchen Daten zu arbeiten. Wo ist mein Denkfehler? Sind da noch irgendwelche anderen Korrekturmechanismen z.B. auf Softwareebene, die diese Fehler abfangen?

rogie67 · 25. März 2017

Zitat von Fröhn

Das du die Fehler nicht bemerkst heisst nicht, dass sie nicht da sind.

Es gibt noch sehr viel krassere Fehler, die erstmal den Betroffenen nicht auffallen aber extrem gefährlich sind. Hier mal ein Beispiel:

Traue keinem Scan, den du nicht selbst gefälscht hast

Hallo Fröhn,
danke für den Link, der Vortrag war hoch interessant.

Claus · 25. März 2017

Zitat von Claus

Übertragen auf die heutige RAM-Ausstattung eines Stamdard-PCs mit 8GB heißt das naiv gerechnet ja immerhin 62500 Fehler pro Monat oder roundabaout alle 40s ein Bitfehler

Aha, Google hat zumindest schon mal einen Denkfehler enthüllt: diesem Paper kann man unter anderem entnehmen, dass die Fehlerrate wohl pro Device (sprich: pro DRAM-Chip) über RAM-Generationen hinweg konstant bleibt, weil die Fehlerrobustheit immer besser wird. Wäre also auch für einen 8GB-Rechner ca. bei 1-32 Bitfehler pro Monat (wenn man von bis zu 4 Riegeln mit je 8 Chips ausgeht). Trotzdem kommt mir das viel vor, so etwas kann doch nicht dauerhaft unbemerkt bleiben? Ich kann mich gar nicht erinnern, wann ich das letzte Mal über eine Datenkorruption gestolpert wäre?

MaTel · 25. März 2017

Zitat von Claus

Ich verstehe diese Studien nicht: "a soft error event occurs once per month of constant use in a 128MB PC100 SDRAM module". Übertragen auf die heutige RAM-Ausstattung eines Stamdard-PCs mit 8GB heißt das naiv gerechnet ja immerhin 62500 Fehler pro Monat oder roundabaout alle 40s ein Bitfehler, wenn der Rechner durchgehend läuft und das RAM immer voll genutzt wird (was es ja mindestens als Cache in einem modernen OS wird). Ich denke es ist offensichtlich, dass das nicht der Fall ist, sonst wäre es vollkommen unmöglich überhaupt mit irgendwelchen Daten zu arbeiten. Wo ist mein Denkfehler? Sind da noch irgendwelche anderen Korrekturmechanismen z.B. auf Softwareebene, die diese Fehler abfangen?

Ganz im Sinne des Xerox Vortrags, der eigentlich nichts mit Bitfehlern zu tun hat, sondern um Fehler in der Programmierung...
Traue keinen Scan ( ähh Statistik ), den du nicht selbser gefälscht hast.
Bei der hohen Fehlrrate müßte es viel häufiger zu Systemabstürzen kommen... Wobei, wenn ich recht überlege... ich es in den Endneunzigern / Anfang Zweitausendern immer merkwürdig fand, warum auf meinem System Windows "augenscheinlich" fehlerfrei lief und mein Linux gerne rumzickte ( speziell: Fehler bei der Compilierung von Paketen ) und dies eindeutig auf Speicherfehler zurückzuführen waren, die man durch Austausch der RAM-Module beheben konnte... MEMTEST lief aber immer fehlerfrei durch. Evtl. hat man das ja inzwischen viel besser im Griff?

Fröhn · 25. März 2017

Es sind auch nicht immer alle Bits im RAM "wichtig". Viel Code im RAM bleibt unbenutzt, Fehler in Grafiken oder Audiodaten sind oft kaum bemerkbar usw.

Claus · 25. März 2017

Also nach weiterem gegoogel neige ich dazu, Wikipedia zuzustimmen: "Recent studies give widely varying error rates with over seven orders of magnitude difference, ranging from 10⁻¹⁰−10⁻¹⁷ error/bit·h, roughly one bit error, per hour, per gigabyte of memory to one bit error, per century, per gigabyte of memory."

Sprich: es gibt Unterschiede in den Studienergebnissen um den Faktor 10.000.000, was für mich bedeutet, dass man eigentlich überhaupt keine verlässlichen Daten hat. Ein Bitfehler pro Stunde vs. ein Bitfehler alle 100 Jahre ist ja nun wirklich ein Unterschied. Für mich ist der Fall dann erst mal abgeschlossen und ich würde mir privat keine Serverhardware kaufen, bevor ich nicht einen nachvollziehbaren Grund dafür einigermaßen eindeutig belegt sehe.

Claus · 25. März 2017

Zitat von Fröhn

Fehler in Grafiken oder Audiodaten sind oft kaum bemerkbar usw.

Ich arbeite viel mit codierten Audiodaten, wo das sehr leicht bemerkbar ist. Auch Grafikfehler in codierten Bilddateien sollten meist auffallen.

Phasengleich · 25. März 2017

Meine Backups auf Bluray mache ich auch immer mit Verify. Die letzte Session war die Sicherung von 450GB, auch hier alles paletti. Das einzige Gerät was mal Ärger gemacht hat war eine externe 1TB Festplatte. Die hat einfach Bits verändert, aber gesagt alles wäre in Ordnung. Erst beim Rückspielen auf den Rechner und einem Binärvergleich konnte ich feststellen wer hier Mist gebaut hat. Die Platte war 4 Jahre alt und von WD, vielleicht war sie auch einfach zu alt. Neue Platte ran und alles war in Ordnung. Es ging bei mir um Filme, die immer Fehler hatten nach dem Überspielen(Abbruch, Stehenbleiben, Bildsalat). Also auch Festplatten ist nicht zu trauen.

Vielleicht doch in eine Cloud sichern? Aber das ist mir irgendwie komisch, auch wenn ich vorher verschlüssle.

Fröhn · 25. März 2017

Zitat von Claus

Ich arbeite viel mit codierten Audiodaten, wo das sehr leicht bemerkbar ist. Auch Grafikfehler in codierten Bilddateien sollten meist auffallen.

Das ändert nichts daran, dass es Bitfehler bei DRAMs gibt, unabhängig von der Fehlerrate.

Phasengleich · 25. März 2017

Mich würde interessieren wie oft denn die Leute mit ECC-Ram einen Ram Fehler im ihrem Log haben? Kippen Bits denn auch einfach so, oder nur bei besonders intensiver Störstrahlung?

Claus · 25. März 2017

Zitat von Fröhn

Das ändert nichts daran, dass es Bitfehler bei DRAMs gibt, unabhängig von der Fehlerrate.

Stimmt, aber wenn die Fehlerrate klein genug ist, kann es mir ja egal sein.

Ace · 25. März 2017

Zitat von Fröhn

Das ändert nichts daran, dass es Bitfehler bei DRAMs gibt, unabhängig von der Fehlerrate.

Bei Billigram vielleicht.

Gerrit · 25. März 2017

Zitat von Ace

Bei Billigram vielleicht.

Ob du schlechtes RAM hast oder nicht weisst du bei Non-ECC aber erst hinterher. Hast du hingegen ECC-RAM weisst du es gleich.

Fröhn · 25. März 2017

Zitat von Ace

Bei Billigram vielleicht.

Das hat mit "Billig-RAM" wenig zu tun. Bei DRAM ist es heutzutage nunmal eine recht kleine Ladung, die über 0 oder 1 entscheidet und die kann durch Störeinflüsse leicht gekippt werden. Diese Störungen können von der Umgebung stammen, aber es gibt auch kosmische Strahlung die durchaus für Bitflips sorgen können.

Ace · 26. März 2017

Zitat von Gerrit

Ob du schlechtes RAM hast oder nicht weisst du bei Non-ECC aber erst hinterher. Hast du hingegen ECC-RAM weisst du es gleich.

Und was machst du dann, wenn du festgestellt hast, das dem so ist ?

MaTel · 26. März 2017

Irgendwie wird hier ein Problem im Consumerbereich komplett überdramatisiert. Habe beruflich mit Rechnern zu tun ( viele Kassensysteme,auch da ist ECC eher selten bis gar nicht vorhanden ) und bisher ist mir noch kein Kunde mit dem nackten Arsch ins Gesicht gesprungen. Lassen wir also mal die Pferde im Dorf und malen ein Problem nicht größer, als es ist.

Gerrit · 26. März 2017

Zitat von Ace

Und was machst du dann, wenn du festgestellt hast, das dem so ist ?

Umtauschen wenn noch Garantie drauf ist, bzw. ersetzen/neu kaufen wenn nicht. Die Chance, daß es mir zwischen dem Auftreten des Fehlers und dem Erkennen meinerseits Daten zerhackt ist sehr klein.

Schmitti · 28. März 2017

@Ace: ECC gibt es auf Consumer-Boards bereits seit Mitte der 1990'er Jahre (siehe auch Beitrag 5). Davor war es eher exotisch und es gab nur eine Paritätsbewertung. Aber selbst das ist besser als nichts. Den meisten RAM-Modulen fehlen dafür die notwendigen Bits.

@Phasengleich: Der Prozessor muss das nicht zwangsläufig unterstützen. Die Unterstützung kann auch im Chipsatz integriert sein. Das hängt vom System ab.

MaTel: Bei Kassensystemen brauchst Du als Privatperson beim Einkaufen aber nur mal Deine Kaufbelege kontrollieren. Oft genug stimmt da etwas nicht. Dass kann dann auf einem falschen Bit im Speicher beruhen, könnte aber auch ein Anwenderfehler sein. Von daher wirst Du das in der Regel gar nicht mitbekommen, was denn falsch funktioniert, denn Du siehst nur, dass an der Kasse falsch abgerechnet wurde. Allerdings sieht das nur derjenige, der auch seinen Beleg prüft. Das machen die meisten wahrscheinlich nicht, von daher bemerken es viele erst gar nicht, dass das Kassen- oder Abrechnungssystem einen Fehler gemacht hat. Wichtig dürfte den meisten Deiner Kunden auch ein niedriger Preis für das Kassensystem sein, vermute ich.
MemTest wird auch nicht alle Fehler finden. So wie Gerrit bereits früher gesagt hat, kann man einen Fehler in der Regel nachweisen. Der Nachweis der Fehlerfreiheit ist praktisch nicht zu bewerkstelligen. Und da MemTest nur einen eingeschränkten Funktionsumfang hat, macht es daher auch Sinn mit unterschiedlichen Speichertestprogrammen zu prüfen, da sicherlich unterschiedliche Prüfalgorithmen implementiert sind und mit unterschiedlichen Databackgrounds gearbeitet wird. Das hat zur Folge, dass mal das eine Programm einen Fehler finden kann und mal ein anderes und ein weiteres mal findet kein Programm einen Fehler. Trotzdem kann ein Fehler da sein, der sich dann beispielsweise bei der Kompilierung findet.

Die Probleme durch Bitfehler sind sehr vielfältig und können sich zum Beispiel wie folgt darstellen:
a) macht sich nicht bemerkbar, da keine relevanten Daten betroffen sind
b) Darstellungsfehler in Bilddateien; je nach Umfang wahrnehmbar oder auch nicht
c) Klangverfälschungen bei Toninformation; je nach Umfang wahrnehmbar oder auch nicht
d) Programme funktionieren nicht richtig
e) Programme stürzen ab
f) Betriebssystem stürzt ab
und anderes mehr und vorstellbar.

Von daher gilt einfach, wem seine Daten wichtig sind, gibt halt mehr Geld aus. Vor allem bei Entwicklungsarbeiten ist das Firmen ohne mit der Wimper zu zucken den Mehrpreis wert, da eine falsche Berechnung extrem hohe Folgekosten verursachen kann. Das Risiko fängt die Firma dann mit der Sicherheitsfunktion ECC einfach ab.

Die privaten Anwender kennen in der Regel die Möglichkeiten gar nicht oder können die Folgen nicht abschätzen. Von daher kauft die Mehrheit halt lieber einen größeren Speicher, der keine Sicherheitsfunktion mitbringt. Allerdings hinterfragen die wenigsten privaten Anwender Sachen, die sie nicht verstehen, denn das macht ja Arbeit.

Tags