Hallo Besucher, der Thread wurde 14k mal aufgerufen und enthält 76 Antworten

letzter Beitrag von Phasengleich am

Nutzt ihr ECC-Ram?

  • MaTel: Bei Kassensystemen brauchst Du als Privatperson beim Einkaufen aber nur mal Deine Kaufbelege kontrollieren. Oft genug stimmt da etwas nicht. Dass kann dann auf einem falschen Bit im Speicher beruhen, könnte aber auch ein Anwenderfehler sein. Von daher wirst Du das in der Regel gar nicht mitbekommen, was denn falsch funktioniert, denn Du siehst nur, dass an der Kasse falsch abgerechnet wurde. Allerdings sieht das nur derjenige, der auch seinen Beleg prüft. Das machen die meisten wahrscheinlich nicht, von daher bemerken es viele erst gar nicht, dass das Kassen- oder Abrechnungssystem einen Fehler gemacht hat. Wichtig dürfte den meisten Deiner Kunden auch ein niedriger Preis für das Kassensystem sein, vermute ich.

    Och, bei den ganzen Kassensystemen, die ich schon verbaut bzw. betreut habe, wäre mir und auch meinen Kunden sowas garantiert schon aufgefallen, auch, weil das Finanzamt in diesem Bereich immer pissi... äh penetranter nachschaut ( wegen schwarzer Kassen ). Da muss alles genau protokolliert und inzwischen über Jahre abrufbar sein.
    Daher wird hier nur ein Problem im Consumerbereich größer geredet, als es in Wirklichkeit ist. Also die Kirche einfach mal im Dorf lassen.


    Bei Serversystemen / Workstations, wo evtl. aus Geschwindigkeitsgründen viele Daten lange im Ram gehalten werden kann ich den Einsatz von ECC ja noch verstehen.

  • Von daher gilt einfach, wem seine Daten wichtig sind, gibt halt mehr Geld aus. Vor allem bei Entwicklungsarbeiten ist das Firmen ohne mit der Wimper zu zucken den Mehrpreis wert, da eine falsche Berechnung extrem hohe Folgekosten verursachen kann. Das Risiko fängt die Firma dann mit der Sicherheitsfunktion ECC einfach ab.

    Auch den Fall will ich erstmal sehen, selten wie ein Lottogewinn (an solch einer komplett ungünstigen Stelle auftretend) u. wenn doch würde es irgendwo früher oder später in der Verarbeitungskette auffallen und wäre sicher korrigierbar.
    Wir leben ja nicht in einer von Robotern (bis ins letzte Bit, u. wenn 'mal 'was falsch ist stürzt das ganze System ab, ist doch quatsch !) kontrollierten Welt, so dass man bei einem Fehler gar nicht mehr ins System hinein könnte :). Da sitzen immernoch Menschen an den Pulten, Maschinen, Werkzeugen.., denen man den Fehler bspw. dann mitteilen kann oder ' wird u. welche es darauf kooperativ mit einem/untereinander zusammen korrigieren.

  • @Ace: ECC gibt es auf Consumer-Boards bereits seit Mitte der 1990'er Jahre (siehe auch Beitrag 5). Davor war es eher exotisch und es gab nur eine Paritätsbewertung. Aber selbst das ist besser als nichts. Den meisten RAM-Modulen fehlen dafür die notwendigen Bits.

    Das nützt nur alles nichts, wenn die dazugehörigen CPUs das nicht mit unterstützen.

  • Zu Ecc RAM gibt es eine Studie von Google.
    Heise hatte dazu mal was geschrieben https://heise.de/-828883
    Die Studie (von 2007) selbst ist unter http://www.cs.toronto.edu/~bianca/papers/fast07.pdf zu finden.



    Wenn man dieser glauben schenken darf, dann ist ECC RAM immer vorzuziehen. Ansonsten sind RAM-Fehler nur sehr schwer belegbar und diese passieren dauernd, auch wenn sie meistens keine folgen haben ...

  • Zitat

    Pro Jahr trat bei rund einem Drittel aller Server beziehungsweise bei 8 Prozent aller DIMMs mindestens ein korrigierbarer Fehler auf.

    Und das bei 24/7 Betrieb und dann muss der Fehler noch gerade in dem Bereich sein wo er Wirkung zeigt. Meist ist der Hauptspeicher bei DesktopPC nur minimal dauerhaft beansprucht. Die Wahrscheinlichkeit halte ich daher für verschwindend gering, dass da was passiert. In einem Rechenzentrum gibt zudem bestimmt jede Menge mehr Strahlungsquellen als bei mir Zuhause.


    Man müsste mal einen C64 den RAM füllen und ein Jahr an lassen.


    In keiner der Softwarefirmen, bei denen ich programmiert habe, hatte auch nur ein Arbeitsrechner ECC verbaut. Falls mir mal ein Dokument/Sourcecode oder sonst was übel verändert wird, werde ich mich dem Thema nochmals widmen. IBM nutzt wohl noch eine Nummer sichereren Speicher als ECC ein(Chipkill-Technik kann bis zu 8 Bits reparieren). Denn auch bei ECC kann ein RAM-Fehler was kaputt machen. Es wird ja "nur" 1 Bit repariert und nicht wie bei dem guten RAM von IBM bis zu 8 Bits. Man weiß dann zwar dass da ein kaputter Riegel oder Strahlung war, aber dem Dokument nutzt das auch nichts mehr. Wie will man checken ob nun der RAM eine Macke hatte oder der Fehler durch kosmische Strahlung kam?


    Also wer sicher sein will nimmt die Chipkill-Technik. Wenn schon dann richtig :-)


    Hier wurde noch gesagt dass die CPU wie mein Intel i7 gar kein ECC unterstützen muss, sondern nur das Mainboard? Ist das korrekt? Was ist der Unterschied wenn zusätzlich zum Mainboard auch meine CPU ECC Unterstützung hat?

  • MaTel: Natürlich fällt Dir das nicht auf und Deinen Kunden nicht. Wie sollte es ihnen auch auffallen, wenn es sporadische Fehler gibt und diese nicht auf das RAM zurückgeführt werden können. Oder tauscht Du einzelne DRAMs in Deinen Kassensystemen, die defekt sind. Vermutlich wird dann das ganze Board getauscht, wenn es vermeintlich nicht richtig funktioniert. Richtig prüfen, woran die Fehler liegen, macht doch bei normalen technischen Geräten kaum einer.
    Was hat das mit lange im RAM liegenden Daten zu tun oder nur kurz? Statistisch verteilte Störungen könne genauso kurz im RAM liegende Daten verfälschen. Du merkst es halt nicht oder nur indirekt, wenn beispielsweise Dein Rechner sich nicht so verhält, wie er sollte.


    CommieSurfer: Warum glaubst Du das nicht? Eine über mehrere Tage laufende Simulation im Entwicklungsbereich wäre (eventuell) für die Tonne, wenn sich da ein Fehler einschleicht. Der ist unter Umständen erst ersichtlich, wenn die Evaluierung ihn im Produkt zeigt, sofern er dabei auffällt. Sonst fällt er vielleicht auch erst später bei Dir im Produkt auf.


    @Ace: Was meinst Du mit von der CPU unterstützen. ECC im Hauptspeicher wird beispielsweise bereits mit dem Pentium 75 möglich. Wenn es mit Deinem Prozessor nicht geht, stimmt für ECC halt nicht die Kombination aus Mainboard, Prozessor und Speicher. Das sind dann die abgespeckten Systeme. Ist doch ganz simpel. Die Vollversion oder die Vollausstattung kostet immer einen Aufpreis bzw. man kauft sich halt die Funktionen die einem wichtig sind.


    echo: Genau darin liegt das Problem. Die meisten sagen einfach, ihnen ist nichts aufgefallen, also gibt es das Problem gar nicht. Da liegt der Irrglaube. Wenn man die Thematik nicht beobachtet oder mitprotokolliert, kann man dazu überhaupt keine Aussage machen. Da gilt dann, kann ohne Fehler laufen, muss aber nicht und ich auch nicht wahrscheinlich.

  • @Ace: Was meinst Du mit von der CPU unterstützen. ECC im Hauptspeicher wird beispielsweise bereits mit dem Pentium 75 möglich. Wenn es mit Deinem Prozessor nicht geht, stimmt für ECC halt nicht die Kombination aus Mainboard, Prozessor und Speicher. Das sind dann die abgespeckten Systeme. Ist doch ganz simpel. Die Vollversion oder die Vollausstattung kostet immer einen Aufpreis bzw. man kauft sich halt die Funktionen die einem wichtig sind.

    lol. Abgespeckt ? Ein Mainboard von Asus in der 550 Euro Preisklasse samt Markenram ? Würde das stimmen, wäre das ein Armutszeugnis.

  • Und das bei 24/7 Betrieb und dann muss der Fehler noch gerade in dem Bereich sein wo er Wirkung zeigt. Meist ist der Hauptspeicher bei DesktopPC nur minimal dauerhaft beansprucht. Die Wahrscheinlichkeit halte ich daher für verschwindend gering, dass da was passiert. In einem Rechenzentrum gibt zudem bestimmt jede Menge mehr Strahlungsquellen als bei mir Zuhause.

    Strahlungsquellen? Muss ich jetzt mit Aluhut ins RZ?


    Ich glaube du Irrst in diesem Punkt gewaltig.
    In einem RZ ist alles geerdet und dies wird bei einer verantwortungsvollen Betrieb auch überwacht. Jede Tür, jedes Gehäuse und Jeder Stromstecker hat ne Erde. Der Potenzialausgleich zwischen dem einem Ende des RZ und dem anderen ist minimal.
    Somit sollte keine Elektromagnetische Strahlung entweichen können. Selbst wenn ein Rechner nicht geerdet wäre, würde das Rack dieses abschirmen.
    Und bei Google ist das ganze nochmals etwas weiter gesponnen. Da wird im Rechnenzentrum ein Baucontainer aufgestellt in dem die Rechner sitzen und dieser ist sicherlich nochmals geerdet.


    Funktechnik wird im RZ gar nicht genutzt. Und bei guter Bausubstanz ist sogar der Raum selbst nochmals geschirmt, um Funkwellen von außen nicht eindringen zu lassen. Ich denke solch einen Schutz hast du zu hause nicht.
    Oder meinst du Strahlung von anderen Sternen oder Atomreaktoren?


    Aber zurück zum Thema
    Ohne ECC wirst du ein Fehler im Betrieb nicht nachweisen können. Mit ECC kannst du zumindest einen nachweisen. Einen Doppelten Fehler wirst du damit aber nicht nachweisen können. Ob dir das wichtig ist musst du selbst entscheiden. Genrell tendiere ich eher zum ECC, auch im Privaten Umfeld, jedoch können die meisten (Privaten-, Gaming-) Boards das ECC gar nicht auswerten und dann ist solch ein RAM nur eines, Unnütz.
    Generell wird gesagt, ein einzelner ECC-Fehler ist zu ignorieren. Sollte aber der Fehler periodisch wiederkehren ist ein Austausch anzuraten.
    In meiner Kariere hatte ich selten mit ECC-Fehler zu kämpfen, aber wenn einer kam, dann ist man froh, dass es dieses ECC gibt. Denn dann ist der Fehlerhafte Speicher sehr schnell erkannt und man muss nicht alle Komponenten durch Ausschlussverfahren prüfen. Letzteres ist einfach zu Zeitintensiv und damit zu teuer.

  • Funktechnik wird im RZ gar nicht genutzt.

    Äh, doch... Normalerweise hat es dort ein paar Telefone und die sind drahtlos. Üblicherweise verwendet für die Techniker. Aber das bisschen Strahlung was so ein DECT-Telefon verursacht fällt nicht auf.



    Ohne ECC wirst du ein Fehler im Betrieb nicht nachweisen können. Mit ECC kannst du zumindest einen nachweisen. Einen Doppelten Fehler wirst du damit aber nicht nachweisen können.

    Doch, Doppelfehler werden erkannt, können aber nicht korrigiert werden. Das korrekte Verhalten in diesem Fall ist ein Eintrag im Log (Fehler, Adresse, Modul wenn bekannt) und dann eine Systempanic. Ein Crash ist immer besser als mit kaputten Daten weiterzuarbeiten. Dieses Modul wird dann getauscht.


    Denn dann ist der Fehlerhafte Speicher sehr schnell erkannt

    Eben... Bei ECC weisst du gleich ob der Speicher ein Problem hat oder nicht. Langwierige Läufe von memtest86 kannst du dir sparen.



    Generell wird gesagt, ein einzelner ECC-Fehler ist zu ignorieren. Sollte aber der Fehler periodisch wiederkehren ist ein Austausch anzuraten.

    Korrekt... Ich kenne noch die Anweisung auf der Arbeit: Wenn dasselbe Modul in 24h mehr als 3 korrigierbare Fehler meldet wird es getauscht. Abgesehen davon haben gute OS dafür auch Routinen. Wenn sich die Fehler in einer Speicherpage häufen wird sie aus dem Pool entfernt und nicht mehr benutzt. Dann fehlen dir ein paar KB Speicher, aber es treten eben auch keine Fehler mehr auf. Natürlich wird sowas im Log vermerkt.

  • Also wer sicher sein will nimmt die Chipkill-Technik. Wenn schon dann richtig

    Würde ich gerne... gibts aber leider für Desktops nicht.



    Hier wurde noch gesagt dass die CPU wie mein Intel i7 gar kein ECC unterstützen muss, sondern nur das Mainboard? Ist das korrekt? Was ist der Unterschied wenn zusätzlich zum Mainboard auch meine CPU ECC Unterstützung hat?

    Es hängt davon ab wo der Speichercontroller zu finden ist. In der CPU wie bei AMD? Dann muss es die CPU können plus natürlich das Mainboard die extra Leiterbahnen zum RAM haben. Im Chipset? Dann muss es das Chipset und das Mainboard können. Also vor dem Kauf informieren. Bei INTeL können es ein paar der Desktop-CPUs (die für NAS gerne verwendet werden, also die kleineren) und die ganzen Server-CPUs.

  • Äh, doch... Normalerweise hat es dort ein paar Telefone und die sind drahtlos. Üblicherweise verwendet für die Techniker. Aber das bisschen Strahlung was so ein DECT-Telefon verursacht fällt nicht auf.

    Stimmt du hast recht. DECT ist häufig in Benutzung. Daran hab ich gerade gar nicht gedacht. Handies haben häufig jedoch keinen Empfang. Und WLAN gibts im RZ nicht.
    Dennoch ist alles mehrmals geerdet und ich bezweifle, dass Strahlung im RZ ein Problem darstellt.


    Doch, Doppelfehler werden erkannt, können aber nicht korrigiert werden. Das korrekte Verhalten in diesem Fall ist ein Eintrag im Log (Fehler, Adresse, Modul wenn bekannt) und dann eine Systempanic. Ein Crash ist immer besser als mit kaputten Daten weiterzuarbeiten. Dieses Modul wird dann getauscht.

    Ja, du hast zum Teil recht. Hier kommts auf das System an. Und ich wollte es nicht weiter verkomplizieren.
    In der Regel ist es so, dass teurere Syteme auch mehr Fehler selbst korrigieren (bzw. finden) können. ECC ist nicht gleich ECC will ich damit sagen.


    Bei meinen Fehlern verhielt sich das System so, dass es diese Protokolliert hat und irgendwann das Dimm deaktiviert wurde. Das ist die häufigste Vorgehensweise. Ein Absturz habe ich bisher nie erlebt.

  • Strahlungsquellen? Muss ich jetzt mit Aluhut ins RZ?
    Ich glaube du Irrst in diesem Punkt gewaltig.

    Kommt auf die Lage seiner Wohnung und die des Rechenzentrums an ;) Die Intensität der kosmischen Strahlung nimmt mit steigender Höhe zu, was man auch schon in statistischen Auswertungen von Fehlern in Rechenzentren gesehen hat, die in höher oder niedriger gelegenen Städten stehen.


    Zitat

    Somit sollte keine Elektromagnetische Strahlung entweichen können. Selbst wenn ein Rechner nicht geerdet wäre, würde das Rack dieses abschirmen.

    Wenn du ein RZ ohne entweichende elektromagnetische Strahlung aufbauen willst, musst du dafür nochmal deutlich grösseren Aufwand treiben - das machen typischerweise nur Leute mit sehr hohen Geheimhaltungsanforderungen, Stichwort Tempest und so. Abstrahung bzw. Weiterleitung über Kabel ins und aus dem RZ ist dann auch ein zu lösendes Problem.


    Zitat

    Oder meinst du Strahlung von anderen Sternen oder Atomreaktoren?

    Hauptsächlich Neutronen


    Zitat

    In meiner Kariere hatte ich selten mit ECC-Fehler zu kämpfen

    Kurzer Datenpunkt: 7 Linux-Rechner mit ECC-RAM unterschiedlichen Alters, die ich gerade ohne grösseren Aufwand erreiche melden mit "mcelog" gar nichts. Leider habe ich das Tool nie auf der Kiste laufenlassen, die tatsächlich ein defektes RAM hat und in deren BIOS-Errorlog jede Menge "single bit error has been corrected"-Einträge sind.


    Es hängt davon ab wo der Speichercontroller zu finden ist. In der CPU wie bei AMD? Dann muss es die CPU können plus natürlich das Mainboard die extra Leiterbahnen zum RAM haben. Im Chipset? Dann muss es das Chipset und das Mainboard können. Also vor dem Kauf informieren. Bei INTeL können es ein paar der Desktop-CPUs (die für NAS gerne verwendet werden, also die kleineren) und die ganzen Server-CPUs.

    Intel macht es natürlich noch eine Nummer komplizierter: Obwohl die Celeron-(*), Pentium-(*) und Core i3-CPUs alle ECC können wird die Funktion nur aktiv, wenn man sie mit einem Server-Chipsatz (C2xx) kombiniert. Man kann auch Xeons (die natürlich ECC können) auf Boards mit Desktop-Chipsatz betreiben und auch dann wird ECC nicht freigeschaltet, obwohl der Speichercontroller in allen Fällen komplett in der CPU sitzt. Vermutlich könnten i5 und i7 es ebenfalls, wenn Intel es denn zulassen würde.


    (*) Die zu Core i sockelkompatiblen, beim Rest empfiehlt sich ein Blick ins ARK

  • Kommt auf die Lage seiner Wohnung und die des Rechenzentrums an ;) Die Intensität der kosmischen Strahlung nimmt mit steigender Höhe zu, was man auch schon in statistischen Auswertungen von Fehlern in Rechenzentren gesehen hat, die in höher oder niedriger gelegenen Städten stehen.

    Nu wird aber das Haar gespalten :D
    Klar ist die Strahlung näher zum All stärker, als unter Wasser/Boden.
    Dies trifft jedoch auch bei einer Normalen Wohnung zu. Und hier war ja der Vergleich zwischen normale Wohnung und RZ-Betrieb.


    Wenn du ein RZ ohne entweichende elektromagnetische Strahlung aufbauen willst, musst du dafür nochmal deutlich grösseren Aufwand treiben - das machen typischerweise nur Leute mit sehr hohen Geheimhaltungsanforderungen, Stichwort Tempest und so. Abstrahung bzw. Weiterleitung über Kabel ins und aus dem RZ ist dann auch ein zu lösendes Problem.

    Wenn man Spionage über Strahlung betreiben will, dann geht man mit einem sehr großen Aufwand an die Sache ran. Hier werden dann sicherlich Strahlungen mit so kleinen Werten gemessen, die man für den Normalbetrieb sicherlich vernachlässigen kann.
    Ich muss zugeben, dass ich mit diesem Sachstand gar nicht befasst habe und daher es nicht genau beziffern kann, aber die entweichende Strahlung aus den Rechnern wird sicherlich keinen anderen Rechner in Mitleidenschaftlich ziehen. Dafür sind die entweichenden Kräfte zu klein und die damit verbundenen mehrfachen Erdungen wirkt diesem entgegen.
    Ich denke ein PC Zuhause ist stärkerer Strahlung ausgesetzt, als ein Server im RZ.
    Diese Behauptung ist sicherlich zu relativieren, den manche Leute sitzen in einem Haus mit Stahlgerüst und andere in einem Backsteingebäude. Einige Wohnen nahe am Meer und andere auf dem Berg. Auch die Bausubstanz kann hier sicherlich noch ein Faktor sein, ebenso ob man nahe an einem Atomkraftwerk/Endlager/Tschernobyl/Funkmast sitzt oder nicht. Unterm Strich ist ein ein RZ durch die mehrfache Erdung deutlich besser gegen Strahlung abgeschirmt, als ein Wohnhaus. Neutrale Strahlung hingegen ist zu vernachlässigen, den diese wird nur durch Masse aufgehalten und kann sogar unseren Planeten komplett durchqueren. Somit ist sie egal wo man sitzt immer gleichstark vorhanden.

  • mcelog? Ich nehme da immer 'edac-util' für. Für genauere Auswertung auch mal mit '-v'.

    Äh ja, früh am Morgen und so... edac-util meldet natürlich "No errors to report" auf den gesammelten Rechnern.

  • Ist wohl alles eine Frage welche Risiken geht man ein und welche nicht. Genau wie mit ECC ist ja es auch mit: Smartphone, Internet, Soziale Netzwerke, Chats, Windows, Payback, vor die Tür gehen, ..., usw.

    Korrekt. ECC ist wie ne Versicherung. Man braucht sie nicht, bis der Fall eintritt und dann ist man froh, wenn man sie hat ;)