Das ganze zeigt auch, wie man in Assembler ineffektiven 6502 Code schreiben kann. Es ist wie Claus schon geschrieben hat, in der Hauptschleife auf das Y-Register zu verzichten, kostet halt richtig viel Zeit. Im direkten Vergleich benötigt die Routine von Snoopy auf dem C64 26,83 Sekunden und damit genau 12 Sekunden mehr als meine. Ohne den selbst modifizierenden Code wird 1 Takt mehr in der Schleife benötigt, ist aber immer noch 10.7 Sekunden schneller.
Ich vermute der Z80 hat hier auch eher ein bestcase und kann deshalb mit seinen vielen Register besonders gut Punkten. So das der doppelte Takt des Z80 ungefähr ausreicht, um mit dem 6502 gleichzuziehen. Eine vergleichbare ausgerollte Routine wie von gogoMAK auf dem Z80 wäre jetzt mal interessant. Ich glaube, der Abstand zum 6502 wird eher großer als kleiner.