Opcode-Prefetch

M. J. · 3. April 2016

Es gibt da eine Sache, die mir schon länger Kopfzerbrechen bereitet. Vielleicht weiß einer von Euch Näheres darüber.
Oft wird gesagt, der 6502 verfüge bereits über so etwas wie einen simplen Code-Prefetch, eine Vorstufe einer Pipeline. Doch in den Datenblättern von WDC finde ich keine Angaben darüber. (Es findet sich leider keine Darstellung der inneren Verarbeitungsschritte innerhalb eines Taktzyklus.) So beträgt die Anzahl der Taktzyklen für die Befehle INX, DEY, TAX, CLC, SEI, ASL etc bekanntlich 2. Laut des Datenblatts von WDC teilen sich diese Zyklen auf wie folgt:

1.) Buszugriff: Opcode holen von Adresse (PC)
2.) Buszugriff: Byte holen von Adresse (PC + 1) (idle Zugriff)

Sollte der 6502 über so etwas wie einen Opcode-Prefetch verfügen, müßte er entweder in Taktzyklus 1 oder 2 den nächsten Opcode vorausschauend laden. Vergleicht man diese Befehlsgruppe mit den anderen Befehlen, so wird jedoch klar, daß dies laut Datenblatt nicht der Fall ist. So gilt für LDA #

1.) Buszugriff: Opcode holen von Adresse (PC)
2.) Buszugriff: Immediate-Wert holen von Adresse (PC + 1)

Es wird also in Taktzyklus 1 stets der aktuelle Opcode geladen, nicht bereits der nächste.
In Taktzyklus 2 bei INX etc gäbe es nun die Möglichkeit, anstelle des Idle-Zugriffs schon mal den nächsten Befehl zu laden, um so die effektive Taktanzahl von 2 auf 1 zu senken, doch findet dies nicht statt. Die Frage ist: Warum? Kann es vielleicht daran liegen, daß Teile der (vereinfacht dargestellt) dreistufigen Befehlsbearbeitung (1. ALU mit Register laden, 2.) ALU rechnen lassen, 3.) Wert in Register zurückschreiben) in den Taktzyklus des nächsten Befehlladens verschoben werden?
Wäre es von daher (rein theoretisch) überhaupt sinnvoll, einen Opcode-Puffer zu ergänzen, der immer dann aktiv wird, wenn der 6502 einen Idle-Zugriff macht, um schon einmal den nächsten Befehl vorab zu laden? Also indem z. B. ein Flag ergänzt wird, das festhält, ob ein Opcode vorliegt oder nicht. (Und das natürlich bei einem Sprung stets gelöscht werden müßte.) Und falls ja, wäre so etwas (rein theoretisch, weil inkompatibel zum Original) auch auf einem FPGA möglich oder würde dies die Logik nur unnötig erschweren?

rbl · 3. April 2016

Das sind ganz schön viele Fragen auf einmal. Hast Du Dir schon mal das KIM-1 Programming Manual, Kapitel 5 angeschaut?

Sheltem · 3. April 2016

Und was würde ein Prefetch bringen? Der 6502 macht doch eh bei jedem Takt nen Speicherzugriff.

M. J. · 3. April 2016

Zitat von rbl

Das sind ganz schön viele Fragen auf einmal.

Sorry. Das liegt daran, daß sich hier ein paar Sachen überschneiden. Zum einem habe ich bereits eine taktzyklen genaue Emulation des 6502 geschrieben, kann sie aber nicht richtig verifizieren. Zum anderen überlege ich mir spaßeshalber, wie und mit welchen Befehlen man den 6502 erweitern könnte (auf andere Weise als beim 65816), die ich dann zum Austesten in die Emulation mit aufnehme. Und zuletzt finde ich es auch interessant, einen Prozessor (nicht unbedingt einen 6502) mittels eines FPGAs nachzubauen. Und da stellt sich dann zwangsläufig die Frage nach einer (simplen) Optimierung der Befehlsausführung.

Zitat von rbl

Hast Du Dir schon mal das KIM-1 Programming Manual, Kapitel 5 angeschaut?

Nein, vom KIM-1 habe ich leider keine Ahnung und besitze bisher darüber auch keine Unterlagen. Eine spontane schnelle Suche brachte mich zu http://www.kim-1.com/docs.html und den dortigen KIM-1 User Manual bzw. KIM-1 Hardware Manual. Hättest Du vielleicht einen genauren Link?

alx · 3. April 2016

Was damit glaub ich gemeint ist das beim LDA# zwei zyklen um laden (op,imm) gebraucht werden und im 3. zyklus die op aber erst "ausgeführt" wird (fetch->a kopieren), parallel zum laden des nächsten op.

Gold Beaver · 3. April 2016

hier: http://users.telenet.be/kim1-6502/6502/proman.html#51

"The overlap of fetching the next memory location while interpreting the current data from memory minimizes the operation time of a normal 2- or 3-byte instruction and is referred to as pipelining."

Pipelining im Sinne von Operanden-Prefetch auf Verdacht.

M. J. · 3. April 2016

Zitat von alx

Was damit glaub ich gemeint ist das beim LDA# zwei zyklen um laden (op,imm) gebraucht werden und im 3. zyklus die op aber erst "ausgeführt" wird (fetch->a kopieren), parallel zum laden des nächsten op.

Sowas hatte ich mir auch gedacht, und genau deswegen verstehe ich die Vorgehensweise bei INX etc nicht. Hier muß ja kein Operand zusätzlich geladen werden. Der Aussage "The overlap of fetching the next memory location while interpreting the current data" zufolge laufen die Operationen ja parallel ab.

LDA #:
1.) Hole Befehl LDA #
2.) Lade Konstante
3.) Führe Befehl aus und lade gleichzeitig den nächsten Befehl

INX
1.) Hole Befehl INX
2.) Führe Befehl aus und lade Müll ???
3.) Führe Befehl nochmal aus und lade gleichzeitig den nächsten Befehl ???

Wenn man also davon ausgeht, daß im zweiten Taktzyklus X := X + 1 ausgeführt und gleichzeitig das nächste Opcode-Byte geladen wird, sollte genau dieses Laden anschließend doch entfallen? Warum braucht INX trotzdem immer noch zwei Taktzyklen?
Warum nicht:

1.) Hole Befehl INX
2.) Führe Befehl aus und lade gleichzeitig den nächsten Befehl
3.) Führe nächsten Befehl aus

effektive Ausführungszeit 1 Taktzyklus

Edit: Kurz gefragt: Eigentlich sollten nach dem Schema reine Registeroperationen nur einen Taktzyklus benötigen, aber es werden stets mindestens 2 Zyklen gebraucht. Wieso?

rbl · 3. April 2016

Zitat von M. J.

Hättest Du vielleicht einen genauren Link?

Claude hatte ja weiter oben bereits eine Variante verlinkt. Hier gibt's das (neben anderen Dokumenten) nochmal als PDF, falls sich das jemand vielleicht ausdrucken möchte.

alx · 3. April 2016

wo wie ich das grad (bei einem kurzen blick in den oberen link) verstanden habe ist der 2. cycle immer dafür da dass a) das nachste byte geladen wird (auch wenn nicht benötigt) und b) dekodiert wird, welcher opcode ausgeführt wird.
beispiel inx:
1. laden opcode
2. laden nächste daten (ungenutzt) UND feststellen dass es INX ist
3. x=x+1 UND laden des nächsten opcode (selbe lade operation wie zuvor

M. J. · 3. April 2016

Danke für die Links!

Zitat von alx

1. laden opcode
2. laden nächste daten (ungenutzt) UND feststellen dass es INX ist
3. x=x+1 UND laden des nächsten opcode (selbe lade operation wie zuvor

Ja, das würde in der Tat Sinn machen. Es würde bedeuten, daß die Befehlsanalyse nach dem Holen des Opcodes immer einen ganzen Taktzyklus benötigt (ganz schön lange), bevor irgendeine Aktion durchgeführt werden kann. Daher die Mindestanzahl von zwei Taktzyklen.
Ich hab's halt auch verglichen mit dem Z80, der bei INC r oder LD r, r' lediglich 1 Taktzyklus (bei 4 T-States) gebraucht. Da sind die T-States beim 6502 wohl irgendwie anders geordnet. Müßte mir vielleicht mal einen FPGA-6502-Core genauer ansehen, um einen Überblick zu bekommen, was da so alles während dieses einen Taktzyklus so geschaltet werden muß.

Gerrit · 3. April 2016

Zitat von M. J.

Ich hab's halt auch verglichen mit dem Z80, der bei INC r oder LD r, r' lediglich 1 Taktzyklus (bei 4 T-States) gebraucht. Da sind die T-States beim 6502 wohl irgendwie anders geordnet.

Moooment... 1 Maschinenzyklus ist beim Z80 nicht dasselbe wie 1 Taktzyklus. Es ist eher so, das beim Z80 die T-States dasselbe sind wie beim 6502 die Taktzyklen. Also braucht der INC r beim Z80 4 Takte, der INX oder INY beim 6502 nur 2.

M. J. · 3. April 2016

Sorry, ich hatte fälschlicherweise "machine cycle" direkt mit Taktzyklus gleichgesetzt. Seufz... Das ist halt das Problem mit diesen Begriffen. Was bei dem einem entspricht was bei dem anderen?
Während eines Taktzyklus beim 6502 geschehen ja verschiedene Dinge, die koordiniert, d. h. genau zeitlich zugeordnet werden müssen, normalerweise "ALU mit Wert laden", "berechnen, "Wert zurückschreiben". Da der Strom nicht direkt vom Register durch die ALU hindurch und zurück ins Register fließen kann, muß irgendwo auf diesem Weg eine Art Puffer eingebaut sein, der zumindest das Ergebnis zurückhält, um erst im darauf folgenden Schritt damit das Register zu überschreiben. Nun ging ich simpel gedacht mangels näherer Information davon aus, daß die T-States beim Z80 solch internen Zuständen entsprechen. Damit entspräche dann ein machine cycle funktionell betrachtet einem Taktzyklus beim 6502, insbesondere da der Z80 ja mit 4 Mhz getaktet ist, also seine 4 T-States in derselben Zeit ausführt wie der 6502 seinen Taktzyklus. Und damit ist er dann bei INC r oder LD r, r' immer noch um die Hälfte schneller als der 6502 mit INX und TAX.

Tags