Assembler Tricks

Bit Shifter · 30. April 2018

Ich habe schon einige 6502 Betriebssysteme (8296, 8032, C64, VC20, Microprofessor II, Apple II) disassembliert und dabei noch einiges an Optimierungspotential gefunden.
Deshalb würde ich gern in einem Thread mit Euch über Otimierungen und Tricks diskutieren.

Ein kleines Beispiel: Am Schleifenende wird ein 16 bit Zähler dekrementiert, um die Schleife n mal durchlaufen zu lassen.
Der Counter selbst wird in der Schleife nicht benutzt.

Der konventionell Ansatz sieht so aus:

Code

LDA #<n
STA Countdown_Lo
LDA #>n
STA Countdown_Hi
LOOP JSR Mach_Was
LDA Countdown_Lo
BNE L10
DEC Countdown_Hi
L10 DEC Countdown_Lo
LDA Countdown_Lo
ORA Countdown_Hi
BNE LOOP

Alles anzeigen

Wenn der Zähler selbst nicht benötigt wird, kann man einen "jagged countdown" benutzen, der nicht die Werte von n bis 0 in der korrekten Reihenfolge durchläuft, aber trotzdem n Iterationen (n > 0 und n < 32768) erlaubt:

Code

LDA #<n
STA Countdown_Lo
LDA #>n
STA Countdown_Hi
LOOP JSR Mach_Was
DEC Countdown_Lo
BNE LOOP
DEC Countdown_Hi
BPL LOOP

Auch diese Schleife wird n mal durchlaufen, sie ist aber kürzer und schneller.
Dieser "jagged countdown" lässt sich einsetzen, wenn der Indexwert selbst nicht benutzt wird. Er durchläuft z.B. bei n=515 die Werte:
515, 514, 513, 256, 511, 510, ... 258, 257, 0, 255, 254, ... 2, 1, -256 (deshalb auch die letzte Abfrage BPL und nicht BNE).

ZeroZero · 30. April 2018

Ein klein bisschen OT, aber einziger Post dazu:

Ließ doch mal kurz die Posts von Zaadii und mir in diesem Faden und gib einen Senf dazu. Besten Dank!

Zirias/Excess · 30. April 2018

Nur damit ich es richtig verstehe -- soll das jetzt eine Sammlung solcher Optimierungen werden? Und geht es darum, auf Größe oder auf Laufzeit zu optimieren, was sich ja manchmal beißt (im ersten Beispiel hier allerdings nicht)?

Bit Shifter · 30. April 2018

Zitat von zrs1

Nur damit ich es richtig verstehe -- soll das jetzt eine Sammlung solcher Optimierungen werden? Und geht es darum, auf Größe oder auf Laufzeit zu optimieren, was sich ja manchmal beißt (im ersten Beispiel hier allerdings nicht)?

Ja, richtig. Das war meine Absicht. Speicher- und Laufzeit Optimierungen sind gleichermaßen wichtig, je nach Anwendung.
Und in den meisten Fällen widersprechen sie sich nicht, außer bei der intensiven Anwendung von Tabellen,
wie z.B. die Tabelle der Zeilenanfangsadressen, die für jede Bildschirmzeile zwei Bytes verbraucht.
Das Problem kann man viel kürzer durch Code erledigen, aber der braucht mehr Zeit, als der Tabellenzugriff.

peiselulli · 30. April 2018

http://codebase64.org/doku.php?id=base:advanced_optimizing

Das steht eine Menge drin ...

Mac Bacon · 30. April 2018

Zitat von Bit Shifter

Wenn der Zähler selbst nicht benötigt wird, kann man einen "jagged countdown" benutzen, der nicht die Werte von n bis 0 in der korrekten Reihenfolge durchläuft, aber trotzdem n Iterationen (n > 0 und n < 32768) erlaubt:

Noch einfacher ist: Man startet mit "minus n" und zählt dann hoch bis zum Überlauf auf Null. Das funktioniert für den vollen Zahlenbereich und ist auch noch deutlich einfacher zu durchschauen und als korrekt funktionierend zu erkennen.

Bit Shifter · 30. April 2018

Zitat von Mac Bacon

Noch einfacher ist: Man startet mit "minus n" und zählt dann hoch bis zum Überlauf auf Null. Das funktioniert für den vollen Zahlenbereich und ist auch noch deutlich einfacher zu durchschauen und als korrekt funktionierend zu erkennen.

Das ist richtig, wenn n eine Konstante, wie in meinem Beispiel ist. Dann kann man den Zähler auch wie folgt implementieren:

Code

LDA #<-n
STA Countdown_Lo
LDA #>-n
STA Countdown_Hi
LOOP JSR Mach_Was
INC Countdown_Lo
BNE LOOP
INC Countdown_Hi
BNE LOOP

Diese Methode ist exakt genauso schnell und groß wie der jagged countdown und leichter zu verstehen.
Wenn n allerdings als variabler 16 bit Wert in zwei Speicherstellen steht und nicht "immediate" geladen werden kann, hängt die Wahl der Methode wohl vom Vorzeichen ab,
denn n zu negieren würde wieder viele zusätzliche Bytes erfordern. Da wäre dann bei positivem n der jagged countdown besser
und bei negativem n die INC Methode.

Mike · 30. April 2018

Zitat von Bit Shifter

Wenn n allerdings als variabler 16 bit Wert in zwei Speicherstellen steht [...]

... dann fällt entweder das "Vorladen" in Countdown_Lo/Hi weg, bzw. ist schon erfolgt, sofern der Wert im Anschluß entbehrlich ist.

Andernfalls müßte der beliebige Wert auch erstmal aus der Vorgabe in die "jagged"-Zählweise konvertiert werden. Mit der Hochzählmethode geht das mit wenig Extra-Code zur Vorzeichenumkehr einfach so:

Code

SEC
LDA #$00
SBC n
STA Countdown_Lo
LDA #$00
SBC n+1
STA Countdown_Hi

P.S. (auch Mac Bacon) korrekterweise müßte die Zählvariable ja jetzt Countup_XX heißen.

Bit Shifter · 30. April 2018

Der Countdown (Countup) ist jetzt, glaube ich, ausreichend diskutiert.
Deshalb hier ein neues Beispiel, die Anfangsadressen der Textzeilen im Bildschirmspeicher am Beispiel eines 80 Zeichen PET/CBM.
Man kann zwar die ROM-Tabellen verwenden, aber leider liegen die bei verschiedenen Editor-ROMs an verschiedenen Adressen.
Die hier vorgestellte Methode ist zwar langsamer, als Tabellen, aber schön kurz:

Code

; ********************
Set_Screen_Pointer_X
; ********************
SCREEN = $8000 (PET/CBM)
; Input : X = row (0-24)
; Output: (Cursor_Adr) = screen memory address of row
LDA #[>SCREEN] >> 3 ; will be rotated 3 times
STA Cursor_Adr+1
TXA ; * 1 (max 24)
ASL A ; * 2 (max 48)
ASL A ; * 4 (max 96)
STA Cursor_Adr
TXA
ADC Cursor_Adr ; * 5 (max 120)
ASL A ; * 10 (max 240)
ASL A
ROL Cursor_Adr+1 ; * 20
ASL A
ROL Cursor_Adr+1 ; * 40
ASL A
ROL Cursor_Adr+1 ; * 80
STA Cursor_Adr
RTS

Alles anzeigen

atomcode · 1. Mai 2018

Bei jedem Algorithmus, jeder Routine, jeder Berechnung und jeder Schleife sollte man sich zuvor genau überlegen, wie zeitkritisch das sein wird. Wenn die Routine in kürzester Zeit viel leisten muss oder sehr oft aufgerufen wird und somit jeder überflüssige Taktzyklus das Geschehen verlangsamt, muss man sich was einfallen lassen. Wenn dazu spezialisierte Codevarianten und üppige Tabellen gebraucht werden, muss man an anderen Stellen, wo man genügend Zeit hat, eben einsparen, etwa so wie mit dem letzten Beispiel. Ich habe dazu auch noch ein Beispiel, das möglichst klein sein sollte (One-Block-Contest) und eben nicht zeitkritisch ist: Die Ermittlung von Lottotipps. Ich hab einfach den Aufwand gespart, die 256 Möglichkeiten aus dem Rauschgenerator umzurechnen und stattdessen nur gefiltert, also die 0, die 50 bis 255 und alle, die schon "gezogen" wurden. Dadurch plätschern die 6 Zahlen dahin, als wäre es in BASIC geschrieben, aber wirklich warten muss man dennoch nicht. lotto.prg

Code: lotto.src (Giga-Ass)

100 .object "@:lotto,p,w"
110;
120 .base $0801
130 .word $080b
140 .word $0000
150 .byte $9e
160 .text "2061"
170 .word $0000
180;
190 .macro prt.str
200 lda #<(str)
210 ldy #>(str)
220 jsr $ab1e
230 .endmacro
240;
250 lda #$80
260 sta $d40f
270 sta $d412
280wt lda $a2
290 bne wt
300 jsr $ff84
310 jsr $ff81
320 prt.ti-1
330be ldy #$01
340l0 tya
350 tax
360rm lda $d41b
370 beq rm
380 cmp #50
390 bcs rm
400l1 cmp $4b,x
410 beq rm
420 dex
430 bne l1
440 sta $4b,y
450 iny
460 cpy #$07
470 bne l0
480 inx
490 stx $4b
500 ldx #$03
510pl jsr $e50c
520 ldx $4b
530 cpx #$0a
540 bcs s0
550 inc $d3
560s0 lda #$00
570 jsr $bdcd
580 lda $4b
590 ldx #$05
600l2 cmp $4c,x
610 beq s1
620 dex
630 bpl l2
640 lda #31
650 bne s2
660s1 lda #152
670s2 jsr $ffd2
680 prt.kr
690 jsr $e513
700 cpy #35
710 bne s3
720 inx
730 inx
740 inx
750 cpx #24
760 beq s4
770 ldy #$07
780s3 inc $4b
790 bne pl
800s4 ldy #$00
810 sty $c6
820 jsr $e50c
830 prt.in
840l3 lda $c6
850 beq l3
860 ldx #24
870 jsr $e9ff
880 jmp be
890;
900ti .text ".q]]lotto]-]de
910 .text "r]c64]tippt.Z"
920kr .text "H.QI..D..D..U
930 .text ".qG.qJFFKQ]Z"
940in .text ".(taste)Z"
950;
960.end

Alles anzeigen

Quälcode im Uralt-Format. Werde aber demnächst mit ACME weitermachen. Der Text enthält Steuercodes, die hier nicht sichtbar sind.

Bit Shifter · 1. Mai 2018

Zitat von atomcode

Dieser Thread ist auf jeden Fall sinnvoll. Vllt. sammle ich die Einzelergebnisse auf meiner Internetseite zum schnelleren Nachschlagen, denn kaum einer wird sich später noch den kompletten Thread hier durchlesen, glaube ich.

Das ist ein gute Idee

atomcode · 1. Mai 2018

Hehe, gut, dass Ihr euch um die Adressierung kabbelt. So hat wenigstens noch keiner gemerkt, dass ich bzgl. des Lotto-Programms was Falsches erzählt hatte. Die Verlangsamung kommt wohl in dem Fall noch nicht durch die Filterung. Die bewirkt dabei nämlich nur eine Verlangsamung um etwa Faktor 5,5. Das würde man bei den paar Befehlen kaum merken. Würde man die Filtermethode aber anwenden, wenn es nicht um 44-49 Zahlen ginge, sondern nur um bspw. 5, dann hätte man schon einen Verlangsamungsfaktor von 51,2. Bei zeitkritischen Aufgaben könnte man das also vergessen. Man könnte allerdings die Zufallszahl durch Shiften halbieren und bekommt einen kleineren Zufallsbereich zur Filterung. Ob beim Weißen Rauschen auch in Frage kommt, den benötigten Bereich einfach mit AND zu maskieren, also ob dabei die Werteverteilung immer noch gleichmäßig ist, weiß ich noch nicht. Das würde die Ermittlung natürlich am meisten beschleunigen.

Vielleicht kann diese Frage hier ein Elektroniker, Physiker oder Sonstwiewissender beantworten.

Im Lotto-Programm sind es hier eher die genutzten System-Routinen, die das Programm so langsam machen.

Das wäre dann auch schon der nächste ~~Trick~~ Tipp: Niemals Kernal- und BASIC-Aufrufe in zeitkritischen Aufgaben verwenden, sondern selbst programmieren. Und andersherum, wenn man eben Platz sparen muss und es nicht auf Zeit ankommt, kann man damit wunderbar Speicherplatz gewinnen. Das ist für langjährige Coder natürlich trivial und eher was für Einsteiger, aber die muss man auch berücksichtigen.

Mike · 1. Mai 2018

Zitat von atomcode

Hehe, gut, dass Ihr euch um die Adressierung kabbelt. [...]

Na, ja. Sagt derjenige, der das Problem erstmal überhaupt benannt hat.

Zu deinem Lotto-Beitrag: die Filter-Methode ist durchaus gängig und jedenfalls besser, als z.B. mit MOD die untersten Bits eines PRNG herauszufiltern. Gerade bei linear-kongruenten Generatoren kann man damit prima auf die Schnauze fallen ...!

In deinem Beispiel könntest Du vorher aber 2 Stellen nach rechts shiften (also 0..63 "ziehen"), damit ist der "Ausschuß" nicht mehr so anteilig hoch.

Problem beim SID ist dann noch, daß er zum Nachliefern neuer Zahlen dann doch ein paar mehr Taktzyklen braucht.

Zum Schluß: das Lotto-Programm lohnt nicht wirklich zur Implementierung in Assembler. Probier' mal die Variante in BASIC aus, die tut's genauso:

Code

1 DIMB(49)
2 FORT=1TO6
3 X=INT(RND(1)*49)+1:IFB(X)=1THEN3
4 B(X)=1:NEXT
5 FORT=1TO49:IFB(X)=1THENPRINTT
6 NEXT

daybyter · 2. Mai 2018

Was zum Thema: falls möglich würd ich den 'Nutzcode' in der Schleife nicht per jsr aufrufen, sondern als Makro aufrufen. Das gibt eine besseres Verhältnis von Sprüngen zu Nutzcode.

JeeK · 3. Mai 2018

Zitat von Bit Shifter

Wenn der Zähler selbst nicht benötigt wird, kann man einen "jagged countdown" benutzen, der nicht die Werte von n bis 0 in der korrekten Reihenfolge durchläuft, aber trotzdem n Iterationen (n > 0 und n < 32768) erlaubt:

Code

LDA #<n

STA Countdown_Lo

LDA #>n

STA Countdown_Hi

LOOP JSR Mach_Was

DEC Countdown_Lo

BNE LOOP

DEC Countdown_Hi

BPL LOOP

Auch diese Schleife wird n mal durchlaufen, sie ist aber kürzer und schneller.
Dieser "jagged countdown" lässt sich einsetzen, wenn der Indexwert selbst nicht benutzt wird. Er durchläuft z.B. bei n=515 die Werte:
515, 514, 513, 256, 511, 510, ... 258, 257, 0, 255, 254, ... 2, 1, -256 (deshalb auch die letzte Abfrage BPL und nicht BNE).

Ich bin etwas spät zur Party gekommen ... dazu hätte ich noch etwas. Ich weiß nicht, ob das auch unter den Begriff "jagged countdown" läuft. Ich kannte den Ansatz auch lange Zeit nicht, aber wunderte mich schon, dass dies nicht deutlich mehr Verbreitung gefunden hat. Ok, wenn man den Wert an sich für etwas anderes braucht, aber ich habe genug Code gesehen, wo man das hätte locker einsetzen können und man sich dennoch mit dem Standard-Code LDA/BNE/DEC/DEC/LDA/ORA/BNE abquält.
Ich hab's in einem Betrag bereits erwähnt und beschrieben. Den vollen 16-Bit-Zähler erhält man dadurch, wenn der Zähler so angepasst wird, dass der High-Byte-Rollover beim Übergang von 1 auf 0 (statt 0 auf FF) erfolgt. Mit einer kleinen initialen Korrektur des Zählers sieht das dann so aus:

Code

lda CL
beq +
inc CH
+ ...
loop
...
dec CL
bne loop
dec CH
bne loop

Der Wert 0/0 entspricht dann 65536 Durchläufe.
Das Setup ist hier auch deutlich schlanker, als beim Ansatz mit der Negation und dem Raufzählen auf 0 ...

syshack · 3. Mai 2018

Was hier an emotionaler Disonanz wegen einer einfachen Definitionssache erzeugt wird, ist einfach Kindergarten-Niveau.
Soll der Thread gleich in Laberecke-->Kindergartenecke?

Koennen wir hier also bitte zurueck zum Topic - Assembler Tricks und Optimierungen - kommen.

atomcode · 4. Mai 2018

@Haubitze Das könnte man als Tipp verallgemeinern: Benutze immer Branches, wenn es um Platzersparnis geht, nicht zu weit ist und man genau weiß, welche Flags welchen Status nur haben können. Wenn man bspw. zuletzt eine Addition hatte und genau weiß, dass der Wertebereich nicht überlaufen kann, springt man mit BCC anstatt mit JMP. Sollte man dann unbedingt ordentlich dokumentieren, damit man später nicht irrtümlich meint, der nachfolgende Teil hätte irgendwas mit dem Branch-Befehl bei gesetztem Carry zu tun. Zeitlich hat man zwar nichts gewonnen, bei Pageübertritt sogar verloren, aber wenn das keine Rolle spielt und man das konsequent anwendet, gilt "Kleinvieh macht auch Mist".

Genauso kann man sich auch ein CLC/SEC für Addition, Subtraktion oder evtl. beim Rollen sparen, wenn der Status an der Stelle eh bekannt ist. Das bewirkt dann neben Platz- auch Zeitersparnis.

@JeeK Ich schau mir deinen anderen Beitrag später an. Hab bis jetzt noch nix kapiert.

@daybyter >"falls möglich würd ich den 'Nutzcode' in der Schleife nicht per jsr aufrufen, sondern als Makro aufrufen. Das gibt eine besseres Verhältnis von Sprüngen zu Nutzcode."
Das stimmt, aber bei richtig zeitkritischen Sachen benutze ich Macros allerdings meist auch nicht, sondern blanken 1:1-Code. Ich muss den im Ganzen vor Augen haben, weil sich dann auch die weiteren Tricks leichter anwenden lassen, wie eben die Nutzung der Kenntnis über den Status der Flags oder anderes.

syshack · 4. Mai 2018

Zum Thema Definitionen geht's hier weiter: Definitionen und Standards zu ASM Adressierungen, Syntax und Mnemonics [OT aus 'Assembler Tricks']

atomcode · 24. Mai 2021

Zitat von NoobTracker aus "C64 Studio - Entwicklungsumgebung"

Zitat von atomcode

NoobTracker Man kann doch auch durch zusätzliche (also vermeintlich unnötige) Indizierung einen Taktzyklus verzögern. Oder so, dass man einen NOP einbaut und dafür an anderer Stelle einen Zyklus spart, z.B. mit einem Illegal Opcode an passender Stelle, der dann oft auch direkt wieder das Byte fürs NOP herausholt.

Irgendwie verstehe ich davon nix. Was soll man indizieren?

Bsp. 1: Wenn es bei der Programmierung in der ZP irgendwo im Code eine unmittelbare Adressierung gibt, wie etwa LDX #nn oder AND #nn, dann im Programm nach diesem Operanden schauen und dessen Speicherstelle angeben, sodass es eine ZP-Adressierung wird, die 3 anstatt 2 TZ braucht. Ob der Operand dabei dann aus einem Befehlscode, Operandencode oder Datencode kommt, ist egal; es ist nur wichtig, dass dieser Code nicht verändert wird, weil ja sonst der Inhalt in der ZP-Adresse nicht mehr passt.

Angenommen, man braucht für eine Schleife eine 24 im X-Register, z.B. wegen der 25 Textzeilen (0-24). 24 ($18) ist der Code von CLC. Kommt CLC im Programm vor, so kann man dessen Speicheradresse angeben, um die 24 über eine ZP-Adressierung zu erhalten.

Bsp. 2: Ein STA $nnnn braucht 4 TZ, ein STA $nnnn,x oder STA $nnnn,y braucht 5 TZ. /oder/ Ein STA $nn braucht 3 TZ, ein STA $nn,x braucht 4 TZ. / usw.

Wenn an der Stelle der Wert eines entsprechenden Index-Registers (mit Sicherheit) bekannt ist, kann man das einsetzen. Wenn das Index-Register nicht 0 ist, muss man die Adresse natürlich anpassen.

Bsp. 3: Code umschreiben, z.B. für die Aufgabe: X=X+20, A/Y untouched. Statt ...

Code

sta $02 ; 2B 3TZ
txa ; 1 2
clc ; 1 2
adc #20 ; 2 2
tax ; 1 2
lda $02 ; 2 3
;-------------------
; 9 14

so was ...

Code

pha ; 1B 3TZ
txa ; 1 2
clc ; 1 2
adc #20 ; 2 2
tax ; 1 2
pla ; 1 4
;-------------------
; 7 15

oder auch so was; dann kann man die NOP-Zeit evtl. noch anderweitig nutzen ...

Code

pha ; 1B 3TZ
txa ; 1 2
sbx #256-20; 2 2
pla ; 1 4
nop ; 1 2
nop ; 1 2
;-------------------
; 7 15

Assembler Tricks

Ähnliche Themen

Die Fehler des Basic V2

BASIC und Assembler mischen

ASL und LSR im Akkumulator

Zeichensatz-ROM überlagert Spritedaten

Indirekte Adressierung

Definitionen und Standards zu ASM Adressierungen, Syntax und Mnemonics [OT aus 'Assembler Tricks']

Plot-Routine für Basic V2

Schleife um Speicher auszulesen / Übergabe von Parametern an Assemblerprogramm

Tags