什麼是組譯器
由於機械語言是直接給 CPU 看的語言,是站在 CPU 的角度所設計,並沒有考慮到人類讀寫的容易與否。想要透過二進制編輯器來讀寫機械語也不是不可能,但也是非常痛苦的作業。組合語言就是為了這個問題才被發明出來。組合語言和機械語言幾乎是一對一對應的語言,但是對人類來說,組合語言要容易讀寫多了。
一般非直譯式或透過虛擬機器(譯注:如 Java 的 JVM),直接輸出二進制執行檔的編譯器,通常都是輸出組合語言。有些編譯器看起來是直接輸出機械語言,其實多半也是先輸出組合語言,再在背後執行組譯器。本書所做的C編譯器也是輸出組合語言。
把組合語言轉換成機械語言也可以說是「編譯」的一種,但是為了強調輸入是組合語言,又被稱作「組譯」。
讀者可能以前也在別的地方看過組合語言也說不定。如果還沒見過的話,現在正好是認識一下組合語言的好機會。用objdump指令,隨便找一個執行檔反組譯看看,看一下該執行檔機械語言轉回組合語言的結果吧。以下是ls指令反組譯的結果:
1
$ objdump -d -M intel /bin/ls
2
/bin/ls: file format elf64-x86-64
3
4
Disassembly of section .init:
5
6
0000000000003d58 <[email protected]@Base>:
7
3d58: 48 83 ec 08 sub rsp,0x8
8
3d5c: 48 8b 05 7d b9 21 00 mov rax,QWORD PTR [rip+0x21b97d]
9
3d63: 48 85 c0 test rax,rax
10
3d66: 74 02 je 366a <[email protected]@Base+0x12>
11
3d68: ff d0 call rax
12
3d6a: 48 83 c4 08 add rsp,0x8
13
3d6e: c3 ret
14
...
Copied!
在筆者的環境下,ls指令約含有2萬個以上的機械語言指令,反組譯就會變成大概有2萬行篇幅的怪物,上面只放了開頭的一部份。
組合語言基本上是一行一個機械語言指令。舉例來說我們來看下面這行:
1
3d58: 48 83 ec 08 sub rsp,0x8
Copied!
這行是什麼意思呢?3d58表示的是存放該機械語言的記憶體位址。也就是說,執行ls指令的時候,該行指令會被放到記憶體的 0x3d58 號位置,等程式計數器跑到 0x3d58 時就會執行該行指令。緊接著的四個16進制數字是實際的機械語言的長相。CPU 把這些值讀進去,然後將其作為指令執行。sub rsp,0x8則是對應該機械語言指令的組合語言。關於 CPU 的指令集我們會逐章解釋,上面這個指令是把 RSP 這個暫存器的數值減掉(sub 是 subtract,減去的英文的開頭)8的指令。
Copy link