C編譯器入門~想懂低階系統從自幹編譯器開始~
  • 譯者序
  • 前言
    • 符號與規範
    • 本書的開發環境
    • 關於作者
    • 結束前言之前
  • 機械語言與組譯器
    • CPU 與記憶體
    • 什麼是組譯器
    • C程式和所對應的組合語言
      • 簡單的範例
      • 包含呼叫函式的範例
    • 本章小結
  • 創造計算機等級的語言
    • 第1步:創造能編譯1個整數的語言
    • 第2步:製作可以算加減法的編譯器
    • 第3步:加入標記解析器(tokenizer)
    • 第4步:改良錯誤訊息
    • 文法的記法與遞迴下降分析法
      • 將文法結構表示為樹(tree)
      • 以生成規則定義文法
      • 以 BNF 描述生成規則
      • 簡單的生成規則
      • 以生成規則描述運算子的優先順序
      • 包含遞迴的生成規則
      • 遞迴下降語法分析
    • 堆疊機
      • 堆疊機的概念
      • 編譯成堆疊機指令
      • 以x86-64實作堆疊機的方法
    • 第5步:製作可進行四則運算的編譯器
    • 第6步:單項加與單項減
    • 第7步:比較運算子
      • 修改標記解析器
      • 新的文法
      • 產生組合語言指令
  • 分離編譯與連結
    • 分離編譯
      • 分離編譯與其必要性
      • 標頭檔的必要性與其內容
      • 連結錯誤
      • 全域變數的宣告與定義
    • 第8步:分割檔案與修改 Makefile
      • 分割檔案
      • 修改 Makefile
  • 函式與區域變數
    • 第9步:1個字的區域變數
      • 堆疊上的變數空間
      • 修改標記解析器
      • 修改分析器
      • 左邊值與右邊值
      • 從任意的記憶體位址取得其值
      • 修改指令產生器
      • 修改主函式
    • 第10步:複數文字的區域變數
    • 第11步:return
    • 1973年的C編譯器
Powered by GitBook
On this page

Was this helpful?

  1. 創造計算機等級的語言

第2步:製作可以算加減法的編譯器

在這一步,將擴充前一步製作的編譯器,讓其不是只能接受像42這樣的值,而是可以輸入像 2+11或 5+20-4這種包含加減法計算的算式。

像5+20-4這樣的算式,也可以在編譯時先算好,然後把結果的21塞進組合語言指令內,但那就不是編譯而是像直譯(interpret)了,所以應該要輸出可以在執行時計算加減法的組合語言指令。加法和減法的組合語言指令分別是add和sub。add會讀進兩個暫存器的值,執行加法後把結果寫回第1引數的暫存器內。sub和add基本上一樣,只是執行的是減法。使用這些指令,我們就可以編譯5+20-4為:

tmp.s
.intel_syntax noprefix
.global main


main:
        mov rax, 5
        add rax, 20
        sub rax, 4
        ret

上述的組合語言中,先以mov指令把 RAX 設成5,再把 RAX 加上20,最後從中減去4。在執行ret指令的時候 RAX 的值應該就是5+20-4,也就是21。實際執行來確認看看吧。把上述檔案存成 tmp.s 並組譯、執行看看:

$ gcc -o tmp tmp.s
$ ./tmp
$ echo $?
21

如上所述,正確顯示21。

接下來,該如何做出這樣的組合語言檔案呢?把包含加減法的算試想成是「語言」的話,我們可以這樣定義這個語言:

  • 最初有一個數字

  • 隨後,有0個以上的「項」

  • 項為+後面跟隨著數字、或-後面跟隨著數字

根據這個定義直接用C語言實作如以下的程式:

9cc.c
#include <stdio.h>
#include <stdlib.h>

int main(int argc, char **argv) {
  if (argc != 2) {
    fprintf(stderr, "引數數量錯誤\n");
    return 1;
  }

  char *p = argv[1];

  printf(".intel_syntax noprefix\n");
  printf(".global main\n");
  printf("main:\n");
  printf("  mov rax, %ld\n", strtol(p, &p, 10));

  while (*p) {
    if (*p == '+') {
      p++;
      printf("  add rax, %ld\n", strtol(p, &p, 10));
      continue;
    }

    if (*p == '-') {
      p++;
      printf("  sub rax, %ld\n", strtol(p, &p, 10));
      continue;
    }

    fprintf(stderr, "預料之外的文字: '%c'\n", *p);
    return 1;
  }

  printf("  ret\n");
  return 0;
}

程式變得稍長了些,但前半部份和ret那行都是和之前一樣的。中間追加了把項讀入的程式碼。這是不是只讀進1個數字的程式,所以在讀進數字後,需要知道要讀到哪裡為止。如果用atoi的話,因為atoi不會回傳所讀進的文字數目,所以用atoi會不知道要從哪裡開始讀取項。因此這邊使用C語言標準的strtol函式來實作。

strtol函式在讀進數值之後,會更新第2引數的指標位置,指向讀進的最後一個文字的下一個文字。於是,在讀進1個數值之後,如果下一個文字是+或-,p就應該是指向該文字。上述程式就是利用這個功能,在while迴圈中逐項讀取,每讀到1個項就輸出1行組合語言指令。

接下來趕緊來試試看改造版的編譯器吧。一更新 9cc.c,只要下make指令就可以產生出新的 9cc 執行檔。以下為執行的範例:

$ make
$ ./9cc '5+20-4'
.intel_syntax noprefix
.global main
main:
  mov rax, 5
  add rax, 20
  sub rax, 4
  ret

看來有順利輸出組合語言指令。為了測試新的功能,我們在 test.sh 加上新的1行測試:

test.sh

try 21 "5+20-4"

完成到這裡,把至今為止的變更 commit 到 git 吧。執行以下指令來 commit:

$ git add test.sh 9cc.c
$ git commit

執行git commit會開啟編輯器,請輸入「新增加法和減法」後儲存、關閉編輯器程式。接著請輸入 git log -p指令確認看看 commit 有順利完成。最後,執行git push把 commit 給 push 上 GitHub 後,這一步就完成了!

Previous第1步:創造能編譯1個整數的語言Next第3步:加入標記解析器(tokenizer)

Last updated 5 years ago

Was this helpful?

參考實作:

afc9e8f05faddf05