C編譯器入門~想懂低階系統從自幹編譯器開始~
  • 譯者序
  • 前言
    • 符號與規範
    • 本書的開發環境
    • 關於作者
    • 結束前言之前
  • 機械語言與組譯器
    • CPU 與記憶體
    • 什麼是組譯器
    • C程式和所對應的組合語言
      • 簡單的範例
      • 包含呼叫函式的範例
    • 本章小結
  • 創造計算機等級的語言
    • 第1步:創造能編譯1個整數的語言
    • 第2步:製作可以算加減法的編譯器
    • 第3步:加入標記解析器(tokenizer)
    • 第4步:改良錯誤訊息
    • 文法的記法與遞迴下降分析法
      • 將文法結構表示為樹(tree)
      • 以生成規則定義文法
      • 以 BNF 描述生成規則
      • 簡單的生成規則
      • 以生成規則描述運算子的優先順序
      • 包含遞迴的生成規則
      • 遞迴下降語法分析
    • 堆疊機
      • 堆疊機的概念
      • 編譯成堆疊機指令
      • 以x86-64實作堆疊機的方法
    • 第5步:製作可進行四則運算的編譯器
    • 第6步:單項加與單項減
    • 第7步:比較運算子
      • 修改標記解析器
      • 新的文法
      • 產生組合語言指令
  • 分離編譯與連結
    • 分離編譯
      • 分離編譯與其必要性
      • 標頭檔的必要性與其內容
      • 連結錯誤
      • 全域變數的宣告與定義
    • 第8步:分割檔案與修改 Makefile
      • 分割檔案
      • 修改 Makefile
  • 函式與區域變數
    • 第9步:1個字的區域變數
      • 堆疊上的變數空間
      • 修改標記解析器
      • 修改分析器
      • 左邊值與右邊值
      • 從任意的記憶體位址取得其值
      • 修改指令產生器
      • 修改主函式
    • 第10步:複數文字的區域變數
    • 第11步:return
    • 1973年的C編譯器
Powered by GitBook
On this page

Was this helpful?

  1. 函式與區域變數

第10步:複數文字的區域變數

前面的章節中我們規定變數名為1個字,讓a到z這26個變數固定存在。在這一章,我們要支援比1個字更長的識別符號,讓其可以編譯如下的程式碼:

foo = 1;
bar = 2 + 3;
return foo + bar; // 回傳6

變數現在設計為不需要宣告也可以使用。因此分析器需要一一判斷識別符號在過去使否有被使用過,如果是新出現的話,就要分配堆疊空間給該變數。

首先要修改標記解析器,請讓複數文字組成的識別符號可以作為TK_IDENT型的標記來讀取。

變數我們用連結串列來紀錄。以LVar結構表示1個變數,並以locals這個指標指向開頭。寫成程式碼如下所示:

typedef struct LVar LVar;

// 區域變數型態
struct {
  LVar *next; // 下個變數或NULL
  char *name; // 變數的名稱
  int len;    // 名稱的長度
  int offset; // 從RBP起的offset
} LVar;

// 區域變數
LVar *locals;

分析器在出現TK_IDENT型的標記時,要確認該識別符號目前為止有沒有出現過。一路爬locals這個串列去確認變數名稱,就可以知道該變數是否已經存在。如果變數已經出現過,就直接使用該變數的offset。如果是新的變數,就要做出新的LVar,設定新的offset來使用。

找尋變數名稱的函式如下所示:

// 以名稱搜尋變數。如果找不到就回傳NULL。
LVar *find_lvar(Token *tok) {
  for (LVar *var = locals; var; var = var->next)
    if (var->len == tok->len && !memcmp(tok->str, var->name, var->len))
      return var;
  return NULL;
}

分析器則需要追加以下的程式碼:

Token *tok = consume_ident();
if (tok) {
  Node *node = calloc(1, sizeof(Node));
  node->kind = ND_LVAR;

  LVar *lvar = find_lvar(tok);
  if (lvar) {
    node->offset = lvar->offset;
  } else {
    lvar = calloc(1, sizeof(LVar));
    lvar->next = locals;
    lvar->name = tok->str;
    lvar->len = tok->len;
    lvar->offset = locals->offset + 8;
    node->offset = lvar->offset;
    locals = lvar;
  }
  return node;
}

小知式:機械語言指令的出現頻率

如果看 9cc 輸出的組合語言指令,應該會發現像mov或push這類移動的指令很多,而像add或mul這樣「真的進行計算」的指令較少。雖然 9cc 並沒有做最佳化,所以會輸出很多無意義的資料移動指令也是理由之一,但其實有做最佳化的編譯器輸出最多的也是資料移動的指令。在筆者的環境下,對 /bin 底下的所有可執行檔做反組譯,對指令數量進行加總的結果如下圖所示。

可以發現,光是mov指令就佔了全部的1/3。電腦是處理資料的機械,而資料處理中最頻繁進行的就是資料的移動。想想「把資料放到正確的位置」是資料處理的本質之一,不少讀者也會認為mov指令數多十分合理吧。

Previous修改主函式Next第11步:return

Last updated 5 years ago

Was this helpful?

指令的出現頻率