第10步:複數文字的區域變數
前面的章節中我們規定變數名為1個字,讓a
到z
這26個變數固定存在。在這一章,我們要支援比1個字更長的識別符號,讓其可以編譯如下的程式碼:
變數現在設計為不需要宣告也可以使用。因此分析器需要一一判斷識別符號在過去使否有被使用過,如果是新出現的話,就要分配堆疊空間給該變數。
首先要修改標記解析器,請讓複數文字組成的識別符號可以作為TK_IDENT
型的標記來讀取。
變數我們用連結串列來紀錄。以LVar
結構表示1個變數,並以locals
這個指標指向開頭。寫成程式碼如下所示:
分析器在出現TK_IDENT
型的標記時,要確認該識別符號目前為止有沒有出現過。一路爬locals
這個串列去確認變數名稱,就可以知道該變數是否已經存在。如果變數已經出現過,就直接使用該變數的offset
。如果是新的變數,就要做出新的LVar
,設定新的offset
來使用。
找尋變數名稱的函式如下所示:
分析器則需要追加以下的程式碼:
小知式:機械語言指令的出現頻率
如果看 9cc 輸出的組合語言指令,應該會發現像mov
或push
這類移動的指令很多,而像add
或mul
這樣「真的進行計算」的指令較少。雖然 9cc 並沒有做最佳化,所以會輸出很多無意義的資料移動指令也是理由之一,但其實有做最佳化的編譯器輸出最多的也是資料移動的指令。在筆者的環境下,對 /bin 底下的所有可執行檔做反組譯,對指令數量進行加總的結果如下圖所示。
可以發現,光是mov
指令就佔了全部的1/3。電腦是處理資料的機械,而資料處理中最頻繁進行的就是資料的移動。想想「把資料放到正確的位置」是資料處理的本質之一,不少讀者也會認為mov
指令數多十分合理吧。
Last updated
Was this helpful?