您现在的位置： Linux教程網 >> UnixLinux > >> Linux編程 >> Linux編程

Linux Kernel系列三：Kernel編譯和鏈接中的linker script語法詳解

先要講講這個問題是怎麼來的。（咱們在分析一個技術的時候，先要考慮它是想解決什麼問題，或者學習新知識的時候，要清楚這個知識的目的是什麼）。

我在編譯內核的時候，發現arch/arm/kernel目錄下有一個這樣的文件：vmlinux.lds.S。第一眼看上去，想想是不是匯編文件呢？打開一看，好像不是。那它是干嘛的？而且前面已經說過，make V=1的時候，發現這個文件的用處在ld命令中，即ld -T vmlinux.lds.S，好像是鏈接命令用的，如下所示

如arm-linux-ld -EL -p --no-undefined -X --build-id -o vmlinux -T arch/arm/kernel/vmlinux.lds。man ld，得到-T的意思是：為ld指定一個Linker script，意思是ld根據這個文件的內容來生成最終的二進制。

也許上面這個問題，你從沒關注過，但是在研究內核代碼的時候，常常有地方說“ __init宏會在最後的模塊中生成一個特定的section，然後kernel加載的時候，尋找這個section中的函數”，說白了，上面這句話就是說最後生成的模塊中，有一個特定的section，這又是什麼東西？

好吧，希望上面的問題勾起你的好奇心。下面我們來掃盲，最後會給一個鏈接地址，各看官可以去那深造。 一 section是什麼？ 好吧，我們需要解釋一下平時編譯鏈接生成的二進制可執行程序（比如說ELF，EXE也行），so或者dll，內核（非壓縮的，參加本系列第一節內容、vmlinux），或者ko是怎麼組織的。其實，大家或多或少都知道這些二進制中包括有什麼text/bss/data節（也叫section）。text節存儲的是代碼、data存儲的是已經初始化的靜態變量、bss節存儲的是未初始化的什麼東西... 上面的東西我就不細究了。反正一點，一個二進制，最終會包含很多section。那麼，為什麼section叫text/bss/data，能叫別的名字嗎？ OK，可以。但是你得告訴ld，那麼這些內容就通過-T選項指定一個linker script就行了。這些內容我們放到後面的實例中來介紹。（再三強調，咱們在理論上只是拋磚引玉，希望有興趣的看官自己研究，注意和我們分享你的成果就行了。） 二 link script基礎知識介紹 linker script中的語法是linker command language（很簡單的language，大家不用害怕...）。那麼LS的目的是什麼呢？

LS描述輸入文件（也就是gcc -c命令產生的.o文件即object文件）中的section最終如何對應到一個輸出文件。這個其實好理解，例如一個elf由三個.o文件構成，每個.o文件都有text/data/bss段，但最終的那一個elf就會將三個輸入的.o文件的段合並到一起。

好了，下面我們介紹一些基本知識：

ld的功能是將input文件組裝成一個output文件。這些文件內部的都有特殊的組織結構，這種結構被叫做object file format。每一個文件叫做object file（這可能就是.o文件的來歷吧。哈哈），輸出文件也叫可執行文件（an executable），但是對於ld來說，它也是一種object文件。那麼Object文件有什麼特殊的地方呢？恩，它內部組織是按照section（段、或者節，以後不再區分二者）來組織的。一句話，object文件內部包含段......
每個段都有名字和size。另外，段內部還包含一些數據，這些數據叫做section contents，以後稱段內容。每個段有不同的屬性。例如text段標志為可加載（loadable），表示該段內的contents在運行時候（當然指輸出文件執行的時候）需要加載到內存中。另外一些段中沒有contents，那麼這些段標示為allocatable，即需要分配一些內存（有時候這些內存會被初始化成0，這裡說的應該是BSS段。BSS段在二進制文件中沒有占據空間，即磁盤上二進制文件的大小比較小，但是加載到內存後，需要為BSS段分配內存空間。），還有一些段屬於debug的，這裡包含一些debug信息。
既然需要加載到內存中，那麼加載到內存的地址是什麼呢？loadable和allocable的段都有兩個地址，VMA:虛擬地址，即程序運行時候的地址，例如把text段的VMA首地址設置為0x800000000，那麼運行時候的首地址就是這個了。另外還有一個LMA，即Load memory address。這個地址是section加載時的地址。暈了吧？二者有啥區別？一般情況下，VMA=LMA。但也有例外。例如設置某數據段的LMA在ROM中（即加載的時候拷貝到ROM中），運行的時候拷貝到RAM中，這樣LMA和VMA就不同了。---------》很難搞懂不是？這種方法用於初始化一些全局變量，基於那種ROM based system。（問一個問題，run的時候，怎麼根據section中的VMA進行相應設置啊？？以後可能需要研究下內核中關於execve實現方面的內容了）。關於VMA和LMA，大家通過objdump -h選項可以查看。

三簡單例子 下面來一個簡單例子，

SECTIONS {
       . = 0x10000;
       .text : { *(.text) }
       . = 0x8000000;
       .data : { *(.data) }
       .bss : { *(.bss) }
}

SECTIONS是LS語法中的關鍵command，它用來描述輸出文件的內存布局。例如上例中就含text/data/bss三個部分（實際上text/data/bss才是段，但是SECTIONS這個詞在LS中是一個command，希望各位看官要明白）。
.=0x10000; 其中的.非常關鍵，它代表location counter（LC）。意思是.text段的開始設置在0x10000處。這個LC應該指的是LMA，但大多數情況下VMA=LMA。
.text:{*(.text)}，這個表示輸出文件的.text段內容由所有輸入文件(*)的.text段組成。組成順序就是ld命令中輸入文件的順序，例如1.obj,2.obj......
此後，由來了一個.=0x800000000;。如果沒有這個賦值的，那麼LC應該等於0x10000+sizeof(text段)，即LC如果不強制指定的話，它默認就是上一次的LC+中間section的長度。還好，這裡強制指定LC=0X800000000.表明後面的.data段的開始位於這個地址。
.data和後面的.bss表示分別有輸入文件的.data和.bss段構成。

你看，我們從這個LC文件中學到了什麼？恩，我們可以任意設置各個段的LMA值。當然，絕大部分情況，我們不需要有自己的LS來控制輸出文件的內存布局。不過LK（linux kernel）可不一樣了...... 四霸王硬上弓---vmlinux.lds.S分析 OK，有了上面的基礎知識，下面我們霸王硬上弓，直接分析arch/arm/kernel/vmlinux.lds.S.雖然最終鏈接用的是vmlinux.lds，但是那個文件由vmlinux.lds.S（這是一個匯編文件）得到， arm-linux-gcc -E -Wp,-MD,arch/arm/kernel/.vmlinux.lds.d -nostdinc ...... -D__KERNEL__ -mlittle-endian ...... -DTEXT_OFFSET=0x00008000 -P -C -Uarm -D__ASSEMBLY__ -o arch/arm/kernel/vmlinux.lds     arch/arm/kernel/vmlinux.lds.S 所以，我們直接分析vmlinux.lds好了。 /*
   一堆注釋，這裡就不再貼上了，另外，增加//號做為注釋標識
* Convert a physical address to a Page Frame Number and back
*/ //OUTPUT_ARCH是LS語法中的COMMAND，用來指定輸出文件的machine arch。objdump -f可查詢所有支持的machine。另外 //這些東西涉及到一種叫BFD的。各位看官可以自己搜索下BFD的內容。 //下面這表示輸出文件基於ARM架構
OUTPUT_ARCH(arm)    //ENTRY也是一個command，用來設置入口點。這裡表示入口點是stext 。根據LD的描述，入口點的意思就是程序運行的第一條指令。內核是一個模塊，大家把他想象 //成一個運行在硬件上的大程序就可以了。而我們的程序又是運行在內核至上的。比較下Java虛擬機以及運行在其上的Java程序吧......
ENTRY(stext) //設置jiffies為jiffies_64
jiffies = jiffies_64; //定義輸出文件的段
SECTIONS
{ //設置location count為0xc0008000，這個好理解吧？內核運行的地址全在C0000000以上
. = 0xC0000000 + 0x00008000; //定義一個.text.head段，由輸入文件中所有.text.head段組成 /* LS語法中，關於seciton的定義如下： section [address] [(type)] :
       [AT(lma)] [ALIGN(section_align)]
       [SUBALIGN(subsection_align)]
       [constraint]
       {
         output-section-command
         output-section-command
         ...
       } [>region] [AT>lma_region] [:phdr :phdr ...] [=fillexp] 其中，address為VMA，而AT命令中的為LMA。一般情況，address不會設置，所以它默認等於當前的location counter */
.text.head : { /*這個非常關鍵，咱們在內核代碼中經常能看到一些變量聲明，例如extern int __stext，但是卻找不到在哪定義的其實這些都是在lds文件中定義的。這裡得說一下編譯鏈接相關的小知識。咱們這知道大概即可，具體內容可以自己深入研究假設C代碼中定義一個變量 int x = 0;那麼 1 編譯器首先會分配一塊內存，用來存儲該變量的值 2 編譯器在程序的symbol表中，創建一項，用來存儲這個變量的地址例如，上面的 int x = 0,就在symbol表中創建一x項，這個x項指向一塊內存，sizeof(int)大小，存儲的值為0。當有地方使用這個x的時候，編譯器會生成相應的代碼，首先指向這個x的內存，然後讀取內存中的值。上面的內容是C中一個變量的定義。但是Linker script中也可以定義變量，這時候只會生成一個symbol項，但是沒有分配內存。。例如_stext=0x100,那麼會創建一個symbol項，指向0x100的內存，但該內存中沒有存儲value。所以，我們在C中使用LS中定義的變量的話，只能取它的地址。下面是一個例子：

start_of_ROM   = .ROM;
end_of_ROM     = .ROM + sizeof (.ROM) - 1;
start_of_FLASH = .FLASH;

上面三個變量是在LS中定義的，分別指向.ROM段的開始和結尾，以及FLASH段的開始。現在在C代碼中想把ROM段的內容拷貝到FLASH段中，下面是C代碼：

extern char start_of_ROM, end_of_ROM, start_of_FLASH;
memcpy (& start_of_FLASH, & start_of_ROM, & end_of_ROM - & start_of_ROM);

注意其中的取地址符號&。C代碼中只能通過這種方式來使用LS中定義的變量. start_of_ROM這個值本身是沒有意義的，只有它的地址才有意義。因為它的值沒有初始化。地址就指向.ROM段的開頭。 說白了，LS中定義的變量其實就是地址，即_stext=0x100就是C代碼中的一個地址 int *_stext=0x100。明白了？ 最終的ld中會分配一個slot，然後存儲x的地址。也就是說，ld知道這些勾當。那麼當然我們在LS中也可以定義一個變量，然後在C中使用了。所以下面這句話實際上定義了一個_stext變量。在C中通過extern就可以引用了。但是這裡有一個比較關鍵的問題。C中定義的x=0，其值被初始化為0了。也就是slot...待補充 */
_stext = .;.
_sinittext = .;
*(.text.head)
} //定義.init段，由所有的.init.text/.cpuinit.text/.meminit.text組成 //這時的LC的值為.init的開始
.init : { /* Init code and data        */
   *(.init.text) *(.cpuinit.text) *(.meminit.text) //定義一個變量 _einitext，它的值為當前的LC，即.init的初值+*(.init.text) *(.cpuinit.text) *(.meminit.text)的大小。也就是說變量 //_einitext標示一個結尾。
_einittext = .; //下面這個變量 __proc_info_begin標示一個開頭
__proc_info_begin = .;
   *(.proc.info.init)  //所有.proc.info.init段內容在這
__proc_info_end = .;//下面這個變量 __proc_info_end標示結尾，它和__proc_info_begin變量牢牢得把輸出文件.proc.info.init的內容卡住了。 //有了上面begin和end的介紹，後面就簡單了，大部分都是一個begin+end來卡住一段內容。根據前面的介紹,begin和end又可以在C程序中引用 //也就是我們通過Begin+end，就可以獲得卡住的內容了。例如我們把一些初始化的函數指針放到一個begin和end中。然後通過一個循環，不就是 //可以調用這些函數了麼。最後我們就來個例子介紹下。
__arch_info_begin = .;
   *(.arch.info.init)
__arch_info_end = .;
__tagtable_begin = .;
   *(.taglist.init)
__tagtable_end = .;
. = ALIGN(16);
__setup_start = .;
   *(.init.setup)
__setup_end = .;
__early_begin = .;
   *(.early_param.init)
__early_end = .;
__initcall_start = .;
   *(.initcallearly.init) __early_initcall_end = .;
    *(.initcall0.init) *(.initcall0s.init) *(.initcall1.init) *(.initcall1s.init) *(.initcall2.init) *(.initcall2s.init) *(.initcall3.init) *(.initcall3s.init) *(.initcall4.init) *(.initcall4s.init) *(.initcall5.init) *(.initcall5s.init) *(.initcallrootfs.init) *(.initcall6.init) *(.initcall6s.init) *(.initcall7.init) *(.initcall7s.init)
__initcall_end = .;
__con_initcall_start = .;
   *(.con_initcall.init)
__con_initcall_end = .;
__security_initcall_start = .;
   *(.security_initcall.init)
__security_initcall_end = .;
. = ALIGN(32);//ALIGN，表示對齊，即這裡的Location Counter的位置必須按32對齊
__initramfs_start = .;   //ramfs的位置
   usr/built-in.o(.init.ramfs)
__initramfs_end = .;
. = ALIGN(4096); //4K對齊
__per_cpu_load = .;
__per_cpu_start = .;
   *(.data.percpu.page_aligned)
   *(.data.percpu)
   *(.data.percpu.shared_aligned)
__per_cpu_end = .;
__init_begin = _stext;
*(.init.data) *(.cpuinit.data) *(.cpuinit.rodata) *(.meminit.data) *(.meminit.rodata)
. = ALIGN(4096);
__init_end = .;
} //DISACARD是一個特殊的section，表示符合這個條件的輸入段都不會寫到輸出段中，也就是輸出文件中不包含下列段
/DISCARD/ : { /* Exit code and data        */
*(.exit.text) *(.cpuexit.text) *(.memexit.text)
*(.exit.data) *(.cpuexit.data) *(.cpuexit.rodata) *(.memexit.data) *(.memexit.rodata)
*(.exitcall.exit)
*(.ARM.exidx.exit.text)
*(.ARM.extab.exit.text)
}
//省略部分內容 //ADDR為內置函數，用來返回VMA的 /* 這裡舉個小例子，大家看看VMA和LMA到底有什麼作用 SECTIONS
       {
       .text 0x1000 : { *(.text) _etext = . ; }  /.text段的VMA為0x1000，而且LMA=VMA
       .mdata 0x2000 : //.mdata段的VMA為0x2000,但是它的LMA卻在.text段的結尾
         AT ( ADDR (.text) + SIZEOF (.text) )
         { _data = . ; *(.data); _edata = . ; }
       .bss 0x3000 :
         { _bstart = . ; *(.bss) *(COMMON) ; _bend = . ;}
     } 看到了麼？.mdata段運行的時候在0x2000，但是數據load地址卻在.text段後，所以運行的時候需要把.mdata段內容拷貝過去。 extern char _etext, _data, _edata, _bstart, _bend;
     char *src = &_etext;  //_etext為.text端的末尾 VMA地址，但同時也是.mdata段LMA的開始，有LS種的AT指定
     char *dst = &_data; //_data為mdata段的VMA，現在需要把LMA地址開始的內容拷貝到VMA開始的地方

     /* ROM has data at end of text; copy it. */
     while (dst < &_edata)
       *dst++ = *src++;   //拷貝....明白了？不明白的好好琢磨

     /* Zero bss. */
     for (dst = &_bstart; dst< &_bend; dst++)
       *dst = 0; //初始化數據區域 */
.rodata : AT(ADDR(.rodata) - 0) {
__start_rodata = .;
*(.rodata) *(.rodata.*) *(__vermagic) *(__markers_strings) *(__tracepoints_strings)
}
.rodata1 : AT(ADDR(.rodata1) - 0) {
*(.rodata1)
}
......//省略部分內容   _edata_loc = __data_loc + SIZEOF(.data);
.bss : {
__bss_start = .; /* BSS                */
*(.bss)
*(COMMON)
_end = .;
}
     /* Stabs debugging sections.    */
.stab 0 : { *(.stab) }
.stabstr 0 : { *(.stabstr) }
.stab.excl 0 : { *(.stab.excl) }
.stab.exclstr 0 : { *(.stab.exclstr) }
.stab.index 0 : { *(.stab.index) }
.stab.indexstr 0 : { *(.stab.indexstr) }
.comment 0 : { *(.comment) }
}
//ASSERT是命令，如果第一個參數為0，則打印第二個參數的信息（也就是錯誤信息），然後ld命令退出。
ASSERT((__proc_info_end - __proc_info_begin), "missing CPU support")
ASSERT((__arch_info_end - __arch_info_begin), "no machine record defined") 五內核代碼中使用LS中定義的變量 咱們看一個小例子 [-->init/main.c] extern initcall_t __initcall_start[], __initcall_end[], __early_initcall_end[]; //這幾個值在LS中定義。大家可以在上面搜索下 static void __init do_initcalls(void)
{
    initcall_t *call;
    //上面已經定義成數組了，所以下面這些變量直接取的就是指針，和上面例子中使用&一個意思，反正不能用value
    for (call = __early_initcall_end; call < __initcall_end; call++)
        do_one_initcall(*call);

    /* Make sure there is no pending stuff from the initcall sequence */
    flush_scheduled_work();
} 六總結 關於LS的詳細文檔，見下面的網址： http://sourceware.org/binutils/docs/ld/index.html 上面文檔寫得比較粗，但大家知道兩點即可：

LK源碼中那些找不到來源的變量是怎麼來的---》在LS定義。
VMA和LMA是怎麼回事。

Linux Kernel系列 相關閱讀：http://www.linuxidc.com/search.aspx?Where=Nkey&Keyword=Linux+Kernel%e7%b3%bb%e5%88%97

上一篇文章： Linux kernel系列四：嵌入式系統中的文件系統以及MTD
下一篇文章： Linux Kernel系列二：用戶空間的初始化

Linux編程

Moblin: kernel編譯和rpm打包1：更換kernel

Ubuntu 10.04下編譯Linux Kernel 3.1.6

編譯Linux內核(kernel)

Kprobe在Linux kernel debug中的應用

Linux kernel系列四：嵌入式系統中的文件系統以及MTD

Linux Kernel系列一：開篇和Kernel啟動概要

Linux Kernel Schduler History And Centos7.2s Kernel Resource Analysis

linux-kernel 學習計劃，linux-kernel計劃

Linux編程

SHELL編程

PERL編程