您现在的位置： Linux教程網 >> UnixLinux > >> Linux基礎 >> Linux服務器

linux內存管理之非連續物理地址分配(vmalloc)

前面我們已經分析了linux如何利用伙伴系統,slab分配器分配內存,用這些方法得到的內存在物理地址上都是連續的,然而,有些時候,每次請求內存時,系統都分配物理地址連續的內存塊是不合適的,可以利用小塊內存“連接”成大塊可使用的內存.這在操作系統設計中也被稱為 “內存拼接”,顯然,內存拼接在需要較大內存,而內存訪問相比之下不是很頻繁的情況下是比較有效的.

　　在linux內核中用來管理內存拼接的接口是vmalloc/vfree.用vmalloc分配得到的內存在線性地址是平滑的,但是物理地址上是非連續的.

　　一:准備知識:

　　Linux用vm_struct結構來表示vmalloc使用的線性地址.vmalloc所使用的線性地址區間為: VMALLOC_START VMALLOC_END.借用<<Understanding.the.Linux.Kernel.3rd>>中的一副插圖,如下示:

　　從上圖中我們可以看到每一個vmalloc_area用4KB隔開,這樣做是為了很容易就能捕捉到越界訪問,因為中間是一個 “空洞”.

　　二:相關的數據結構

　　下面來分析一下vmalloc area的數據結構:

　　struct vm_struct {

　　void *addr; //虛擬地址

　　unsigned long size; //vm的大小

　　unsigned long flags; //vm的標志

　　struct page **pages; //vm所映射的page

　　unsigned int nr_pages; //page個數

　　unsigned long phys_addr; //對應的起始物理地址

　　struct vm_struct *next; //下一個vm.用來形成鏈表

　　}

　　全局變量vmlist用來管理vm構成的鏈表

　　全局變量vmlist用於訪問vmlist所使用的信號量

　　對於vm_struct有兩個常用的操作: get_vm_area/remove_vm_area

　　get_vm_area:用來分配一個合適大小的vm結構,分配成功之後,將其鏈入到vmlist中,代碼在 mm/vmalloc.c中.如下示:

　　//size為vm的大小

　　struct vm_struct *get_vm_area(unsigned long size, unsigned long flags)

　　{

　　//在VMALLOC_START與VMALLOC_END找到一段合適的空間

　　return __get_vm_area(size, flags, VMALLOC_START, VMALLOC_END);

　　}

　　//參數說明:

　　//start:起始地址 end:結束地址 size 空間大小

　　struct vm_struct *__get_vm_area(unsigned long size, unsigned long flags,

　　unsigned long start, unsigned long end)

　　{

　　struct vm_struct **p, *tmp, *area;

　　unsigned long align = 1;

　　unsigned long addr;

　　//如果指定了VM_IOREMAP.則調整對齊因子

　　if (flags & VM_IOREMAP) {

　　int bit = fls(size);

　　if (bit > IOREMAP_MAX_ORDER)

　　bit = IOREMAP_MAX_ORDER;

　　else if (bit < PAGE_SHIFT)

　　bit = PAGE_SHIFT;

　　align = 1ul << bit;

　　}

　　//將起始地址按照對齊因子對齊

　　addr = ALIGN(start, align);

　　//分配一個vm_struct結構空間

　　area = kmalloc(sizeof(*area), GFP_KERNEL);

　　if (unlikely(!area))

　　return NULL;

　　//PAGE_SIZE:在i32中為4KB,即上面所說的間隔空洞

　　size += PAGE_SIZE;

　　if (unlikely(!size)) {

　　kfree (area);

　　return NULL;

　　}

　　write_lock(&vmlist_lock);

　　//遍歷vmlist:找到合適大小的末使用空間

　　for (p = &vmlist; (tmp = *p) != NULL ;p = &tmp-&

gt;next) {

　　//若起始地址落在某一個vm區間,則調整起始地址為vm區間的末尾

　　if ((unsigned long)tmp->addr < addr) {

　　if((unsigned long)tmp->addr + tmp->size >= addr)

　　addr = ALIGN(tmp->size +

　　(unsigned long)tmp->addr, align);

　　continue;

　　}

　　//size+addr < addr ?除非size == 0

　　if ((size + addr) < addr)

　　goto out;

　　//中間的空隙可以容納下size大小的vm.說明已經找到了這樣的一個vm

　　if (size + addr <= (unsigned long)tmp->addr)

　　goto found;

　　//調整起始地址為vm的結束地址

　　addr = ALIGN(tmp->size + (unsigned long)tmp->addr, align);

　　//如果超出了范圍

　　if (addr > end - size)

　　goto out;

　　}

　　found:

　　//找到了合適大小的空間,將area->addr賦值為addr,然後鏈入vmlist中

　　area->next = *p;

　　*p = area;

　　area->flags = flags;

　　area->addr = (void *)addr;

　　area->size = size;

　　area->pages = NULL;

　　area->nr_pages = 0;

　　area->phys_addr = 0;

　　write_unlock(&vmlist_lock);

　　return area;

　　out:

　　//沒有找到合適大小的空間,出錯返回

　　write_unlock(&vmlist_lock);

　　kfree(area);

　　if (printk_ratelimit())

　　printk(KERN_WARNING "allocation failed: out of vmalloc space - use vmalloc=<size> to increase size.\n");

　　return NULL;

　　}

　　這段代碼不是很復雜,在此不詳細分析了.

　　remove_vm_area用來將相應的vm從vmlist中斷開,使其表示的空間可以被利用

　　//addr:對應vm的超始地址

　　struct vm_struct *remove_vm_area(void *addr)

　　{

　　struct vm_struct **p, *tmp;

　　write_lock(&vmlist_lock);

　　//遍歷vmlist.找到超始地址為addr的vm

　　for (p = &vmlist ; (tmp = *p) != NULL ;p = &tmp->next) {

　　if (tmp->addr == addr)

　　goto found;

　　}

　　write_unlock(&vmlist_lock);

　　return NULL;

　　found:

　　//斷開tmp所對應的映射關系

　　unmap_vm_area(tmp);

　　//找到了這個vm,將其從vmlist上斷開

　　*p = tmp->next;

　　write_unlock(&vmlist_lock);

　　return tmp;

　　}

　　unmap_vm_area用來斷開vm所在線性地址所對應的映射關系.它的代碼如下:

　　void unmap_vm_area(struct vm_struct *area)

　　{

　　//vm所對應的起始線性地址

　　unsigned long address = (unsigned long) area->addr;

　　//vm所對應的結束線性地址

　　unsigned long end = (address + area->size);

　　pgd_t *dir;

　　//起始地址所在的內核頁目錄項

　　dir = pgd_offset_k(address);

　　flush_cache_vunmap(address, end);

　　do {

　　//斷開地址所對應的pmd映射

　　unmap_area_pmd(dir, address, end - address);

　　//運行到這裡的時候,已經斷開了一個頁目錄所表示的線性地址,而每個頁目錄表示的線性地址//大小為PGDIR_SIZE

　　address = (address + PGDIR_SIZE) & PGDIR_MASK;

　　dir++;

　　} while (address && (address < end));

　　//當到達末尾時結束循環

　　flush_tlb_kernel_range((unsigned long) area->addr, end);

　　}

　　//斷開線性地址區間所在的pmd的映射

atic void unmap_area_pmd(pgd_t *dir, unsigned long address,

　　unsigned long size)

　　{

　　unsigned long end;

　　pmd_t *pmd;

　　if (pgd_none(*dir))

　　return;

　　if (pgd_bad(*dir)) {

　　pgd_ERROR(*dir);

　　pgd_clear(dir);

　　return;

　　}

　　pmd = pmd_offset(dir, address);

　　address &= ~PGDIR_MASK;

　　end = address + size;

　　if (end > PGDIR_SIZE)

　　end = PGDIR_SIZE;

　　do {

　　//斷開線性地址所在的pte的映射關系

　　unmap_area_pte(pmd, address, end - address);

　　address = (address + PMD_SIZE) & PMD_MASK;

　　pmd++;

　　} while (address < end);

　　}

　　static void unmap_area_pte(pmd_t *pmd, unsigned long address,

　　unsigned long size)

　　{

　　unsigned long end;

　　pte_t *pte;

　　if (pmd_none(*pmd))

　　return;

　　if (pmd_bad(*pmd)) {

　　pmd_ERROR(*pmd);

　　pmd_clear(pmd);

　　return;

　　}

　　pte = pte_offset_kernel(pmd, address);

　　address &= ~PMD_MASK;

　　end = address + size;

　　if (end > PMD_SIZE)

　　end = PMD_SIZE;

　　do {

　　pte_t page;

　　//清除pte的對應映射關系

　　page = ptep_get_and_clear(pte);

　　address += PAGE_SIZE;

　　pte++;

　　if (pte_none(page))

　　continue;

　　if (pte_present(page))

　　continue;

　　printk(KERN_CRIT "Whee.. Swapped out page in kernel page table\n");

　　} while (address < end);

　　}

　　經過這幾個過程之後,實際上,它只是找到線性地址所對應的pte,然後斷開pte的映射.值得注意的是:為了效率起見,這裡只是斷開了pte的映射,即只是將pte置為none,表示pte末映射內存.並末斷開pmd和pgd的映射
三:vmalloc的實現:

　　void *vmalloc(unsigned long size)

　　{

　　return __vmalloc(size, GFP_KERNEL | __GFP_HIGHMEM, PAGE_KERNEL);

　　}

　　實際上調用__vmalloc:

　　void *__vmalloc(unsigned long size, int gfp_mask, pgprot_t prot)

　　{

　　struct vm_struct *area;

　　struct page **pages;

　　unsigned int nr_pages, array_size, i;

　　//使請求的大小與頁框對齊

　　size = PAGE_ALIGN(size);

　　//有效性檢查

　　if (!size || (size >> PAGE_SHIFT) > num_physpages)

　　return NULL;

　　//取得一個有效的VM,這個函數我們在前面已經詳細的分析過了

　　area = get_vm_area(size, VM_ALLOC);

　　if (!area)

　　return NULL;

　　//所要映射的頁面總數

　　nr_pages = size >> PAGE_SHIFT;

　　//頁面描述符所占的空間

　　array_size = (nr_pages * sizeof(struct page *));

　　area->nr_pages = nr_pages;

　　area->pages = pages = kmalloc(array_size, (gfp_mask & ~__GFP_HIGHMEM));

　　//如果空間分配失敗

　　if (!area->pages) {

　　remove_vm_area(area->addr);

　　kfree(area);

　　return NULL;

　　}

　　memset(area->pages, 0, array_size);

　　//為每一個頁面分配空間

　　for (i = 0; i < area->nr_pages; i++) {

　　area->pages[i] = al

loc_page(gfp_mask);

　　if (unlikely(!area->pages[i])) {

　　/* Successfully allocated i pages, free them in __vunmap() */

　　area->nr_pages = i;

　　goto fail;

　　}

　　//為所分配的頁面建立映射關系

　　if (map_vm_area(area, prot, &pages))

　　goto fail;

　　return area->addr;

　　fail:

　　vfree(area->addr);

　　return NULL;

　　}

　　map_vm_area為所分配的內存建立映射關系,它的程序流程與unmap_vm_area差不多,都是從pgd找到pte,如果同樣的映射關系不存在,則新建之.(如:pgd對應的pmd不存在,則新建pmd項,使pgd指向建好的pmd.同理,如果pmd所映射的pte項不存在,則新建pte,然後建立映射),然後將pte映射到相應的頁表.代碼如下:

　　int map_vm_area(struct vm_struct *area, pgprot_t prot, struct page ***pages)

　　{

　　unsigned long address = (unsigned long) area->addr;

　　unsigned long end = address + (area->size-PAGE_SIZE);

　　pgd_t *dir;

　　int err = 0;

　　//vm 起始地址所在的頁目錄

　　dir = pgd_offset_k(address);

　　spin_lock(&init_mm.page_table_lock);

　　do {

　　pmd_t *pmd = pmd_alloc(&init_mm, dir, address);

　　if (!pmd) {

　　err = -ENOMEM;

　　break;

　　}

　　//輪到pmd了 ^_^

　　if (map_area_pmd(pmd, address, end - address, prot, pages)) {

　　err = -ENOMEM;

　　break;

　　}

　　address = (address + PGDIR_SIZE) & PGDIR_MASK;

　　dir++;

　　} while (address && (address < end));

　　spin_unlock(&init_mm.page_table_lock);

　　flush_cache_vmap((unsigned long) area->addr, end);

　　return err;

　　}

　　static int map_area_pmd(pmd_t *pmd, unsigned long address,

　　unsigned long size, pgprot_t prot,

　　struct page ***pages)

　　{

　　unsigned long base, end;

　　base = address & PGDIR_MASK;

　　address &= ~PGDIR_MASK;

　　end = address + size;

　　if (end > PGDIR_SIZE)

　　end = PGDIR_SIZE;

　　do {

　　pte_t * pte = pte_alloc_kernel(&init_mm, pmd, base + address);

　　if (!pte)

　　return -ENOMEM;

　　//輪到pte了 ^_^

　　if (map_area_pte(pte, address, end - address, prot, pages))

　　return -ENOMEM;

　　address = (address + PMD_SIZE) & PMD_MASK;

　　pmd++;

　　} while (address < end);

　　return 0;

　　}

　　//為頁表頁建立映射關系

　　static int map_area_pte(pte_t *pte, unsigned long address,

　　unsigned long size, pgprot_t prot,

　　struct page ***pages)

　　{

　　unsigned long end;

　　address &= ~PMD_MASK;

　　end = address + size;

　　if (end > PMD_SIZE)

　　end = PMD_SIZE;

　　do {

　　struct page *page = **pages;

　　WARN_ON(!pte_none(*pte));

　　if (!page)

　　return -ENOMEM;

　　//具體的映射在這裡了 ^_^

　　set_pte(pte, mk_pte(page, prot));

　　address += PAGE_SIZE;

　　pte++;

　　(*pages)++;

　　} while (add

ress < end);

　　return 0;

　　}

　　只要理解了斷開映射的過程,這段代碼是很好理解的.

　　總而言之:linux在建立映射的時候,從pgd 到pte相應的建立映射關系,最後將pte映射到分配得到的物理內存．而在斷開映射的時候，linux內核從pgd找到pte,然後將pte置為none,表示pte末建立映射關系.

　　四:vfree的實現:

　　代碼如下:

　　void vfree(void *addr)

　　{

　　BUG_ON(in_interrupt());

　　__vunmap(addr, 1);

　　}

　　跟蹤至__vunmap:

　　void __vunmap(void *addr, int deallocate_pages)

　　{

　　struct vm_struct *area;

　　//參數有效性檢查

　　if (!addr)

　　return;

　　//判斷addr是否是按頁框對齊的

　　if ((PAGE_SIZE-1) & (unsigned long)addr) {

　　printk(KERN_ERR "Trying to vfree() bad address (%p)\n", addr);

　　WARN_ON(1);

　　return;

　　}

　　//remove_vm_area:這個函數我們在之前已經分析過了 ^_^

　　area = remove_vm_area(addr);

　　if (unlikely(!area)) {

　　//沒有找到起始地址為addr的vm.則無效,退出

　　printk(KERN_ERR "Trying to vfree() nonexistent vm area (%p)\n",

　　addr);

　　WARN_ON(1);

　　return;

　　}

　　if (deallocate_pages) {

　　int i;

　　for (i = 0; i < area->nr_pages; i++) {

　　if (unlikely(!area->pages[i]))

　　BUG();

　　//釋放請求獲得的頁面

　　__free_page(area->pages[i]);

　　}

　　//釋放分配的page 描述符

　　kfree(area->pages);

　　}

　　//釋放內核的vm 描述符

　　kfree(area);

　　return;

　　}

　　五:總結

　　經過上面的分析，我們可以看到，vmalloc分配內存的過程是十分低效的，不僅要從伙伴系統中取內存而且要建立映射關系，顯然，用vmalloc分配較小的內存是不合算的。此外。有個問題值得思考一下：為什麼用__get_free_page不需要建立映射關系，而vmalloc就需要呢？

　　其實，不管使用何種方式。線性地址到物理地址的轉換最終都要經過硬件的頁式管理去完成。所不同的是__get_free_page返回的線性地址是屬於（PAGE_OFFSET,HIGH_MEMORY）之間的，這段線性地址在內核初始化的時候就完成了映射。而vmalloc使用的線性地址是屬於（VMALLOC_START VMALLOC_END）之間的，也就是說屬於一個臨時映射區，所以必須為其建立映射關系

上一篇文章：菜鳥課堂:Linux系統根目錄下各目錄作用
下一篇文章：編輯數值金額成中文金額

Linux服務器

Linux內存管理-淺談物理內存與虛擬內存

Linux高端內存管理之非連續內存區（分配和釋放）

Linux高端內存管理之非連續內存區（描述）

Linux內存管理之伙伴系統（內存分配）

Linux物理內存管理區初始化

Linux下分配G級物理內存的方法-alloc_bootmem()

Linux內存管理和分析vmalloc使用的地址范圍