接前一篇文章:Linux内核有什么之内存管理子系统有什么——基础篇之struct vm_area_struct(1)
本文内容参考:
linux进程虚拟地址空间
《趣谈Linux操作系统 核心原理篇:第四部分 内存管理—— 刘超》
4.6 深入理解 Linux 虚拟内存管理
特此致谢!
上一回针对于Linux内核内存管理中的重要数据结构struct vm_area_struct进行了总体介绍。先再来回顾有一下。
struct vm_area_struct的定义在include/linux/mm_types.h中,代码如下:
/** This struct describes a virtual memory area. There is one of these* per VM-area/task. A VM area is any part of the process virtual memory* space that has a special rule for the page-fault handlers (ie a shared* library, the executable area etc).*/
struct vm_area_struct {/* The first cache line has the info for VMA tree walking. */union {struct {/* VMA covers [vm_start; vm_end) addresses within mm */unsigned long vm_start;unsigned long vm_end;};
#ifdef CONFIG_PER_VMA_LOCKstruct rcu_head vm_rcu; /* Used for deferred freeing. */
#endif};struct mm_struct *vm_mm; /* The address space we belong to. */pgprot_t vm_page_prot; /* Access permissions of this VMA. *//** Flags, see mm.h.* To modify use vm_flags_{init|reset|set|clear|mod} functions.*/union {const vm_flags_t vm_flags;vm_flags_t __private __vm_flags;};#ifdef CONFIG_PER_VMA_LOCK/** Can only be written (using WRITE_ONCE()) while holding both:* - mmap_lock (in write mode)* - vm_lock->lock (in write mode)* Can be read reliably while holding one of:* - mmap_lock (in read or write mode)* - vm_lock->lock (in read or write mode)* Can be read unreliably (using READ_ONCE()) for pessimistic bailout* while holding nothing (except RCU to keep the VMA struct allocated).** This sequence counter is explicitly allowed to overflow; sequence* counter reuse can only lead to occasional unnecessary use of the* slowpath.*/int vm_lock_seq;struct vma_lock *vm_lock;/* Flag to indicate areas detached from the mm->mm_mt tree */bool detached;
#endif/** For areas with an address space and backing store,* linkage into the address_space->i_mmap interval tree.**/struct {struct rb_node rb;unsigned long rb_subtree_last;} shared;/** A file's MAP_PRIVATE vma can be in both i_mmap tree and anon_vma* list, after a COW of one of the file pages. A MAP_SHARED vma* can only be in the i_mmap tree. An anonymous MAP_PRIVATE, stack* or brk vma (with NULL file) can only be in an anon_vma list.*/struct list_head anon_vma_chain; /* Serialized by mmap_lock &* page_table_lock */struct anon_vma *anon_vma; /* Serialized by page_table_lock *//* Function pointers to deal with this struct. */const struct vm_operations_struct *vm_ops;/* Information about our backing store: */unsigned long vm_pgoff; /* Offset (within vm_file) in PAGE_SIZEunits */struct file * vm_file; /* File we map to (can be NULL). */void * vm_private_data; /* was vm_pte (shared mem) */#ifdef CONFIG_ANON_VMA_NAME/** For private and shared anonymous mappings, a pointer to a null* terminated string containing the name given to the vma, or NULL if* unnamed. Serialized by mmap_lock. Use anon_vma_name to access.*/struct anon_vma_name *anon_name;
#endif
#ifdef CONFIG_SWAPatomic_long_t swap_readahead_info;
#endif
#ifndef CONFIG_MMUstruct vm_region *vm_region; /* NOMMU mapping region */
#endif
#ifdef CONFIG_NUMAstruct mempolicy *vm_policy; /* NUMA policy for the VMA */
#endif
#ifdef CONFIG_NUMA_BALANCINGstruct vma_numab_state *numab_state; /* NUMA Balancing state */
#endifstruct vm_userfaultfd_ctx vm_userfaultfd_ctx;
} __randomize_layout;
struct vm_area_struct描述了一个虚拟内存区域(virtual memory area)。每个VM区域(VM-area)/任务都有一个(该结构)。VM区域是进程虚拟内存空间的任何部分,该空间具有用于页面错误(page-fault)处理程序的特殊规则(如共享库、可执行区域等)。
Linux进程在虚拟内存中的标准内存段布局如下图所示:
vm_area_struct结构描述了一个虚拟内存区域,每个VM区域/任务都有一个此结构。VM area(虚拟内存区域)是进程虚拟内存空间的任何部分,其具有用于页面错误异常处理(page-fault handlers)的特殊规则(即共享库、可执行区域等)。
由struct vm_area_struct的定义可以看到,这个结构也是一个比较大的结构,里边的成员不少。下边一一对于其中的各个成员进行介绍和讲解。各个成员的具体含义如下:
- unsigned long vm_start
vm_mm内的起始地址。
- unsigned long vm_end
vm_mm结束地址后的第一个字节。
vm_start 指向了这块虚拟内存区域的起始地址(最低地址),vm_start 本身包含在这块虚拟内存区域内。vm_end 指向了这块虚拟内存区域的结束地址(最高地址),而 vm_end 本身包含在这块虚拟内存区域之外,所以 vm_area_struct 结构描述的是[vm_start, vm_end)这样一段左闭右开的虚拟内存区域。
- struct mm_struct *vm_mm
所属的地址空间。由于每个进程的虚拟地址空间都是独立、互不干扰的,因此每个进程都有唯一的 mm_struct结构体,其是专门描述进程虚拟地址空间的内存描述符。在这里代表具体的虚拟内存区域(VMA)就是上边的代码段(Text区域)、数据段(Data区域)、BSS段(BSS区域)、堆、栈等所属的虚拟地址空间(vm_mm)。
- pgprot_t vm_page_prot和unsigned long vm_flags
此VMA(虚拟内存区域)的访问权限。更详细地讲解,vm_page_prot和vm_flags都是用来标记vm_area_struct结构表示的这块虚拟内存区域的访问权限和行为规范的。由于虚拟内存最终要和物理内存一一映射起来,所以在虚拟内存空间中也有虚拟页的概念与之对应,虚拟内存中的虚拟页映射到物理内存中的物理页。无论是在虚拟内存空间中还是在物理内存中,内核管理内存的最小单位都是页。
vm_page_prot偏向于定义底层内存管理架构中页这一级别的访问控制权限,它可以直接应用在底层页表中,它是一个具体的概念。 虚拟内存区域VMA由许多的虚拟页(page)组成,每个虚拟页需要经过页表的转换才能找到对应的物理页面。页表中关于内存页的访问权限就是由 vm_page_prot决定的。
vm_flags则偏向于定于整个虚拟内存区域的访问权限以及行为规范。描述的是虚拟内存区域中的整体信息,而不是虚拟内存区域中具体的某个独立页面。vm_flags是一个抽象的概念。可以通过 vma->vm_page_prot = vm_get_page_prot(vma->vm_flags) 实现到具体页面访问权限 vm_page_prot的转换。
常用的vm_flags值及对应访问权限如下表所示:
vm_flags | 访问权限 |
---|---|
VM_READ | 可读 |
VM_WRITE | 可写 |
VM_EXEC | 可执行 |
VM_SHARD | 可多进程之间共享 |
VM_IO | 可映射至设备 IO 空间 |
VM_RESERVED | 内存区域不可被换出 |
VM_SEQ_READ | 内存区域可能被顺序访问 |
VM_RAND_READ | 内存区域可能被随机访问 |
VM_READ、VM_WRITE、VM_EXEC定义了虚拟内存区域是否可以被读取、写入、执行等权限。比如,代码段这块内存区域的权限是可读和可执行、但不可写;数据段对应的内存区域的权限是可读和可写、但不可执行;堆段对应的内存区域具有可读、可写、可执行的权限;栈对应的内存区域则一般是可读写、但很少有可执行的权限;文件映射与匿名映射区由于存放了共享链接库,因此也有可执行的权限。
VM_SHARD用于指定这块虚拟内存区域映射的物理内存是否可以在多进程之间共享,以便完成进程间通讯。设置这个值即为mmap的共享映射,不设置的话则为私有映射。
VM_IO标志的设置表示这块虚拟内存区域可以映射至设备IO空间中。通常在设备驱动程序执行 mmap进行IO空间映射时VM_IO标志才会被设置。
VM_RESERVED标志的设置表示这块虚拟内存区域非常重要,在内存紧张的时候,不能被换出到磁盘中。
VM_SEQ_READ的设置用来暗示内核,应用程序会对这块虚拟内存区域进行顺序读取,内核会根据实际情况决定预读后续的内存页数,以便加快下次顺序访问速度。
VM_RAND_READ的设置会暗示内核,应用程序会对这块虚拟内存区域进行随机读取,内核则会根据实际情况减少预读的内存页数甚至停止预读。
综上所述,vm_flags 就是定义整个虚拟内存区域的访问权限以及行为规范,而内存区域中内存的最小单位为页(4K),虚拟内存区域中包含了很多这样的虚拟页,对于虚拟内存区域VMA设置的访问权限也会全部复制到区域中包含的内存页中。
对于vm_area_struct结构其余成员的详细解析,请看下回。