您现在的位置： Linux教程網 >> UnixLinux > >> Linux綜合 >> Linux內核

Linux內核分析 - 網絡[八補]：IP協議補充

內核版本：2.6.34

在前一篇”IP協議”中對報文接收時IP層的處理進行了分析，本篇分析將針對報文發送時IP層的處理。

傳輸層處理完後，會調用ip_push_pending_frames()將報文傳遞給IP層：

ip_push_pending_frames() -> ip_local_out() -> __ip_local_out()

在ip_push_pending_frames()中，會設置第一個IP分片的報頭字段，tot_len和 check不會設置。

int ip_local_out(struct sk_buff *skb)
{
 int err;
 err = __ip_local_out(skb);     
 if (likely(err == 1))
  err = dst_output(skb);
 return err;
}

__ip_local_out()：設置IP報頭字節總長度tot_len，校驗和check。

iph->tot_len = htons(skb-

>len);     
ip_send_check(iph);

最後調用dst_output()發送數據給IP層，dst_output()實際調用skb_dst(skb)->output(skb) ，skb_dst(skb)就是skb所對應的路由項。skb_dst(skb)指向的是路由項dst_entry，它的input在收到報文時賦值 ip_local_deliver()，而output在發送報文時賦值ip_output()。

return nf_hook(PF_INET, NF_INET_LOCAL_OUT, skb, NULL, skb_dst(skb)->dev, dst_output);

在IP層的調用過程如下：

ip_output() -> ip_finish_output() - > ip_finish_output2() -> hh->hh_output()

在ip_output()中，設置了dev與協議號，從IP層往下，就是以dev驅動數據傳輸了。

skb->dev = dev;     
skb->protocol = htons(ETH_P_IP);

在ip_finish_output()中，判斷如果報文過大，則先調用ip_fragment()進行分片(後面會對這個函數進行分析)，然後調用ip_finish_output2()發送。

if (skb->len > ip_skb_dst_mtu

(skb) && !skb_is_gso(skb))     
 return ip_fragment(skb, ip_finish_output2);     
else 
 return ip_finish_output2(skb);

情況一：ip_fragment()

ip_fragment()與ip_append_data()是IP層傳送報文很重要的兩個函數，弄清它們之間的關系很重要。

ip_append_data()是上層構造向IP層傳送數據的skb使用的，它會根據MTU值對傳送數據進行分片，後續分片鏈在第一個分片的frag_list上；如果設備支持SG，那麼同一個分片內容(當分片內容是多次輸入得到的 )不一定在一個線性空間上，後續輸入的分片內容存在分片的frags數組中。只有第一個分片才有frag_list，而每個分片都能擁有frags。由ip_append_data()構造好的skb大致如下圖所示：

ip_fragments()字面意思是分片，但實際上分片工作已經由ip_append_data()完成了，它只在上層分片出現問題時重新進行分片。它的主要作用還是完成分片的後續工作。假設一個報文被分成了三份skb1, skb2, skb3，它們將獨立的傳遞到網絡上，但顯然ip_append_data()得到的skb還不是獨立的，skb1包含了整個報文的信息，分片報文也鏈在frag_list上；而skb2, skb3則缺少IP報頭的信息，如分片的偏移，分片的標識，校驗和等。ip_fragments()做的主要工作就是將skb拆分成能獨立發送的報文。由ip_fragments()處理後的skb如圖所示：

兩張圖只列出了IP報頭tot_len字段的不同，其它諸如check, frag_list, frag_off等字段也是不同的。

先是對第一個分片的更新，讓它脫離後續分片，成為獨立包。frag_list置為空，當然frag_list得保存下來(到frag)中，後續分片要從 frag_list中取出。更新skb_datalen和skb->len為第一個分片自身的值，在之前ip_append_data()處理後它是代表全部分片的值。ip報頭的tot_len， frag_off和check分別設置。關於first_len的值，下面這張圖可以清晰的解釋(frags是支持SG的設備可能會出現的，不支持的話，skb->data_len=0)：

frag = 

skb_shinfo(skb)->frag_list;     
skb_frag_list_init(skb);     
skb->data_len = first_len - skb_headlen(skb);     
skb->truesize -= truesizes;     
skb->len = first_len;     
iph->tot_len = htons(first_len);     
iph->frag_off = htons(IP_MF);     
ip_send_check(iph);

下面是循環每個分片的代碼，中間省略了每個分片的處理，這部分單獨拿出來說明，frag是從 skb中取出的skb_shinfo(skb)->frag_list。

for (;;) {     
 if (frag) {     
  …… // 分片處理     
  if (err || !frag)     
   break;     
  skb = frag;     
  frag = skb->next;     
  skb->next = NULL;     
 }     
}

對於後續分片，要生成它的IP報頭，設置好其中字段，這裡根據分片的排列設置了片偏移iph->frag_off，以及偏移標識(前續分片打上IP_MF標簽)。ip_copy_metadata()從前一個分片中拷貝些數據，比如pkt_type, protocol, dev, priority, mark, flags等。ip_options_fragment()處理分片的IP選項部分，因為很多選項只要第一個分片有就可以了，後續分片可以去除。

frag->ip_summed = CHECKSUM_NONE;     
skb_reset_transport_header(frag);     
__skb_push(frag, hlen);     
skb_reset_network_header(frag);     
memcpy(skb_network_header(frag), iph, hlen);     
iph = ip_hdr(frag);     
iph->tot_len = htons(frag->len);     
ip_copy_metadata(frag, skb);     
if (offset == 0)     
 ip_options_fragment(frag);     
offset += skb->len - hlen;     
iph->frag_off = htons(offset>>3);     
if (frag->next != NULL)     
 iph->frag_off |= htons(IP_MF);     
/* Ready, complete checksum */ 
ip_send_check(iph);

對於每一個分片，在處理完後，調用發送函數向下發送，這裡output就是ip_finish_output2() 。

err = output(skb);

情況二：ip_finish_output2()

調用相應發送函數發送給下一層。有關hh和neighbour 參考”ARP模塊”。

if (dst->hh)     
 return neigh_hh_output(dst->hh, skb);     
else if (dst->neighbour)     
 return dst->neighbour->output(skb);

在創建鄰居表項時neighbour->output()被賦值，比如收到arp報文，在arp_process() -> neigh_event_ns()中創建報文相應的鄰居表項，而neigh->ops和neigh->output根據情況賦予不同的值。

if (dev->header_ops->cache)     
 neigh->ops = &arp_hh_ops;     
else 
 neigh->ops = &arp_generic_ops;     
if (neigh->nud_state&NUD_VALID)     
 neigh->output = neigh->ops->connected_output;     
else 
 neigh->output = neigh->ops->output;

鄰居表項創建後，相應的hh緩存項並沒有創建，當向鄰居表項中的主機發送報文時，先調用neigh->output()，假設neigh->ops被賦值arp_generiv_ops，則neigh->output= neigh_resolve_output，而在neigh_resolve_output()函數中，會創建hh緩存項，其中hh->output= dev_queue_xmit()。

所以，無論哪種情況，hh->output還是neigh->output，最終都是調用dev_queue_xmit()向下層傳送報文的。這也是IP層下傳送報文的統一方式-dev_queue_xmit()。雖然調用接口相同，但IP層下的各個協議模塊都是有設備的概念的，因此每個模塊的設備都不相同，在每個模塊中都會更換skb->dev為下層的設備，而dev_queue_xmit()最終使用的是skb->dev特定的函數進行發送的，這樣實現了各模塊的接口一致。

dev_queue_xmit() 發送函數

skb_needs_linearize()判斷是否要對報文進行線性處理，如果需要，它返回1，由__skb_linearize()完成線性處理。線性處理就是將報文的所有內容放到線性地址空間，不能有分片的存在。在發送報文時，ip_append_data()對過長的報文進行了分片frag_list，多次添加時使用了SG特性frags(如果支持)。skb_needs_linearize()就是判斷設備能否處理ip_append_data()所做的分片工作。判斷條件很簡單：skb有分片即 frag_list，但設備不支持分片NETIF_F_FRAGLIST；skb應用了SG但設備不支持NETIF_F_SG或者是有一個分片在highmem中。最後的線性化函數__skb_linearize()也很簡單，它調用__pskb_pull_tail(skb, skb->data_len)，data_len就是非線性空間的長度，__pskb_pull_taill會將這部分數據拷貝到skb->data，從而完成線性化。明顯看到，不支持分片的設備在做線性化處理時會多一次數據拷貝操作。

if (skb_needs_linearize(skb, dev) && __skb_linearize(skb))     
 goto out_kfree_skb;

ip_summed==CHECKSUM_PARTIAL表示協議棧並沒有計算完校驗和，只計算了IP頭，偽頭等，將傳輸層的數據部分留給了硬件進行計算。dev_can_checksum()判斷設備是否能計算校驗和，如果不能的話，則skb_checksum_help ()軟件的計算校驗和。

if (skb->ip_summed == CHECKSUM_PARTIAL) {     
 skb_set_transport_header(skb, skb->csum_start - skb_headroom(skb));     
 if (!dev_can_checksum(dev, skb) && skb_checksum_help(skb))     
  goto out_kfree_skb;     
}

每個設備在創建時都會新建傳送隊列，dev->_tx。以B4401網卡創建為例，alloc_etherdev()創建的隊列_tx數為1 ，即單隊列的，dev_pick_tx()取出這個隊列dev->_tx[0] -> txq中。其它支持多隊列的網卡會根據skb- >sk_tx_queue_mapping來選擇_tx隊列。

txq = dev_pick_tx(dev, skb);     
q = rcu_dereference_bh(txq->qdisc);

支持queue discipline(隊列排序)會由q->enqueue和q->dequeue來管理隊列，發送報文。支持的網卡設備則由其後的代碼來處理報文發送。B4401不支持，其q->enqueue為空。

if 

(q->enqueue) {     
 rc = __dev_xmit_skb(skb, q, dev, txq);     
 goto out;     
}

下面是不支持qdisc的網卡設備發送數據的代碼段：dev->falgs & IFF_UP判斷網卡是否UP狀態， netif_tx_queue_stopped()判斷傳送隊列是否在運行狀態。兩者滿足的話，調用dev_hard_start_xmit()向下傳輸報文。 dev_xmit_complete()檢查傳輸結果。

if (dev->flags & IFF_UP) {     
 ……     
 if (!netif_tx_queue_stopped(txq)) {     
  rc = dev_hard_start_xmit(skb, dev, txq);
  if (dev_xmit_complete(rc)) {
   HARD_TX_UNLOCK(dev, txq);
   goto out;
  }
 }
 ……
}

dev_hard_start_xmit()核心語句如下，ops->nod_start_xmit()調用設備skb->dev特定的發送操作將skb向下傳送，緊接檢查發送值rc，更新發送狀態計數。如果此時dev指向vlan設備，則ops->ndo_start_xmit()指向 vlan_dev_hard_start_xmit()，它生成vlan報文，更換skb->dev，更新計數，再次調用dev_queue_xmit()；如果此時dev指向網卡設備(如b4401)，則ops->ndo_start_xmit()指向b44_start_xmit()，它會將數據發送物理介質。

rc = ops-

>ndo_start_xmit(skb, dev);     
if (rc == NETDEV_TX_OK)     
 txq_trans_update(txq);

簡單總結下，在不支持QDISC的網卡上，從IP層向下的傳輸，循環的調用dev_queue_xmit() 向下層傳輸報文，直到最後真正的網卡設備將數據發送到物理介質上，完成報文的發送。其循環調用的圖示如下：

上一篇文章： Linux內核分析 - 網絡[九]：鄰居表
下一篇文章： Linux內核分析 - 網絡[八]：IP協議

Linux內核

Linux內核--網絡棧實現分析

Linux內核分析 - 網絡[四補]：路由表補充

Linux內核分析 - 網絡[五]：vlan協議-802.1q

Linux內核分析 - 網絡[十四]：IP選項

Linux內核分析 - 網絡[八補]：IP協議補充

Linux內核分析 - 網絡[八]：IP協議

Linux內核分析 - 網絡[五]：vlan協議-802.1q

Linux內核分析 - 網絡[四補]：路由表補充