俗話說得好,在家千日好,出門一日難。網(wǎng)絡(luò)包一旦出了網(wǎng)關(guān),就像玄奘西行一樣踏上了江湖漂泊的路。今天來給大家普及一下路由協(xié)議。
出了網(wǎng)關(guān)之后,只有一條路可以走。但是,網(wǎng)絡(luò)世界復(fù)雜得多,一旦出了網(wǎng)關(guān),會面臨著很多路由器,有很多條道路可以選。如何選擇一個(gè)更快速的道路求取真經(jīng)呢?這里面還有很多門道可以講。
如何配置路由?
路由器就是一臺網(wǎng)絡(luò)設(shè)備,它有多張網(wǎng)卡。當(dāng)一個(gè)入口的網(wǎng)絡(luò)包送到路由器時(shí),它會根據(jù)一個(gè)本地的轉(zhuǎn)發(fā)信息庫,來決定如何正確地轉(zhuǎn)發(fā)流量。這個(gè)轉(zhuǎn)發(fā)信息庫通常被稱為 路由表。
一張路由表中會有多條路由規(guī)則。每一條規(guī)則至少包含這三項(xiàng)信息。
目的網(wǎng)絡(luò):這個(gè)包想去哪兒?
出口設(shè)備:將包從哪個(gè)口扔出去?
下一跳網(wǎng)關(guān):下一個(gè)路由器的地址。
通過 route命令和 ip route命令都可以進(jìn)行查詢或者配置。
例如,我們設(shè)置 ip route add 10.176.48.0/20 via 10.173.32.1 dev eth0,就說明要去 10.176.48.0/20這個(gè)目標(biāo)網(wǎng)絡(luò),要從 eth0端口出去,經(jīng)過 10.173.32.1。
上一節(jié)的例子中,網(wǎng)關(guān)上的路由策略就是按照這三項(xiàng)配置信息進(jìn)行配置的。這種配置方式的一個(gè)核心思想是:根據(jù)目的 IP地址來配置路由。
如何配置策略路由?
當(dāng)然,在真實(shí)的復(fù)雜的網(wǎng)絡(luò)環(huán)境中,除了可以根據(jù)目的 ip地址配置路由外,還可以根據(jù)多個(gè)參數(shù)來配置路由,這就稱為 策略路由。
可以配置多個(gè)路由表,可以根據(jù)源 IP地址、入口設(shè)備、TOS等選擇路由表,然后在路由表中查找路由。這樣可以使得來自不同來源的包走不同的路由。
例如,我們設(shè)置:
ip rule add from 192.168.1.0/24 table 10 ip rule add from 192.168.2.0/24 table 20
表示從 192.168.1.10/24這個(gè)網(wǎng)段來的,使用 table 10中的路由表,而從 192.168.2.0/24網(wǎng)段來的,使用 table20的路由表。
在一條路由規(guī)則中,也可以走多條路徑。例如,在下面的路由規(guī)則中:
ip route add default scope global nexthop via 100.100.100.1 weight 1 nexthop via 200.200.200.1 weight 2
下一跳有兩個(gè)地方,分別是 100.100.100.1和 200.200.200.1,權(quán)重分別為 1比 2。
在什么情況下會用到如此復(fù)雜的配置呢?我來舉一個(gè)現(xiàn)實(shí)中的例子。
我是房東,家里從運(yùn)營商那兒拉了兩根網(wǎng)線。這兩根網(wǎng)線分別屬于兩個(gè)運(yùn)行商。一個(gè)帶寬大一些,一個(gè)帶寬小一些。這個(gè)時(shí)候,我就不能買普通的家用路由器了,得買個(gè)高級點(diǎn)的,可以接兩個(gè)外網(wǎng)的。
家里的網(wǎng)絡(luò)呢,就是普通的家用網(wǎng)段 192.168.1.x/24。家里有兩個(gè)租戶,分別把線連到路由器上。IP地址為 192.168.1.101/24和 192.168.1.102/24,網(wǎng)關(guān)都是 192.168.1.1/24,網(wǎng)關(guān)在路由器上。
就像上一節(jié)說的一樣,家里的網(wǎng)段是私有網(wǎng)段,出去的包需要 NAT成公網(wǎng)的 IP地址,因而路由器是一個(gè) NAT路由器。
兩個(gè)運(yùn)營商都要為這個(gè)網(wǎng)關(guān)配置一個(gè)公網(wǎng)的 IP地址。如果你去查看你們家路由器里的網(wǎng)段,基本就是我圖中畫的樣子。
運(yùn)行商里面也有一個(gè) IP地址,在運(yùn)營商網(wǎng)絡(luò)里面的網(wǎng)關(guān)。不同的運(yùn)營商方法不一樣,有的是 /32的,也即一個(gè)一對一連接。
例如,運(yùn)營商 1給路由器分配的地址是 183.134.189.34/32,而運(yùn)營商網(wǎng)絡(luò)里面的網(wǎng)關(guān)是 183.134.188.1/32。有的是 /30的,也就是分了一個(gè)特別小的網(wǎng)段。運(yùn)營商 2給路由器分配的地址是 60.190.27.190/30,運(yùn)營商網(wǎng)絡(luò)里面的網(wǎng)關(guān)是 60.190.27.189/30。
根據(jù)這個(gè)網(wǎng)絡(luò)拓?fù)鋱D,可以將路由配置成這樣:
$ ip route list table main 60.190.27.189/30 dev eth3 proto kernel scope link src 60.190.27.190 183.134.188.1 dev eth2 proto kernel scope link src 183.134.189.34 192.168.1.0/24 dev eth1 proto kernel scope link src 192.168.1.1 127.0.0.0/8 dev lo scope link default via 183.134.188.1 dev eth2
當(dāng)路由這樣配置的時(shí)候,就告訴這個(gè)路由器如下的規(guī)則:
如果去運(yùn)營商二,就走 eth3;
如果去運(yùn)營商一呢,就走 eth2;
如果訪問內(nèi)網(wǎng),就走 eth1;
如果所有的規(guī)則都匹配不上,默認(rèn)走運(yùn)營商一,也即走快的網(wǎng)絡(luò)。
但是問題來了,租戶 A不想多付錢,他說我就上上網(wǎng)頁,從不看電影,憑什么收我同樣貴的網(wǎng)費(fèi)?。繘]關(guān)系,咱有技術(shù)可以解決。
下面我添加一個(gè) Table,名字叫 chao。
# echo 200 chao >> /etc/iproute2/rt_tables
添加一條規(guī)則:
# ip rule add from 192.168.1.101 table chao # ip rule ls 0: from all lookup local 32765: from 10.0.0.10 lookup chao 32766: from all lookup main 32767: from all lookup default
設(shè)定規(guī)則為:從 192.168.1.101來的包都查看個(gè) chao這個(gè)新的路由表。
在 chao路由表中添加規(guī)則:
# ip route add default via 60.190.27.189 dev eth3 table chao # ip route flush cache
默認(rèn)的路由走慢的,誰讓你不付錢。
上面說的都是靜態(tài)的路由,一般來說網(wǎng)絡(luò)環(huán)境簡單的時(shí)候,在自己的可控范圍之內(nèi),自己搗鼓還是可以的。但是有時(shí)候網(wǎng)絡(luò)環(huán)境復(fù)雜并且多變,如果總是用靜態(tài)路由,一旦網(wǎng)絡(luò)結(jié)構(gòu)發(fā)生變化,讓網(wǎng)絡(luò)管理員手工修改路由太復(fù)雜了,因而需要?jiǎng)討B(tài)路由算法。
動(dòng)態(tài)路由算法
使用動(dòng)態(tài)路由路由器,可以根據(jù)路由協(xié)議算法生成動(dòng)態(tài)路由表,隨網(wǎng)絡(luò)運(yùn)行狀況的變化而變化。那路由算法是什么樣的呢?
我們可以想象唐僧西天取經(jīng),需要解決兩大問題,一個(gè)是在每個(gè)國家如何找到正確的路,去換通關(guān)文牒、吃飯、休息;一個(gè)是在國家之間,野外行走的時(shí)候,如何找到正確的路、水源的問題。
無論是一個(gè)國家內(nèi)部,還是國家之間,我們都可以將復(fù)雜的路徑,抽象為一種叫作圖的數(shù)據(jù)結(jié)構(gòu)。至于唐僧西行取經(jīng),肯定想走得路越少越好,道路越短越好,因而這就轉(zhuǎn)化成為如何在途中找到最短路徑的問題。
咱們在大學(xué)里面學(xué)習(xí)計(jì)算機(jī)網(wǎng)絡(luò)與數(shù)據(jù)結(jié)構(gòu)的時(shí)候,知道求最短路徑常用的有兩種方法,一種是 Bellman-Ford算法,一種是 Dijkstra算法。在計(jì)算機(jī)網(wǎng)絡(luò)中基本也是用這兩種方法計(jì)算的。
距離矢量路由算法
第一大類的算法稱為距離矢量路由(distance vector routing)。它是基于 Bellman-Ford算法的。
這種算法的基本思路是,每個(gè)路由器都保存一個(gè)路由表,包含多行,每行對應(yīng)網(wǎng)絡(luò)中的一個(gè)路由器,每一行包含兩部分信息,一個(gè)是要到目標(biāo)路由器,從那條線出去,另一個(gè)是到目標(biāo)路由器的距離。
由此可以看出,每個(gè)路由器都是知道全局信息的。那這個(gè)信息如何更新呢?每個(gè)路由器都知道自己和鄰居之間的距離,每過幾秒,每個(gè)路由器都將自己所知的到達(dá)所有的路由器的距離告知鄰居,每個(gè)路由器也能從鄰居那里得到相似的信息。
每個(gè)路由器根據(jù)新收集的信息,計(jì)算和其他路由器的距離,比如自己的一個(gè)鄰居距離目標(biāo)路由器的距離是 M,而自己距離鄰居是 x,則自己距離目標(biāo)路由器是 x+M。
這個(gè)算法比較簡單,但是還是有問題。
第一個(gè)問題就是好消息傳得快,壞消息傳得慢。如果有個(gè)路由器加入了這個(gè)網(wǎng)絡(luò),它的鄰居就能很快發(fā)現(xiàn)它,然后將消息廣播出去。要不了多久,整個(gè)網(wǎng)絡(luò)就都知道了。但是一旦一個(gè)路由器掛了,掛的消息是沒有廣播的。當(dāng)每個(gè)路由器發(fā)現(xiàn)原來的道路到不了這個(gè)路由器的時(shí)候,感覺不到它已經(jīng)掛了,而是試圖通過其他的路徑訪問,直到試過了所有的路徑,才發(fā)現(xiàn)這個(gè)路由器是真的掛了。
我再舉個(gè)例子。
原來的網(wǎng)絡(luò)包括兩個(gè)節(jié)點(diǎn),B和 C。A加入了網(wǎng)絡(luò),它的鄰居 B很快就發(fā)現(xiàn) A啟動(dòng)起來了。于是它將自己和 A的距離設(shè)為 1,同樣 C也發(fā)現(xiàn) A起來了,將自己和 A的距離設(shè)置為 2。但是如果 A掛掉,情況就不妙了。B本來和 A是鄰居,發(fā)現(xiàn)連不上 A了,但是 C還是能夠連上,只不過距離遠(yuǎn)了點(diǎn),是 2,于是將自己的距離設(shè)置為 3。殊不知 C的距離 2其實(shí)是基于原來自己的距離為 1計(jì)算出來的。C發(fā)現(xiàn)自己也連不上 A,并且發(fā)現(xiàn) B設(shè)置為 3,于是自己改成距離 4。依次類推,數(shù)越來越大,直到超過一個(gè)閾值,我們才能判定 A真的掛了。
這個(gè)道理有點(diǎn)像有人走丟了。當(dāng)你突然發(fā)現(xiàn)找不到這個(gè)人了。于是你去學(xué)校問,是不是在他姨家呀?找到他姨家,他姨說,是不是在他舅舅家呀?他舅舅說,是不是在他姥姥家呀?他姥姥說,是不是在學(xué)校呀?總歸要問一圈,或者是超過一定的時(shí)間,大家才會認(rèn)為這個(gè)人的確走丟了。如果這個(gè)人其實(shí)只是去見了一個(gè)誰都不認(rèn)識的網(wǎng)友去了,當(dāng)這個(gè)人回來的時(shí)候,只要他隨便見到其中的一個(gè)親戚,這個(gè)親戚就會拉著他到他的家長那里,說你趕緊回家,你媽都找你一天了。
這種算法的第二個(gè)問題是,每次發(fā)送的時(shí)候,要發(fā)送整個(gè)全局路由表。網(wǎng)絡(luò)大了,誰也受不了,所以最早的路由協(xié)議 RIP就是這個(gè)算法。它適用于小型網(wǎng)絡(luò)(小于 15跳)。當(dāng)網(wǎng)絡(luò)規(guī)模都小的時(shí)候,沒有問題?,F(xiàn)在一個(gè)數(shù)據(jù)中心內(nèi)部路由器數(shù)目就很多,因而不適用了。
所以上面的兩個(gè)問題,限制了距離矢量路由的網(wǎng)絡(luò)規(guī)模。
鏈路狀態(tài)路由算法
第二大類算法是鏈路狀態(tài)路由(link state routing),基于 Dijkstra算法。
這種算法的基本思路是:當(dāng)一個(gè)路由器啟動(dòng)的時(shí)候,首先是發(fā)現(xiàn)鄰居,向鄰居 say hello,鄰居都回復(fù)。然后計(jì)算和鄰居的距離,發(fā)送一個(gè) echo,要求馬上返回,除以二就是距離。然后將自己和鄰居之間的鏈路狀態(tài)包廣播出去,發(fā)送到整個(gè)網(wǎng)絡(luò)的每個(gè)路由器。這樣每個(gè)路由器都能夠收到它和鄰居之間的關(guān)系的信息。因而,每個(gè)路由器都能在自己本地構(gòu)建一個(gè)完整的圖,然后針對這個(gè)圖使用 Dijkstra算法,找到兩點(diǎn)之間的最短路徑。
不像距離距離矢量路由協(xié)議那樣,更新時(shí)發(fā)送整個(gè)路由表。鏈路狀態(tài)路由協(xié)議只廣播更新的或改變的網(wǎng)絡(luò)拓?fù)?,這使得更新信息更小,節(jié)省了帶寬和 CPU利用率。而且一旦一個(gè)路由器掛了,它的鄰居都會廣播這個(gè)消息,可以使得壞消息迅速收斂。
動(dòng)態(tài)路由協(xié)議
基于鏈路狀態(tài)路由算法的 OSPF
OSPF(Open Shortest Path First,開放式最短路徑優(yōu)先)就是這樣一個(gè)基于鏈路狀態(tài)路由協(xié)議,廣泛應(yīng)用在數(shù)據(jù)中心中的協(xié)議。由于主要用在數(shù)據(jù)中心內(nèi)部,用于路由決策,因而稱為內(nèi)部網(wǎng)關(guān)協(xié)議(Interior Gateway Protocol,簡稱 IGP)。
內(nèi)部網(wǎng)關(guān)協(xié)議的重點(diǎn)就是找到最短的路徑。在一個(gè)組織內(nèi)部,路徑最短往往最優(yōu)。當(dāng)然有時(shí)候 OSPF可以發(fā)現(xiàn)多個(gè)最短的路徑,可以在這多個(gè)路徑中進(jìn)行負(fù)載均衡,這常常被稱為等價(jià)路由。
這一點(diǎn)非常重要。有了等價(jià)路由,到一個(gè)地方去可以有相同的兩個(gè)路線,可以分?jǐn)偭髁?,還可以當(dāng)一條路不通的時(shí)候,走另外一條路。這個(gè)在后面我們講數(shù)據(jù)中心的網(wǎng)絡(luò)的時(shí)候,一般應(yīng)用的接入層會有負(fù)載均衡 LVS。它可以和 OSPF一起,實(shí)現(xiàn)高吞吐量的接入層設(shè)計(jì)。
有了內(nèi)網(wǎng)的路由協(xié)議,在一個(gè)國家內(nèi),唐僧可以想怎么走怎么走了,兩條路選一條也行。
基于距離矢量路由算法的 BGP
但是外網(wǎng)的路由協(xié)議,也即國家之間的,又有所不同。我們稱為外網(wǎng)路由協(xié)議(Border Gateway Protocol,簡稱BGP)。
在一個(gè)國家內(nèi)部,有路當(dāng)然選近的走。但是國家之間,不光遠(yuǎn)近的問題,還有政策的問題。例如,唐僧去西天取經(jīng),有的路近。但是路過的國家看不慣僧人,見了僧人就抓。例如滅法國,連光頭都要抓。這樣的情況即便路近,也最好繞遠(yuǎn)點(diǎn)走。
對于網(wǎng)絡(luò)包同樣,每個(gè)數(shù)據(jù)中心都設(shè)置自己的 Policy。例如,哪些外部的 IP可以讓內(nèi)部知曉,哪些內(nèi)部的 IP可以讓外部知曉,哪些可以通過,哪些不能通過。這就好比,雖然從我家里到目的地最近,但是不能誰都能從我家走??!
在網(wǎng)絡(luò)世界,這一個(gè)個(gè)國家成為自治系統(tǒng) AS(Autonomous System)。自治系統(tǒng)分幾種類型。
Stub AS:對外只有一個(gè)連接。這類 AS不會傳輸其他 AS的包。例如,個(gè)人或者小公司的網(wǎng)絡(luò)。
Multihomed AS:可能有多個(gè)連接連到其他的 AS,但是大多拒絕幫其他的 AS傳輸包。例如一些大公司的網(wǎng)絡(luò)。
Transit AS:有多個(gè)連接連到其他的 AS,并且可以幫助其他的 AS傳輸包。例如主干網(wǎng)。
每個(gè)自治系統(tǒng)都有邊界路由器,通過它和外面的世界建立聯(lián)系。
BGP又分為兩類,eBGP和 iBGP。自治系統(tǒng)間,邊界路由器之間使用 eBGP廣播路由。內(nèi)部網(wǎng)絡(luò)也需要訪問其他的自治系統(tǒng)。邊界路由器如何將 BGP學(xué)習(xí)到的路由導(dǎo)入到內(nèi)部網(wǎng)絡(luò)呢?就是通過運(yùn)行 iBGP,使得內(nèi)部的路由器能夠找到到達(dá)外網(wǎng)目的地的最好的邊界路由器。
BGP協(xié)議使用的算法是路徑矢量路由協(xié)議(path-vector protocol)。它是距離矢量路由協(xié)議的升級版。
前面說了距離矢量路由協(xié)議的缺點(diǎn)。其中一個(gè)是收斂慢。在 BGP里面,除了下一跳 hop之外,還包括了自治系統(tǒng) AS的路徑,從而可以避免壞消息傳的慢的問題,也即上面所描述的,B知道 C原來能夠到達(dá) A,是因?yàn)橥ㄟ^自己,一旦自己都到達(dá)不了 A了,就不用假設(shè) C還能到達(dá) A了。
另外,在路徑中將一個(gè)自治系統(tǒng)看成一個(gè)整體,不區(qū)分自治系統(tǒng)內(nèi)部的路由器,這樣自治系統(tǒng)的數(shù)目是非常有限的。就像大家都能記住出去玩,從中國出發(fā)先到韓國然后到日本,只要不計(jì)算細(xì)到具體哪一站,就算是發(fā)送全局信息,也是沒有問題的。
小 結(jié)
好了,這一節(jié)就到這里了,我來做個(gè)總結(jié):
路由分靜態(tài)路由和動(dòng)態(tài)路由,靜態(tài)路由可以配置復(fù)雜的策略路由,控制轉(zhuǎn)發(fā)策略;
動(dòng)態(tài)路由主流算法兩種,距離矢量算法和鏈路狀態(tài)算法?;趦煞N算法產(chǎn)生兩種協(xié)議,BGP協(xié)議和 OSPF協(xié)議。
最后,再給你留兩個(gè)思考題:
路由協(xié)議要在路由器之間交換信息,這些信息的交換還需要走路由嗎?不是死鎖了嗎?
路由器之間信息的交換使用什么協(xié)議呢?報(bào)文格式是什么樣呢?
聯(lián)系客服