對(duì)于 DNS(Domain Name System) 大家肯定不陌生,不就是用來將一個(gè)網(wǎng)站的域名轉(zhuǎn)換為對(duì)應(yīng)的IP嗎。當(dāng)我們發(fā)現(xiàn)可以上QQ但不能瀏覽網(wǎng)頁時(shí),我們會(huì)想到可能是域名服務(wù)器掛掉了;當(dāng)我們用別人提供的hosts文件瀏覽到一個(gè)“不存在”的網(wǎng)頁時(shí),我們會(huì)了解到域名解析系統(tǒng)的脆弱。
然而關(guān)于DNS還有一大堆故事值得我們?nèi)A聽,去思考。
DNS 源起
要想訪問網(wǎng)絡(luò)上的一臺(tái)計(jì)算機(jī),我們必須要知道它的IP地址,但是這些地址(比如243.185.187.39)只是一串?dāng)?shù)字,沒有規(guī)律,因此我們很難記住。并且如果一臺(tái)計(jì)算機(jī)變更IP后,它必須通知所有的人。
顯然,直接使用IP地址是一個(gè)愚蠢的方案。于是人們想出了一個(gè)替代的方法,即為每一臺(tái)計(jì)算機(jī)起一個(gè)名字,然后建立計(jì)算機(jī)名字到地址的一個(gè)映射關(guān)系。我們?cè)L問計(jì)算機(jī)的名字,剩下的名字到地址的轉(zhuǎn)換過程則由計(jì)算機(jī)自動(dòng)完成。
hosts映射
早期,名字到地址的轉(zhuǎn)換過程十分簡單。每臺(tái)計(jì)算機(jī)保存一個(gè)hosts文件,里面列出所有計(jì)算機(jī)名字和對(duì)應(yīng)的IP地址,然后定期從一個(gè)維護(hù)此文件的站點(diǎn)更新里面的記錄。當(dāng)我們?cè)L問某個(gè)計(jì)算機(jī)名字時(shí),先在hosts文件找到對(duì)應(yīng)的IP,然后就可以建立連接。
早期的ARPANET就是這樣做的,但是隨著網(wǎng)絡(luò)規(guī)模的擴(kuò)大,這種方法漸漸吃不消了。主要有以下三個(gè)原因:
hosts文件變得非常大;
主機(jī)名字會(huì)沖突;
集中的維護(hù)站點(diǎn)會(huì)不堪重負(fù)(需要給幾百萬機(jī)器提供hosts文件,想想就可怕)。
域名系統(tǒng)
為了解決上面的問題,1983年P(guān)aul Mockapetris提出了域名系統(tǒng)(DNS, Domain Name System),這是一種層次的、基于域的命名方案,并且用一個(gè)分布式數(shù)據(jù)庫系統(tǒng)加以實(shí)現(xiàn)。當(dāng)我們需要訪問一個(gè)域名(其實(shí)就是前面說的計(jì)算機(jī)的名字)時(shí),應(yīng)用程序會(huì)向DNS服務(wù)器發(fā)起一個(gè)DNS請(qǐng)求,DNS服務(wù)器返回該域名對(duì)應(yīng)的IP地址。通過下面三種手段解決了上面的問題:
用戶計(jì)算機(jī)上并沒有存儲(chǔ)所有的名字到IP的映射,這樣避免了hosts文件過于龐大(現(xiàn)在各操作系統(tǒng)中hosts文件默認(rèn)都是空的)。
規(guī)定了域名的命名規(guī)則,保證主機(jī)名字不會(huì)重復(fù)。
DNS服務(wù)器不再是單一的一臺(tái)機(jī)器,而是一個(gè)層次的、合理組織的服務(wù)器集群。
這樣訪問一個(gè)域名的過程可以簡化為下圖:
DNS 協(xié)議
那么如何具體實(shí)現(xiàn)這個(gè)所謂的域名系統(tǒng)呢,要知道管理一個(gè)超大型并且不斷變化的域名到IP的映射集合可不是一個(gè)簡單的事,況且還要去應(yīng)付成千上萬的DNS查詢請(qǐng)求。人們最終想出了一套不錯(cuò)的協(xié)議,規(guī)定如何來實(shí)現(xiàn)這個(gè)系統(tǒng),下面我們一起來看看吧。
域名空間
首先我們需要制定一套命名規(guī)則,防止域名出現(xiàn)重復(fù)。DNS關(guān)于域名的規(guī)則和我們生活中的快遞系統(tǒng)類似,使用層次的地址結(jié)構(gòu)??爝f系統(tǒng)中要給某人郵寄物品,地址可能是這樣:中國、廣東省、廣州市、番禺區(qū)、中山西路12號(hào) XXX。而一個(gè)域名看起來則是這樣的groups.google.com(為什么不是com.google.groups?我猜可能和老外寫地址的習(xí)慣有關(guān))。
對(duì)于Internet來說,域名層次結(jié)構(gòu)的頂級(jí)(相當(dāng)于國際快遞地址中的國家部分)由ICANN(互聯(lián)網(wǎng)名稱與數(shù)字地址分配機(jī)構(gòu))負(fù)責(zé)管理。目前,已經(jīng)有超過250個(gè)頂級(jí)域名,每個(gè)頂級(jí)域名可以進(jìn)一步劃為一些子域(二級(jí)域名),這些子域可被再次劃分(三級(jí)域名),依此類推。所有這些域名可以組織成一棵樹,如下圖所示(圖片來自Computer Networks: 7-1 ):
域名資源記錄
DNS設(shè)計(jì)之初是用來建立域名到IP地址的映射,理論上對(duì)于每一個(gè)域名我們只需要在域名服務(wù)器上保存一條記錄即可。這里的記錄一般叫作域名資源記錄,它是一個(gè)五元組,可以用以下格式表示:
Domain_name Time_to_live Class Type Value
其中:
Domain_name: 指出這條記錄適用于哪個(gè)域名;
Time_to_live: 用來表明記錄的生存周期,也就是說最多可以緩存該記錄多長時(shí)間(后面會(huì)講到緩存機(jī)制);
Class: 一般總是IN;
Type: 記錄的類型;
Value: 記錄的值,如果是A記錄,則value是一個(gè)IPv4地址。
我們看到域名資源記錄有一個(gè)Type字段,用來表明記錄的類型。這是為什么呢?因?yàn)閷?duì)于一個(gè)域名來說,通常并非只記錄其IP地址,還可能需要一些其他種類的記錄,一些常見的記錄類型如下:
記錄類型含義
A主機(jī)的IPv4地址
AAAA主機(jī)的IPv6地址
NS該域名所在域的權(quán)威域名服務(wù)器
MX接受特定域名電子郵件的服務(wù)器域名
CNAME當(dāng)前域名的一個(gè)別名
關(guān)于這些域名資源記錄的實(shí)例我們將在下一篇文章(實(shí)踐篇)看到。
域名服務(wù)器
我們知道不能只用一臺(tái)域名服務(wù)器來響應(yīng)所有的DNS查詢,因?yàn)闆]有一臺(tái)機(jī)器能夠給全球的用戶提供查詢服務(wù),計(jì)算能力、存儲(chǔ)、帶寬都不允許。只能合理組織一個(gè)域名服務(wù)器集群,使他們協(xié)同工作,共同提供域名解析服務(wù)。接下來首先要面對(duì)的一個(gè)問題是如何合理地將所有的域名資源記錄存儲(chǔ)到不同的域名服務(wù)器上。
前面說過域名的名字空間可以組織為一棵樹,這里我們可以進(jìn)一步將其劃分為不重疊的區(qū)域(DNS zone),針對(duì)上圖的域名空間,一種可能的域名劃分如下圖:
然后將每個(gè)區(qū)域與多個(gè)域名服務(wù)器(其中一個(gè)是master,其他slave服務(wù)器則用來提供數(shù)據(jù)備份、加快解析速度、保證服務(wù)可用性)關(guān)聯(lián)起來,稱這些域名服務(wù)器為該區(qū)域的權(quán)威域名服務(wù)器(Authoritative Name Servers ),它保存兩類域名資源記錄:
該區(qū)域內(nèi)所有域名的域名資源記錄。
父區(qū)域和子區(qū)域的域名服務(wù)器對(duì)應(yīng)的域名資源記錄(主要是NS記錄)。
這樣,所有的域名資源記錄都保存在多個(gè)域名服務(wù)器中,并且所有的域名服務(wù)器也組成了一個(gè)層次的索引結(jié)構(gòu),便于我們后面進(jìn)行域名解析。下面以一個(gè)簡化的域名空間為例子,說明域名資源記錄是如何保存在域名服務(wù)器中的,如下圖a:
圖中域名空間劃分為A, B, C, D, E, F, G七個(gè)DNS區(qū)域,每個(gè)DNS區(qū)域都有多個(gè)權(quán)威域名服務(wù)器,這些域名服務(wù)器里面保存了許多域名解析記錄。對(duì)于上圖的NDS區(qū)域E來說,它的權(quán)威域名服務(wù)器里面保存的記錄如圖中表格所示。
仔細(xì)觀察上圖你可能會(huì)發(fā)現(xiàn)區(qū)域A、B并沒有父區(qū)域,他們之間并沒有一條路徑連在一起。這將導(dǎo)致一個(gè)很麻煩的問題,那就是區(qū)域A的權(quán)威域名服務(wù)器可能根本不知道區(qū)域B的存在。認(rèn)識(shí)到這一點(diǎn)后,你可能會(huì)想出一個(gè)很自然的解決方案,就是在A中記錄B域名服務(wù)器的地址,同時(shí)在B中記錄A的,這樣它們兩個(gè)就聯(lián)系起來了。但是考慮到我們有超過250個(gè)頂級(jí)域名,這樣做并不是很恰當(dāng)。
而我們使用的域名系統(tǒng)則采用了一種更加聰明的方法,那就是引入根域名服務(wù)器,它保存了所有頂級(jí)區(qū)域的權(quán)威域名服務(wù)器記錄?,F(xiàn)在通過根域名服務(wù)器,我們可以找到所有的頂級(jí)區(qū)域的權(quán)威域名服務(wù)器,然后就可以往下一級(jí)一級(jí)找下去了。下圖為全球根域名服務(wù)器的分布圖,可以在這里找到。
現(xiàn)在為止,我們的權(quán)威域名服務(wù)器和根域名服務(wù)器其實(shí)組成了一個(gè)樹,樹根為根域名服務(wù)器,下面每個(gè)節(jié)點(diǎn)都是一個(gè)區(qū)域的權(quán)威域名服務(wù)器,對(duì)于圖a中各個(gè)DNS區(qū)域的權(quán)威域名服務(wù)器,它們組成了下面這棵樹(實(shí)際中,一個(gè)權(quán)威域名服務(wù)器可能保存有多個(gè)DNS區(qū)域的記錄,因此權(quán)威域名服務(wù)器之間的聯(lián)系并不構(gòu)成一棵樹。這部分的詳細(xì)內(nèi)容可以參考RFC 1034: 4. NAME SERVERS。下面為了容易理解,將其簡化為一棵樹):
域名解析
我們已經(jīng)有了一個(gè)域名服務(wù)器集群,該集群合理地保存了域名空間和域名資源記錄的對(duì)應(yīng)關(guān)系?,F(xiàn)在我們要做的就是發(fā)送一個(gè)DNS請(qǐng)求給域名服務(wù)器,然后坐等它返回正確的域名資源記錄,這個(gè)過程叫作域名解析。
嚴(yán)格來說,域名解析的過程最早要追溯到建立網(wǎng)絡(luò)連接。因?yàn)槊慨?dāng)連接上網(wǎng)絡(luò)之后,計(jì)算機(jī)會(huì)自動(dòng)獲得一個(gè)默認(rèn)的DNS服務(wù)器,當(dāng)然你也可以用自己信任的DNS服務(wù)器,比如8.8.8.8(DNS服務(wù)器也有信任不信任之分,是的,實(shí)踐篇會(huì)講到),我們把這個(gè)域名服務(wù)器也叫作本地域名服務(wù)器。接下來當(dāng)我們需要知道一個(gè)域名對(duì)應(yīng)的資源記錄時(shí),會(huì)向本地域名服務(wù)器發(fā)起請(qǐng)求,如果該域名恰好在本地域名服務(wù)器所轄屬的域名區(qū)域(DNS zone)內(nèi),那么可以直接返回記錄。
如果在本地域名服務(wù)器沒有發(fā)現(xiàn)該域名的資源記錄,就需要在整個(gè)域名空間搜索該域名。而整個(gè)域名空間的資源記錄存儲(chǔ)在一個(gè)分層的、樹狀聯(lián)系的一系列域名服務(wù)器上,所以本地域名服務(wù)器首先要從根域名服務(wù)器開始往下搜索。這里有一個(gè)問題就是本地域名服務(wù)器如何找到根域名服務(wù)器在哪里呢?其實(shí)域名服務(wù)器啟動(dòng)的時(shí)候,就會(huì)加載一個(gè)配置文件,里面保存了根域名服務(wù)器的NS記錄(要知道根域名服務(wù)器地址一般非常穩(wěn)定,不會(huì)輕易改變,并且數(shù)量很少,所以這個(gè)配置文件會(huì)很小)。找到根域名服務(wù)器之后,就可以一級(jí)一級(jí)地往下查找啦。
仍然以我們的圖a為例,現(xiàn)在假設(shè)區(qū)域E內(nèi)的某個(gè)用戶想訪問math.sysu.edu.cn,那么請(qǐng)求的過程如下:
用語言簡單描述如下:
用戶:喂,本地域名服務(wù)器,告訴我math.sysu.edu.cn的地址;
本地域名服務(wù)器:哎呀,我不知道啊,不在我的轄區(qū),容我去問問老大哥吧。root老大,能告訴我math.sysu.edu.cn的地址嗎;
根域名服務(wù)器:忙著呢,你去問B(.cn);
本地域名服務(wù)器:喂,B,告訴我math.sysu.edu.cn的地址;
B:你去問D(.edu.cn);
本地域名服務(wù)器:喂,D,告訴我math.sysu.edu.cn的地址;
D:你去問F(sysu.edu.cn);
本地域名服務(wù)器:喂,F(xiàn),告訴我math.sysu.edu.cn的地址;
F:容老衲看看,哎呀,找到了,是X.X.X.X;
本地域名服務(wù)器:踏破鐵鞋終于找到啦,喂用戶,出來啊,我找到了,是X.X.X.X
仔細(xì)想想,這和我們郵寄快遞實(shí)在是如出一轍啊,假設(shè)你從美國郵東西到廣州市番禺區(qū),首先快遞送到中國(不過這里沒有一個(gè)類似根域名服務(wù)器的中轉(zhuǎn)站而已),然后往下到廣東省,接下來是廣州市,再往下是番禺了。
上面的是本地域名服務(wù)器的迭代解析過程,其實(shí)也可以遞歸查詢,這里就不說了,道理差不多。
緩存機(jī)制
現(xiàn)在整個(gè)域名系統(tǒng)已經(jīng)可以為我們提供域名解析服務(wù)了,當(dāng)我們輸入域名,計(jì)算機(jī)發(fā)送DNS請(qǐng)求,然后DNS服務(wù)器返回給我們解析的結(jié)果,一切看起來很完美。然而是不是可以更完美呢?
回顧一下平時(shí)瀏覽網(wǎng)站的情況,我們會(huì)發(fā)現(xiàn)兩個(gè)比較有意思的結(jié)論:
80%的時(shí)間我們都在看那些20%的網(wǎng)站,這就是大名鼎鼎的80/20 Rule;
我們會(huì)在一個(gè)網(wǎng)站的不同網(wǎng)頁之間跳轉(zhuǎn),也就是不斷地訪問同一個(gè)域名,類似程序訪問的局部性原理。
這兩條結(jié)論很容易讓我們聯(lián)想到緩存機(jī)制。如果我們將已經(jīng)訪問過的那些域名的解析結(jié)果緩存在自己的計(jì)算機(jī)上,那么下次訪問的時(shí)候可以直接讀取結(jié)果,不用再次重復(fù)DNS查詢過程,給自己和域名服務(wù)器都節(jié)省了麻煩。
當(dāng)然,這樣做的一個(gè)前提是要緩存的解析結(jié)果不會(huì)頻繁更改,也就是說我十分鐘后解析一個(gè)域名的結(jié)果和現(xiàn)在解析的結(jié)果是一樣的。對(duì)大多數(shù)域名來說,這都是一個(gè)不爭的事實(shí)。但是難免有一些“善變”的域名,他們可能會(huì)頻繁更改自己的解析結(jié)果。為了使緩存機(jī)制適應(yīng)這兩類情況,我們?cè)谟蛎Y源記錄里面添加一個(gè)Time_to_live字段,表明這條記錄最多可以緩存多久。對(duì)于那些“穩(wěn)如泰山”的域名,給一個(gè)比較大的值,而那些“朝三暮四”的域名,則可以給定一個(gè)小的值。
我們既然可以在本機(jī)利用緩存,那么可不可以在域名服務(wù)器上也利用緩存機(jī)制呢,答案當(dāng)然是可以的。因?yàn)閷?duì)于域名服務(wù)器來說,上面的兩條有意思的結(jié)論仍然有效。所以,域名服務(wù)器可以將那些訪問過的域名資源記錄緩存,用戶再次發(fā)起請(qǐng)求時(shí),可以直接返回緩存結(jié)果,不用去迭代或者遞歸解析。
關(guān)于DNS理論部分,更多內(nèi)容還可以參考這兩個(gè)文本:
RFC 1034: Domain Names – Concepts and Facilities
并沒有結(jié)束
上面一大堆理論,看上去有點(diǎn)不明所以是吧,沒事,接下來會(huì)結(jié)合實(shí)踐來更加清晰地認(rèn)識(shí)DNS這一最基礎(chǔ)的系統(tǒng)。
其實(shí)不止是DNS,還有HTTPS、TCP、UDP這些很基礎(chǔ)的協(xié)議,都值得我們靜下心去好好認(rèn)識(shí)它們。因?yàn)?,寫DNS之前,我以為我已經(jīng)完全搞明白了它,但是寫的過程發(fā)現(xiàn)好多地方自己根本就不知道,之前完全是停留在一個(gè)很浮夸的層面上。所以,是時(shí)候找時(shí)間好好把這些協(xié)議過一遍,用自己的語言,從解決問題的角度,記錄下這些經(jīng)典協(xié)議的故事了。
【今日微信公號(hào)推薦↓】