可靠性的概念大家比較熟悉,先了解一下什么是可用性?
【可用性】
產(chǎn)品在任一時(shí)刻需要和開始執(zhí)行任務(wù)時(shí),處于可工作或可使用狀態(tài)的程度??捎眯缘母怕识攘砍煽捎枚取?/span>
【固有可用度】
僅與工作時(shí)間和修復(fù)性維修時(shí)間有關(guān)的一種可用性參數(shù)。其一種度量方法為:產(chǎn)品的平均故障間隔時(shí)間與平均故障間隔時(shí)間和平均修復(fù)時(shí)間的和之比。
【可達(dá)可用度】
僅與工作時(shí)間、修復(fù)性維修和預(yù)防性維修時(shí)間有關(guān)的一種可用性參數(shù)。其一種度量方法為:產(chǎn)品的工作時(shí)間與工作時(shí)間、修復(fù)性維修時(shí)間、預(yù)防性維修時(shí)間的和之比。
下面談?wù)剶?shù)據(jù)中心關(guān)于可靠性與可用性的理解
(1)絕大部分產(chǎn)品對象對業(yè)務(wù)連續(xù)性提出了非常高的要求;
(2)任何設(shè)備和系統(tǒng)都是要發(fā)生故障的,這是不爭的事實(shí);
(3)連續(xù)性要求意味著,希望把故障影響的時(shí)間縮到最短,也就是說系統(tǒng)要有可修復(fù)能力,修復(fù)時(shí)間越短越好;
(4)于是就出現(xiàn)了衡量修復(fù)能力和修復(fù)時(shí)間的指標(biāo):平均修復(fù)時(shí)間MTTR(Mean Time Repair)
(5) 可靠性指標(biāo)之一是平均無故障時(shí)間MTBF(Mean Time Between Failures)
(6)有了MTBF和MTTR,就可以表達(dá)系統(tǒng)可用性(可用度)A(t)
(7)可用性A(t)的定義:電子系統(tǒng)在使用過程中,可以正常使用的時(shí)間與總時(shí)間之比。
越來越多的廠商和用戶已經(jīng)形成這樣一個(gè)共識(shí): 真正能為用戶帶來價(jià)值的是其可用性,在概念上它包含了系統(tǒng)中設(shè)備的可靠性、可管理性和可維護(hù)性??捎眯愿咭馕吨o用戶更多的正常使用時(shí)間??捎眯猿蔀閿?shù)據(jù)中心規(guī)劃設(shè)計(jì)的第一功能指標(biāo),對可用性的研究促進(jìn)了數(shù)據(jù)中心技術(shù)的全面發(fā)展,成為數(shù)據(jù)中心規(guī)劃設(shè)計(jì)、建造、設(shè)備研發(fā)制造的最重要的思維方法和企業(yè)哲學(xué)。
當(dāng)然,我們還經(jīng)常遇到持久性說法,持久性和可用性的含義,可以用下面這個(gè)圖來理解。
這個(gè)圖只是簡要的說明含義,實(shí)際系統(tǒng)中還有集群、容災(zāi)等等各種環(huán)節(jié),為了不分散焦點(diǎn),無關(guān)本質(zhì)的部分都略去不提。
簡單的說,數(shù)據(jù)可訪問就叫available——可用(這個(gè)翻譯很靠譜)。而數(shù)據(jù)暫時(shí)不可訪問,但是過段時(shí)間費(fèi)些力氣能找回來,這樣的狀態(tài)已經(jīng)不能叫available,但仍然屬于durable——持久(這個(gè)翻譯實(shí)在讓人抓狂,可是既然從早年數(shù)據(jù)庫領(lǐng)域就一直這么翻譯,現(xiàn)在已經(jīng)成了固定用法,手動(dòng)無奈)。只有數(shù)據(jù)徹底丟失,永遠(yuǎn)找不回來的狀態(tài),才超出durable的范圍。
可見,持久性比可用性更基礎(chǔ),前者是后者的必要非充分條件。從數(shù)值描述上,持久性≥可用性。
一般談?wù)摮志眯院涂捎眯裕夹枰螂[或顯的在百分?jǐn)?shù)前面加個(gè)“年度”的限定。比如99%可用性,是指每年宕機(jī)時(shí)間不超過3.65天,即87.6小時(shí)。而99.9%可用性,就意味著每年宕機(jī)時(shí)間不超過8.76小時(shí)。人們常提的5個(gè)9高可用,即99.999%可用性,折算下來每年宕機(jī)時(shí)間才僅有5.256分鐘。
那么一個(gè)霸氣側(cè)漏的每年5個(gè)9高可用系統(tǒng),在100年時(shí)間里可用性是多少呢?理論上似乎是仍然足夠威風(fēng)的99.9%可用性(精確計(jì)算結(jié)果應(yīng)該是略小于99.90005%一丟丟),可是這顯然不太合常理。再強(qiáng)壯的硅基物種,在機(jī)房里負(fù)重蹲上100年,肯定早就徹底散架了。
所以持久性和可用性的另外一個(gè)隱含限定——正常壽命之內(nèi)??上杌锓N正常壽命的界定,也是真假信息混雜。
可靠性與可用性之間的關(guān)系
(1)可靠性表達(dá)式之一:
故障率λ(t): 將單位時(shí)間內(nèi)損壞的元件數(shù)據(jù)與在該時(shí)間斷間內(nèi)工作元件總數(shù)之比作為表示在該時(shí)間段內(nèi)元件可靠性程度的數(shù)據(jù)。也可以說成是在單位時(shí)間內(nèi)的故障數(shù)相對于依然正常工作的元件數(shù)的比值,在值稱為“故障強(qiáng)度”或失效率。
(2)可靠性表達(dá)式之二:
可靠度R(t):設(shè)備或系統(tǒng)在一段時(shí)間內(nèi)不發(fā)生故障的概率
(當(dāng)λ(t)是一個(gè)常數(shù)時(shí))
(3)可靠性表達(dá)式三:
平均無故障間隔時(shí)間MTBF:
(假定t<>
(4)可用性表達(dá)式:
可靠性與可用性之間的關(guān)系
(5)從“不停電”觀念的變化看可靠性與可用性的區(qū)別:
(6)R(t)、A(t)、MTBF、MTTR都是概率指標(biāo)
MTBF與產(chǎn)品生命周期無關(guān)
舉例:
以50萬個(gè)25歲的人作為抽樣;
在一年的時(shí)間內(nèi),收集這些人口的“故障”(死亡)數(shù)據(jù);
這些人口的生活時(shí)間是500000×1年=50萬人年;
在這一年當(dāng)中,有625個(gè)人“出現(xiàn)故障”(去世);
故障率為625個(gè)故障/50萬人年=0.125%/年;
MTBF是故障率的倒數(shù),即1/0.00125=800年;
設(shè)備的MTBF是以產(chǎn)品穩(wěn)定運(yùn)行階段(舉例中的25歲)的失效率計(jì)算的,所以與產(chǎn)品生命周期無關(guān)。
如果產(chǎn)品MTBF=10萬小時(shí);
失效率λ=0.00001;
還可以計(jì)算出月失效率、日失效率、小時(shí)失效率;
如果在產(chǎn)品生命周期內(nèi),λ為常數(shù);
則在任意一個(gè)時(shí)間段內(nèi),產(chǎn)品都有失效(故障)的可能性;
產(chǎn)品安裝后,隨時(shí)都可能發(fā)生故障嗎,但不等于沒達(dá)到MTBF=10萬小時(shí)指標(biāo)。
可靠性與可用性的幾個(gè)概念
(1)可靠性和可用性定義的范圍屬性:
① 元件可靠性;
② 部件可靠性;
③ 設(shè)備可靠性;
④ 系統(tǒng)可靠性(UPS系統(tǒng)、1+1 UPS系統(tǒng)、2N UPS系統(tǒng)、整個(gè)供電系統(tǒng));
⑤ 在冗余容錯(cuò)系統(tǒng)中,設(shè)備故障不等于系統(tǒng)故障,設(shè)備故障率,不等于系統(tǒng)可靠性。
(2)可靠性和可用性定義的時(shí)間屬性;
① 月可靠性;
② 年可靠性;
③ 整個(gè)生命周期內(nèi)的可靠性
(3)產(chǎn)品功能、應(yīng)用范圍的界定
被比較的產(chǎn)品必須在功能、性能及應(yīng)用方面相同或相似。如果是UPS、功能是為所連接的IT負(fù)載提供備用電源。如果沒有相似的應(yīng)用,就不可能進(jìn)行公正的MTBF比較,例如對工業(yè)用途和IT用途的UPS進(jìn)行比較是不切合實(shí)際的。
MTBF比較中所用系統(tǒng)的邊界必須等同。以使用外部電池的UPS系統(tǒng)為例,某些供應(yīng)商可能選擇不包括由這些電池導(dǎo)致的故障,其他供應(yīng)商可能選擇包括電池故障。可能導(dǎo)致不一致邊界的組件還包括輸入和輸斷路器。旁路系統(tǒng)。保險(xiǎn)絲和控制系統(tǒng)。
(4)故障定義:
① 是否將用戶操作失誤(人為因素)導(dǎo)致的故障計(jì)在內(nèi)?
② 是否將由供應(yīng)商維修人員導(dǎo)致的負(fù)載停用也統(tǒng)計(jì)在內(nèi)?產(chǎn)品設(shè)計(jì)本身是否有提高風(fēng)險(xiǎn)程序出現(xiàn)故障的可能性?
③ 如果設(shè)備上的LED(發(fā)光二極管)出現(xiàn)故障,是否屬于故障(雖然它沒有影響設(shè)備的運(yùn)行)?
④ 如果耗材(例如電池)的使用期比預(yù)期的時(shí)間要短,是否屬于故障?
⑤ 運(yùn)輸造成的損壞是否屬于故障,這可能表明包裝的設(shè)計(jì)不當(dāng)?
⑥ 安裝過程導(dǎo)致的故障是否統(tǒng)計(jì)在內(nèi),此故障可能是供應(yīng)商技術(shù)人員引起的?
⑦ 如果用戶沒有購買推薦的維護(hù)合同或監(jiān)視系統(tǒng),是否將故障統(tǒng)計(jì)在內(nèi)?
⑧ 系統(tǒng)運(yùn)營達(dá)不到標(biāo)準(zhǔn)水平;
⑨ 用戶對設(shè)備的性能不可接受;
⑩ 發(fā)電機(jī)啟動(dòng)時(shí)有啟動(dòng)成功率問題;
? 交流輸入完全斷開時(shí),電池供電有成功率問題。
根據(jù)網(wǎng)絡(luò)資料重新編輯整理,部分內(nèi)容來源《數(shù)據(jù)中心基礎(chǔ)設(shè)施規(guī)劃設(shè)計(jì)中的若干問題》,僅供學(xué)習(xí)交流,侵刪。
聯(lián)系客服