阿里云專線200G實戰(zhàn)總結(jié)
發(fā)布時間:2022-04-22作者:小編閱讀:0
今年因為項目需要,在阿里云開了300多臺ECS機器做計算,計算生成的數(shù)據(jù)需要下載到本地機房的服務(wù)器硬盤里保存,用到了阿里云高速通道、ECS高性能計算、IDC網(wǎng)絡(luò)架構(gòu)、任務(wù)調(diào)度等技術(shù),項目持續(xù)了兩個月,期間學(xué)習(xí)和解決了一些問題,也踩了一些坑,今天把項目中遇到的問題及解決方案整理出來,供大家參考。
說明:25GB數(shù)據(jù)=200Gbps帶寬 / 8Byte
需求很簡單,使用高頻CPU計算數(shù)據(jù),然后把每秒產(chǎn)生的25GB數(shù)據(jù)下載到本地機房的機械硬盤里存儲。
其中的關(guān)鍵問題有:
1、300臺ECS機器的調(diào)度問題
每秒需要計算的數(shù)據(jù)量巨大,單臺ECS肯定完不成,需要數(shù)百臺機器同時計算,管理這些機器和計算任務(wù)是一個問題。
2、每秒25GB數(shù)據(jù)網(wǎng)絡(luò)傳輸問題
25GB數(shù)據(jù)需要使用200Gbps帶寬,傳輸如果用公網(wǎng)流量費用會高的嚇人,而且會嚴(yán)重影響城市骨干網(wǎng)絡(luò)的穩(wěn)定。只能使用專線,阿里云單條專線最大只有100G,我們用了兩條100G專線。
3、每秒25GB的存儲問題
除了解決計算和傳輸問題,存儲也是個大問題,企業(yè)級機械硬盤的讀寫速度只有120MB/s,單塊硬盤肯定接不住,需要在IDC機房組建服務(wù)器集群下載數(shù)據(jù)。
4、下載任務(wù)的調(diào)度問題
因為在阿里云使用了數(shù)百臺ECS服務(wù)器,每臺機器計算任務(wù)完成時間不同,下載時間也會不同,還要考慮每臺ECS的配置不同,這塊就踩了一個巨大的坑,后面會講細(xì)節(jié)。
具體方案:
首先要在阿里云申請開通高速通道(專線服務(wù)),申請通過后才可以進入阿里云機房施工(拉專線),施工費:15000元/次,100G的專線費用:33900元/月。以上完成后就可以進入阿里云機房和自己的機房施工了。
從阿里云機房拉一條光纖到自己機房的交換機上,交換機選用華為的百G交換機,服務(wù)器網(wǎng)卡通過pci-e接口都換成了萬兆網(wǎng)卡,交換機到服務(wù)器使用萬兆網(wǎng)線。每臺交換機下面掛20臺萬兆服務(wù)器,主要是保證能把100G的專線接滿,還要考慮服務(wù)器死機,掉盤等情況,所以每臺交換機的服務(wù)器至少在10臺以上。
為了能跑滿單條100G的專線,服務(wù)器全部安裝pci-e的萬兆網(wǎng)卡,使用的是14T機械硬盤,磁盤讀寫平均在120MB/s,每臺機器萬兆帶寬,就是1250MB/s的數(shù)據(jù),至少需要安裝11塊硬盤。
任務(wù)調(diào)度和下載服務(wù)需要解決的問題:
1、給每臺ECS分配任務(wù),并監(jiān)控任務(wù)的狀態(tài)
2、將完成的任務(wù)信息上傳到數(shù)據(jù)庫,包括:服務(wù)器ip、任務(wù)名稱、文件名稱、文件路徑3、線下機房每臺服務(wù)器中安裝下載腳本,處理下載任務(wù)4、下載腳本獲取本機磁盤空間,根據(jù)剩余空間排序,遠(yuǎn)程下載文件5、下載完成后上報數(shù)據(jù)庫,修改文件狀態(tài),并通知ECS服務(wù)器刪除此文件我們使用Python+MySql開發(fā)了上述的任務(wù)調(diào)度系統(tǒng),使用Python開發(fā)腳本部署在每臺服務(wù)器處理下載任務(wù),文件下載使用的scp命令。
遇到的最大坑,整個架構(gòu)運行后總是達(dá)不到200Gbps,我們檢查了IDC的兩臺百G交換機,檢查了萬兆網(wǎng)卡,檢查了磁盤讀寫速度、檢查了萬兆網(wǎng)線、檢查了兩條百G專線,整個網(wǎng)絡(luò)鏈路和設(shè)備都可以達(dá)到理想性能,但是整體性能到不了,導(dǎo)致任務(wù)擁堵。經(jīng)過一天排查發(fā)現(xiàn)是阿里云ECS的單機網(wǎng)卡問題導(dǎo)致的,原因是不同配置的ECS,上行和下行帶寬大小是不一樣的,有的機器是10Gbps,有的只有1Gbps,后來我們修改的下載任務(wù)的分配機制,當(dāng)ESC的帶寬是1Gbps時,同時只分配一個下載任務(wù),10Gbps的ECS同時最多分配10個下載任務(wù)。
其它總結(jié):整個項目中最大困難是對整個網(wǎng)絡(luò)鏈路和設(shè)備的部署,為了能承接單條100G的專線,需要交換機、網(wǎng)線、網(wǎng)卡、主板、硬盤等鏈路中的環(huán)節(jié)都能發(fā)揮到極限。
實際上兩臺100G專線+兩臺百G交換機≤200G,理論情況可以達(dá)到200G,實際上最高只能到95%,因為線路和設(shè)備會有損耗,任務(wù)的執(zhí)行環(huán)節(jié)會有空閑,所以設(shè)計系統(tǒng)的負(fù)荷時不能按理論值計算。
億聯(lián)云作為國內(nèi)知名的云服務(wù)綜合解決方案提供商,擁有包括數(shù)據(jù)中心專線、互聯(lián)網(wǎng)專線、MPLS專線、云專線以及SD-WAN在內(nèi)的多種產(chǎn)品,可為您提供專業(yè)、靈活、多樣性的專線及SD-WAN組網(wǎng)解決方案。
免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點不代表本網(wǎng)站立場,請聯(lián)系站長郵箱:shawn.lee@eliancloud.com進行舉報,并提供相關(guān)證據(jù),一經(jīng)查實,將立刻刪除涉嫌侵權(quán)內(nèi)容。
標(biāo)題:阿里云專線200G實戰(zhàn)總結(jié)
地址:http://www.dangdangload.com/article/20220422161947.html