云端遷移過程中的技術(shù)問題和解決思路
發(fā)布時間:2021-07-12作者:小編閱讀:0
某省級綜合三甲醫(yī)院,開放床位 3092 張,開設(shè)住院病區(qū) 78 個,設(shè)有 38 個臨床科室, 15 個醫(yī)技科室。2019 年,醫(yī)院完成年門急診量 250.7 余萬人次,出院 11.9 余萬人次,完成手術(shù) 3.5 萬臺,平均住院日 8.8 天,屬于中等規(guī)模的大型三甲醫(yī)院。醫(yī)院建設(shè)有 2 個機(jī)房,分別位于兩棟不同的大樓中通過光纖相連接,院內(nèi)共有 45 個各類信息系統(tǒng),共有實(shí)體服務(wù)器及虛擬化服務(wù)器 200 余臺。2019 年,根據(jù)省衛(wèi)建委要求,所有醫(yī)療機(jī)構(gòu)不建議新建機(jī)房,所有服務(wù)都應(yīng)遷移至云端,至此醫(yī)院決定將院內(nèi)所有系統(tǒng)遷移至云端。
經(jīng)過調(diào)研分析后,選擇國內(nèi)大型 ISP 商,距醫(yī)院 15 公里外的核心機(jī)房中構(gòu)建一個私有云,共需約 8 架 4KW 機(jī)柜,含 9 臺計算節(jié)點(diǎn)服務(wù)器和 10 臺存儲節(jié)點(diǎn)服務(wù)器、 4 臺管理監(jiān)控服務(wù)器、 4 臺數(shù)據(jù)庫物理服務(wù)器、 1 臺災(zāi)備前置機(jī)服務(wù)器、 2 臺集中式雙活存儲、 2 臺光纖交換機(jī),配套網(wǎng)絡(luò)設(shè)備 2 臺四槽位核心交換機(jī),萬兆交換機(jī) 4 臺、千兆交換機(jī) 3 臺,并附有等保涉及的安全設(shè)備一并規(guī)劃,安全設(shè)備將按照等保三標(biāo)準(zhǔn)統(tǒng)一建設(shè)。項目在建設(shè)過程中面臨的技術(shù)問題和解決方案如下。
一、 網(wǎng)絡(luò)問題
1) 端口管控:醫(yī)院計劃與云機(jī)房用 40G 帶寬 4 路光纖專線連接。出于安全考慮,與云端的所有連接都要經(jīng)過端口管控。醫(yī)院經(jīng)過十幾年信息化的發(fā)展,也有著自己原本的網(wǎng)絡(luò)構(gòu)架,因為做了內(nèi)外網(wǎng)隔離,所有院內(nèi)系統(tǒng)都是在內(nèi)網(wǎng)中傳輸,只需要設(shè)定好 IP 地址就不需要考慮端口的問題。經(jīng)過云端的端口管控,所有的信息系統(tǒng)都要對端口進(jìn)行整體測試。私有云的底層架構(gòu)中網(wǎng)卡的所有配置需要在底層運(yùn)維人員的修改處理,所有網(wǎng)卡地址的修改都伴隨著端口的統(tǒng)一管理,遷移后要與開發(fā)廠商共同協(xié)調(diào)各類端口。對于這個復(fù)雜的工作,整個遷移項目中采用初期調(diào)研,詳細(xì)記錄好所有系統(tǒng)及設(shè)備的端口使用情況,在云端先建立測試機(jī),與廠商協(xié)同測試好相應(yīng)網(wǎng)卡及端口配置,在系統(tǒng)測試成功后再進(jìn)行遷移。
問題總結(jié):該問題說明在一個單位將整個系統(tǒng)遷移到云端時一個微小的網(wǎng)絡(luò)變動可能會帶來巨大的工作量,由于端口管控符合三級等保要求,且醫(yī)院未來的安全管理有賴于端口管控的實(shí)施,只能由前期充分的調(diào)研工作來減輕后期遷移的工作壓力。
2)防火墻設(shè)置:信息系統(tǒng)上云后,所有數(shù)據(jù)將通過醫(yī)院內(nèi)的防火墻和云端的防火墻,防火墻的型號、支持的功能都有不同。醫(yī)院內(nèi)部因為歷史原因,造成的復(fù)雜的網(wǎng)絡(luò)構(gòu)架,醫(yī)院內(nèi)網(wǎng) 190.1.240.0/20 網(wǎng)段的地址分布在 vlan1 與 vlan80 內(nèi),由于內(nèi)網(wǎng)啟用了 mux-vlan ,功能院內(nèi)內(nèi)網(wǎng) vlan1 與 vlan80 的 190.1.240.0/20 網(wǎng)段內(nèi)可以二層互通。隨著業(yè)務(wù)逐步遷移至云端( vlan80 的部分業(yè)務(wù)),造成院內(nèi) vlan1 中的 IP 地址無法與云端 vlan80 的地址進(jìn)行二層通信,給正常業(yè)務(wù)造成影響。解決方案是醫(yī)院內(nèi) vlan1 發(fā)起的流量訪問至云端 vlan80 主機(jī)時,在云端核心交換機(jī)與防火墻對接鏈路的入接口上,配置基于源、目標(biāo) mac 地址的 vlan 映射。根據(jù)訪問源、目 mac 地址,將 vlan1 內(nèi)源主機(jī)的 mac 與訪問到目的業(yè)務(wù)的虛機(jī)的 mac 進(jìn)行匹配,并將該流量進(jìn)行 vlan tag 映射,將 vlan1 轉(zhuǎn)換 vlan80 ,達(dá)到 vlan1 與 vlan80 互通需求。
問題總結(jié):在將信息系統(tǒng)遷移到云端時,如果是新建私有云,那么最好盡量保證網(wǎng)絡(luò)設(shè)備能夠使用同廠家、型號,以免在后期工作因網(wǎng)絡(luò)問題延緩工作進(jìn)度。
二、 服務(wù)器
1)服務(wù)器的配置:項目開始初期,云端廠商做了大量的前期調(diào)研。整理了醫(yī)院現(xiàn)有系統(tǒng)使用的 CPU 、內(nèi)存、存儲和數(shù)據(jù)庫等相關(guān)信息。醫(yī)院原有的無論實(shí)體機(jī)還是虛擬機(jī)都是按照 CPU 核數(shù) 1 :1 比例的配置,遷移至云端后,因為云計算資源調(diào)配的靈活性, CPU 核數(shù)并非按照 1 :1 比例配置。初期云端廠商使用 6 臺服務(wù)器做虛擬化計算資源,院方認(rèn)為醫(yī)院內(nèi)的信息系統(tǒng)比較復(fù)雜,有些應(yīng)用系統(tǒng)對資源的需求量很高,云端如果按照 1 :3 的虛擬 CPU 核數(shù)將無法達(dá)到院內(nèi)需求,甚至影響醫(yī)院未來信息化發(fā)展。通過與云端廠商的討論研究,最終云端廠商同意將計算節(jié)點(diǎn)服務(wù)器由 6 臺增至 9 臺,并把虛擬 CPU 核數(shù)的虛擬比例由 1 :3 降低至 1 :2 ,為此擴(kuò)容工作將工期多拖延 2 個月。
問題總結(jié):在做私有云規(guī)劃時一定與云端廠商做好充分溝通,做好需求定位的工作,大型廠商的采購流程繁瑣,臨時擴(kuò)容就會拖延工期甚至影響正常業(yè)務(wù)。
2)操作系統(tǒng)的安裝:醫(yī)院現(xiàn)有服務(wù)器有實(shí)體的、有使用 ctrix 為底層的 XEN 構(gòu)架的虛擬機(jī)。而云端使用的是使用 openstack+KVM 做虛擬機(jī)的構(gòu)架。整體遷移方案時采用在云端重新安裝操作系統(tǒng)、重新部署應(yīng)用和安裝數(shù)據(jù)庫,這樣在將醫(yī)院系統(tǒng)遷移至云端就存在很多問題,一些常用的操作系統(tǒng)可以通過直接安裝來解決,而院內(nèi)虛擬機(jī)環(huán)境中有些系統(tǒng)是定制化的系統(tǒng), openstack 支持 qCOW2 格式的虛擬機(jī), XEN 架構(gòu)只有 ova 或 ovf 格式的虛擬機(jī),面對這樣的定制系統(tǒng)時,如果原始系統(tǒng)安裝鏡像 iso 不能很好的轉(zhuǎn)換成 qCOW2 格式,那么服務(wù)器的基本安裝都存在問題。醫(yī)院在遷移中就遇到因操作系統(tǒng)無法安裝,導(dǎo)致一個重要的系統(tǒng)遲遲不能遷移,后來由云端廠商進(jìn)行技術(shù)攻關(guān)才解決此問題。
問題總結(jié):在遷移過程中,操作系統(tǒng)的安裝是十分重要的一步,要考慮還原有系統(tǒng)環(huán)境,與院內(nèi)系統(tǒng)廠商做好溝通,盡量使用原廠 ISO ,當(dāng)系統(tǒng)廠商沒有上云的經(jīng)驗,不能提供云端虛擬機(jī)能夠正常安裝的鏡像文件時,只能完全依靠云端廠商技術(shù)攻關(guān)解決問題。
3)數(shù)據(jù)的遷移:能夠保證遷移數(shù)據(jù)完整性和一致性的整機(jī)遷移需要通過停機(jī)后才可以遷移,而因為醫(yī)療行業(yè)的特殊性,業(yè)務(wù)系統(tǒng)的運(yùn)行不能中斷,醫(yī)院也存在各類占用極大空間的數(shù)據(jù),使得整體遷移并不能通過短暫停機(jī)來實(shí)現(xiàn)。
經(jīng)過論證最終遷移使用的方案就是在源服務(wù)器和目標(biāo)服務(wù)器同時安裝數(shù)據(jù)遷移代理軟件,通過建立好互通的網(wǎng)絡(luò)鏈路,架設(shè)一臺用于遷移數(shù)據(jù)的控制服務(wù)器對數(shù)據(jù)進(jìn)行傳輸校驗。首先在云端建立全新目標(biāo)機(jī)虛擬機(jī),安裝相同的操作系統(tǒng)、預(yù)留相同的磁盤空間、部署相同的環(huán)境,根據(jù)不同應(yīng)用系統(tǒng)要求在后臺傳輸目標(biāo)服務(wù)器所需要數(shù)據(jù),待數(shù)據(jù)傳輸完成經(jīng)過校驗后,將源服務(wù)器暫時停機(jī)數(shù)據(jù)庫導(dǎo)出通過遷移代理傳輸至目標(biāo)服務(wù)器,目標(biāo)服務(wù)器將數(shù)據(jù)庫導(dǎo)入恢復(fù),將網(wǎng)絡(luò)配置更改后關(guān)閉源服務(wù)器,啟用新服務(wù)器。數(shù)據(jù)遷移的過程中一定要注意以下原則,以防目標(biāo)服務(wù)器不可用時產(chǎn)生臟數(shù)據(jù)。
1. 確保業(yè)務(wù)系統(tǒng)平穩(wěn)順利遷移為最根本原則。
2. 在遷移工程中,不進(jìn)行任何系統(tǒng)架構(gòu)的調(diào)整或變更,以避免項目交叉導(dǎo)致的業(yè)務(wù)風(fēng)險。
3. 制定相應(yīng)的遷移方案,確保宕機(jī)時間可控。
4. 需要對遷移前后的應(yīng)用服務(wù)器性能進(jìn)行對比分析,保證資源利用率的合理性以及 IOPS 要求。
問題總結(jié):數(shù)據(jù)遷移是整個遷移項目最重要的一環(huán),為保證系統(tǒng)正常運(yùn)行,數(shù)據(jù)遷移的每一步都要充分考慮做好相應(yīng)的應(yīng)急預(yù)案,根據(jù)不同的應(yīng)用系統(tǒng)及環(huán)境做有針對性的措施。
三、 存儲
醫(yī)院的存儲基本是用服務(wù)器自帶硬盤(包括 SAS , SATA 和 SSD )和多個品牌型號的集中存儲。云端使用的是 Ceph 存儲,使用大量服務(wù)器插滿硬盤做分布式存儲,這樣不同的存儲方式也帶來不同的問題。Ceph 本身就是分布式存儲構(gòu)架,優(yōu)勢在于能夠動態(tài)地伸縮、再均衡和修復(fù),醫(yī)院內(nèi)系統(tǒng)應(yīng)用的復(fù)雜導(dǎo)致存儲數(shù)據(jù)的格式差異非常大,如有需要實(shí)時讀取的小碎片 XML 文件,也有體積巨大的 DCom 影像文件,而且不同的系統(tǒng)對文件存儲響應(yīng)時間要求也不同。項目初期時是使用 SAS 和 SATA 硬盤作為存儲,院方與云端廠商提出不同系統(tǒng)的 IO 需求時,云端廠商使用 SSD 硬盤擴(kuò)容,用于影像系統(tǒng)這類對 IO 要求較高的系統(tǒng)。
問題總結(jié):云端廠商為保證靈活性和性價比,使用分布式存儲,醫(yī)院則需要強(qiáng)調(diào)院內(nèi)應(yīng)用系統(tǒng)的不同需求,如果有對 IO 性能要求較高的系統(tǒng)時,一定保證要有 SSD 以防未來出現(xiàn)瓶頸。
四、 災(zāi)備
當(dāng)醫(yī)院的所有信息系統(tǒng)遷移至云端后,所有的業(yè)務(wù)都通過光纖專線進(jìn)行傳輸。盡管有 4 條專線,但仍舊存在光纖故障導(dǎo)致醫(yī)院業(yè)務(wù)停滯的可能。
基于以上考慮,這次遷移后將對醫(yī)院原有服務(wù)器進(jìn)行充分利舊,做成一個緊急災(zāi)備機(jī)房,將核心業(yè)務(wù)系統(tǒng)在醫(yī)院內(nèi)做應(yīng)用級備份。當(dāng)線路出現(xiàn)故障時第一時間能夠啟用醫(yī)院內(nèi)的災(zāi)備應(yīng)用,保障醫(yī)院所有業(yè)務(wù)的正常運(yùn)行。
本次信息系統(tǒng)的數(shù)據(jù)備份均采用網(wǎng)絡(luò)方式進(jìn)行數(shù)據(jù)備份,根據(jù)醫(yī)院需求本次數(shù)據(jù)備份數(shù)據(jù)量共計 100TB ,容災(zāi)數(shù)據(jù) 15TB 。初期要分別對院內(nèi)所有需求進(jìn)行容災(zāi)和備份的業(yè)務(wù)系統(tǒng)進(jìn)行調(diào)研并定級,在制定完善調(diào)研表后,其中 HIS 、 LIS 等核心系統(tǒng)需要實(shí)時數(shù)據(jù)保護(hù), PACS 系統(tǒng)業(yè)務(wù)自身為冗余互備模式,不需要使用容災(zāi)系統(tǒng),只需對部分?jǐn)?shù)據(jù)做定期備份。根據(jù)對各業(yè)務(wù)系統(tǒng)的定級,確定每臺服務(wù)器的災(zāi)備策略,并與各業(yè)務(wù)系統(tǒng)廠商確認(rèn)要備份的文件目錄和業(yè)務(wù)類型,如數(shù)據(jù)庫或普通文件等,在災(zāi)備策略中進(jìn)行配置。根據(jù)業(yè)務(wù)系統(tǒng)的要求配置對應(yīng)的備份策略和數(shù)據(jù)保留策略,啟動容災(zāi)備份服務(wù),對核心系統(tǒng)(如 HIS , EMR , PACS,LIS, 集成平臺等)建立應(yīng)用級災(zāi)備,保證因為網(wǎng)絡(luò)問題連接中斷時在院內(nèi)原有系統(tǒng)可以順利接管。
問題總結(jié):對不同業(yè)務(wù)系統(tǒng)要制定相應(yīng)的災(zāi)備方案,在災(zāi)備資源有限的前提下要保證業(yè)務(wù)的正常運(yùn)行才是災(zāi)備的核心,同時充分利舊院內(nèi)原有設(shè)備也能節(jié)約成本。
五、 結(jié)語
整體業(yè)務(wù)全部遷移到到云端是個復(fù)雜而龐大的工程,一定要有前期的充分調(diào)研,明確的需求定位,與云端廠商和系統(tǒng)廠商的充分交流溝通。即便如此在遷移的過程中仍舊會遇到各種預(yù)料不到的技術(shù)問題,所以當(dāng)決定系統(tǒng)整體遷移的時候,務(wù)必規(guī)劃好工期進(jìn)度以及軟硬件的需求,充分考慮好未來的擴(kuò)容的需求,內(nèi)外網(wǎng)互訪,安全管理,災(zāi)備等方面內(nèi)容。
免責(zé)聲明:本站發(fā)布的內(nèi)容(圖片、視頻和文字)以原創(chuàng)、轉(zhuǎn)載和分享為主,文章觀點(diǎn)不代表本網(wǎng)站立場,請聯(lián)系站長郵箱:shawn.lee@eliancloud.com進(jìn)行舉報,并提供相關(guān)證據(jù),一經(jīng)查實(shí),將立刻刪除涉嫌侵權(quán)內(nèi)容。
標(biāo)題:云端遷移過程中的技術(shù)問題和解決思路
TAG標(biāo)簽:企業(yè)上云
地址:http://www.dangdangload.com/article/20210712171545.html