紫光恒越技術(shù)有限公司
參考價(jià): | 面議 |
- 產(chǎn)品型號
- 品牌
- 其他 廠商性質(zhì)
- 所在地
訪問次數(shù):570更新時間:2022-01-20 13:47:15
產(chǎn)品概述
隨著AI科學(xué)計(jì)算的技術(shù)突破,人工智能已經(jīng)廣泛應(yīng)用于各行各業(yè),如醫(yī)療、金融、汽車、法律、工業(yè)、教育等等,其中AI科學(xué)計(jì)算服務(wù)中心化也成為眾望所歸的選擇,雖然AI 深度學(xué)習(xí)目前的門檻有所降低,但是對于專業(yè)的數(shù)據(jù)科學(xué)家,依然是需要為了環(huán)境搭建,并行運(yùn)算,分布式存儲,作業(yè)調(diào)度等基礎(chǔ)設(shè)施和服務(wù)耗費(fèi)較多的人力和成本,為此,UNIS公共科學(xué)計(jì)算AIOS平臺應(yīng)運(yùn)而生,提出軟硬件一體化方案,從基礎(chǔ)硬件的部署和軟件安裝,到交互式開發(fā)環(huán)境的一鍵啟動,從模型的深度訓(xùn)練和調(diào)優(yōu),到多機(jī)多卡GPU作業(yè)靈活調(diào)度,UNIS AIOS平臺,提供了十分簡潔的使用方式,實(shí)現(xiàn)了資源的整合/彈性擴(kuò)容縮容和合理調(diào)度,同時也提供豐富的可自定義的軟件和鏡像和二次開發(fā)的API接口,可方便的集成進(jìn)入原有SaaS平臺。
針對圖像處理、語音識別、自然語言處理等深度學(xué)習(xí)場景下,需要搭建大規(guī)模的GPU集群,針對不同的算法模型、不同的深度學(xué)習(xí)框架,用戶如何統(tǒng)一調(diào)度與管理GPU集群的計(jì)算資源、存儲資源,分配給不同的租戶使用,是需要解決的問題。
對于TensorFlow、Caffe、MxNet等深度學(xué)習(xí)框架,如何快速部署,提供開發(fā)鏡像環(huán)境,滿足不同用戶在不同場景下的框架需求、算法需求與開發(fā)需求,也是數(shù)據(jù)科學(xué)家難以逾越的一道門檻。
面對不同用戶同時進(jìn)行模型訓(xùn)練、在線推理,采用什么策略對各個任務(wù)進(jìn)行調(diào)度,是搶占模式還是*先出,以及每個訓(xùn)練任務(wù)利用哪個GPU加速卡,每個卡的運(yùn)行狀態(tài)如何,都需要統(tǒng)一的監(jiān)控與管理。
針對以上問題,為用戶提供一體化的軟硬件部署和管理服務(wù),減少系統(tǒng)安裝維護(hù)工作量;優(yōu)化分布式訓(xùn)練部署模型,實(shí)現(xiàn)多機(jī)多卡GPU資源與訓(xùn)練作業(yè)靈活調(diào)度;提供豐富的可自定義軟件和鏡像庫,充分滿足客戶對AI計(jì)算環(huán)境的需求。
靈活的資源調(diào)度機(jī)制:提供強(qiáng)大的資源調(diào)度策略,以及資源實(shí)時監(jiān)控,使企業(yè)可以有效、合理的使用各種計(jì)算資源。
完善的API接口服務(wù):系統(tǒng)所有核心業(yè)務(wù),都對外提供完善的A P I 接口, 用戶可以通過這些接口,實(shí)現(xiàn)人工智能平臺服務(wù)與用戶已有SaaS平臺的深度集成。
靈活的權(quán)限管理策略:系統(tǒng)通過對人員角色權(quán)限的劃分,以及資源的使用規(guī)劃,使得平臺中不同的用戶的計(jì)算資源都能很好的隔離,滿足企業(yè)對權(quán)限管理的各種要求。
豐富的性能監(jiān)控服務(wù):AIOS平臺提供完善的性能監(jiān)控服務(wù),能實(shí)時監(jiān)控系統(tǒng)所有服務(wù)的健康狀況和硬件/網(wǎng)絡(luò)利用率情況,并針對各種日常運(yùn)維工作,提供可視化的操作界面,提高系統(tǒng)運(yùn)維管理者的工作效率。
系統(tǒng)架構(gòu)

*的前后臺分離架構(gòu)
在以前傳統(tǒng)的網(wǎng)站開發(fā)中,前端一般扮演的只是切圖的工作,只是簡單地將UI設(shè)計(jì)師提供的原型圖實(shí)現(xiàn)成靜態(tài)的HTML頁面,而具體的頁面交互邏輯,比如與后臺的數(shù)據(jù)交互工作等,可能都是由后臺的開發(fā)人員來實(shí)現(xiàn)的,或者是前端是緊緊的耦合后臺。導(dǎo)致后臺的開發(fā)壓力大大增加,前后端工作分配不均。不僅僅開發(fā)效率慢,而且代碼難以維護(hù)。
AIOS采用*的前后端分離架構(gòu),很好的解決前后端分工不均,開發(fā)過程相互依賴,bug難以定位等諸多問題。將更多的用戶交互邏輯由前端專職處理,而后端則可以專注于數(shù)據(jù)處理,業(yè)務(wù)權(quán)限控制等,前后端通過標(biāo)準(zhǔn)的restful接口實(shí)現(xiàn)數(shù)據(jù)交互。
后端專注于:服務(wù)層 & 數(shù)據(jù)訪問層 & 權(quán)限控制;
前端專注于:頁面展現(xiàn)(視圖層)& 交互邏輯;
的微服務(wù)架構(gòu)
AIOS采用kubernetes+docker+rabbitmq的微服務(wù)架構(gòu)模式,利用kubernetes實(shí)現(xiàn)高可用的集群環(huán)境,以及統(tǒng)一的資源調(diào)度,配合d o c ker容器技術(shù)實(shí)現(xiàn)多租戶資源隔離,由rabbitmq實(shí)現(xiàn)分布式消息處理。為平臺展現(xiàn)層提供強(qiáng)大的內(nèi)核支撐,平臺采用的微服務(wù)架構(gòu)模式有以下特點(diǎn):
多租戶存儲資源隔離
平臺使用NFS(Network File System)實(shí)現(xiàn)統(tǒng)一的網(wǎng)絡(luò)文件存儲系統(tǒng),極大簡化了平臺部署的復(fù)雜性,提高了公共文件資源的利用率。再結(jié)合linux多用戶多任務(wù)的系統(tǒng)特性,實(shí)現(xiàn)文件存儲資源的多租戶資源隔離。
強(qiáng)大的作業(yè)調(diào)度機(jī)制
AIOS平臺的核心是模型訓(xùn)練,對CPU、內(nèi)存、GPU等資源的合理使用要求非常高,通常這些計(jì)算設(shè)備造價(jià)不菲,計(jì)算資源的合理使用是體現(xiàn)一個計(jì)算平臺最重要的指標(biāo)。平臺采用的kubernetes先天支持多種策略的作業(yè)調(diào)度,可以有效保證各類訓(xùn)練任務(wù)的及時有效執(zhí)行。再結(jié)合平臺提供的用戶資源申請分配機(jī)制,以及資源使用率告警機(jī)制,可以靈活有效的管理多租戶場景下,集群計(jì)算資源的統(tǒng)一合理調(diào)度。
完善的資源監(jiān)控體系
Heapster是容器集群監(jiān)控和性能分析工具,可以定時采集集群環(huán)境中所有節(jié)點(diǎn)的CPU、內(nèi)存、網(wǎng)絡(luò)以及磁盤情況,平臺通過Heapster實(shí)現(xiàn)上述資源的統(tǒng)一采集及管理;而平臺自主研發(fā)的cMonitor則可以對GPU資源進(jìn)行定時的采集及管理;結(jié)合平臺提供的計(jì)算資源告警機(jī)制,最終可以在平臺展現(xiàn)層實(shí)時監(jiān)控集群環(huán)境下的所有資源,并及時向管理員發(fā)送告警信息,有效管理集群硬件資源,提高資源利用率。
主要特性及優(yōu)勢
AIOS平臺為用戶提供了強(qiáng)大的全流程可視化管理平臺:交互學(xué)習(xí)平臺,集群管理平臺,性能監(jiān)控平臺,審計(jì)平臺這四大模塊又同時對外提供豐富的接口組件,使得用戶既可以*通過我們的平臺進(jìn)行常規(guī)業(yè)務(wù)操作,又可以利用我們提供的接口組件,將核心服務(wù)集成到自己現(xiàn)有系統(tǒng)中。
AIOS平臺提供了一系列的函數(shù)庫,方便用戶在建模編寫腳本的過程中,快速調(diào)用這些函數(shù)而無需關(guān)心這些業(yè)務(wù)無關(guān)的技術(shù)細(xì)節(jié);同時我們在系統(tǒng)不同功能模塊中,提供了不同的工作集,方便用戶在具體場景中快速操作。所有這些,都大大加速了用戶在開發(fā)人工智能解決方案時的速度。
統(tǒng)一的集群管理
負(fù)責(zé)整個系統(tǒng)計(jì)算資源的集中管理、統(tǒng)一分配與作業(yè)調(diào)度,包括GPU資源池的集中管理與分配、多租戶方式隔離計(jì)算資源、以作業(yè)方式動態(tài)分配計(jì)算資源以及計(jì)算資源回收等。
統(tǒng)一的監(jiān)控運(yùn)維
實(shí)時監(jiān)控管理集群資源使用情況和集群狀態(tài),包括作業(yè)狀態(tài)、GPU使用率、集群健康度等,并分析每一類的資源占用情況,提供觸發(fā)預(yù)警機(jī)制。
統(tǒng)一的開發(fā)環(huán)境
提供一站式的交互開發(fā)操作界面,幫助用戶完成模型腳本在線編輯、模型訓(xùn)練、模型驗(yàn)證以及模型推理等核心功能,并結(jié)合硬件資源可視化、作業(yè)調(diào)度器,提高系統(tǒng)硬件資源的利用率。
產(chǎn)品功能特性
資源管理服務(wù)
系統(tǒng)提供完備的資源管理平臺,對所有計(jì)算資源進(jìn)行集中管理,通過該平臺,可以實(shí)現(xiàn)對各類資源的狀態(tài)查詢以及相關(guān)維護(hù)操作。

作業(yè)調(diào)度服務(wù)
系統(tǒng)提供強(qiáng)大的作業(yè)調(diào)度引擎,為用戶提供多種作業(yè)調(diào)度策略:*先出,資源回填,公平共享,作業(yè)搶占,用戶循環(huán)調(diào)度,用戶作業(yè)均衡等。

性能監(jiān)控服務(wù)
系統(tǒng)針對各種計(jì)算資源,提供多維度的資源性能監(jiān)控指標(biāo)查詢接口,并圖形化展示。

API服務(wù)
深度學(xué)習(xí)模塊核心服務(wù)如下:
另外針對AI深度學(xué)習(xí)訓(xùn)練過程中復(fù)雜不可解釋的參數(shù)選配,為了減少嘗試次數(shù),浪費(fèi)資源和時間,也提供豐富的超參算法支持,支持Ran d om S e a r c h、TPE ( T r e e - b a s e dParzen Esitmator)以及Bayesian超參搜索算法,利用高效的超參搜索算法實(shí)現(xiàn)并行超參搜索,充分發(fā)揮集群計(jì)算能力,多任務(wù)并發(fā)搜索,不同任務(wù)間分享搜索結(jié)果(不同的),這樣以改進(jìn)效率為目標(biāo),做到搜索效果與搜索代價(jià)的良好平衡,還有提供蒙特卡洛樹搜索 + 深度學(xué)習(xí)網(wǎng)絡(luò)功能,解決搜索空間過大問題,并對搜索結(jié)果進(jìn)行學(xué)習(xí)。
運(yùn)行環(huán)境
計(jì)算節(jié)點(diǎn)所需硬件配置
指標(biāo)項(xiàng) | 配置 | 推薦配置 |
機(jī)器數(shù)量 | 1 | 2(支持?jǐn)U展) |
型號 | X86平臺的服務(wù)器 | X86平臺的服務(wù)器 |
CPU | 32核(物理核數(shù),非超線程核數(shù)),支持AVX模式 | 32核(物理核數(shù),非超線程核數(shù))或更高,支持AVX模式 |
CPU | n*Tesla P4 | n*Tesla P40/P100/V100 |
內(nèi)存 | 128G以上內(nèi)存 | 256G以上內(nèi)存 |
磁盤 | 2*1T硬盤作RAID1磁盤陣列 | 2*2T以上容量硬盤作RAID1磁盤陣列 |
網(wǎng)卡 | 1個千兆網(wǎng)卡 | 1個萬兆以 |
計(jì)算節(jié)點(diǎn)所需硬件配置
項(xiàng)目 | 描述 |
大數(shù)據(jù)平臺部署服務(wù)(4臺) | 必配 |
UNIS 公共科學(xué)計(jì)算AIOS軟件License費(fèi)用 | 必配,3個節(jié)點(diǎn) |
UNIS 大數(shù)據(jù)技術(shù)支持服務(wù)(一年) | 必配 |