人工智能(AI),機(jī)器學(xué)習(xí)(ML),大數(shù)據(jù)和其他增強(qiáng)學(xué)習(xí)技術(shù)如何在數(shù)據(jù)中心中應(yīng)用?機(jī)器和人類如何合作管理基礎(chǔ)設(shè)施?
6月25日,DCD數(shù)據(jù)中心國際峰會上海站在上海中心大廈舉行。針對上述議題的一場分論壇中,騰訊和阿里巴巴的高管分別對這一議題給出了不同的詮釋。
騰訊數(shù)據(jù)中心研發(fā)總監(jiān)岳上對騰訊研發(fā)的智能化管理數(shù)據(jù)中心軟件平臺——騰訊智維平臺做出了介紹,解釋了騰訊如何利用新技術(shù)管理巨大數(shù)據(jù),并保證數(shù)據(jù)準(zhǔn)確性。阿里基礎(chǔ)設(shè)施一體化架構(gòu)師汪剛則表示,在數(shù)據(jù)中心的運(yùn)維中,AI只是手段,在梳理數(shù)據(jù)邏輯時(shí),人起到的作用更大。
目前,騰訊智維管理了騰訊內(nèi)部約80個(gè)數(shù)據(jù)中心,超過百萬臺服務(wù)器設(shè)備。如今,騰訊的數(shù)據(jù)中心測點(diǎn)數(shù)超過600萬,每分鐘可收集千萬條現(xiàn)場數(shù)據(jù)、150G視頻數(shù)據(jù),從80個(gè)數(shù)據(jù)中心上送到平臺上,騰訊智維就是基于這些數(shù)據(jù)進(jìn)行著管理工作。
談到具體實(shí)踐時(shí),岳上介紹,騰訊在保證數(shù)據(jù)準(zhǔn)確性上從五個(gè)方面入手。
1.測點(diǎn)側(cè),監(jiān)控MDC測點(diǎn)接入率;2.網(wǎng)絡(luò)側(cè),通過技術(shù)手段,自動識別問題并判斷根因,進(jìn)而自動切換或者人工干預(yù);3.視頻側(cè),實(shí)時(shí)檢查視頻參數(shù)、視頻格式和碼率,發(fā)現(xiàn)問題及時(shí)告警;4.服務(wù)器側(cè),一旦服務(wù)器進(jìn)風(fēng)溫度異常,及時(shí)告警;5.異常數(shù)值,對數(shù)值做了合理區(qū)間設(shè)定,系統(tǒng)算出異常值會預(yù)警開發(fā)者。
汪剛則認(rèn)為,在數(shù)據(jù)中心的運(yùn)維中,AI只是手段?!安⒉皇钦f在一個(gè)數(shù)據(jù)中心里布點(diǎn)越多、數(shù)據(jù)越多就越好。在梳理數(shù)據(jù)邏輯時(shí),人起到的作用更大?!?/span>
汪剛向參會觀眾介紹:“業(yè)界講AI有時(shí)會把AI當(dāng)作一個(gè)目的,但它只是一個(gè)手段,更重要的是數(shù)據(jù)。在使用機(jī)器學(xué)習(xí)和AI等技術(shù)之前,首先要明確數(shù)據(jù)是為了解決什么問題,數(shù)據(jù)來源是否準(zhǔn)確。”
汪剛介紹,在采集數(shù)據(jù)之后,怎么把數(shù)據(jù)邏輯梳理清楚非常重要。數(shù)據(jù)中心運(yùn)維過程中會出現(xiàn)假報(bào)警的情況,這種情況數(shù)據(jù)可能本身是準(zhǔn)確的,但對場景的解釋是有錯(cuò)誤的。通過邏輯把報(bào)假警的情況輸送到機(jī)器學(xué)習(xí)之前提前剔除,機(jī)器學(xué)習(xí)的效率會提高很多。
汪剛總結(jié)道:“所以并不是說在一個(gè)數(shù)據(jù)中心里布點(diǎn)越多、數(shù)據(jù)越多就越好,把邏輯梳理清楚,明白在什么關(guān)鍵的地方布什么點(diǎn),傳感器得到的數(shù)據(jù)才是對你來說最好的,這里面比起機(jī)器學(xué)習(xí),人起到的作用更大?!?/span>

