中交路橋科技是從事工程(chéng)檢測監測、城市安全監測預警與評價(jià)、數字(zì)智能化研發為一體的複合型高新技術集團企業。
新聞資訊
橋梁結構健康監測大數據可(kě)視化分析
更新時間:2021-04-10 17:51
  |  
閱讀(dú)量:
字號:
A+ A- A
From 孫利民 尚誌(zhì)強
原載(zǎi)於《橋梁》雜誌2018年第4期(qī)

結構健康監測技術被(bèi)廣(guǎng)泛(fàn)應用於(yú)大(dà)型橋(qiáo)梁(liáng)的養護管理,但受數據分析方法和計算方式的限製,橋梁結(jié)構健康監測係統(tǒng)所積累的海量監測數據並未得到有(yǒu)效利用。近幾年,大數(shù)據技術的發展為橋梁結構健康監(jiān)測數據的有效利用帶來(lái)了希望。大(dà)數據可視化分析是大數據分析的一個分支,能夠實現高維數據可視化(huà)的同時,識別數據中的模式。

橋梁SHM的數據應用(yòng)

在傳統的橋梁養(yǎng)護管理中,基於人工檢(jiǎn)測(cè)的結構狀態評估扮演了(le)重要角色,然而人工檢測工作量大、主觀性強,難以實現對結構性能的長期(qī)定量跟蹤。近年來,結構健康監測技(jì)術(Structural Health Monitoring, SHM)在大跨橋梁的養護管理中得到廣泛應用。橋梁結構健康監測通過在結構上安裝傳感器,以實時獲取橋址環境(jìng)和結構響應的信息(xī),並基於這些信息對橋梁的技術狀態做出實時、自動的評估甚(shèn)至安全預(yù)警。我國當前至少(shǎo)有240多座大跨度橋梁安裝了結構健康監測係統(Structural Health Monitoring System, SHMS),經過長期的觀測,這些監(jiān)測(cè)係統積累了大量的數據,基於這些(xiē)數據有(yǒu)效解讀結構的狀態、識別可能的損傷,成為目前SHM研究的關鍵問題。

利用SHM數據進行結構狀態評估和損傷識別有“基於(yú)模型”和“數據驅動”兩類方法。基(jī)於模型的方法(fǎ)本質上是橋(qiáo)梁結構有限元建(jiàn)模、模型修正(zhèng)、係統參數反演的過程,對(duì)理論模型的精度和監測數據的質量有(yǒu)很高的要求,目前在實際工(gōng)程中應用效果還不理想。數據驅動的方法關注監測所得到的輸入和輸出數據相(xiàng)關關係的(de)變(biàn)化規律,以識別結(jié)構狀(zhuàng)態所對應的模式,借助於成熟的統計學理論,數據驅(qū)動方法在SHM中得到廣泛應用。但傳統的統計方法由於計算能力和分析手段的限製,隻能分析少部分、低維度的數據樣本,且無法高效地(dì)呈現分(fèn)析結果,因此尚不足(zú)以解決海量、高維SHM數據的分析問題。

大數據技術(shù)是近幾年的新興技(jì)術,已在互聯網、電子商務、醫學(xué)等領域得到廣泛應(yīng)用,改善了計算能力不足、數據分析方法低效(xiào)等問題,在SHM的數據處理上(shàng)也展現出廣闊的應用前景。大數據可視化分析是大數據分析(xī)的(de)一個重要(yào)分支,該(gāi)方法將人所具備的、機器並不擅長的認知能力(lì)融入到分析過程中,可提升數據(jù)分析的效率和準確性,並可對高維數據進行(háng)直觀的(de)呈現。

“大數據”概念

“大數據(jù)”概念首(shǒu)次提出於1996年,2008年《Nature》雜誌推出大數據專欄,2011年麥肯錫公司的(de)研究報告對大數據的(de)關鍵技術和應(yīng)用領域等進行了全麵的分析(xī)總結,大數據(jù)逐漸(jiàn)為各行各業所關注。“大數據”的內涵和(hé)外延在不斷地被豐富,在(zài)不同(tóng)的文獻中,“大數據”被描述為數據集、可實現的功能(néng)、數據變現過(guò)程、架構和(hé)技術等。大數據應該從數據集特征、思維方式、技(jì)術三個方麵進行理解(圖1)。

圖1 大數據的構(gòu)成
圖2 大(dà)數據分析流程

一般認為,大(dà)數據具備4V特征,即數據體量大(Volume)、種(zhǒng)類多(Variety)、增速快(Velocity)、價值(zhí)密度低(Value)。4V特(tè)征並沒有明確地限定大數據(jù)的體量(liàng)規模,因而可廣泛適用於各個行業。

大數據分析應具備的三個思維方式,即“使用全體數據進行(háng)分析”“接受數據混雜性,數據量大彌補質量差”“追求相關關係而非因果關係”。因而具有以(yǐ)下(xià)特點(diǎn):與傳統統計分析隻使用一小部分隨機抽樣數據相比,使用(yòng)全體數據可(kě)以發現更多的細節和有價值的信息(xī);接受數據混雜、增大數據量能夠簡化分析模型並避免過擬合,從而獲得(dé)更準確的分析結果;從相關關係(xì)切入則可為數據分析提供(gòng)新的(de)視角(jiǎo)。當前大數據處理技術已使得分析所(suǒ)有數據成為可能,通過大數據分析挖掘相關關係(xì)也取得了許多成功應用;但以數據量大彌補質量(liàng)差時,如果(guǒ)全部數據中的噪聲多於信號(hào)則(zé)信號(hào)易被(bèi)掩蓋(gài),因(yīn)此不能(néng)盲目收入所有數據(jù),仍需尋找與分析目的強相關的數據。

大數據的技術主要體現在數據采集(jí)、存儲、計算處理、分析方法等幾(jǐ)個方麵。大數據的(de)采集、存儲、計算等多以軟件工具的方式呈現,如用於獲取數據的物(wù)聯網、互聯網(wǎng),用以存儲數據的Hadoop分布(bù)式文件係統、NoSQL數據庫,用於數據計算的Hadoop生態圈、MapReduce、Spark、Storm、雲計算等。大數據分析方法涵蓋以各種術語所表示的(de)數據分析方法,包括數據(jù)庫知識(shí)發現(KDD)、數據挖掘、機器學(xué)習、模式識別、統計學等。這些術語雖(suī)然在應用領域和關注點上有所不同,但當前(qián)在大(dà)數據語境下,其間(jiān)的差別可不必考(kǎo)究(jiū)。

與大數據(jù)分析方法有關的(de)另一個術語是人工智能,它是一個宏大的概念,它的提(tí)出遠早於大(dà)數據。人工智能與大數據分析的主要區別(bié)是目(mù)標上的不同,前者(zhě)是產生具有智能行(háng)為的東(dōng)西(xī),後者則用以發現數據中隱藏的知識。但二者都要靠大數據實體的支撐實現,且(qiě)可以共用(yòng)分析方法。當前人工智(zhì)能的代表技術是(shì)深(shēn)度學習,屬於機器學習的一個子集,由於在圖片、語音(yīn)等識別問題中的出色性能,常脫離(lí)於機器學習被突出強調。

KDD、數據挖掘等同於機器學習,貫(guàn)穿於大數據分析(xī)的整個流程,模式識別是其中的一個環節。大數據分析流程(chéng)在KDD流程的基礎上得到完善,強調了多(duō)源異(yì)構數據融合和特征提取的重要(yào)性,最終可由數據預處理、數據融合、特(tè)征工程、模式識別、可視化等環節構成。但應該注意到,這幾個步驟之間的順序並非絕對的(de)一成不變,且有可能在某一步實(shí)現多個功能。

數據可視化在大數據分析流程中的功能是呈現數據分析的結果,當被直接用於探索數據、挖掘數據中的模式時也被(bèi)稱為大數據可視化分析。大數據(jù)的一個特征是數(shù)據(jù)種類多(duō),在數(shù)據(jù)集中表現為數據的維度高。高維數據難以有效地可視化(huà),且會引起數據分(fèn)析中的維度災難問題,即數據集在(zài)高維空間中分布(bù)稀疏,缺乏足夠的數據構建模型。傳統數據(jù)分析常以降維的方式減少(shǎo)數(shù)據(jù)集(jí)中的變(biàn)量數,由此也會帶來原始數據集中信(xìn)息量(liàng)的減少。大數據可視化分析為有效地呈現、分析高維數據提供了新的思路,在SHM的模(mó)式識別問題中(zhōng)也展現出應用的潛力。

平行坐標圖(PCP)方法研比(bǐ)

平行坐標圖(tú)法(parallel coordinate plot, PCP)、t分布隨機鄰域嵌入法(t-SNE)是當前高維數據可視化中常(cháng)用的兩種方法(fǎ)。t-SNE在高(gāo)維空間中構建每個數據(jù)點對(duì)其近鄰的概率分布,並在低維空間中重構該概率分布,通過最小化兩個概率分布間的差距,以保證高維空間中的數據點(diǎn)在低維空間中具有相近的局(jú)部結構,最終將結果顯(xiǎn)示於(yú)二維或三維坐標圖上。t-SNE雖然能有(yǒu)效探(tàn)知原始數據(jù)的結構和分布(bù),但需要很高的計算開銷。與t-SNE相比,PCP不需要(yào)對原始數據進行降(jiàng)維顯示,且具有更高的可視化效率。PCP通過N個平行坐標軸將N維數據投射到二維空間中,每個數據點(diǎn)被(bèi)表示為PCP中的一(yī)條線段(duàn),由此原始的高維數據集可被表示為一個幾何係統。PCP能夠(gòu)呈現數據間(jiān)的相關關係,因而具有模式(shì)識別功能,這也體現(xiàn)了大數據“追求相關關(guān)係而非因果關係(xì)”的思維方式。PCP的模(mó)式識別功能由(yóu)三個重要的可視化特征實現(xiàn),分別為以下幾方麵——

線段夾角,表明變量間的正負相關關係,圖3(a)中線段交匯於一(yī)點(diǎn),表示兩變量間具有強負相關關係,圖3(c)中線段彼此平行,表示兩個變量間具有強正相(xiàng)關關係。

線段交點區(qū)域,表明變量間相關關係的強弱,圖3(b)線段(duàn)交匯於一個區域,表示兩變量間具有弱負相關關係。

線段分(fèn)布,表明趨勢模式或異常點模(mó)式。趨勢(shì)模式對應密集區域的線段,異常點則是稀疏區域的(de)線段。圖3(d)下方的線段可判斷為趨勢,上方的(de)線段為異常點。

圖3 平行坐標圖

PCP用於大數據集時,線段數量的增多會造成線段間的重疊、遮擋(圖4),從而掩蓋坐標圖中(zhōng)的可視化(huà)特征。為消(xiāo)除線段重疊、減少視覺混雜,學者們提出了各種改進的PCP方(fāng)法。基於Alpha混合的PCP方法(fǎ)較(jiào)早地被提出,其將PCP中的每條線段賦予較低的透明度,使線段稀疏部分的顏色被淡化、線(xiàn)段密集區域的顏色被加深。此種方法的缺(quē)陷是透明度值存在下限,不能擴展到更大規模(mó)的數據(jù)集(jí)中。基於分布(bù)直方圖的PCP方法(圖10)按(àn)每(měi)兩個變量計算二維分布直方圖,以直方圖中的每一格表示坐標圖中的一(yī)條線段(duàn),並按直方圖的頻率值設定線段的透明度。由於能在大幅減少線段數量的同時,保(bǎo)留(liú)PCP中的可視化特征,基於分(fèn)布直方(fāng)圖的方法可被擴展到更大規模的數據集。除此之外(wài),PCP中減少(shǎo)視覺混雜的方法還有基於捆紮的方法、基於聚類的方法(fǎ)、基(jī)於刷的方法等。

圖4 PCP中的線段重疊
圖5 基於透(tòu)明度的方法
圖(tú)6 基於分布直方圖的方法


PCP在SHM中的應用

  • 結構健康監測案例

橋梁SHM的監測內容主要包(bāo)括環(huán)境(jìng)運營荷載與結構響應兩類,環境與運營荷載的(de)監測項有溫度、降水量、空氣濕度、風荷載、交通荷載、地震輸(shū)入等;結構響應(yīng)監測項有幾(jǐ)何變形(xíng)和位移、加速度、應變、轉角、索力等。基於SHM數據首先(xiān)可(kě)以進行結構損傷(shāng)或異常識別,但(dàn)在實際橋梁中這還很(hěn)難理想實現,一是因為當前國(guó)內安裝有SHMS的大部分橋梁服(fú)役時間較(jiào)短,尚未出現(xiàn)明顯的損(sǔn)傷和退化;二是受傳感技術和(hé)數據分析方法的限製,結構初期的微小損傷難以被識別。進行結構狀態評估是SHM的主(zhǔ)要目的之一,對於服役初期階段尚無明顯損傷的新結構,SHM數據可用於分析正(zhèng)常環境與(yǔ)運營荷載下的結構響應規律,從而定義結構的正常狀態,並分析結構(gòu)狀(zhuàng)態發生偏離的原因。與結構狀態評估有關的研究還包括荷(hé)載效應分析、可靠度分析、安(ān)全(quán)預警、傳感器故障(zhàng)識別(bié)等。

在數據驅動的方法下,橋梁結構損傷或異(yì)常識別與狀態評估大都可歸類於模式識別問題。傳統數據驅動的分析中,模式識別前一般要先對多通道、多種(zhǒng)類的傳感器時間序列數據進行降(jiàng)維,以提升機器學習方法的效率和準確性。然而降維存在(zài)定階的問題,即需要確定最終的變量個數,盡可能多地保留原始數(shù)據中的信息(xī)。此外,損傷識(shí)別、傳感器故障識別等問題常缺(quē)乏足夠的(de)標注數據,使得有監督學習方法很難被應用;無監督學習雖不使用標(biāo)注數據但對參數設定敏感,且很(hěn)容易陷入局部最優解(jiě)。PCP將(jiāng)人的認知能力融入到數據分析(xī)中,為無(wú)法使用有監督學習及無監督學習不穩定情(qíng)況下的模式識別提供了(le)新的思路,並可直接對原始高維數據進行可視化。本文中(zhōng),PCP在SHM模式識別中的性能將(jiāng)通過2個數據集驗證,這兩個數據集均取自某斜拉橋的健(jiàn)康監(jiān)測係統。該斜拉橋共布設有169個各種類型的傳感器,可實現(xiàn)對環境荷載與結構響應的長期實時監測。

圖7 某斜拉橋傳感器布置圖
圖(tú)7 某斜拉橋傳感器布置圖
  • 基於PCP的傳感器(qì)故(gù)障識別

第一個數(shù)據集取自2007年,包括四個數(shù)據維度,分(fèn)別表示設置在主梁伸(shēn)縮縫處的兩個伸縮儀(DP001,DP002)和跨(kuà)中鋼箱梁腹板、底板位(wèi)置的兩個溫度計(jì)(ST002,ST009)所測的17520條數據。兩個伸縮儀在安裝時(shí)因對梁體的熱膨脹考慮不足而沒有設置足夠的預張量,使得夏天高溫時段的伸縮儀監測值溢出其量程而不再發生明顯變化。發生故障的兩(liǎng)個伸(shēn)縮儀中,DP001在(zài)高溫時段過後恢複工作,DP002則自此一直處於故障狀態(圖8)。除了正常(cháng)變(biàn)化狀態和伸縮儀故障兩種模式,時程圖上以0值出現的離群點構成了另(lìng)一類數據模式,其由(yóu)供電中斷等臨時性故障引起,可被視為(wéi)數據中的噪聲。PCP被用以識別這三種模式,為避免數據量增大產生的線段重疊問題,在此(cǐ)分別使用了基於Alpha混合(圖9)和基於分布直方圖的(de)PCP方法(圖10)。

圖8 伸縮儀與溫度時程
圖9 基於Alpha混合的(de)PCP
圖10 基於分布直方圖的PCP

通過基於Alpha混合的PCP可以明顯地識別數據集的三種模式。正常狀態的數據(jù)表現(xiàn)為兩個伸縮儀間、兩個溫(wēn)度計間大部分平(píng)行的線(xiàn)段,表明變量間具有正相關關係;伸縮儀與溫(wēn)度計之間的交匯(huì)區域(yù)(綠色圈內)則表明了二者之間的負相關關係。在兩個伸縮儀(yí)對應(yīng)的坐標軸底部均有密集的線段區域呈現較深的顏色(黑色圓圈(quān)內),對應著伸縮儀在夏天高溫時段的故障。在深顏(yán)色(sè)區域中,DP002伸縮儀線段比DP001伸縮儀更為密集,顏色更深(shēn),對應著DP002處於失(shī)效狀態(tài)的時間更長。在4個坐標軸最下方區域還存在一些(xiē)遠離趨勢的線段(duàn),即異常(cháng)點模式(藍色虛線圈),對應著數據中的噪聲點。基於Alpha混合的方法已可明顯地識別出(chū)數據集中的3種模式,相比之下(xià),基於分布直方(fāng)圖的PCP則可更為突出地顯示所(suǒ)關注的伸縮儀故障數據。

  • 基(jī)於PCP的模式識別

上麵講到的第一個數(shù)據集中,正常狀態、傳感器故障、噪聲(shēng)等(děng)模式是事先已知的。而本節(jiē)第二個數據集中可知的僅(jǐn)有正(zhèng)常狀態的模(mó)式,PCP被用以探索該數據集中是否還隱藏有未知的模式(shì)。第二個數據集有7個變量,分別代(dài)表結構一階(jiē)振動頻率(lǜ)(豎(shù)向彎曲、橫向彎(wān)曲、扭轉)、溫度、風速、交通、濕度(dù)、交通荷載,其中交通荷載由該斜拉橋跨中所(suǒ)測加速度的均方根值(RMS)表征。該(gāi)數據集的時間跨度長達5年,按每小時一個數據點的頻率計算(suàn)得到了由2007年至2012年共52608條數據。為研究環境與運營荷(hé)載對結構動力特性的影響規律,各(gè)變量之間的相關係(xì)數也分別被計算(suàn),並顯示在圖(tú)11、圖12中PCP的下部。在該數據集的模式識別中同樣使用了基於Alpha混合(圖11)和基於分布直方圖(圖12)的方法。

圖11 基於Alpha混(hún)合的PCP(Alpha=0.001)
圖(tú)12 基於分布直方圖的PCP(劃分間隔數=200)

基於(yú)Alpha混合方法的PCP中,風速與扭轉頻(pín)率、豎(shù)彎頻率的平行坐標(biāo)軸之間各(gè)存在兩個狹長的深色區域(藍色圓圈),可表明兩個變量間具有一定的正相關關係。這兩個變量與風速的相關(guān)係(xì)數分(fèn)別為0.199和0.132,則可推斷該相關係數很大程度上由PCP中的狹長深色區域解釋。同理,由(yóu)在(zài)豎彎頻率與溫度、橫彎頻(pín)率與交通荷載坐標(biāo)軸間識別到的深顏色交匯區域(綠色圓圈),也(yě)能很大程(chéng)度上解釋這兩組變量間的負相關係數。除了(le)表示正相關關(guān)係的狹長形深色(sè)區域和表示負相關關(guān)係的交匯區域(yù),還可在圖中識別到(dào)一些表現為細條形的模式,如(rú)交通(tōng)荷載和(hé)橫彎頻率坐標軸間黑色圓圈(quān)中(zhōng)所示。上述由PCP可視化特征識別的相關關係(xì)僅(jǐn)對應著數(shù)據集中的一部分數據,在此將其(qí)定義為“局部相關關係”。局部相關關係模式所具備的物理意義當前尚無法解(jiě)讀,有(yǒu)待於通過交互式的PCP方法提(tí)取出來作進(jìn)一步的分析。

由於數據量較大,基於Alpha混合的方法必(bì)須設定很小的透明度值(在此為Alpha=0.001)。但Alpha值(zhí)在(zài)繪製PCP的OpenGL(繪製計算(suàn)機圖形(xíng)的(de)函數庫(kù))中不可能無限小,在更大規模的數據集中(zhōng),該方法(fǎ)仍將受到線段重疊的影響而無法使用。基於(yú)分布直方圖的PCP方法中,線段數量取決於(yú)分布(bù)直方(fāng)圖的數量,可不受透明度下限值的影響(xiǎng)。采用分布直方圖方法的圖12中交換了部分坐(zuò)標軸的順序,仍可以識別(bié)線段交匯的深色區域(yù)、細條形深色區域所表示的局(jú)部相關關係,但對狹長(zhǎng)形的深色區域呈現不夠明顯,這與該模式的特征(zhēng)不明顯有關(guān),也說明在繪製(zhì)PCP的過程中應結合使用多種參數(直(zhí)方圖數、透明度等),以更全麵地(dì)識別可能(néng)被遺漏的模(mó)式。

在橋梁結構健康(kāng)監測領域,深(shēn)厚的(de)力學背景雖(suī)決(jué)定了(le)對(duì)橋(qiáo)梁結構機理和行為較高(gāo)程度的認知,但(dàn)實測數據中(zhōng)仍存在(zài)環境與(yǔ)運營荷載、采集設(shè)備故障等所產生的不確定性因素。認知這些不(bú)確定性因素、從中識別隱藏的模式,並合理解釋其對應的物理現象,是采用(yòng)包括可視化分析在內的大數據分析方法應試圖去解決的問題。

本文介紹了在大數據可視化分析中常用的PCP方法,通過某斜拉橋結構健康監測係統所采集的兩個(gè)數據集,對其數據可視化和(hé)模(mó)式識別功能(néng)的適用性進行了驗證,可得到以下結論:

(1) PCP方法可用以識別傳感器故障引起(qǐ)的數據異(yì)常,基於(yú)分布直方圖(tú)的PCP方法能夠更為突出地顯示該種模式。

(2) PCP方法中的趨勢模式可呈現環(huán)境荷載(zǎi)與結構響應之間的局部相關關係,且能夠反(fǎn)映大數據分析“追求相關關係而非因果關係”的思維方式。

(3) 與局部相關關係模式對應的數據有必要被(bèi)提取出來以進一步(bù)的分析,能夠選擇並提取相應線段的(de)交互式PCP方法(fǎ)仍有待於在後續(xù)研究中被開發。

大數(shù)據方法(fǎ)在結構健康監測數據分析中的應用研究才剛剛開始,橋梁結構是遵循力學原理設計出的一個人(rén)工產品,相應的監測數據具有明顯的“工業(yè)大數據”特(tè)征,在借鑒其他領域的大數(shù)據分析方法時,我們也應十分注意方法的適用性,避免步入誤區。

上一篇:
浙江秀山大橋橋梁健康監測係統建設已接近尾聲
下一篇:
橋(qiáo)梁加固施工監控的必要性
国产裸体舞一区二区三区婚闹丨日日干丨精品亚洲永久免费精品导航丨www狠狠干丨午夜亚洲一区丨国产永久免费精品999丨中文成人精品视频久久视频丨手机精品一线在线视频