本站小編為你精心準(zhǔn)備了多儲(chǔ)備池回聲狀態(tài)網(wǎng)絡(luò)研究參考范文,愿這些范文能點(diǎn)燃您思維的火花,激發(fā)您的寫作靈感。歡迎深入閱讀并收藏。
1引言
隨著計(jì)算機(jī)技術(shù)、Internet網(wǎng)絡(luò)以及存儲(chǔ)技術(shù)的發(fā)展,各種形式的數(shù)字信息正在以驚人的速度增長(zhǎng)。數(shù)字圖像作為數(shù)字信息的重要成員之一,以其內(nèi)容豐富、形象生動(dòng)、清晰明了等特點(diǎn)在社會(huì)生活中扮演著越來越重要的角色,與此同時(shí),人們對(duì)圖像檢索的需求也越來越高。20世紀(jì)90年代,基于內(nèi)容的圖像檢索技術(shù)(CBIR)應(yīng)運(yùn)而生,該技術(shù)與圖像識(shí)別技術(shù)進(jìn)行了深層次的結(jié)合,但單純的圖像低層特征無法表示圖像的內(nèi)在本質(zhì),深層語義得不到很好的體現(xiàn),也就是存在所謂的“語義鴻溝”。由于機(jī)器學(xué)習(xí)技術(shù)能夠很好地獲取圖像低層特征和文字描述之間的對(duì)應(yīng)關(guān)系,越來越多的研究者將機(jī)器學(xué)習(xí)技術(shù)應(yīng)用于圖像的語義映射之中,以解決“語義鴻溝”問題,并取得了一定的成果。Li等將模糊支持向量機(jī)(FSVM)應(yīng)用于圖像分類與檢索中,通過模糊支持向量機(jī)計(jì)算出樣本x對(duì)i類的歸屬程度im(x),將樣本x歸屬到im取值最大的一類,有效地提高了不可分區(qū)域的分類精度。
Kundu等提出了一種交互式的圖像檢索模型,該模型使用MPEG-7邊緣直方圖描述符(EHD)[6]作為低層特征,通過神經(jīng)網(wǎng)絡(luò)預(yù)分類器對(duì)圖像庫進(jìn)行預(yù)分類,利用不同的編號(hào)表示被分成的各個(gè)子集,減少了檢索時(shí)的搜索空間,提高了檢索速度。楊棟等[5]提出了貝葉斯通用背景模型并將其應(yīng)用到圖像語義標(biāo)注之中,該方法引入受限的對(duì)稱Dirichlet分布來描述GMM權(quán)重參數(shù)的先驗(yàn)分布,利用Bayes最大后驗(yàn)概率對(duì)高斯混合模型參數(shù)集進(jìn)行估計(jì),具有良好的圖像標(biāo)注精度。但傳統(tǒng)神經(jīng)網(wǎng)絡(luò)結(jié)構(gòu)復(fù)雜,訓(xùn)練速度慢,難以滿足目前對(duì)大數(shù)據(jù)信息處理的需求。支持向量機(jī)雖然訓(xùn)練速度較快但其作為一種二分類器,對(duì)于多分類問題具有一定的局限性。同時(shí)目前存在的語義映射方法大多缺乏對(duì)特征數(shù)據(jù)的針對(duì)性,魯棒性及泛化能力有待提高。針對(duì)上述問題,本文結(jié)合語義映射框架,嘗試性地將回聲狀態(tài)網(wǎng)絡(luò)分類模型應(yīng)用于圖像語義映射之中。由于回聲狀態(tài)網(wǎng)絡(luò)以隨機(jī)稀疏連接的儲(chǔ)備池作為隱藏層,結(jié)構(gòu)相對(duì)簡(jiǎn)單,并且只需訓(xùn)練儲(chǔ)備池至輸出層的權(quán)值,訓(xùn)練過程簡(jiǎn)單快速,有效地解決了傳統(tǒng)神經(jīng)網(wǎng)絡(luò)訓(xùn)練速度慢、結(jié)構(gòu)復(fù)雜等問題。同時(shí),為解決圖像特征數(shù)據(jù)間關(guān)系復(fù)雜、維數(shù)較高的問題[8],引入集成學(xué)習(xí)思想,對(duì)圖像特征按相關(guān)性進(jìn)行劃分,針對(duì)劃分后的圖像特征分別構(gòu)造儲(chǔ)備池形成多個(gè)分類器,并對(duì)各分類器得到的分類結(jié)果進(jìn)行集成,使得各分類器對(duì)特征數(shù)據(jù)更具針對(duì)性,并且能夠提高分類器的泛化能力和魯棒性。
2圖像特征提取
圖像的低層特征主要包括圖像的顏色、紋理、形狀等。本文主要利用圖像的顏色矩、灰度共生矩陣以及Gabor小波變換提取圖像的低層視覺特征。(1)顏色矩[9]能夠很好地描述顏色的分布特征。通常提取顏色分量的一階矩、二階矩和三階矩表示圖像的顏色分布。一階矩表示每個(gè)顏色分量的平均強(qiáng)度,二階矩表示待測(cè)區(qū)域的顏色方差,三階矩表示顏色分量的偏斜度及不對(duì)稱性。本文提取圖像R、G、B三種顏色分量的三個(gè)低階矩,共9維。(2)灰度共生矩陣[10]是對(duì)圖像上保持距離d的兩像素分別具有某灰度的狀況進(jìn)行統(tǒng)計(jì)得到的。假設(shè)圖片共有M×N個(gè)像素點(diǎn),從某像素點(diǎn)(x,y)開始,該像素點(diǎn)的灰度級(jí)為i,灰度共生矩陣即統(tǒng)計(jì)與其方向角為θ、距離為d、灰度級(jí)為j的像素點(diǎn)同時(shí)出現(xiàn)的概率,假設(shè)mnf(x,x)為像素點(diǎn)mn(x,x)對(duì)應(yīng)的灰度級(jí),Count(M)表示M情況出現(xiàn)的次數(shù),由此可將灰度共生矩陣的獲取方法概括為公式。其中,T表示灰度共生矩陣元素個(gè)數(shù)。本文取通過灰度共生矩陣得到的能量、對(duì)比度、相關(guān)值以及熵4個(gè)特征值分別在0°、45°、90°、135°方向的最大值、最小值、平均值及標(biāo)準(zhǔn)差值作為訓(xùn)練集,共16維。(3)Gabor小波變換[11]與人類視覺系統(tǒng)中簡(jiǎn)單細(xì)胞的視覺刺激響應(yīng)非常相似。在提取目標(biāo)的局部空間和頻率域信息方面具有良好的特性。Gabor函數(shù)是一個(gè)用高斯函數(shù)調(diào)制的復(fù)正弦函數(shù),能夠在給定區(qū)域內(nèi)提取局部的頻域特征,本文所用的Gabor濾波器對(duì)應(yīng)的實(shí)部如公式(2)所示,虛部如公式(3)所示。本文提取不同方向的Gabor小波變換過后結(jié)果的能量均值及標(biāo)準(zhǔn)方差作為特征,共12維。
3.1基本模型回聲狀態(tài)網(wǎng)絡(luò)(EchoStateNetwork,ESN)由Jaeger于2001年提出,其獨(dú)特之處在于將隨機(jī)稀疏連接的神經(jīng)元構(gòu)成的儲(chǔ)備池作為隱藏層,用以對(duì)輸入進(jìn)行高維的、非線性的表示[13]。ESN是一種新型的遞歸神經(jīng)網(wǎng)絡(luò),由輸入層、儲(chǔ)備池、輸出層組成,其結(jié)構(gòu)如圖3所示:假設(shè)該網(wǎng)絡(luò)中輸入層有K個(gè)輸入,儲(chǔ)備池有N個(gè)內(nèi)部連接單元,輸出層有L個(gè)輸出,儲(chǔ)備池內(nèi)部單元狀態(tài)更新方程如公式(7)所示:其中,outW表示儲(chǔ)備池與輸出單元的連接權(quán)值為輸出層到儲(chǔ)備池的連接權(quán)值,通過狀態(tài)變量計(jì)算得到,outf為輸出單元處理函數(shù)。
3.2分類模型回聲狀態(tài)網(wǎng)絡(luò)常用于解決時(shí)間序列預(yù)測(cè)方面的問題,2009年,Alexandre等[7]提出面向靜態(tài)模式分類的回聲狀態(tài)網(wǎng)絡(luò)方法。在此基礎(chǔ)上,彭喜元等[14]提出了隨機(jī)子空間多儲(chǔ)備池分類模型,提高了傳統(tǒng)回聲狀態(tài)網(wǎng)絡(luò)分類模型的泛化能力及分類性能;郭嘉等提出了基于相應(yīng)簇的回聲狀態(tài)網(wǎng)絡(luò)靜態(tài)分類方法,將儲(chǔ)備池子簇與需分類數(shù)據(jù)類別數(shù)量建立對(duì)應(yīng)關(guān)系,能夠更好地滿足對(duì)不同數(shù)據(jù)有針對(duì)性的分類需求。分類模型不同于預(yù)測(cè)模型,各數(shù)據(jù)間并不存在依賴關(guān)系,所以回聲狀態(tài)網(wǎng)絡(luò)分類模型在訓(xùn)練某特征數(shù)據(jù)對(duì)應(yīng)的狀態(tài)變量x(n)時(shí)保持輸入數(shù)據(jù)不變,當(dāng)狀態(tài)變量的變化量(i)(i1)||x(n)x(n)||小于閾值時(shí),表示狀態(tài)變量趨于穩(wěn)定,該特征數(shù)據(jù)對(duì)應(yīng)的狀態(tài)變量訓(xùn)練完成。
4語義映射方法
4.1語義映射框架圖像的語義映射主要是通過分析訓(xùn)練集中圖像的特征,并通過機(jī)器學(xué)習(xí)的方式將訓(xùn)練集中的圖像低層特征和語義關(guān)鍵詞建立聯(lián)系,得到一定的知識(shí)或者規(guī)則,之后通過這些知識(shí)對(duì)新圖像進(jìn)行語義映射,從而獲得新圖像的高層語義描述。整個(gè)框架主要包括圖像低層特征提取、語義訓(xùn)練、樣本圖片語義映射等環(huán)節(jié)。本研究采取的語義映射框架如圖4所示。
4.2多儲(chǔ)備池回聲狀態(tài)網(wǎng)絡(luò)語義映射模型集成學(xué)習(xí)能有效地提高學(xué)習(xí)器的泛化能力,是目前機(jī)器學(xué)習(xí)領(lǐng)域重要的研究方向之一。本文借鑒集成學(xué)習(xí)思想,針對(duì)不同特征提取算法得到的特征數(shù)據(jù)之間相對(duì)獨(dú)立的特點(diǎn),提出多儲(chǔ)備池回聲狀態(tài)網(wǎng)絡(luò)分類模型。該模型將提取出的低層圖像特征按類劃分,對(duì)不同類型的數(shù)據(jù)分別構(gòu)造與其相對(duì)應(yīng)的儲(chǔ)備池,在仿真時(shí)將各儲(chǔ)備池的映射結(jié)果進(jìn)行線性融合,提高分類器與特征數(shù)據(jù)的適應(yīng)性。其主要結(jié)構(gòu)如圖5所示。本文將37維圖像低層特征按照提取特征的方法劃分為三組,包括根據(jù)圖像灰度共生矩陣得到的16維特征,計(jì)算顏色矩得到的9維特征以及通過Gabor小波變換得到的12維特征。
5實(shí)驗(yàn)與結(jié)果分析
5.1實(shí)驗(yàn)環(huán)境實(shí)驗(yàn)在Windows764位操作系統(tǒng)下進(jìn)行,測(cè)試軟件為Matlab2010b。硬件環(huán)境:CPU為Intel酷睿22.2GHz雙核處理器,內(nèi)存為4GB。
5.2圖像語義映射實(shí)驗(yàn)實(shí)驗(yàn)選取Corel圖片庫[18]中的汽車(Bus)、恐龍(Dinosaur)、花(Flower)、馬(Horse)、山川(Mountain)以及食物(Food)各100張圖片,共600張圖片作為圖片庫,每類隨機(jī)抽出其中的50張作為訓(xùn)練集,另外50張作為測(cè)試集。在實(shí)驗(yàn)中,儲(chǔ)備池處理單元數(shù)N均為40,儲(chǔ)備池內(nèi)連接權(quán)值W均采用隨機(jī)生成的方式。BP神經(jīng)網(wǎng)絡(luò)采用一層隱藏層,隱藏層中包含90個(gè)神經(jīng)元,訓(xùn)練精度目標(biāo)為10–10,為確保實(shí)驗(yàn)數(shù)據(jù)的準(zhǔn)確性,全部采取交叉驗(yàn)證的方式進(jìn)行。為了驗(yàn)證本文的特征提取算法在語義映射中的效果,首先對(duì)比了在回聲狀態(tài)網(wǎng)絡(luò)模型下,分別以灰度共生矩陣特征(Glcm),顏色矩特征(Color_Moment),Gabor小波特征(Gabor)為特征數(shù)據(jù)時(shí)的分類準(zhǔn)確度。不同數(shù)據(jù)特征在回聲狀態(tài)網(wǎng)絡(luò)分類模型中的映射錯(cuò)誤率如圖8所示。從圖8看出,不同類型的圖像特征在不同種類圖像的語義映射中表現(xiàn)各有優(yōu)劣,Mountain類和Food類圖片的映射錯(cuò)誤率較高。本文將6類圖片的映射錯(cuò)誤率按三種特征分別計(jì)算平均值,得到每一類特征的整體錯(cuò)誤率All,從整體映射錯(cuò)誤率All來看,通過Gabor小波變換得到的圖像特征具有較優(yōu)的映射效果,但單一的圖像特征得到的語義映射效果不夠理想。圖9顯示了特征融合后各分類器的映射錯(cuò)誤率,MESN對(duì)應(yīng)多儲(chǔ)備池回聲狀態(tài)網(wǎng)絡(luò)語義映射模型,ESN對(duì)應(yīng)單儲(chǔ)備池回聲狀態(tài)網(wǎng)絡(luò)語義映射模型,BPNN對(duì)應(yīng)BP神經(jīng)網(wǎng)絡(luò)語義映射模型。(1)多儲(chǔ)備池回聲狀態(tài)網(wǎng)絡(luò)模型具有最低的語義映射錯(cuò)誤率,相對(duì)于傳統(tǒng)回聲狀態(tài)網(wǎng)絡(luò)及BP神經(jīng)網(wǎng)絡(luò),平均錯(cuò)誤率分別相對(duì)下降了19.28%和31.64%。具體計(jì)算方法是。(2)對(duì)比圖9中MESN、ESN以及圖8中的數(shù)據(jù)可以看出,多儲(chǔ)備池回聲狀態(tài)網(wǎng)絡(luò)具有較強(qiáng)的泛化能力,能夠有效提高語義映射精度。(3)特征融合后的分類效果明顯優(yōu)于單一特征的分類效果。為了更直觀地顯示映射得到的語義信息與目標(biāo)語義之間的相似程度,在這里定義樣本n與第q類目標(biāo)語義的相似度程度(q)Sim(n)。通過圖10可以看出,BP神經(jīng)網(wǎng)絡(luò)模型以及單儲(chǔ)備池回聲狀態(tài)網(wǎng)絡(luò)模型分別在返回11張、13張圖片時(shí)出現(xiàn)錯(cuò)誤樣本,而多儲(chǔ)備池回聲狀態(tài)網(wǎng)絡(luò)在返回24張圖片時(shí)出現(xiàn)錯(cuò)誤樣本,且在各返回圖片數(shù)下均保持最高的準(zhǔn)確率。因此,通過多儲(chǔ)備池回聲狀態(tài)網(wǎng)絡(luò)模型得到的語義信息更具魯棒性。當(dāng)返回50張圖片時(shí),ESN及BPNN對(duì)應(yīng)的查準(zhǔn)率分別為90%和87.67%,而本文提出的MESN模型對(duì)應(yīng)的查準(zhǔn)率為91.67%,查準(zhǔn)率分別相對(duì)提高1.86%及4.56%。回聲狀態(tài)網(wǎng)絡(luò)語義映射模型在具有較高映射精度的情況下同時(shí)具有較快的訓(xùn)練速度,在實(shí)驗(yàn)中MESN的平均訓(xùn)練時(shí)間僅為1.53s,而BP神經(jīng)網(wǎng)絡(luò)的平均訓(xùn)練時(shí)間為48.24s。
5結(jié)語
本文將多儲(chǔ)備池回聲狀態(tài)網(wǎng)絡(luò)分類模型應(yīng)用于圖像語義映射中,實(shí)驗(yàn)提取圖像灰度共生矩陣的能量、對(duì)比度、相關(guān)值、熵4個(gè)標(biāo)量,RGB顏色空間的顏色矩以及Gabor小波變換后圖像的均值及方差作為圖像特征,分類器采用多儲(chǔ)備池回聲狀態(tài)網(wǎng)絡(luò)分類模型,并對(duì)儲(chǔ)備池中狀態(tài)變量的調(diào)整方式進(jìn)行優(yōu)化。實(shí)驗(yàn)結(jié)果表明本文提出的語義映射方法是可行的、有效的。下一步工作將在大型圖像數(shù)據(jù)庫中進(jìn)行實(shí)驗(yàn),并提取更具區(qū)分力的圖像低層特征,擴(kuò)展特征向量。與此同時(shí)進(jìn)一步優(yōu)化回聲狀態(tài)網(wǎng)絡(luò)儲(chǔ)備池的結(jié)構(gòu),使其對(duì)特征數(shù)據(jù)更具針對(duì)性及適應(yīng)性。
作者:王華秋 王斌 聶珍 單位:重慶理工大學(xué)計(jì)算機(jī)科學(xué)與工程學(xué)院 重慶理工大學(xué)圖書館