茶是世界上最有價值和最流行的飲品之一,茶葉不僅可以提高機體免疫力,而且可以對抗疾病。紅茶在世界茶產品中是主流的消費產品,中國生產的祁門紅茶是世界三大高香紅茶之一,它具有獨特的果香氣味,受到很多人的青睞。隨著人們對紅茶需求的不斷增加,紅茶的品質越來越受到重視。目前,茶葉市場存在以次充好的現象,但僅憑感官評價正確分辨茶葉品質好壞是比較困難的,而無損檢測具有快速、精確和評價標準穩定的特點,因此實現茶葉的快速無損鑒別是十分必要的。
本文利用近紅外高光譜成像系統(900~1700 nm)對祁門紅茶的6個等級進行分類,比較分析了PCA、MDS、t-SNE和Sammon四種不同降維技術,建立SVM和極限學習機(Extreme Learning Machine,ELM)模型并生成高光譜圖像像素空間分類圖。應用的900-1700nm高光譜相機,可采用杭州彩譜科技有限公司產品FS-15。短波近紅外高光譜相機,采集速度全譜段可達200FPS,被廣泛應用于成分識別,物質鑒別,機器視覺,農產品品質,屏幕檢測等領域。
1.2實驗方法
1.2.1數據采集
近紅外高光譜采集儀的光譜范圍為900~1700 nm,光譜分辨率為3nm,共256個波段。在實驗中將茶葉樣本均勻的平鋪在直徑為5cm,高為2cm的圓形容器中,放在前進速度為1.68 cm/s的移動臺上進行圖像采集,曝光時間為20 ms,鏡頭與樣本之間的距離為32 cm。為避免外部光線影響,高光譜圖像的采集過程在暗箱中進行。原始高光譜圖像噪聲較大,故對其進行圖像校正。本文采用黑白校正和最小噪聲分離變換(Minimum Noise Fraction,MNF)方法對原始數據進行去噪處理。使用ENVI5.3軟件,提取50×50像素中心區域作為感興趣區域(Region of Interest,ROI),計算其平均光譜作為樣本的原始光譜。各等級的茶葉樣本按照3:2分為訓練集和測試集,訓練集包含288個樣本,測試集包含192個樣本。
1.2.2數據處理
1.2.2.1數據預處理
圖像采集過程中受到暗電流噪聲、探測器靈敏度和光學傳輸特性等因素影響,導致采集的圖像質量受到影響,需要對采集圖片進行黑白校正。在相同的采集條件下,分別采集反射率接近100%的白幀圖像和反射率接近為0%的黑幀圖像。
2結果與分析
2.1 樣本光譜特征
由于鹵素燈在初始階段光照強度不均勻以及儀器噪聲影響,為了保證數據的準確性和實驗結果的可靠性,剔除900~980 nm和1650~1700 nm,選取光譜范圍在980~1650 nm的203條光譜帶作為祁門紅茶的原始光譜數據。所有樣本的原始光譜曲線如圖1所示,光譜數據受到隨機噪聲和散射效應的干擾,需要對其進行預處理。本文對原始光譜分別采用SG平滑濾波(Savitzky-Golay Filtering,SG)、標準正交變換(Standard Normal Variate,SNV)、多元散射校正(Multiplicative Scatter Correction,MSC)、SG-SNV和SG-MSC等算法對數據進行預處理。SG可以消除或減弱隨機噪聲,SNV和MSC用來校正散射現象,SG-SNV和SG-MSC對原始算法進行了優化。
實驗結果表明,SG-SNV預處理效果優于其他算法。該算法有效地修正了光散射引起的光譜基線漂移問題,使光譜的吸收峰位置更加突出,光譜曲線如圖2所示。祁門紅茶6個等級的平均光譜曲線如圖3所示,不同等級的茶葉在三個峰處反射率差別較明顯。由此可知,高光譜成像技術可建立分類模型對6個等級的祁門茶葉進行識別。
2.2 高維數據可視化
利用MDS、Sammon、t-SNE和PCA等算法對高光譜圖像進行高維數據的低維可視化。實驗結果如圖4所示,不同顏色的聚類代表不同的茶葉等級,只有t-SNE可以將6個等級的茶葉明確區分。如圖4(a)、圖4(b)、圖4(d)所示,MDS和PCA不能將G1和G4完全區分開,Sammon不能將G5、G6以及G1、G3完全區分開,主要原因是該樣本具有相似的光譜特征。與PCA和MDS相比,Sammon對6個等級祁門紅茶的可視化效果較差。由于Sammon映射沒有顯式地表示轉換函數.該算法只是提供了一種度量方法來衡量轉換結果,故分離簇的能力不強。PCA和MDS無法保持高維空間的數據結構,因其只利用了遠處數據點的信息,所以分離簇能力較弱。如圖4(c)所示,與其他算法相比,t-SNE能夠捕獲數據的非線性和鄰域信息,故可呈現較好的可視化效果。由實驗結果可知,t-SNE識別最大分離簇數的能力優于PCA、MDS和Sammon。光譜數據進行判別的實驗結果。其中,SVM模型懲罰系數c為1.2,核函數系數g為2.8,ELM模型的隱層節點數為5。由實驗結果知,SVM和SG-SNV-SVM模型,訓練集和測試集的準確率分別為100%。ELM模型的識別效果較差,ELM模型的訓練集和測試集準確率分別為90.27%和85.93%,SG-SNV-ELM模型的訓練集和測試集識別率分別為98.61%和96.35%。預處理之后的SVM模型分類精度沒有發生變化,而經過預處理的ELM模型分類精度顯著提高。由此可知,SG-SNV預處理對ELM得到有效應用。
圖5是不同模型的混淆矩陣結果。圖5(a)混淆矩陣結果存在較多識別錯誤,G2中10個樣本和3個樣本被分別識別為G1和G4,G3中3個樣本被識別為G4,G4中3個樣本被識別為G3,G5中1個樣本和3個樣本被分別識別為G4和G6,G6中4個樣本被識別為G5。圖5(b)混淆矩陣結果出現少量識別錯誤,G3中1個樣本被識別為G1,G4中4個樣本被識別為G2,G6中1個樣本被識別為G5。圖5(c)和圖5(d)的混淆矩陣結果完全正確。為了可視化6個等級祁門紅茶的差異,對不同等級茶葉的像素光譜信息建立SVM和ELM識別模型,實驗結果如圖6示。如圖6(a)所示,提取灰度圖像,如圖6(b)、圖6(c),祁門紅茶等級分類圖由上到下依次為一級、二級、三級、四級、五級和六級。由圖6(b)所示,SVM模型將6個等級的祁門紅茶識別為各自相應的等級,但也存在一些像素點分類錯誤,特別是圓形容器邊緣的誤分類尤為明顯。由圖6(c)所示,ELM模型的分類圖中不僅邊緣像素存在誤分類,而且各等級之間存在嚴重誤分類。除去邊緣分類錯誤,造成不同等級茶葉誤分類的主要原因是光譜的相似性。誤分類的另一個原因可能是茶葉的純度,例如,將低等級的茶葉摻入高等級茶葉中進行混合售賣盈利。SVM模型的識別結果優于ELM模型。因此,SVM有較好的識別效果和性能。
3結論
本文利用近紅外高光譜成像技術,結合SNV-SG、PCA、MDS、Sammon及t-SNE算法,基于光譜特征,分別建立祁門紅茶等級快速無損識別的SVM模型和ELM模型。結果顯示,t-SNE能更好地分離不同等級的祁門紅茶,其高維空間鄰近數據點的信息可以保持低維空間中的數據結構。基于光譜特征的SVM模型和ELM模型的測試集識別率分別為100%和96.35%。因此,近紅外高光譜成像技術結合機器學習在茶葉產品分類的應用領域具有很大潛力。