
高光譜成像智能檢測系統:大米水分/脂肪酸含量無損分析與可視化平臺(中)
1.2.結果與討論
(1)水分含量(MC)和脂肪酸值(FAC)的統計分析
一種合適的樣本劃分方法能夠為建模選擇更具代表性的樣本,并提高模型的穩健性。在本研究中,采用了基于聯合x-y距離的樣本集分割(SPXY)方法,按照2:1的比例將樣本劃分為校準集和預測集。表2顯示了不同集合中樣本的MC和FAC的統計結果。從表2可以看出,校準集中的MC和FAC的范圍覆蓋了預測集中的范圍,這符合構建高光譜校準模型的條件。在所有樣本中排除了異常樣本,包括異常的光譜值、水分值和脂肪酸值。
(2)光譜分析
圖2展示了大米和精米在900至1700nm波長范圍內的原始反射光譜。從圖2可以看出,大米和精米在900至1400nm波長范圍內的光譜趨勢相同。然而,在1400至1700nm波長范圍內,大米的反射光譜逐漸增加,而精米的反射光譜趨于穩定。此外,大米光譜的反射值通常高于精米。這可能是由于大米和精米在顏色、光滑度和透明度方面的不同造成的。在圖2中,大約在960、1200和1450nm處有三個明顯的峰值。960nm附近的峰值可能是由水中和碳水化合物中O-H的二階倍頻協同作用引起的。1200nm附近的峰值與樣品的水分含量(MC)有關,而1450nm附近的峰值歸因于O-H伸縮的一階倍頻。由于前后波長范圍內的光譜噪聲較大,因此舍棄了900至940nm和1670至1700nm的光譜數據。用于建模的光譜數據包含在940至1670nm波長范圍內的468個變量。
圖2. 大米和精米樣品的原始光譜:(a) 大米;(b) 精米。
(3)光譜預處理分析
五種預處理方法被用于處理大米和精米樣品的光譜,并且使用偏*小二乘回歸(PLSR)算法建立了MC和FAC的校準模型。表3顯示了不同預處理方法下MC和FAC樣品PLS模型的預測結果。從表3中可以發現,在“大米水分”模型中,使用SNV和SG-2預處理得到的結果是較好的。使用SNV預處理建立的模型的決定系數(R2C)相對較高,達到了0.9682。然而,該模型不穩定,穩健性較差,預測相關系數(R2P)僅為0.9466。因此,SG-2預處理的模型比SNV預處理的模型表現更好。在“大米脂肪酸”模型中,除了SG-2外,其他預處理方法的R2P未達到0.8,且R2P與R2C差異顯著,因此這些模型的穩健性較差。因此,SG-2是“大米脂肪酸”模型中*佳的預處理方法。對于“精米水分”,SG-2預處理的模型具有更高的R2C和R2P。總之,SG-2是在“大米水分”、“精米水分”和“大米脂肪酸”三個預測模型中*佳的預處理方法。這三個模型的R2P和均方根誤差(RMSEP)分別為0.9639、0.9528、0.8238和0.0032、0.0035、2.1517。而在“精米脂肪酸”模型中,SG平滑是*佳的預處理方法,該模型的R2P和RMSEP分別為0.8427和1.7806。
從表3可以看出,大米中MC模型的性能優于精米中的模型。這是因為稻殼含有水分,其吸水能力高于精米。因此,當大米樣品被水處理時,稻殼吸收的水分比精米多。所以大米的光譜包含了比精米更多的水分信息,導致大米中MC模型的性能優于精米。相比之下,精米中FAC模型的性能優于大米。稻殼的本質是一種纖維,主要由纖維素、半纖維素、木質素等成分構成。這表明稻殼不含有脂肪酸,而存在于大米光譜中的稻殼干擾信息將影響建模過程中脂肪酸的預測。因此,獲得的光譜信息可能受到稻殼的干擾,導致精米的預測精度下降。所以使用高光譜圖像預測大米的脂肪酸時,稻殼會對預測精度產生特定影響。此外,過多的波長并不能更有助于提高預測速度和模型的穩健性。因此,進行波長變量選擇是必要的,以減少冗余波長,提高模型穩定性,并實現實時高光譜檢測。
(4)變量選擇
由于使用SG或SG-2預處理的MC和FAC模型獲得了*佳結果,因此對這些光譜進行了CARS和SPA方法處理,以選擇對水分和脂肪酸有顯著影響的波長。然后,使用這些選定的波長通過PLSR開發了水分和脂肪酸的校準模型,并比較了“大米水分、精米水分、大米脂肪酸和精米脂肪酸”四個模型的性能。從表4可以看出,CARS選擇的基本波長數量分別為17、40、17和13,而SPA選擇的基本波長數量分別為6、11、9和10。SPA選擇的重要波長數量更少,使得實際應用更為簡便。CARS模型的R2P分別為0.9643、0.9445、0.7528和0.8480。SPA模型的R2P分別為0.9650、0.9567、0.8436和0.8573。SPA模型具有更高的R2P,且模型更為**。CARS模型的RPD值分別為5.3750、4.3784、2.0565和2.6227。SPA模型的RPD值分別為5.5484、4.9091、2.5854和2.7070。SPA模型的RPD值更高,表明模型更為穩定。
此外,SPA模型的性能優于全光譜模型,這表明SPA選擇的波長包含了MC或FAC幾乎所有的有效信息。與全光譜模型的結果類似,SPA模型中大米的MC預測精度高于精米,而大米的FAC預測精度低于精米。這進一步證明了我們在第3.3節分析的可信度。圖3展示了SPA變量選擇的結果。從圖3(a, c, e, g)可以看出,隨著所選波長變量數量的增加,RMSE值逐漸減小。我們的目標是在盡可能選擇較少波長的前提條件下獲得較低的RMSE值。圖3(b, d, f, h)顯示了所選特征波長的分布。總之,“大米水分”、“精米水分”和“大米脂肪酸”的*佳模型是“SG2-SPA-PLS”,而“精米脂肪酸”的*佳模型是“SG-SPA-PLS”。
圖3. SPA對大米/精米中水分和脂肪酸的波長選擇結果。(a) 大米中水分的RMSE變化 (b) 大米中選定水分波長的分布 (c) 精米中水分的RMSE變化 (d) 精米中選定水分波長的分布 (e) 大米中脂肪酸的RMSE變化 (f) 大米中選定脂肪酸波長的分布 (g) 精米中脂肪酸的RMSE變化 (h) 精米中選定脂肪酸波長的分布。
SPA選擇的波長如表5所示。對于MC模型,主要波長970、1150和1450nm分別歸因于O-H伸縮的一階、二階和三階倍頻。對于FAC模型,脂肪酸的顯著峰值分布在945、994、1105、1382和1527nm,主要來自C-H的**和**倍頻以及-CH2基團的伸縮。約1160nm的吸收峰由-HC-CH-鍵形成,這可以解釋選擇的1141nm波長。選擇的光譜波長939.06、964.17和967.31nm主要來自O-H鍵的彎曲振動。選擇的波長1095.9、1596.59和1329.81nm中,1098nm的峰值屬于C-H鍵的第三倍頻多重振動,1586nm的峰值歸因于N-H鍵的**倍頻多重振動,1320nm的峰值與C-H鍵的彎曲振動相關。圖4顯示了MC和FAC的實際值與預測值之間的偏差。從圖4可以看出,MC的預測值和實際值高度吻合。這表明MC的預測模型具有很高的準確性,預測值和實際值之間的差異很小。FAC的預測值和實際值的吻合度不如MC,但預測值和實際值也非常接近。這表明盡管FAC的模型性能略遜于MC,但它也能準確預測大米和精米中的FAC。
圖4. 大米/精米中水分和脂肪酸預測結果的散點圖:(a) 大米中的水分;(b) 精米中的水分;(c) 大米中的脂肪酸;(d) 精米中的脂肪酸。RVM:水分的實際值;PVM:水分的預測值;RVFA:脂肪酸的實際值;PVFA:脂肪酸的預測值。