廣義地說,在時(shí)間和空間中存在的可觀察的事物,若可區(qū)別它們之間是否相同或者相似的信息,皆可稱之為模式。模式所指的并非事物本身,而是從事物中獲取的信息。因而,模式通常反映為具有時(shí)間或空間分布的信息。而識(shí)別出特定客體所模仿的標(biāo)本就是模式識(shí)別。狹義地說,模式是通過觀測具體的個(gè)別事物而獲取的具有時(shí)間和空間分布的信息。擁有某些共同特性的模式的集合稱為模式類。模式識(shí)別就是對(duì)一些自動(dòng)技術(shù)進(jìn)行研究,借助這些技術(shù),計(jì)算機(jī)可以自動(dòng)地(或者靠人進(jìn)行少量干涉)將待識(shí)別的模式劃分到其所屬的模式類中。
由前述可知,可通過定量描述和結(jié)構(gòu)性描述兩種方法來描述模式。定量描述的方法是通過一組數(shù)據(jù)來描述模式。結(jié)構(gòu)性描述的方法是用一組基元描述模式。相對(duì)于兩種模式的描述方法,有統(tǒng)計(jì)模式識(shí)別方法和結(jié)構(gòu)(句法)模式識(shí)別兩種模式識(shí)別的方法。在統(tǒng)計(jì)模式識(shí)別方法中,用特征參數(shù)把每個(gè)樣本表示成多維空間中的一個(gè)點(diǎn),按照“物以類聚”的道理,同類或相似的“樣本”之間的距離應(yīng)比較近,不同類“樣本”之間的距離應(yīng)較遠(yuǎn)。據(jù)此,我們就可以依據(jù)各個(gè)點(diǎn)之間的距離或距離的函數(shù)進(jìn)行判別、分類,并根據(jù)分類結(jié)果來預(yù)測未知;結(jié)構(gòu)模式識(shí)別是用符號(hào)串(樹)來描述模式,它以模式的結(jié)構(gòu)信息為分析對(duì)象的識(shí)別技術(shù)。
模式識(shí)別系統(tǒng)的組成主要包括由五個(gè)部分:即信息獲取、預(yù)處理、特征抽取、分類器設(shè)計(jì)和分類器,具體如圖所示。
為使計(jì)算機(jī)對(duì)客體能分類識(shí)別,需要用計(jì)算機(jī)能接受的形式表示客體,通過測量、采樣和量化,能夠用矩陣或向量表示一維波形或二維圖象,這就是信息獲取過程。
②預(yù)處理
預(yù)處理的目的是去除噪聲,增強(qiáng)有用信息,并對(duì)各種因素導(dǎo)致的退化現(xiàn)象進(jìn)行復(fù)原。常用多維空間的點(diǎn)來表示樣本的特征參量,用矢量表示為:
x=(x1,x2,...xn)}
③特征抽取
從信息獲取部分得到的原始數(shù)據(jù)量往往非常大。為能有效實(shí)現(xiàn)分類識(shí)別,需要通過對(duì)原始數(shù)據(jù)進(jìn)行選擇或變換,獲取最能代表分類本質(zhì)的特征,形成特征向量,這個(gè)過程就是特征抽取。特征提取的過程在實(shí)際應(yīng)用中通常包括:先測試一組直觀上合理的特征,然后將其減少至數(shù)目合適的最佳集。一般情況下,不太容易建立起符合上述要求的理想特征。
④分類器設(shè)計(jì)
為把待識(shí)別模式歸并到各自的模式類中去,需要設(shè)計(jì)一組分類判別規(guī)則。
其基本作法為:應(yīng)用一定量的樣本作為訓(xùn)練樣本集,確定出一組分類判別規(guī)則,使得根據(jù)這組分類判別規(guī)則對(duì)待識(shí)別模式進(jìn)行分類而造成的錯(cuò)誤識(shí)別率最小或引起的損失最小。
⑤分類器
分類器根據(jù)已經(jīng)確定的分類判別規(guī)則來分類識(shí)別待識(shí)別模式,輸出分類結(jié)果。