logo
Loading...

Day59 _ 主成分分析(Principal Component Analysis)在手寫數字資料集的應用 - Cupoy

Day59的作業是以 sklearn 的 digits 手寫數字資料為例,讓同學嘗試將圖片資料以 P...

day59,pca,digit recongnition

Day59 _ 主成分分析(Principal Component Analysis)在手寫數字資料集的應用

2020/08/10 03:57 PM
機器學習新手論壇
張天恩
觀看數:0
回答數:3
收藏數:0
day59
pca
digit recongnition

Day59的作業是以 sklearn 的 digits 手寫數字資料為例,讓同學嘗試將圖片資料以 PCA 降維度,藉以找到手寫資料的主成分,方便後續代入進行分析。我對於原始資料的理解是,每一筆資料都是 64 維(像素),每一個像素數字大小代表深淺,因此將資料 reshape 成 8x8 的大小後使用 plt.imshow 繪出就可以重現手寫的樣子(如下圖)

看完原始資料的樣子後,我將所有資料從 64 維降成 2 維,並且繪製散佈圖,觀察到三種數字(0, 1, 2)有明顯的分開,看起來找到的主成分確實有效(如下圖)

然而我還是對於如何辨識手寫數字有點疑惑,人眼可以辨識是因為我們將資料經過排列整理,然而電腦面對的是一整串數字,很難直觀的理解機器能學到的原因。我想到其中一個原因是:可能因為資料集的大小是固定的,就像是都用一樣大小的紙張寫數字,每種數字基本上都在差不多的位置上,0 中間一定是空的;1 中間一排一定有值,所以機器是依照數值出現的位置來判斷是哪個數字。


如果上述推論是對的,那是否代表這樣的方法只適用於相同大小且邊界固定的手寫資料,如果今天是在一張很大的紙上,每次在隨機的位置寫數字且不填滿,可能就沒辦法用這些方法來辨別了?