AI模仿人類大腦 分辨圖像有妙招
AI把任何問題都變成數學問題來解決,所以必須把輸入的資料轉化為機器能明白的數字,這就需要一個進行數據預處理和特徵提取的過程,先把文字、圖像、音頻等不同形式的數據進行整理,確保格式統一,然後進行數據清理 、數據轉換、數據縮放等,再進行特徵提取,以便機器模型能夠學習和理解這些數據。
把圖像轉化成數字
文本數據可以使用“詞袋模型”,將所有文本中出現過不同單詞收集起來,形成一個詞量表和向量數據,每個向量表示對應單詞在文本中出現的次數,再在機器中進行學習。“詞頻——逆文檔頻率”方法也被廣泛使用,它通過考慮詞在文檔中的頻率和在文集中的稀有性,幫助識別文檔中重要的詞。文檔處理還有許多其他方法,如詞嵌入 、N元語法、主題建模、命名實體識別、句法分析、實體關係抽取、文本生成、情感分析等,通常與自然語言處理領域密切相關,既可以單獨使用,也可以結合在一起,以完成更複雜的文檔處理任務。
如今AI的機器不只能認出狗隻,而且會認出其種類。在淘寶網的Apps上用手機拍下需要購買物件的照片,它不但可以知道閣下要找什麼東西,而且可立即提供各公司的同類產品和價格供選擇。其實原理都一樣,計算機把圖像轉化成一大堆數字,AI模型知道這些數字代表什麼含義,就可以進行處理去解決問題。
卷積神經網絡技術
一九八一年美國神經科學家大衛 · 休伯爾(David Hubel) 與托爾斯 · 維塞爾(Torsten Wiesel) ,研究發現在大腦皮層中的神經元對不同方向和不同方位的視覺信息有不同的反應模式,其中“簡單細胞”對於特定方向的邊緣刺激非常敏感,而“複雜細胞”對於特定方向的運動刺激有強烈反應。因此大腦可以從視覺刺激中提取不同特徵,最终幫助我們識別物體和場景。這些發現對現代神經科學有深遠的影響,而AI圖像識別技術也是在此基礎上建立起來的。
卷積神經網絡(CNN) 是AI系統中最重要的處理圖像技術,原理類似於人類大腦辨識圖像方法,其發展是一個逐步演進的過程,涉及眾多科技研究人員的貢獻。從早期(一九八○年代)日本福島邦彥的“神經認知機”,到一九九八年由法國科學家Yann LeCun等人提出的LeNet-5,再到最近十年才發明的AlexNet、VGG、GoogLeNet和ResNet,這些模型的不斷創新,推動着卷積神經網絡技術的進步。
模仿人腦辨識圖片
簡單來說,卷積神經網絡通過模仿人類大腦,辨識圖片或場景中的特點去辨認物體、動物、人等。卷積層使用一組稱為卷積核(或過濾器) 的小型矩陣在圖像上滑動,將圖像局部區域與卷積核進行逐元素相乘,然後將結果相加,從而生成特徵圖。卷積層的結果會被送入一個函數,這個“激活函數”可以讓一些訊息通過,而過濾掉其他,就像人類大腦會注意一些重要東西,而忽略其他不重要的。
閣下看到松樹或柳樹,不需要拿放大鏡觀察每塊樹葉,就可以立即分辨出來。卷積神經網絡中有一“池化層”會簡化圖像、保留重要信息,同時減少處理的複雜度,就如我們看圖時不需要關心每個細節,就可以作出相對合理的結論。AI的神經網絡將收集到的信息整合在一起,再做出最終的判斷,就像我們根據看到的畫面來辨識出物體來。人類每隻眼睛大約有近二億個視覺細胞,隨着年齡的增長細胞會逐步退化或死亡,導致視力下降,但AI機器卻不會,永遠保持心明眼亮。
順便補充一點,筆者上周在本欄提到的線性回歸法(Regression Analysis) 方程式,公式中的第二個X和Y是自變量和因變量的平均值,在文書電郵傳輸中卻無法清晰顯示平均值“ ̄”符號,相信熟悉代數和解析幾何的讀者應明白我的意思。由於有關文章只是科普漫話,在此不作詳細數理解釋了。
容永剛