不懂說謊的數據
美國大選塵埃落定,特朗普以橫掃七個搖擺州的姿態強勢回歸,繼二〇一六年後,再一次教主流民意調查專家跌破眼鏡。過去十年,民調預測的大選結果不時失準,這到底是非戰之罪,還是歸根究柢,天機不可洩漏,人算不如天算?
理論上,人類身處大數據時代,海量資訊唾手可得,要準確預測天氣、體育賽果,抑或大選民意,理應相對容易。但即使各行各業的精英專家手握第一手資料,仍往往判斷錯誤,從科學角度,又能否提供合理解釋?二〇一二年,美國統計學家奈特 · 席佛推出《精準預測》英文原版,一語道破“天機”:數據重要,但人如何將其解讀更關鍵。預測準確最難之處,在於能否在資訊堆中去蕪存菁。若把毫無意義的雜訊,誤當至關重要的訊號,所得的預測自然有偏差,甚至因嚴重的謬誤而造成損失。
就如本書的英文原題,“能否分辨訊號和雜訊,足以決定預測之成敗”。這本當年暢銷美國之作,令讀者有機會了解席佛統計與預測世界之堂奧。作者自小對數字充滿興趣,六歲便開始預測美國棒球聯賽的賽果。他在芝加哥大學主修經濟,大學畢業後,在工作之餘成功研發一套棒球賽事的預測系統,其精準度之高,吸引了在美國有“棒球界聖經”稱號的Baseball Prospectus網站向他收購。席佛其後再憑藉天賦,將統計和預測專長應用在德州撲克,為他贏得千萬彩金。
然而真正讓美國人認識到這位統計學奇才“未卜先知”的能力,是二〇〇八年美國總統大選。大選前,席佛成立了“五三八”網站,發表選情預測,並事先揚言奧巴馬會勝選。若閣下認為總統候選人不過二選一,根本毫無難度,以下的結果可能會讓你改觀:在全美五十個州的選舉結果,有四十九個州預測正確;三十五名參議員選舉更是百分百全中。翌年,他被美國《時代》雜誌列入“世界具影響力百大名人”。四年後的大選,席佛重施故技,除了再次成功預測奧巴馬連任,所有州份的選舉結果更是全中。
成為名人之後,出版界向席佛招手,在這本《精準預測》中,他首次公開自己的預測秘技,亦就各領域的預測及分析發表研究成果和看法。全書分兩部分:前半部集中討論對預測問題的判斷;後半部探討如何應用貝氏定理(機率論中的定理之一)解釋並解決問題。身為數據分析與統計模型的專家,席佛在書中幾乎無所不談:從金融海嘯、棒球比賽、運動賭盤、德州撲克,以至氣象、地震、傳染性疾病和全球暖化,作者除了一一提供關鍵資料及圖表之外,他更清楚闡述資料或數據背後的因果關係。若運用得宜,讀者可從中學習並訓練分辨雜訊和有用訊號的能力,提升各項有關學術研究、企業管理或行銷等領域預測的精準度。
就近年主流政治民調預測失準的現象,用席佛以往的說法,去了解今年美國大選民調翻車的潛在原因,仍然甚具參考價值。例如他認為過度自信,通常是預測出錯的主因之一。這類預測者擅於歸納,堅守自己的大原則,但面對排山倒海的新訊息,他們卻很少修改預測,媒體上的名嘴專家,或自信能翻盤的賭徒是其中的例子。另一個預測者常犯的錯誤,是忽略調查樣本以外的重要資訊。
以今次美國大選為例,從《經濟學人》到《紐約時報》,發表民調的主流媒體,大多以自身的意識形態出發,對特朗普當選會對美國民主構成重大威脅侃侃而談,對其他可能影響選民意向的議題幾乎視而不見。後來票箱一開,最終左右選民投票決定的,都是最直接影響普羅大眾生活的經濟和移民問題。席佛在《精準預測》中直言:“只要我們對資訊的理解程度跟不上資訊的成長速度,我們就會面臨危險。”面臨當今全球的轉折大變局,這是席佛對未來世界的期許:“平靜接受我們不能預測的事,勇敢預測我們能預測的事,以睿智看出差異何在。”
王少保