Ian. Aryse:《什麼都能算,什麼都不奇怪》,時報出版

 

兼論《美國隊長2」

什麼都能算,什麼都不奇怪:超級數據分析的祕密

Ashenfelter研究波爾多地區數十年的氣候資料,發現葡萄收成時雨量少,加上夏季平均溫度高,便能生產出最好的酒。最高品質的葡萄酒多產於又熱又乾的年份。他很大膽的將這套理論化為下列公式:

葡萄酒的品質=12145+0.00117*冬季雨量+0.0614*生長季平均溫度-0.00386*收成季雨量。

沒錯只要將任何年份的氣候統計數字填入,他就能預測當年葡萄酒的一般品質。......帕克堪稱世界最有影響力的葡萄酒作家,他認為「根本是用原始的方法在評論葡萄酒、就像一個從不看電影的影評人,光看演員與導演就進行評論。」p03 

批評者視他為異端,唯恐他揭開品酒世界的神秘面紗。他揚棄花俏無意義的詞彙(如強勁、堅實、輕盈),直接說明預測的根據。p06 

Ashenfelter指出:必須讓很多飲酒的人都認為我的公式沒用,那批人才賺的到錢。現在突然間讓那些人的工作失去價值,他們當然不會高興。p07

 

感想:

統計數據分析其實沒有神秘的面紗,真正神奇的是大自然萬物自有自己的規律和習慣,而統計只是將它們化為數字呈現。

為什麼我們會覺得處女座很難搞,因為星座就是一種古老的統計學。

如果可以公佈全台灣車禍的詳細資料,筆者相信台客、婦女、老人一定是前三大宗。馬路三寶不只是口耳相傳沒根據的臆測。

不過帕克的「不看電影的影評人,光看導演和演員就進行評論」真是經典神回覆,一般人一定很難招架,

其實電影最重要的是劇本阿~~(不過某些得獎導演的片真的是連看都不用看就知道難看。)

 

優秀球員與一般球員的差異根本無從分辨-關鍵在於資料。詹姆士設計了一套公式:得分=(安打+保送*壘打數)/(打數+保送)p08

你知道球探如何找到明日之星嗎?就是開車奔走六萬英里,住上百家破爛的汽車旅館,不知要在丹尼連鎖餐廳吃幾百次飯,才能在四個月內看完兩百廠高中與大專棒球賽,其中一百九十九場完全沒意義。p08 

租車公司與保險公司拒絕為信用評比低的人服務,因為他們從資料採礦得知信用評分與行車事故的機率有關。有人取消機位,航空公司不在優先給常客,而是給資料採礦結果認定最可能跳到別家公司的顧客。p13 

芝加哥法學教授Sunstein表示這類個別化的過濾服務愈成功,我們這些社會公民將愈缺乏共同的經驗。p22

(群眾智慧)有時候,集體預測比群體中任何個人的預測要更精準...在電視節目超級大富翁中,詢問觀眾十次,有九次以上可得到正確答案(打電話給個別的朋友只有不到三分之二的次數正確)。p23 

很多人說管理監獄的成本是幼兒教育經費的三倍,但進行這種比較有個問題:全國的幼兒人數要比囚犯多很多。即使投資幼稚園之前的教育有助於降低犯罪率,就成本而言未必比較節省,因為多數孩子不會犯罪。.....若要將資源集中在高風險孩童身上,可能真的要仰賴非關種族的犯罪傾向考量。讀者或許會說,四五歲的孩子很難判斷到了16.17歲是否會犯罪,但 Ashenfelter不就是在葡萄還未成熟時就下了判斷?p66 

 

感想:

由本段敘述可知,古諺「龍生龍鳳生鳳,老數的兒子會打洞」,其實也應用了基本的統計學概念。

就如同社會機構和教育單位判斷高風險高關懷家庭,所用的量表、指標都是一樣的。(如單親、隔代、失業......)

 

本書也讓筆者想起美國隊長2裡面的洞見計畫。

(圖片引自網路)根據wiki所述:

洞見計畫選擇目標的程序是透過每個人從出身到成人的各種社會紀錄計算並找出所有「可能阻礙九頭蛇未來」的關鍵人物,最後利用洞見計畫的航空母艦武器進行全數殲滅。」

左拉的演算法,其實就是大數據,算式可能包涵:「罵過三字經」、「丟縣長鞋子」、「公車襲胸」、「不用當兵」、「沒事喜歡路過抗議」等等,

雖然侏儸紀公園和猩球崛起告訴我們:生物雖然會找到自己的路,但是大部分人依循的軌跡可能都會雷同,

你說每個人都是獨立的個體,哪準?

但是十之八九都是如此,對於某些依據大數據分析者,就已經足夠了。

所謂百戰六十勝,不是每次選舉支持率都要跟賴神一樣勇猛,過半就能贏了。

 

球友u之前邀筆者看奧創,筆者就問他有無看過美國隊長2,沒有就要先補完。

球友u因為美國1和雷神2都不甚精彩,所以一直對美國2興趣索然。

筆者當初看美國2也是如此,但看完就必須誇獎美國2真的是漫威系列中,算是強勢優秀的第二集。

如同香港電影一樣,內奸的劇情總是能吸引觀眾的注意力,

到底內奸是誰?倒是真相為何?懸念是一種驅使觀眾看完的動力。

要筆者給評價,筆者覺得絕對比鋼鐵2、美國1、雷神系列好看,應該可以跟復仇者1一較高下。

除了劇情,還可以欣賞老牌演員勞伯瑞福的精湛的演出。

這位在spy game有精彩演出的巨星,令人回味再三。

 

(向上提昇方案,隨機提供極貧窮家庭房租津貼)初步結果顯示,讓貧窮小孩搬到較富裕地區,對教育或減少犯罪並無明顯效果。女孩的學業與健康倒是稍有進步,男孩的課業表現反而更差,也更可能犯罪。p67 

 

感想:友人b老是跟筆者批判教育現場,「從來沒看過好學生帶動壞學生向上,只看過好學生一起沉淪。」或許本書這一段話可以寫下註解。

 

最佳證據顯示正反雙方都沒說對,刑期長短並不影響出獄後的再犯率。p70

印度自1998年起,規定三分之一的鄉村議會必須由女性擔任議長,而這三分之一的鄉村是隨機選出的。結果發現議長是女性者比較可能投資可減輕女性負擔的基礎建設,如水源與燃料的取得。而男性議長則偏好投資教育。p72

診大約站所有醫療疏失的三分之一,解剖研究顯示,醫生約有20%的機率嚴重誤判致命疾病。伊莎貝爾軟體的一個重要目標是改變科學停滯不前的問題。世界上有一萬一千多種疾病,人腦不易記住每一種疾病的所有症狀。一殺貝爾的行銷口號就是成為醫學診斷裡的google。p95

 

感想:

高中同學g以前跟筆者說過,當醫生跟你說「先開這個藥吃吃看,如果吃完還沒改善再來。」這類的話,就表示醫生其實不知道你到底是什麼毛病。

 

一個常態分佈的變數有九五%的機率會落在平均數加減兩個標準差之間。......假設人類的平均智商是一百,標準差是十五,二標準差原則告訴我們,九五%的人智商介於七十與一百三之間。p192

現在報紙報導民調的方式有很多問題,常見的報導方式是:「依據quinnipiac對一千兩百四十三名可能投票的選民做的調查,競選參議員的凱文以52%領先霍布斯的48%,本調查的誤差率是正負2%。誤差率其實就是二標準差,樣本的比例可能因機率問題無法完全反應母群的比例。標準差就是要告訴我們樣本的預測可能因機率偏離母群多少。......運用二標準差原則,我們可以說:「 50%到54%可能投票的選民支持凱文,這樣的機率有九十五%。」但這樣也沒有說明一個更基本的重點:凱文實際領先的機率。既然凱文有九十五%的機率獲得50~54可能投票選民的支持,表示他的支持率有五%的機率落在曲線兩端,也就是超過五四%或低於五十%,因此凱文的支持度低於五十%的機率僅2.5%,表示他領先的機率約為97.5%。p202

 

 

 

總結:本書有專業,也結合生活中案例,以淺白的敘述,帶領讀者進入統計學得領域。極度建議閱讀。

arrow
arrow
    全站熱搜

    短歌行不行 發表在 痞客邦 留言(0) 人氣()