第85屆奧斯卡金像獎頒獎晚會將于美國當(dāng)?shù)貢r間2月24日舉行,奧斯卡小金人最終將花落誰家?近日,由微軟研究院的David Rothschild通過對奧斯卡入圍影片相關(guān)數(shù)據(jù)分析,預(yù)測出本屆奧斯卡各項大獎的最終歸屬。
大家可以在David Rothschild的博客上看到他的最新預(yù)測結(jié)果。作為預(yù)測努力的一部分,David Rothschild與微軟團(tuán)隊合作開發(fā)了一款Excel應(yīng)用——Oscars Ballot Predictor(奧斯卡投票預(yù)測器),該應(yīng)用為所有24個類別的奧斯卡得獎獎項提供實(shí)時預(yù)測。
David Rothschild所提供的一些獲獎概率信息:
·最佳影片獎:Argo(《逃離德黑蘭》),獲獎可能性93.9%。
·最佳導(dǎo)演獎:斯蒂芬·斯皮爾伯格(Steven Spielberg)(影片《林肯》),獲獎可能性83.7%。
·最佳男演員獎:丹尼爾·戴-劉易斯(Daniel Day-Lewis)(影片《林肯》),獲獎可能性99%。
·最佳女演員獎:詹妮弗·勞倫斯(Jennifer Lawrence)(影片《烏云背后的幸福線》)(Silver Linings Playbook),獲獎可能性70.7%。
當(dāng)然,這些數(shù)據(jù)只是初步預(yù)測,David Rothschild說:“我對今年部分獎項的預(yù)測很有把握,但預(yù)測并非100%,期待奧斯卡頒獎晚會上的最終結(jié)果。”
David Rothschild的努力方向是利用大數(shù)據(jù)改變我們的預(yù)測方式,為微軟創(chuàng)建更好的產(chǎn)品和服務(wù)做貢獻(xiàn)。去年,David Rothschild就曾使用一個通用的數(shù)據(jù)驅(qū)動型模型,正確預(yù)測了美國50個州和哥倫比亞特區(qū)共計51個行政區(qū)中50個行政區(qū)的總統(tǒng)大選結(jié)果,其預(yù)測準(zhǔn)確性高于98%。
David Rothschild表示:“我預(yù)測奧斯卡金像獎得主的方法與預(yù)測其它事情的方法完全相同,其中包括政治。首先關(guān)注最有效的數(shù)據(jù),然后創(chuàng)建不受任何特別年份結(jié)果干擾的統(tǒng)計模型,所有模型都根據(jù)歷史數(shù)據(jù)進(jìn)行測試、校正,我們在建模時很有耐心,確保模型能夠正確預(yù)測外樣本結(jié)果,而不僅僅是過去發(fā)生的結(jié)果。我們創(chuàng)建的模型是用來預(yù)測未來的,而不是預(yù)測過去的。”他指出:“科學(xué)是相同的,但證明哪些數(shù)據(jù)最有用卻存在千差萬別。”
你或許會認(rèn)為一個能夠攻克選票近1.27億張變化莫測總統(tǒng)大選的預(yù)測模型也一定能夠在預(yù)測不太復(fù)雜的事件中輕松獲勝,如奧斯卡投票,其投票成員不足6000人,但美國總統(tǒng)大選與奧斯卡投票采用的數(shù)據(jù)大相徑庭。
David Rothschild透露:“我通常關(guān)注四個不同類型的數(shù)據(jù):投票數(shù)據(jù)、預(yù)測市場數(shù)據(jù)、基本數(shù)據(jù)和用戶產(chǎn)生的數(shù)據(jù)。在預(yù)測政治時,我采用基礎(chǔ)數(shù)據(jù)如過去的選舉結(jié)果、義務(wù)和經(jīng)濟(jì)風(fēng)向標(biāo)。通過基礎(chǔ)數(shù)據(jù)建立一個基準(zhǔn),然后轉(zhuǎn)向預(yù)測市場數(shù)據(jù)和投票數(shù)據(jù),因為這兩個類型的數(shù)據(jù)吸收并包含了更多選舉信息。2012年總統(tǒng)大選預(yù)測時,我使用了少量用戶產(chǎn)生的數(shù)據(jù),但Xbox Live數(shù)據(jù)對補(bǔ)充重大事件實(shí)時分析起了關(guān)鍵作用。”
“預(yù)測奧斯卡金像獎花落誰家時不需要投票數(shù)據(jù),基本票房回報和電影評級數(shù)據(jù)也不統(tǒng)計在內(nèi)。我更關(guān)注的是預(yù)測市場數(shù)據(jù),這是主要因素,同時采用部分用戶產(chǎn)生的數(shù)據(jù),這有助于理解電影內(nèi)部和不同類別之間的相關(guān)度,例如影片《林肯》會贏得多少個獎項?”David Rothschild說。
David Rothschild強(qiáng)調(diào):“每當(dāng)我關(guān)注一個新領(lǐng)域,我都會認(rèn)真考慮一些關(guān)鍵事情,確保自己的預(yù)測更有意義。”首先,我會確定最中肯的預(yù)測。至于奧斯卡金像獎得主預(yù)測,我關(guān)注的是所有24個類別的獲勝概率,并會預(yù)測各個類別主流電影的總獎項。其次,我的所有預(yù)測結(jié)果會實(shí)時更新。從研究觀點(diǎn)看,實(shí)時更新預(yù)測結(jié)果至關(guān)重要,我們能夠獲悉最初預(yù)測與最終事件之間發(fā)生的不同事件的價值。這些事件就是奧斯卡獎項歸屬的前奏。最后,我借助特定領(lǐng)域的歷史數(shù)據(jù)建模,然后通過不斷升級模型確保預(yù)測的準(zhǔn)確度。我還想強(qiáng)調(diào)的是,我們所做的一切都是為了盡可能保證領(lǐng)域獨(dú)立性,確保所有問題的可衡量性。如果該研究能夠催生出更高效的預(yù)測方法、在眾多領(lǐng)域適用于大量問題,將對微軟、對學(xué)術(shù)界和這個世界都有價值。”(網(wǎng)易)