
- 2019年7月10日-12日,上海攬境展覽主辦的2019年藍(lán)鯨國(guó)際標(biāo)簽展、包裝展...[詳情]
2019年藍(lán)鯨標(biāo)簽展_藍(lán)鯨軟包裝展_藍(lán)鯨


- 今日排行
- 本周排行
- 本月排行

- 膠印油墨

- 膠印材料
- 絲印材料
大數(shù)據(jù)時(shí)代 讓一群腦殘為你選書
2013-06-25 08:52 來(lái)源:鈦媒體 責(zé)編:王岑
- 摘要:
- 大數(shù)據(jù)時(shí)代的到來(lái),與信息數(shù)字化息息相關(guān)。在2000年的時(shí)候,以數(shù)字化形式存儲(chǔ)的數(shù)據(jù)僅占全球數(shù)據(jù)量的四分之一,而到了2007年時(shí),90%以上數(shù)據(jù)是數(shù)字化數(shù)據(jù),剩下不到10%是存儲(chǔ)在報(bào)紙、CD等介質(zhì)上的模擬數(shù)據(jù)。
【CPP114】訊:對(duì)“大數(shù)據(jù)”概念還搞不清的人可以松一口氣了,如果你讀過(guò)《大數(shù)據(jù)時(shí)代》(Big Data:A Revolution That Will Transform How We Live, Work, and Think),你會(huì)發(fā)現(xiàn)舍恩伯格(Viktor Mayer-Sch nberger)對(duì)“大數(shù)據(jù)”的定義如此簡(jiǎn)單:所謂大數(shù)據(jù)(Big Data),就是大量的數(shù)據(jù);它的反義詞同樣簡(jiǎn)單:小數(shù)據(jù)(Small Data),很少很少的數(shù)據(jù)。
相比于作者所著同樣談?wù)摯髷?shù)據(jù)話題的《刪除:大數(shù)據(jù)取舍之道》一書,《大數(shù)據(jù)時(shí)代》結(jié)構(gòu)緊密,邏輯清晰,論證過(guò)程也更為嚴(yán)謹(jǐn)。本書在何為大數(shù)據(jù)、大數(shù)據(jù)有何典型特征、大數(shù)據(jù)的實(shí)際應(yīng)用和未來(lái)以及大數(shù)據(jù)的隱憂等關(guān)鍵問(wèn)題上,通過(guò)案例和通暢曉白的解釋,梳理清楚了“大數(shù)據(jù)”這個(gè)看起來(lái)高深復(fù)雜但其實(shí)無(wú)處不在的概念。在舍恩伯格看來(lái),以往我們因受限于工具而采用的抽樣調(diào)查以及精準(zhǔn)采樣數(shù)據(jù)的分析方法需要革新,大數(shù)據(jù)時(shí)代是改變方法論和思維方式的過(guò)程。
大數(shù)據(jù)時(shí)代的到來(lái),與信息數(shù)字化息息相關(guān)。在2000年的時(shí)候,以數(shù)字化形式存儲(chǔ)的數(shù)據(jù)僅占全球數(shù)據(jù)量的四分之一,而到了2007年時(shí),90%以上數(shù)據(jù)是數(shù)字化數(shù)據(jù),剩下不到10%是存儲(chǔ)在報(bào)紙、CD等介質(zhì)上的模擬數(shù)據(jù)。我們知道,模擬數(shù)據(jù)在復(fù)制和傳播過(guò)程中信息會(huì)失真、噪音疊加,比如一張紙連續(xù)復(fù)印三次之后,噪點(diǎn)越來(lái)越多,字跡越來(lái)越模糊,一盤音樂(lè)磁帶連續(xù)翻錄多次之后,令人厭煩的“嗞嗞”聲越來(lái)越大。而二進(jìn)制數(shù)字世界,是一個(gè)非黑即白的世界,要么1要么0,即使有噪點(diǎn),灰色也會(huì)被識(shí)別黑色(1),淺白則被計(jì)算機(jī)處理為白(0),沒(méi)有中間地帶,也就沒(méi)有了噪音的容身之處。信息在數(shù)字世界得以無(wú)損復(fù)制和傳播,再加上不斷廉價(jià)化的存儲(chǔ)能力以及同時(shí)提高的計(jì)算能力,大量以前無(wú)法處理的數(shù)據(jù),有了分析、解讀它們的可能。
在模擬信息的世界,因?yàn)樾畔⑹占、信息?fù)制、信息存儲(chǔ)以及信息分析的工具既不夠好,成本也極為高昂,我們只能收集極少量的數(shù)據(jù)(也即所謂的“結(jié)構(gòu)化數(shù)據(jù)”)進(jìn)行分析,由于條件所限,我們發(fā)明了統(tǒng)計(jì)學(xué)來(lái)通過(guò)盡可能少的數(shù)據(jù),去推導(dǎo)、去證實(shí)盡可能重大的發(fā)現(xiàn)。當(dāng)我們意識(shí)到我們已經(jīng)擁有能夠收集和處理大規(guī)模數(shù)據(jù)(也即所謂更多的“非結(jié)構(gòu)化數(shù)據(jù)”)能力的時(shí)候,我們需要新的理念和工具去重新認(rèn)識(shí)這個(gè)世界了。
新的理念運(yùn)用于工具上的體現(xiàn)之一是光場(chǎng)相機(jī)Lytro。與其它數(shù)碼相機(jī)不同的是,Lytro相機(jī)可以在拍攝完照片之后再對(duì)焦。因?yàn)樵谂臄z時(shí),Lytro可以記錄整個(gè)光場(chǎng)里所有的光,照片具體生成什么樣,拍完之后根據(jù)需要再?zèng)Q定。——有沒(méi)有發(fā)現(xiàn)這顛覆了我們做事的一貫邏輯?以往我們因?yàn)槭苤朴诠ぞ呋蚪疱X,需要提前想好我們的目的,再去獲取我們需要的信息。而大數(shù)據(jù)時(shí)代的思維方式則如Lytro的特性一樣,先拍下來(lái)再說(shuō),需要什么樣的照片,后期再處理。Lytro相機(jī)也算從膠片機(jī)過(guò)渡到數(shù)碼相機(jī)交疊時(shí)代思維的延續(xù),如果攝影技術(shù)不太好,先拍一堆片子再說(shuō),你總能挑出幾張好的來(lái)。
對(duì)小數(shù)據(jù)而言,最重要的要求是減少錯(cuò)誤,保證質(zhì)量。而大數(shù)據(jù)對(duì)更糙的信息及冗余信息容忍度更高,也即當(dāng)資源足夠豐富且廉價(jià)的時(shí)候,可以先大量浪費(fèi),再來(lái)精準(zhǔn)化,而不是預(yù)設(shè)精準(zhǔn)的目標(biāo)。
亞馬遜早期雇傭了一群書評(píng)家為讀者薦書,后來(lái)發(fā)現(xiàn)通過(guò)算法——一群對(duì)圖書質(zhì)量判斷能力遠(yuǎn)不如專業(yè)人士的普通讀者的口味的集合——推薦圖書的轉(zhuǎn)化率更高之后,亞馬遜把書評(píng)家們都解雇了。由于自己多年積累被算法取代的憤怒,在被解雇之后,書評(píng)家發(fā)出這樣的抱怨:(通過(guò)算法推薦)“那種感覺(jué)就像你和一群腦殘?jiān)谝黄鸸鋾辍?rdquo;類似的故事也發(fā)生微軟。微軟機(jī)器翻譯部門的統(tǒng)計(jì)學(xué)家們?cè)诓栌囡埡箝e聊中會(huì)說(shuō),每次一有語(yǔ)言學(xué)家離開(kāi)他們團(tuán)隊(duì),微軟機(jī)器翻譯質(zhì)量就會(huì)變得更好一點(diǎn)。
從對(duì)信息質(zhì)量的角度出發(fā)去觀察,我們會(huì)發(fā)現(xiàn)大數(shù)據(jù)時(shí)代的特性的確越來(lái)越“腦殘化”:它放棄原始數(shù)據(jù)的精確性,強(qiáng)調(diào)數(shù)據(jù)量的多和雜;它放棄因果關(guān)系的判斷,強(qiáng)調(diào)相關(guān)關(guān)系;它放棄知其所以然(為什么),只需知其然(是什么)就可以了。
豆瓣閱讀為什么給你推薦《中國(guó)合伙人》?背后的邏輯可能是你的朋友最近點(diǎn)了“想看”或“看過(guò)”。新浪微博為什么推薦李承鵬而不是李開(kāi)復(fù)給你關(guān)注?背后的邏輯可能是你關(guān)注的人中更多人關(guān)注李承鵬。但為什么因?yàn)榕笥严矚g,所以機(jī)器就會(huì)判定你也會(huì)喜歡呢?不知道。機(jī)器通過(guò)計(jì)算得知,如果你有很多朋友喜歡同一個(gè)事物,那么你喜歡這個(gè)事物的概率會(huì)大一些?赡軐(duì),也可能錯(cuò)。二者之間強(qiáng)相關(guān),但不因果。
大數(shù)據(jù)最大的用途之一是預(yù)測(cè)。好的方面,它可以預(yù)測(cè)機(jī)票價(jià)格走勢(shì),為自費(fèi)旅游者省錢;它能預(yù)測(cè)交通擁堵情況,幫助人們選擇更好的時(shí)段和路線節(jié)省出行時(shí)間;它也可以像亞馬遜做的那樣,為你提供更準(zhǔn)確的書單,幫你遇見(jiàn)更多好書。《麻省理工科技創(chuàng)業(yè)》曾報(bào)道說(shuō),英國(guó)伯明翰大學(xué)的一個(gè)研究團(tuán)隊(duì)甚至開(kāi)發(fā)出一種算法,可以精確地預(yù)測(cè)你未來(lái)將要去哪里。
大多數(shù)人一般有規(guī)律的行為模式,但傳統(tǒng)的預(yù)測(cè)算法——只通過(guò)用戶本身的行為模式來(lái)進(jìn)行預(yù)測(cè),解決不了人們臨時(shí)變更路線的情況,導(dǎo)致預(yù)測(cè)人們出行的平均誤差高達(dá)1000米。伯明翰大學(xué)開(kāi)發(fā)的算法可以通過(guò)追蹤用戶手機(jī)上的個(gè)人過(guò)往行為模式數(shù)據(jù)以及用戶手機(jī)里的社交關(guān)系——當(dāng)然,新型算法需要收集和分析大量個(gè)人信息。最后能預(yù)測(cè)用戶在24小時(shí)之內(nèi)會(huì)去什么地點(diǎn),而平均誤差減少到僅20米。
相比于作者所著同樣談?wù)摯髷?shù)據(jù)話題的《刪除:大數(shù)據(jù)取舍之道》一書,《大數(shù)據(jù)時(shí)代》結(jié)構(gòu)緊密,邏輯清晰,論證過(guò)程也更為嚴(yán)謹(jǐn)。本書在何為大數(shù)據(jù)、大數(shù)據(jù)有何典型特征、大數(shù)據(jù)的實(shí)際應(yīng)用和未來(lái)以及大數(shù)據(jù)的隱憂等關(guān)鍵問(wèn)題上,通過(guò)案例和通暢曉白的解釋,梳理清楚了“大數(shù)據(jù)”這個(gè)看起來(lái)高深復(fù)雜但其實(shí)無(wú)處不在的概念。在舍恩伯格看來(lái),以往我們因受限于工具而采用的抽樣調(diào)查以及精準(zhǔn)采樣數(shù)據(jù)的分析方法需要革新,大數(shù)據(jù)時(shí)代是改變方法論和思維方式的過(guò)程。
大數(shù)據(jù)時(shí)代的到來(lái),與信息數(shù)字化息息相關(guān)。在2000年的時(shí)候,以數(shù)字化形式存儲(chǔ)的數(shù)據(jù)僅占全球數(shù)據(jù)量的四分之一,而到了2007年時(shí),90%以上數(shù)據(jù)是數(shù)字化數(shù)據(jù),剩下不到10%是存儲(chǔ)在報(bào)紙、CD等介質(zhì)上的模擬數(shù)據(jù)。我們知道,模擬數(shù)據(jù)在復(fù)制和傳播過(guò)程中信息會(huì)失真、噪音疊加,比如一張紙連續(xù)復(fù)印三次之后,噪點(diǎn)越來(lái)越多,字跡越來(lái)越模糊,一盤音樂(lè)磁帶連續(xù)翻錄多次之后,令人厭煩的“嗞嗞”聲越來(lái)越大。而二進(jìn)制數(shù)字世界,是一個(gè)非黑即白的世界,要么1要么0,即使有噪點(diǎn),灰色也會(huì)被識(shí)別黑色(1),淺白則被計(jì)算機(jī)處理為白(0),沒(méi)有中間地帶,也就沒(méi)有了噪音的容身之處。信息在數(shù)字世界得以無(wú)損復(fù)制和傳播,再加上不斷廉價(jià)化的存儲(chǔ)能力以及同時(shí)提高的計(jì)算能力,大量以前無(wú)法處理的數(shù)據(jù),有了分析、解讀它們的可能。
在模擬信息的世界,因?yàn)樾畔⑹占、信息?fù)制、信息存儲(chǔ)以及信息分析的工具既不夠好,成本也極為高昂,我們只能收集極少量的數(shù)據(jù)(也即所謂的“結(jié)構(gòu)化數(shù)據(jù)”)進(jìn)行分析,由于條件所限,我們發(fā)明了統(tǒng)計(jì)學(xué)來(lái)通過(guò)盡可能少的數(shù)據(jù),去推導(dǎo)、去證實(shí)盡可能重大的發(fā)現(xiàn)。當(dāng)我們意識(shí)到我們已經(jīng)擁有能夠收集和處理大規(guī)模數(shù)據(jù)(也即所謂更多的“非結(jié)構(gòu)化數(shù)據(jù)”)能力的時(shí)候,我們需要新的理念和工具去重新認(rèn)識(shí)這個(gè)世界了。
新的理念運(yùn)用于工具上的體現(xiàn)之一是光場(chǎng)相機(jī)Lytro。與其它數(shù)碼相機(jī)不同的是,Lytro相機(jī)可以在拍攝完照片之后再對(duì)焦。因?yàn)樵谂臄z時(shí),Lytro可以記錄整個(gè)光場(chǎng)里所有的光,照片具體生成什么樣,拍完之后根據(jù)需要再?zèng)Q定。——有沒(méi)有發(fā)現(xiàn)這顛覆了我們做事的一貫邏輯?以往我們因?yàn)槭苤朴诠ぞ呋蚪疱X,需要提前想好我們的目的,再去獲取我們需要的信息。而大數(shù)據(jù)時(shí)代的思維方式則如Lytro的特性一樣,先拍下來(lái)再說(shuō),需要什么樣的照片,后期再處理。Lytro相機(jī)也算從膠片機(jī)過(guò)渡到數(shù)碼相機(jī)交疊時(shí)代思維的延續(xù),如果攝影技術(shù)不太好,先拍一堆片子再說(shuō),你總能挑出幾張好的來(lái)。
對(duì)小數(shù)據(jù)而言,最重要的要求是減少錯(cuò)誤,保證質(zhì)量。而大數(shù)據(jù)對(duì)更糙的信息及冗余信息容忍度更高,也即當(dāng)資源足夠豐富且廉價(jià)的時(shí)候,可以先大量浪費(fèi),再來(lái)精準(zhǔn)化,而不是預(yù)設(shè)精準(zhǔn)的目標(biāo)。
亞馬遜早期雇傭了一群書評(píng)家為讀者薦書,后來(lái)發(fā)現(xiàn)通過(guò)算法——一群對(duì)圖書質(zhì)量判斷能力遠(yuǎn)不如專業(yè)人士的普通讀者的口味的集合——推薦圖書的轉(zhuǎn)化率更高之后,亞馬遜把書評(píng)家們都解雇了。由于自己多年積累被算法取代的憤怒,在被解雇之后,書評(píng)家發(fā)出這樣的抱怨:(通過(guò)算法推薦)“那種感覺(jué)就像你和一群腦殘?jiān)谝黄鸸鋾辍?rdquo;類似的故事也發(fā)生微軟。微軟機(jī)器翻譯部門的統(tǒng)計(jì)學(xué)家們?cè)诓栌囡埡箝e聊中會(huì)說(shuō),每次一有語(yǔ)言學(xué)家離開(kāi)他們團(tuán)隊(duì),微軟機(jī)器翻譯質(zhì)量就會(huì)變得更好一點(diǎn)。
從對(duì)信息質(zhì)量的角度出發(fā)去觀察,我們會(huì)發(fā)現(xiàn)大數(shù)據(jù)時(shí)代的特性的確越來(lái)越“腦殘化”:它放棄原始數(shù)據(jù)的精確性,強(qiáng)調(diào)數(shù)據(jù)量的多和雜;它放棄因果關(guān)系的判斷,強(qiáng)調(diào)相關(guān)關(guān)系;它放棄知其所以然(為什么),只需知其然(是什么)就可以了。
豆瓣閱讀為什么給你推薦《中國(guó)合伙人》?背后的邏輯可能是你的朋友最近點(diǎn)了“想看”或“看過(guò)”。新浪微博為什么推薦李承鵬而不是李開(kāi)復(fù)給你關(guān)注?背后的邏輯可能是你關(guān)注的人中更多人關(guān)注李承鵬。但為什么因?yàn)榕笥严矚g,所以機(jī)器就會(huì)判定你也會(huì)喜歡呢?不知道。機(jī)器通過(guò)計(jì)算得知,如果你有很多朋友喜歡同一個(gè)事物,那么你喜歡這個(gè)事物的概率會(huì)大一些?赡軐(duì),也可能錯(cuò)。二者之間強(qiáng)相關(guān),但不因果。
大數(shù)據(jù)最大的用途之一是預(yù)測(cè)。好的方面,它可以預(yù)測(cè)機(jī)票價(jià)格走勢(shì),為自費(fèi)旅游者省錢;它能預(yù)測(cè)交通擁堵情況,幫助人們選擇更好的時(shí)段和路線節(jié)省出行時(shí)間;它也可以像亞馬遜做的那樣,為你提供更準(zhǔn)確的書單,幫你遇見(jiàn)更多好書。《麻省理工科技創(chuàng)業(yè)》曾報(bào)道說(shuō),英國(guó)伯明翰大學(xué)的一個(gè)研究團(tuán)隊(duì)甚至開(kāi)發(fā)出一種算法,可以精確地預(yù)測(cè)你未來(lái)將要去哪里。
大多數(shù)人一般有規(guī)律的行為模式,但傳統(tǒng)的預(yù)測(cè)算法——只通過(guò)用戶本身的行為模式來(lái)進(jìn)行預(yù)測(cè),解決不了人們臨時(shí)變更路線的情況,導(dǎo)致預(yù)測(cè)人們出行的平均誤差高達(dá)1000米。伯明翰大學(xué)開(kāi)發(fā)的算法可以通過(guò)追蹤用戶手機(jī)上的個(gè)人過(guò)往行為模式數(shù)據(jù)以及用戶手機(jī)里的社交關(guān)系——當(dāng)然,新型算法需要收集和分析大量個(gè)人信息。最后能預(yù)測(cè)用戶在24小時(shí)之內(nèi)會(huì)去什么地點(diǎn),而平均誤差減少到僅20米。
-
相關(guān)新聞:
- ·4月份我國(guó)造紙行業(yè)進(jìn)出口情況分析 2013.06.25
- ·盤點(diǎn)與展望:2013上半年辦公打印新產(chǎn)品 2013.06.24
- ·電商平臺(tái)監(jiān)管缺位 三無(wú)食品網(wǎng)上泛濫 2013.06.24
- ·印刷設(shè)備減稅利好消息 刺激電子監(jiān)管碼產(chǎn)業(yè)再度繁榮 2013.06.21
- 關(guān)于我們|聯(lián)系方式|誠(chéng)聘英才|幫助中心|意見(jiàn)反饋|版權(quán)聲明|媒體秀|渠道代理
- 滬ICP備18018458號(hào)-3法律支持:上海市富蘭德林律師事務(wù)所
- Copyright © 2019上海印搜文化傳媒股份有限公司 電話:18816622098