<th id="ik4gr"><pre id="ik4gr"></pre></th>
<rp id="ik4gr"></rp>
    <dd id="ik4gr"></dd>

  1. <rp id="ik4gr"><object id="ik4gr"><blockquote id="ik4gr"></blockquote></object></rp>
      <rp id="ik4gr"></rp>
        <button id="ik4gr"><acronym id="ik4gr"></acronym></button>
      1. <rp id="ik4gr"><object id="ik4gr"><input id="ik4gr"></input></object></rp>
        1. 杭州嵌入式培訓
          達內杭州嵌入式培訓中心

          13732203138

          熱門課程

          大數據是什么意思

          • 時間:2018-02-22
          • 發布:杭州嵌入式培訓
          • 來源:達內培訓

          2011、2012年的時候,國內大數據的概念才興起來。
          那么什么是大數據? 大數據的概念可能不同的人會有不同的理解,有業內人士根據多年大數據從業經驗,結合當前行業發展形勢,為大家總結了一下。換個角度看待這個問題,分為大數據概念和大數據思維。
          大數據的概念總結為四個字:大、全、細、時。
          大數據之大
          先來看一組數據:
          百度每天采集的用戶行為數據有1.5PB以上
          全國各地級市今天的蘋果價格數據有2MB
          1998年Google抓取的互聯網頁面共有47GB(壓縮后)
          一臺風力發電機每天產生的振動數據有50GB
          百度每天的行為數據1.5個PB夠大吧?我們毫無懷疑這是大數據。但全國各個地級市今天的蘋果價格只有2MB大小,是典型的小數據吧?但如果我們基于這個數據,做一個蘋果分銷的智能調度系統,這就是個牛逼的大數據應用了。Google在剛成立的時候,佩奇和布林下載了整個互聯網的頁面,在壓縮后也就47GB大小,現在一個U盤都能裝的下,但Google搜索顯然是個大數據的應用。如果再來看一臺風機每天的振動數據可能都有50GB,但這個數據只是針對這一臺風機的,并不能從覆蓋面上,起到多大的作用,這在業內人士看來不能叫大數據。
          這里就是在強調大,是Big不是Large,我們強調的是抽象意義的大。
          大數據之全
          再來看關于美國大選的三次事件:
          1936年《文學文摘》收集了240萬份調查問卷,預測錯誤
          新聞學教授蓋洛普只收集了5萬人的意見,預測羅斯福連任正確
          2012年Nate Silver通過互聯網采集社交、新聞數據,預測大選結果
          《文學文摘》所收集的問卷有240萬,絕對是夠大的,但為什么預測錯誤了呢?當時《文學文摘》是通過電話調查的,能夠裝電話的就是一類富人,這類人本身就有不同的政治傾向,調查的結果本身就是偏的。而蓋洛普只收集了5萬人的意見,但是他采用按照社會人群按照比例抽樣,然后匯集總體結果,反而預測正確了。因為這次預測,蓋洛普一炮而紅,現在成了一個著名的調研公司。當然,后來蓋洛普也有預測失敗的時候。到了2012年,一個名不見經傳的人物Nate Silver通過采集網上的社交、新聞數據,這是他預測的情況和真實的情況:
          兩者是驚人的接近的。
          從這點是想強調要全量而不是抽樣,大數據時代有了更好的數據采集手段,讓獲取全量數據成為可能。
          大數據之細
          在2013年9月,百度知道發布了一份《中國十大吃貨省市排行榜》,在關于“××能吃嗎?”的問題中,寧夏網友最關心“螃蟹能吃嗎?”內蒙古、新疆和西藏的人最關心“蘑菇能吃嗎?”浙江、廣東、福建、四川等地網友問得最多的是“××蟲能吃嗎?”而江蘇以及上海、北京等地則最愛問“××的皮能不能吃?”。下圖是全國各地關心的食物:
          用戶在問什么能吃嗎的時候,并不會說“我來自寧夏,我想知道螃蟹能吃嗎”,而是會問“螃蟹能吃嗎”,但是服務器采集到了用戶的IP地址,而通過IP地址就能知道他所在的省份。這就是數據多維度的威力,如果沒有IP這個維度,這個分析就不好辦了。而現有的采集手段,能夠讓我們從多個維度獲取數據,再進行后續分析的時候,就能對這些維度加以利用,就是“細”。
          大數據之時
          我們現在對CPI已經不再陌生,是居民消費價格指數(consumer price index)的簡稱。我們努力工作,起碼要跑過CPI。
          那你有了解過CPI是怎么統計的嗎?這里包括兩個階段,一個是收集商品價格數據,一個是分析并發布數據。從百度百科上了解到,中國CPI采樣500多個市縣,采價調查點6.3萬個,近4000名采價員,次月中旬發布報告。業內人士還曾找國家統計局的朋友確認了這個事情。
          而在美國有一家創業公司叫Premise Data。它通過眾包方式,25000個采價員(學生、收銀員、司機等),使用手機APP采集數據,每條6~40美分,比美國政府數據提前4~6周發布。
          這就是“時”,強調實時收集數據和實時分析數據。當然,在CPI的例子中,我們可以讓價格上報更智能一些,不需要人工的方式。
          從上面的大、全、細、時四個字,我們就可以對大數據的概念有個較為清晰的認識。這四點主要強調的數據的獲取和規模上,和以往傳統數據時代的差異。有了這個基礎,我們還要看怎么對大數據加以利用。這里就要看看大數據思維。我們也來看兩個例子。
          大數據思維
          85前應該都用過智能ABC,一種古老的輸入法,打起來特別慢。到了2002年左右,出了一個叫紫光的輸入法,當時就震驚了。真的輸入很快,仿佛你的按鍵還沒按下去,字就已經跳出來了。但漸漸的發現紫光拼音有個問題是許多新的詞匯它沒有。后來有了搜狗輸入法,直接基于搜索的用戶搜索記錄,去抽取新的詞庫,準實時的更新用戶本地的詞庫數據,因為有了大量的輸入數據,就能直接識別出最可能的組合。
          我們以前都用紙質的地圖,每年還要買新的,舊的地址可能會過時,看著地圖你絕對不知道哪里堵車。但有了百度地圖就不一樣了,我們上面搜索的地址都是及時更新的,雖然偶爾也會有被帶到溝里的情況,但畢竟是少數。可以實時的看到路面堵車情況,并且可以規劃防擁堵路線。
          我們想想這種做事方式和以前有何不同?
          我們發現不是在拍腦袋做決定了,不是通過因果關系或者規則來決定該怎么辦了,而是直接通過數據要答案。我們獲取的數據越全面,越能消除更多的不確定性。也就是用數據說話,數據驅動。

          上一篇:程序員要學習什么
          下一篇:大數據有哪些工作
          選擇城市和中心
          貴州省

          廣西省

          海南省

          香蕉视频在线一级a做爰片免费观看视频 欧美成年性色生活片 百度 好搜 搜狗
          <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <蜘蛛词>| <文本链> <文本链> <文本链> <文本链> <文本链> <文本链>