91精品91久久久中77777-亚洲免费观看视频-超碰成人免费-天天天操-欧美成人吸奶水做爰-国产精品三级视频-国产又大又黄又粗-福利视频网址导航-日本公公和儿媳-久久精品爱-日日操夜夜操天天操-亚洲精品日韩精品-91片黄-国产精品99久久久-丰满岳妇乱一区二区三区-美女主播福利视频-黄色高清在线观看-人妻在线一区二区-中文字幕激情视频-欧美日韩激情一区-色香视频首页-911成人网-天堂网在线看-亚洲怕怕-嫩草视频一区二区三区-成人在线不卡视频-国产重口老太伦-91嫩草在线播放-成人黄色动漫在线观看-韩国一级淫片免费看

首頁 > 新聞 > 知識賦能

大數據的挖掘“大”在哪里?

2017-12-11 6625
分享至:
  以前我們談論數據挖掘,而大數據時代我們談論大數據挖掘。那么大數據挖掘“大”在哪里? 本文對此進行了一些歸納,希望能提供一些思考問題的方法。
不足之處請留言發表意見。
 
一、數據量的大
       數據量大到多少? 這是一個很多人在進行大數據挖掘時要問的問題。
從一些實際應用看,一般每天處理的數據量達到T、P級別的,可以考慮部署Hadoop、Spark之類的大數據處理平臺,一定量級的數據處理才能突顯這些平臺的優越性。
      數據量少,數據的讀取、搬遷所花費的時間占比太多,反而無法體現大數據處理平臺的優勢。不少應用只是為了大數據而大數據,幾百M也弄個Hadoop。因此,現在一談大數據就認為是Hadoop、Spark等平臺是很有局限性的。
      當然,實際在決定是否使用大數據平臺時,可能需要考慮更多的因素,例如:要集成很多的低性能機器、異構軟硬件平臺間的可移植性、大量的非結構化數據處理等。
 
二、數據類型的多樣化
      在數據挖掘時代,我們挖掘的數據主要以關系型數據為主。大數據時代,各種應用產生了各種數據,通常在大數據挖掘中會涉及到多種數據類型。這里所說的數據類型不是程序設計中的普通數據類型,而是更接近于應用的數據表現形式,通常有時間序列數據、軌跡數據、圖數據、文本數據等等。
      每天的銷售記錄、價格是普通數據類型,但是從時間維度將它們按照順序連接起來,構成的時間序列數據能體現出價格的變化規律,理所當然具有更豐富的含義。
       每個人所處的位置不過是一個(x,y)的普通數據類型,但是按照移動的先后順序把位置連接起來,就構成了某人的活動軌跡,背后體現的是他的生活、習慣,這些隱藏信息才是大數據應當關注的。
       微博或論壇中每個人是獨立存在的,也是普通數據,但是如果把每個人按照粉絲、關注等關系連接起來,就可以構成一張很大的圖,即圖數據。圖中的人群、離群,以及加上群體偏好、群體運動等屬性后的高等圖數據,就是大數據挖掘的關注點。
 
三、數據處理的噪音
      在數據挖掘時代,數據來源于關系型數據庫,都是一些與業務相關、質量比較高的數據,一般拿來就可以直接挖。大數據挖掘肯定就不是這樣,大數據思維決定了我們要考慮不同來源的數據的質量、數據結構魚龍混雜,以增強數據處理的魯棒性。比如,要進行企業級的客戶分析,不同的分公司可能使用不同的客戶管理系統,有的系統采用本科/碩士/博士來區分客戶的學歷,而有的采用本科/研究生來區分,這就要求考慮數據的一致性處理。此外,數據格式、數據完整性等等都是大數據挖掘需要考慮的。
 
四、數據挖掘的多樣化
      在數據挖掘時代,一般側重于單項的數據分析,而大數據挖據可能會更側重于多項數據挖掘任務同時存在,如業務上同時要求分類、預測、相關性、聚類等。盡管業務需求多了,但是這些分類、預測、相關性、聚類可能在底層上采用的是同一種模型,因此,在大數據挖據時考慮模型、算法與業務的分離是非常重要的,即所謂的大數據處理層次結構。
來源聲明:

本文章系尚品中國編輯原創或采編整理,如需轉載請注明來自尚品中國。以上內容部分(包含圖片、文字)來源于網絡,如有侵權,請及時與本站聯系(010-60259772)。

立即預約專屬顧問 開啟數字化轉型之旅!

10年+資深項目經理1V1服務 | 行業定制化方案 | 精準報價體系
獲取策劃方案
立即預約專屬顧問 開啟數字化轉型之旅!

咨詢我們,獲得專業的服務和報價

聯系我們,免費獲取項目方案及報價,或只是聊一聊您的項目? 在收到您的需求留言后我們將由專業人員于24小時內與您取得聯系,請您保持電話暢通!

  • 科研院所解決方案
  • 外貿出海解決方案
  • 協會學會解決方案
  • 集團上市公司解決方案
  • 生物醫藥解決方案
  • 制造業解決方案
  • 高校教育解決方案
  • 信創網站改造解決方案
更多服務咨詢,請聯系尚品

010-60259772

您的姓名 *
您的電話 *
您的郵箱
公司名稱 *