Big data is like teenage sex:
everyone talks about it,
nobody really knows how to do it,
everyone thinks everyone else is doing it,
so everyone claims they are doing it...
網路上Big Data的圖好找但不精,大多是泛泛之論的效果圖,因此下面附上一個簡單的Data處理步驟圖比較實用(懶人流程圖)!
處理Data到現在,目前遇到最大的Data差不多是30G,不到真正需要使用big data的數量級 (big data數量級大概30TB左右) ,所以沒有想碰Big data學hadoop的動力,但還是筆記一下最基本的概念,畢竟基本上分析資料的核心觀念還是差不多的。
大數據 Big data
或稱巨量資料、海量資料、大資料,指的是所涉及的資料量規模巨大到無法透過人工,在合理時間內達到擷取、管理、處理、並整理成為人類所能解讀的資訊。在總資料量相同的情況下,與個別分析獨立的小型資料集(data set)相比,將各個小型資料集合併後進行分析可得出許多額外的資訊和資料關聯性,可用來察覺商業趨勢、判定研究品質、避免疾病擴散、打擊犯罪或測定即時交通路況等;這樣的用途正是大型資料集盛行的原因。
5V (Volume、Velocity、Variety、Veracity、Value)
- 數量 (Volume) : 系統會收集大量的資料
- With 90 percent of the world’s data created in the last 2 years
- 時效性 (Velocity) : 資料收集和取樣速度飛快
- The New York Stock Exchange captures about 1 terabyte of trade information daily. Reacting fast enough and analyzing the streaming data is troubling to businesses
- 多樣性 (Variety) : 系統收集的資料和有待分析的資料具有不同的結構和格式,包含文字、影音、網頁、串流等等結構性、非結構性的資料
- because of the explosion of data generated by social media sources, 80 to 85 percent of all the world’s data is now unstructured (text, audio, video, click streams, log files and so on)
- 正確性(Veracity):當資料的來源變得更多元時,這些資料本身的可靠度、品質是否足夠,若資料本身就是有問題的,那分析後的結果也不會是正確的
- 價值(Value) : 分析資料後即可取得重要價值
3I(Instrumented、Interconnected、Intelligent)
- Instrumented:物聯化,當所有的物件都可以被當成一種資料生成裝置時,透過RFID或者其他感測裝置,我們能記錄任何物件的狀態,讓這些物件有了生命。
- Interconnected:互連化,物件彼此做連結,透過數據交換建立起連結。例如現在你已經可以用手機控制電視,也能控制電腦,兩者就不再是單一的個體,而是互相連結的相關物件。
- Intelligent:智能化,使用人工智慧等方法讓資料轉為智能反應。
關於資料視覺化,我覺得下面這個project的demo很酷! 有讓人想當資料科學家的的感覺:D
LIVE Singapore! - MIT Senseable City Lab
LIVE Singapore!, an ongoing initiative by the SENSEable City Lab at MIT, closes the feedback loop between people moving in the city and the digital data generated by their actions. The project's platform allows for the collection and combination of multiple data streams and provides access to data through dynamic visualizations that offer new insights into Singapore's urban dynamics.
https://www.youtube.com/watch?v=2aEPkyOBtRo&feature=youtu.be&t=8s
Reference
http://zh.wikipedia.org/wiki/大數據
AVNET - The 5 V's of Big Data
http://www.ats.avnet.com/na/en-us/news/Pages/The-5-Vs-of-Big-Data.aspx
gipi - 雲端時代的殺手級應用-Big Data海量資料分析
http://www.dotblogs.com.tw/jimmyyu/archive/2013/03/07/big-data-analysis.aspx
Facebook - Dan Ariely
https://www.facebook.com/dan.ariely/posts/904383595868
沒有留言:
張貼留言