2015年8月11日 星期二

[演講] What is Big Data by Etu



大數據演講,雖然聽了好幾場,不過覺得不同講者都會有不同的收穫,
可能是觀點或是套用領域不同,多聽多有幫助。
本場講者是林志成先生是精誠集團 Etu知意圖事業開發處長


為人所知的案例:颶風與草莓夾心、Twitter 股市,這也都是冰山一角的範例

現在樣本等於母體,不再有抽驗誤差
犧牲精準度,但有整體趨勢
重視相關性,不問因果

Google 流感預測,隨著人們的行為,也會有些微變化,人對感冒症狀的熟悉
不是說套用大數據分析,就可以馬上看到曲線模擬比對

小七收銀機搭配鏡頭,從廣告中關注顧客的注視程度
數據包含天氣,時間,比對出產品銷售的關聯性

復仇者聯盟,推出預告後,收集回應,分析正負評,進行微調,出不同版本預告片
卡夫,混合醬料案例
紙牌屋,線上影音輸出,所以租片子的資料
導演與演員的黃金組合
歐巴馬,選舉餐會募資最大化,分析出該搭配哪個大咖明星(粉絲是中產階級)

電子商務, yahoo 知道你喜歡什麼
網路社群的口碑,現代流行這種行銷

洞察客群屬性和行為特性

主動適時提供使用者想要的/需要的

以學校情境,哪些可以運用的數據?
以教學,學習為主題,拿來分析社會需要技能,學習工具,版本等
招生系所落點等

國內在大數據的學院: 東吳大數據學院


Google 在 Hadoop 的努力過程
Google file system ,大量儲存
Mapreduce ,大量處理
命名來自大象名 XD

Big table ,協助查詢,設計異於傳統正規化

商業版平台,Cloudera
[文] Cloudera : 致力於Hadoop雲端運算的解決方案公司


Yahoo 推出的 Hortonworks

Columm base 概念存放資料
app: Line 就是放在 hbase 裡

FB 開發 hive ,SQL like 

特色Scale out ,橫向硬體擴充、分散式運算

4V
何謂,原本有瓶頸,超出原本可處理的
多形式,結構非結構半結構等
多筆數多 join 也可以考慮用 Hadoop
速率,兩種含義,產生很快,或處理時間希望快點
最後便是價值,大數據需要想像力
大部分應用是解決效能問題,但後續還有很多可以分析

資料庫,資料倉儲,data lake
不斷在利用的概念
R語言可以架構在 Hadoop 上,還有分散式,最近很夯

Data lake 
各種不同來源的資料匯入
資料欄位先不用定義
資料處理
Data ingest 入庫,跟最後應用有關

傳統資料探勘有效能跟擴充問題
以前無法把很多資料直接丟到 SPSS

Hadoop 是一個工具,將原油(大量資料)做一個提煉,
產出萃取物讓他可以有更多應用,亦即轉化為資訊跟決策層級

傳統平行運算是將運送跟儲存分開
但 Hadoop 是切開後將運算與儲存綁在一起,所以少掉 IO 移動的花費

企業導入相關挑戰
平台搭建,部署調校
維運管理,人才小組
也就是 Etu 的協助 (廣告時間 XD)

案例分享

輿情分析,事件涉及機關團體,社會影響層面,抗爭議題為何

udn news
買流量,導廣告
但是進來又走掉了
精進,精確推薦功能
收集點擊紀錄,權重,類別,後端協同分析
也看過什麼,也推薦什麼,
增加與可能購買商品接觸時間

未來 DM 也會有差異化設計
電訪,有空時間,非上班時間
Line 或 FB 推播時間

巨量圖檔管理
例如印鑑


銀行 transaction不適合,類型不同

例如 youtube 也是用 Hadoop
上傳時就轉成不同解析度

多文件的處理
如果資料邏輯有相依性,因為要等待其他檔,所以就不適合用 Hadoop
主要還是要看省多少功夫

硬體領域,用來做良率分析改善,牽涉封裝廠 log 格式
至少可以拿來加速流程

恆逸系列課程
根大學合作,許多實務案例

免費下載,安裝 
Sandbox (Sandbox應用程式,中譯為沙箱,是指容許在限制的範圍內存取資源,藉此控管應用程式在安全無虞的情況下仍可存取網路或本地資源)

未來五年,大數據將會變得更現在 db 一樣常見,認證

產學合作的模式,互補技術與實務面
音樂自動貼標
Etu 舉辦的 Hadoop比賽


使用 Etu 方案



延伸閱讀:

[文] 資料探勘常見的分析方法
記憶基礎推理、購物籃分析、回歸、決策樹
基因演算法、群集偵測技術、連絡分析、線上分析處理
類神經網路、區別分析、Logistic Analysis


沒有留言: