RCTS Scientific Computing Seminar | |
DATE | 2015-08-20 14:00-15:00 |
PLACE | 數學館3178教室 |
SPEAKER | 陳仁乾 工程師(OpenX資深工程師) |
TITLE | 大數據實戰:我在廣告業學到的兩三事—實戰篇 |
ABSTRACT |
什麼是資料工程呢?基本上就是開發及維護一個穩定的後端資料庫,處理過後的資料要能成為具有可信度的資訊,而且這些資訊通常都是要拿來收費的。在這個演講中我們討論大小公司都共用的資料工程演算法。資料工程不外乎就是 1. 去除無效資料 2. 連結相關的資料 3. 加總成報表。我會講解hadoop處理資料的特性,以及一些好用的資料處理撇步。除了投影片會公開外,許多範例程式碼也會公開以供大家參考。期待能拋磚引玉,為台灣的資料工程界錦上添花。
1. 如何用hadoop設計大規模資料處理的演算法,相關程式都會放在github
* 資料結構,以及資料鏈的規劃
* 加總報表 (aggregation) 的演算法
* 連結資料 (join): 簡易join,以及傳統資料庫難以達成的複雜join
* 去除無效資料 (de-duplicate) ,這也是join演算法的延伸 |