在對大數據有初步的瞭解之後,我們就接著來看看如何運用大數據的資料來創造價值,我們不妨將大數據想像成1座礦山,要怎麼從礦山中挖出有價值的金礦,就是資料探勘的重點。
找出藏於資料中的金礦
資料探勘翻譯自Data Mining,無論中英兩者都無法完整詮釋它的概念,因為資料探勘並不只是找尋資料本身,更重要的內涵是透過電腦自動化分析,從大量資料中找出過去未被發掘的潛在資訊,並做為決策時的參考依據。如果以汽油來做為比喻的話,資料探勘的工作涵蓋了尋找油田(尋找資料源)、開採石油(收集資料)、精煉(尋找資料中的潛在資訊),以及將汽油做為燃料(運用潛在資訊創造價值)。
舉個最簡單的例子,購物網站中的推薦商品符合這個概念,當消費者在網站上購買商品時,系統可以記錄所有購買的品項,並作為消費習慣的分析,例如購買特定日用品的頻率與數量、對服飾顏色的偏好、喜歡的音樂類型等等。如此一來購物網站就能透過析後的資料,推估使用者下次購買日用品的時間,並在接近時自動寄送廣告郵件,或是當有消費者可能感興趣的商品促銷時自動通知,提高消費者購買的意願。
▲Amazon是全球最大購物網站之一,它的推薦商品功能就是資料探勘的成果。
隨著電腦、行動裝置、物聯網裝置逐漸融入生活中的每個角落,尋找與收集資料的方式也產生了很大的變化,甚至我們可能根本沒有意識到資料正在被收集。例如我們使用智慧型手機的行車導航功能時,系統就能透過手機內建的動態感應器,計算每個路段的行車速度推估車流量大小,並配合當時的時間、日期進行分析,如此一來可能就能得到平日上班時間走高速公路會塞車,或是每個星期六市區的哪些路段特別擁塞等等路況資料,有了這些資料的輔助,導航功能就可以提出更流暢的路線規劃,而不是單純只從地圖上搜尋最短路徑。
運用方式多元靈活
有些時候,資料的收集與使用方式也可能出乎我們預料,舉例來說,在使用搜尋引擎查詢資料時如果打錯字,系統便會顯示以修正過的關鍵字進行搜尋的結果,當使用者點選任一結果後,系統便可以知道修正的結果是正確的,反之若使用者選擇改為搜尋原本輸入的關鍵字,系統也能夠知道原本被判別為錯誤的字是「確有其字」。
更進一步,系統還可以記錄使用者進入哪個搜尋結果,在往後進行翻譯、輸入法的功能改善時,就可以讓電腦程式或工作人員直接參考最多人選擇的搜尋結果(換句話說就是使用者在無意間進行人工篩選),將該辭彙的資料輸入至資料庫。
▲以Google搜尋為例,當使用者輸入的關鍵字可能有誤時,系統會自動進行修正。
資料探勘與大數據可以說是一體的兩面,我們需要先設法取得資料並挖掘藏於其中的潛在資訊,並活用這些資訊來創造價值,上面例子中講到購物網站的推薦商品、行車導航的車流預估、搜尋引擎的自動修正,都能創造出業績與服務品質提升的價值。
不過人類與生具來的頭腦也是個好東西,能夠透過邏輯判斷、經驗類比等方式解析事件的因果關係,而資料探勘說穿了只是透過統計、分析極大量的資料來找出高度相關的事件,所以在進行資料探勘的過程中,也不要將相關性凌駕於因果關係之上,否則可能會做出許多倒果為因、另人哭笑不得的決策。
說文解字使用範例:資料探勘
O:資料探勘需要仰賴創新思維挖掘潛藏的資料,並靈活運作。
X:星期天我們一起帶著鏟子上山進行資料探勘。
(封面圖片來源:Flickr,本圖採用創用CC姓名標示-禁止修改分享,作者為Mathematical Association of America)
你或許會喜歡