[MOOCS:edx]BerkeleyX CS100.1x- Introduction to Big Data with Apache Spark (四)

June 29th, 2015

前言:

最後一週，只有Lab．而最後一個Lab其實也接著之後的進階課程Scalable Machine Learning．所以最後一次的Lab開始介紹Spark關於Machine Learning的部分．喜好電影預測是個很有趣，很實用的課題．

這一次的Lab主要是要做透過使用者對於喜愛電影的評分，加上從MovieLen上面超過10M資料抽出50萬筆一般大眾的評分資料．來預測你可能會喜歡的電影．運用的技術是所謂的“協同過濾”(Collaborative filtering)的方式來達成．

簡單的概念就是: 如果一般人喜歡A電影的同時，大多也喜歡B電影．當你輸入你喜歡A電影的時候，系統就會預測出你可能也喜歡B電影．

上面的圖片可以有一個簡單的概述，也就是透過以下流程達成:

關於最後的Lab，一開始還稍微卡住．不過跟一些人請教之後．一下子就把最後的Lab寫完．

我才發現其實Spark的使用上並不會困擾我，我反而是困擾在Python的Lambda運用．

因為題目裡面很多都只給一個．但是當你不熟悉Lambda的時候，你就只會用很多行的方式來解決．

如果可以熟練使用Lambda的方式，更可以搭配著Spark的一些transform (map, filter, flatMap 或是 reduceByKey…) 來解決更多的問題．

有人推薦這本Data Science from Scratch principles Python似乎也蠻適合我這種對於Data Science完全沒有概念的人．關於這本書的範例程式在這裡可以找到．