[年度計畫]52 Weeks, 52 Projects.... (持續更新)

前言

主要是因為看過https://speakerdeck.com/jeffersonlam/reflections-from-52-weeks-52-projects投影片之後想要跟自己挑戰.

條件與限制

  • 一個禮拜一個專案
  • 不限制專案大小,但是重構不包含其中.
  • 不限制一定要建立新的專案,可以學習人家寫一樣的專案(但是要自己打造內容,而不是fork再來修改)。
  • 不限制任何程式設計語言

真的沒點子嗎? 這一篇文章也不錯 Write code every day

進度 (會不斷更新)

  1. (06/25):Facebook Album Downloader: https://github.com/kkdai/goFBPages 一個抓取臉書相簿的小工具.
    • 主要學習FB API跟檔案下載.
  2. (07/02): Instagram Downloader: https://github.com/kkdai/goInstagramDownloader 抓取Instagram的相片的小工具.
    • 其實Instagram 不少眉眉角角,沒下去寫不知道他的分頁的設計其實相當有趣.
  3. (07/10): Facebook Album Client: https://github.com/kkdai/goFbAlbum 將小工具的API抽取出來成為一個元件,順便加上相關文件.
  4. (07/18): Microsoft Translator: https://github.com/kkdai/mstranslator
    • 發現不少特別的眉眉角角,先寫在心得裡面.這個工具可以幫助你使用一些基本的翻譯網路功能.
  5. (07/25): iloveptt 我愛批踢踢: https://github.com/kkdai/iloveptt
  6. (07/31): Paxos: https://github.com/kkdai/paxos
    • 學習如何用Go channel模擬網路通訊
  7. (08/07): Bloom Filter https://github.com/kkdai/bloomfilter
  8. (08/15): Skip List: https://github.com/kkdai/skiplist
  9. (08/22): https://github.com/kkdai/pubsub A Redis pub/sub concept implement.
  10. (08/29) https://github.com/kkdai/webpic WebPic downloader
  11. (09/04) https://github.com/kkdai/jsonop A json operation library
  12. (09/12) https://github.com/kkdai/radix A simple radix tree implement in Golang
  13. (09/19) https://github.com/kkdai/dfa A Deterministic Finite Automata function implement in Golang
  14. (09/26) https://github.com/kkdai/nfa A Nondeterministic Finite Automata function implement in Golang
  15. (10/02) https://github.com/kkdai/e-nfa A Epsilon Nondeterministic Finite Automata function implement in Golang
  16. (10/09) https://github.com/kkdai/re2epsnfa A tranform function to translate RE to Epsilon-NFA
  17. (10/16) https://github.com/kkdai/cyk CYK algorithm in Golang
  18. (10/23) https://github.com/kkdai/pcp PCP: Post’s Correspondence Problems simple solver implement in Golang
  19. (10/30) https://github.com/kkdai/tm TM: Turing Machine implement in Golang.
  20. (11/05) https://github.com/kkdai/twitter A simple twitter API in Golang
  21. (11/13) https://github.com/kkdai/consistent Consistent Hashing implement in Golang
  22. (11/20) https://github.com/kkdai/photomgr A photo download made for gomobile in Golang
  23. (11/27) https://github.com/kkdai/trigram A trigram indexing using Go.
  24. (12/04) https://github.com/kkdai/ngram A ngram indexing using Go.
  25. (12/11) https://github.com/kkdai/beacon Beacon Simulator: A simple beacon simulator (iBeacon/Eddystone) in Golang
  26. (12/18) https://github.com/kkdai/youtube A Youtube download package in Golang
  27. (12/25) https://github.com/kkdai/react-diff React Diff binary tree in Golang
  28. (12/31) https://github.com/kkdai/EddystoneScanner Eddystone Beacon Scanner in Golang
  29. (01/08) https://github.com/kkdai/CoapPubsub A PubSub client/server using CoAP protocol
  30. (01/15) https://github.com/kkdai/ri A UDP client/server to get Public and Private IP and Port for hole punching
  31. (01/22) https://github.com/kkdai/coapmq A Publish-Subscribe Broker for the Constrained Application Protocol (CoAP) in Golang
  32. (01/29) https://github.com/kkdai/oxford-face Project Oxford Face API for Golang
  33. (02/05) https://github.com/kkdai/oxford-face-client A client App for oxford-face Golang package (http://github.com/kkdai/oxford-face)
  34. (02/12) https://github.com/kkdai/oxford-emotion Project Oxford Emotion API for Golang
  35. (02/19) https://github.com/kkdai/diskqueue NSQ Diskqueue implement in Golang
  36. (02/26): https://github.com/kkdai/pd (PUBSUB) Publish-Subscrbe message broker with Disk queue in Golang
  37. (03/04): https://github.com/kkdai/rd A simple RPC Message Queue Server/Client with DiskQueue.
  38. (03/11) https://github.com/kkdai/raftrpc Simple RPC Key Value Server using etcd/Raft in Golang.
  39. (03/18) https://github.com/kkdai/githubrss A github notification (starred, follower, followed) RSS feed in Golang
  40. (03/25) https://github.com/kkdai/rss-webserver A simple Github Status RSS feeder server in Golang
  41. (04/01) https://github.com/kkdai/slack-console A simple slack console tool in Golang
  42. (04/08) https://github.com/kkdai/plurk-makerserver Plurk post server for IFTTT Maker in Golang
  43. (04/15) https://github.com/kkdai/kmp KMP (Knuth–Morris–Pratt algorithm) implement and related string function Strstr and Strchr in Golang
  44. (04/22) https://github.com/kkdai/aca Aho–Corasick algorithm automation implement in Golang
  45. (04/29) https://github.com/kkdai/LineBotTemplate A simple Golang LineBot Template and tutorial how to setup on Heroku for Line Bot API
  46. (05/06) https://github.com/kkdai/LineBotPetNeedMe Animal Adoption Platform on Line Bot
  47. (05/13) https://github.com/kkdai/petneedme Package to get Pet Adoption OpenData from Taiwan in Golang
  48. (05/20) https://github.com/kkdai/bstream A Bit Stream helper in Golang
  49. (05/27) https://github.com/kkdai/trr TRR: Time-Series of gorilla algorithm with Raft RPC Server/Client in Golang
  50. (06/03) https://github.com/kkdai/maglev A Google Maglev Hashing Algorithm implement in Golang
  51. (06/10) https://github.com/kkdai/petl A Pipeline ETL process and receive data from pipe in Golang
  52. (06/17) https://github.com/kkdai/raftserver A RPC Server implement base on Raft Paper in Golang

心得 (不斷更新)

  • [07/18]關於Micorsoft Translator:
    • 在實作的時候,不確定是不是所有API都是這樣. Microsoft 竟然把Appid 寫在Authorization的token前面,變成 APPID + " " _ token. 參考 API Spec
    • 另外一個讓人百思不得其解的是Microsoft Json response 竟然前面有BOM(Byte Order Mark),讓我在做json.Unmarshal的時候死得很大啊. 解決方式看這裡
    • 同時也發現原來想要手工打造一個API client其實可能還要忍受許多API上面資料格式混亂的問題.比如這個有些API用JSON,有些用XML.而且API URI還可以不同版本,太奇特了.
  • [07/25]關於Ptt Crawler
    • 順便學習了goquery,挺好玩的.
    • 因為想要給朋友用,也順便把Windows 支援弄了一下,主要是要把所有目錄都用filepath.FromSlash轉過.細節可以看這裡
  • [07/31]Paxos
    • 主要是學習如何用Go來表達與呈現網路中的分散式系統架構.這部分應該可以寫一篇說明文章.
  • [08/07]Bloom Filter
    • 主要學習test package 跟 bechmark function.
  • [08/15]SkipList
    • 主要是複習一下用linked list 怎樣在Go上面實現.. 並且完成sorted linked list.
    • 也瞭解了Skiplist的資料結構與各種演算法.
  • [08/22]Pubsub
    • RedisPub/Sub概念實現,主要是特過channel 的特性來實現Massaging Management System
    • 裡面主要透過兩個map來相互的控制:
      • 一個Map 管 chan-> topics: 也就是透過 chan 來查看該chan訂閱多少topics
      • 一個Mao 管 topic->chans : 也就是透過某個topic 來查看有多少chan 訂閱
    • 透過這兩個Map的機制,來做topic的訂閱管理
  • [08/29]WebPic
    • 學習了剪貼簿的存取方式,與更深一層的JQeury使用方式.
  • [09/04]jsonop
    • 主要把recursive拿回來練手,還有發現nil(none)其實是一個特別的資料型態.
  • [09/12] radix tree
    • 完全依照spec來implement,發現大家都使用for loop,我還是依舊使用recursive來做.可能效能沒那麼好.不過挺有趣的.
  • [09/19] DFA
    • 主要是學習Coursera Automata用到的,順便寫成小程式.其實使用Map會比想像中簡單.只是這邊要注意的是Map iterator是沒有順序的,參考這裡Iteration order
  • [09/26] NFA
    • 繼續做automata上面的內容.一開始要寫,會擔心NFA很難implement.但是只要把概念想好,將目前的點開始發散(使用BFS)方式來實作,其實就可以做出來.
  • [10/02] ε-NFA
    • Automata其實有不少部分可以拿來寫程式,而且diagram的traversal也很有趣.尤其對於ε的處理,想了很久啊.
  • [10/09]主要是透過Automata 課程上的題目來改成自己可以用的轉換方式.並且支援自己寫出的e-nfa.感覺挺酷的…. 不過也發現自己原先寫e-nfa有些部分沒有考量到.
  • [10/16]CYK: 竟然寫好程式忘記過來更新,還是持續在弄automata的東西.CYK主要是拿來計算是否輸入文字能被特定的CFG所產生出來.
  • [10/23]PCP: 持續弄Automata.這個問題是NP-Problem,而且似乎沒有辦法找到一個完整的解法.目前只能找出有沒有產生迴圈.有把相關的論文都找出來記錄起來.
  • [11/05]Twitter: 主要是要搞懂twitter流程與設定.
  • [11/13]Consistent Hashing: Hash的演算法很重要,整個資料結構動不動都靠它了…..
  • [11/20] 學過 CocoaPods後跟gomobile 來寫iOS App變得更簡單.讚讚…
  • [11/27] 有特別為了這個寫了一篇post
  • [12/04] 主要是優化效能,有一篇相關文章
  • [12/11] 先練習Beacon Simulator 也順便了解Eddystone的格式,詳細說明文章

[Golang]關於MacOSX Desktop Notification(桌面提醒)

image

##前言:

想要寫一個小工具,可以把一些http link傳給下指令的人.卻又苦於一般CLI無法直接顯示Hyperlink.想說參考了一下gomon,不過卻發現原來MacOSX的桌面通知有不少方式可以顯示.

##可以發送MacOSX Desktop Notification的方式:

[免費的] 透過Apple Script來發送

Apple Script 提供一個簡單的方式,可以在任何Application 或是 CLI的來發送通知.

不過他有一些缺點:

  • 不支援HTTP LINK
  • 不支援自訂圖片
  • 無法自訂標題或是ICON

這裏有一個Golang 的小工具,有將Apple Script 整理過https://github.com/everdev/mack

[免費的] 透過terminal-notifier

terminal-notifier是一個由ObjectiveC與Ruby構成的小App,可以透過Homebrew來安裝.

雖然可以開啟URL,但是還是有以下的缺點:

  • 無法自訂圖片
  • 不支援ICON

[付費] Growl

Growl算是相當知名的Notification App,提供相當多的API給使用者使用.

這裏列出幾個Go的相關工具:

  • go-gntp
    • 透過Golang來呼叫Growl 的APIs
  • Gomon
    • 會幫你檢查source code並且回報給你.不過也是透過Growl來做的.

[MOOCS][Golang]MIT6_824 Distributed Systems Week3- About Paxos Algorithm

前言:

由於之前無論文有點久遠,先把論文瞭解的部分先寫成文章.之後再來把Lab3寫出來…. 這一篇主要是講Paxos算法的部分

MIT 6.824 分散式系統 系列文章

6.824: Distributed Systems

##論文-Paxos

先拿出一張各種的consensus的解決方式比較圖.

image

論文的原文,Leslie Lamport,(就是 LaTeX 中的”La”)在1990提出該演算法後,由於太難懂沒有受到重視.於是他又寫了一篇來解釋自己的演算法其實很簡單. 很有趣….

共識問題

Paxose主要是要解決共識(consensus)的問題,這一個Quora舉了一個很有趣的案例討論什麼叫做共識(consensus),就像是婚禮的誓詞一樣.

  神父: 新娘你願意嫁給新郎? 
  新娘: 願意
  神父: 新郎你願意娶新娘嗎?
  新郎: 願意
  神父: 那..我宣佈你們成為夫妻

2PC (Two Phase Commit)

類似這樣就叫做共識問題,而一開始提出的解法就是2PC(Two Phase Commit)

  • Vote-Phase: 由協調者(也可以稱為提案者,原本也是其中一個節點)提案所有節點(node),是否同意某個數值(或是交易).其中協調者需要詢問所有的節點,確認大家都是同意的.
  • Commit-Phase: 當協調者確認全部人同意後,他會執行這個動作.並且也告訴所有的節點,要執行這個部分(數值或是交易)

缺點:

  • 指令相當繁瑣,需要一共三次的溝通.如果有n個節點,就需要有3n的資訊往來.
    • 協調者 -> 節點 (是否同意?)
    • 節點 -> 協調者 (我同意)
    • 協調者宣布提案成立
  • 任何一個節點的失敗不會造成該提案失敗,但是如果在詢問的過程中協調者忽然離線了.其他的人就無法知道狀況與結果.

為了避免協調者離線的問題,於是乎有了3PC的方式 (Three Phase Commit)

3PC (Three Phase Commit)

  • Phase 1: 跟Vote-Phase一樣,協調者會問所有的節點.
  • Phase 2(新步驟): 協調者取得所有人的共識後,會發送一個”Prepare to Commit”的訊息給所有的節點.這個動作的重點是,告訴所有的節點我們已經取得所有人的共識.要開始執行提案.(表示該提案已經成立,不會退回).此時所有節點也會回傳給協調者告知是否有收到.
  • Phase 3: 跟Commit-Phase一樣,協調者會執行提案後也告訴所有節點要執行該提案.

解決的問題

  • 如果在3PC的狀況下,如果在Phase 2發生了協調者離線(crash),新的協調者只要重跑一次Phase2 即可,不需要重新詢問Phase 1.
  • 如果是在Phase 3發生crash,由於已經收到回應確認全部人都已經有收到Prepare to Commit.所以新的協調者繼續執行最後步驟即可.

缺點

雖然3PC解決了重大問題,但是還是存在一些問題如下:

  • 步驟變得更繁瑣,需要訊息量也從3n變成5n (2 + 2 + 1)
  • 無法解決如果網路發生問題造成某些節點以為還在第二步驟,某一些節點卻又到了第三步驟.

Paxos Algorithm

image

(Image comes from here)

為何我們需要Paxos Algorithm?
  • 雖然解決了協調者crash問題,但是無法結果Partition Failure.也就是由於某些網路問題造成數個節點離開.(或是中間節點鍛造成兩個子網路)這也是所謂的 Partition tolerant algorithm.(尤其現今網路的狀況,這種情況更容易發生)
  • 原來不論是在2PC或是3PC討論的都是協調者失效後,由其他人來替代的方案.但是現在要討論的是,節點失效後採取的復原方式與相關的處理.這樣會更有效用.根據原文也就是說 3PC是 fail-stop resilient但是比較需要的應該是fail-recover resilient.
關於Paxos的起源與假設

Paxos主要是根據Lamport所提出的一個寓言故事,也就說個古希臘愛琴海上的被稱為Paxos的小島的故事.根據該小島議會制度所提出的演算法,裡面有幾個主要的假設:

  • 小島上的人忙著經商,所以不會一直在議會裡面.也就是共識可能是在大家不一定全部都在的狀況下產生.所以他只需要大多數的人同意即可.
  • 不會有拜占庭將軍問題(也就是一個訊息被傳遞兩次的問題).而且訊息不管要經過多久,都會被傳到.
  • Paxos小島上的人性本善,基本上提出的提案都會被同意.
主要運作原理:

某些層面跟2PC很類似,但是主要精神不同:

  • 選舉出一個leader(或是提案者)
  • 提案者提出一個提案(acceptor)傳給大家(這個訊息稱為acceptor-request)在一個限定的時間內(a given time).
  • 不同於2PC,Paxos只需要大多數的人回覆同意即可繼續發送commit message給所有節點
如果leader(提案者)failure?

由於原本2PC方式沒有辦法處理leader錯誤的狀況.在這裏Paxos提供以下兩個機制來處理:

  • Assign an order to leaders: Paxos不像是 2PC ,他可以存在多個Leader.在他們發現leader failure的時候,其他節點就會推選出新的leader.並且給予每個leader一個順序.預防原本的leade又從failure recover回來.
  • Restricting leader’s choice in selecting value: 要如何能讓consensus的過程在新的leader上面繼續? 就是要限制在這個時候被推選的leader的提案.必須是之前的acceptor (也就是說正在進行中的consensus的數值).
Protocol Step:

以下的敘述,主要以議會的方式來解釋各個狀態:

  • 準備階段(Prepare Stage):
    • 被選為提案者提出了一個提案,其中Proposal 1的數學表示為 P1(x, y) (x: 提案的流水號, y: 提案的內容)
    • 如果是第一個提案,所有議員都會同意.而且同意該提案後.並且議員回覆自己上次同意的號碼給提案者.並且承諾之後所有提案流水號小於x的提案都會被拒絕
    • 議員大多數狀況下只會同意,但是在以下狀況會拒絕:
      • 該提案內容(v)與前一次的提案內容相同.
      • 該提案號碼小於之前同意的提案流水號.
  • 核准階段(Commit stage):
    • 提案者會在收到大多數的人回覆同意之後,將告知所有節點要把提案交付.並且把上一次的提案數據附上.如果沒有前一次數據,提案者可以自行加入任何數值.
    • 議員再收到交付的訊息後,為了不違背之前的承諾.都會把提案內容交付.

參考資料:

[MOOCS:edx]BerkeleyX CS100.1x- Introduction to Big Data with Apache Spark (四)

image

前言:

最後一週,只有Lab.而最後一個Lab其實也接著之後的進階課程Scalable Machine Learning. 所以最後一次的Lab開始介紹Spark關於Machine Learning的部分.喜好電影預測是個很有趣,很實用的課題.

相關文章

edx 課程網址在這裡 https://www.edx.org/course/introduction-big-data-apache-spark-uc-berkeleyx-cs100-1x

Lab4 - Predicting Movie Ratings

image

這一次的Lab主要是要做透過使用者對於喜愛電影的評分,加上從MovieLen上面超過10M資料抽出50萬筆一般大眾的評分資料.來預測你可能會喜歡的電影.運用的技術是所謂的“協同過濾”(Collaborative filtering)的方式來達成.

簡單的概念就是: 如果一般人喜歡A電影的同時,大多也喜歡B電影.當你輸入你喜歡A電影的時候,系統就會預測出你可能也喜歡B電影.

上面的圖片可以有一個簡單的概述,也就是透過以下流程達成:

  • 建立參考數值(也就是我們所認知的一般人喜好)
    • 計算每部電影的平均評分跟評分個數
    • 找出500個評分以上的資料.這些資料要來當作預測數值衡量基準.
  • 訓練模型
    • 找出訓練的資料群組
    • 針對Matrix Factorization Model的資料類型,Spark提供ALS.train的方式來train
    • 計算出預測出的RMSE(Root Mean Square Error),也就是與大眾偏好的偏差值
      • 當預測數值越精確,RMSE會越趨近於零.反之,越趨近於一.
    • 透過rank的變化,挑選出最好的模型(RMSE最低的)來進行下一個階段
  • 預測你可能會喜歡的電影
    • 輸入你對於電影的評分
    • 透過ALS.train預測結果

心得

關於最後的Lab,一開始還稍微卡住.不過跟一些人請教之後.一下子就把最後的Lab寫完.

我才發現其實Spark的使用上並不會困擾我,我反而是困擾在Python的Lambda運用.

因為題目裡面很多都只給一個. 但是當你不熟悉Lambda的時候,你就只會用很多行的方式來解決.

如果可以熟練使用Lambda的方式,更可以搭配著Spark的一些transform (map, filter, flatMap 或是 reduceByKey…) 來解決更多的問題.

有人推薦這本Data Science from Scratch principles Python似乎也蠻適合我這種對於Data Science完全沒有概念的人. 關於這本書的範例程式在這裡可以找到.

相關鏈結:

[MOOCS:edx]BerkeleyX CS100.1x- Introduction to Big Data with Apache Spark (三)

image

前言

剩下兩週了,不過家中寶貝誕生.必須要把時間做更好的調配,才能完成這個課程.

相關文章

edx 課程網址在這裡 https://www.edx.org/course/introduction-big-data-apache-spark-uc-berkeleyx-cs100-1x

Lecture 7 Data Management

  • Data Clean: Deal with:
    • Missing Data
    • Entity Resolution
    • Unit mismatch
  • 對於現實世界中數值可能出現的Dirty Data分為以下各種:
    • 失真(distortion): 當發現在連續作業中的某段資料不見的時候.
    • 選擇性偏差(Selection Bias):由於樣本的選擇不同,所以得到差異相當大的數值.比如說訪問政黨傾向不同得民眾.這裡有更詳細資料
    • Left and Right Censorship: 由於樣本不斷地來來去去,不能知道樣本是否有跑完所有採樣流程.
    • 相依的(Denpendence): 每個樣本應該是比次獨立,但是有一些沒有而造成資料的偏差.
  • Data Gathering的重要性:
    • 資料在取得的時候存在許多發生錯誤的可能性,比如說硬體或軟體的問題或是欄位的問題..等等 若是能在取得資料的時候做一定程度的驗證,可以讓資料精確度更高.
  • 其他名詞解釋:
    • Big rot: 資料超過一定時間的沒有數值跟精準度.
  • Data Delivery可能發生的問題與解決方式:
    • 資料遺失或是毀損:
      • 透過可信賴的傳輸方式或是透過Relay,也可以增加checksum來增加資料傳遞的可信任程度.
    • 資料來源的相依性與可信任程度:
      • 必須跟資料提供者有相當程度協調與協議.

Lecture 8 Exploratory Data Analysis and Machine Learning

  • 敘述性統計(Descriptice Statistics): 透過統計數量來對事件作敘述,比如說,本班的成績平均.
  • 推論性統計(Inferencial Statistics): 透過收集到的統計數字,對事件作一定的推論.比如說,選前問卷調查.

  • 探索性數據分析(Explortory Data Analysis): 透過先行的探索來進行數據的分析,進行的活動可能有以下數種:
    • Visualizing the data distributions
    • Calculating summary statistics for the data
    • Examining the distributions of the data
  • Rhine Paradox: 找了一千個人來猜連續十張為藍色或紅色的卡片.進而判斷出不能告訴超能力的人他有超能力的心理分析結果.
    • Rhine’s Error: 但是真正的錯誤是,由於要猜測10張完全顏色一樣的機率為1 / 2^10 =>(1/1024) 也就是說一千個人要猜對一次也不到1個.其實要講解的是對於數據的不清楚造成錯誤的結論.
  • Spark Machine Learning Toolkit(mllib): 提供許多功能比如說分類與回歸分析或是一些數值分析的工具.

Lab3

這次的Lab3更加深難度的要讓我們學習Text Analysis 跟 Entity Resolution並且有提到“詞袋模型”(Bag-of-words model),裡面有幾個比較需要注意的地方:

關於 python dictionary 的 lambda:

這次比較困擾我的,其實是Python 的dict lambda

//建立一個新的map,其結果是 key in MapA value 是 MapA[key]+ MapB[key]
newDict = dict()
for k in MapA:
    newDict[k] = MapA[k] + MapB[k]

//可以用Lambda表示
newDict = {k: MapA[k]+MapB[k] for k in MapA}

很多題目都只有給一個 但是要做的事情太多,只得用lambda來思考.這個部分需要相當大量的腦力,蠻希望能有機會找找到更漂亮的解答.

關於一些Apache Spark查詢的優化方式:

由於不少人的查詢方式有點慢,造成auto-grader 發生錯誤,於是學校方面發了一些聲明來指導大家正確的使用他:

  • 關於找出最大的幾個數值的部分:

      #不要使用python的方式來排序,
      for i in vendorRDD.collect():
          measure len() to find biggest X
    
      #使用spark的action來找,放在記憶體跑會比較快.,
      vendorRDD.takeOrdered(helper function)
    
  • 關於聯集合的部分:

      #不要使用python的集合合併
      unionRDD = sc.parallelize(A.collect()+B.collect())
      #直接使用 union
      A.union(B)
    
  • 關於加總的部分

      #使用python的list家總是比較慢的.
      sum = sum(RDD.collect())
      #直接使用spark action裡面的加總
      RDD.sum() 
    

心得

關於“詞袋模型”(Bag-of-words model),一開始真的完全搞不懂這是在幹嘛.不過透過一步步地完成每一個小函式,最後組成完整的功能.也慢慢了解這個的原理.

這次由於中間卡著家中小寶貝的誕生,所以整個作業無法順利的全部做完.只能先把3/4的作業先弄完了. 不過這次的作業題目有夠難懂,主要時間都花在了解題目與思考提到到底要我們完成什麼.

最後,其實這週的lab3課程相當有趣,每個練習的排練方式也有提到一些些的原理.整個課程安排方式讓我回想到學習Scala的時候的學習脈絡,這大概也是學習FP的好處吧.

參考鏈結:

[MOOCS:edx]BerkeleyX CS100.1x- Introduction to Big Data with Apache Spark (二)

image

前言

這一篇筆記主要是針對EDX上面的課程: BerkeleyX: CS100.1x Introduction to Big Data with Apache Spark第三個禮拜的部分.剩下兩個禮拜而已… 加油!!

相關文章

edx 課程網址在這裡 https://www.edx.org/course/introduction-big-data-apache-spark-uc-berkeleyx-cs100-1x

Lecture 5

這一個章節主要是講解關於semi-structure資料結構與使用的方式. semi-structured資料主要講解就是一些類似XML或是Tag的資料結構.他有以下的缺點:

  • 各個欄位間可能存在不一致
  • 各個資料格式可能不盡相同(有的用英鎊有的用歐元)
  • 各個欄位內容可能不一致 (walmart <-> wal-mart)

針對這樣的缺點,semi-structured資料使用起來雖然簡單,但是存在者某些程度上的挑戰與風險. 此外這一章節也討論了,資料讀取的速度與效能. 幾個重點紀錄一下:

  • 對於壓縮格式的檔案讀取,讀取會比寫入快,
  • 而Binary IO會比 Text file 快,但是Text file 壓縮後比較小(壓縮比大)
  • LZ4壓縮比跟讀取速度都相當優秀.

Lecture 6

這一張主要講解的是Structured Data,也就是主要講解關於RDBMS相關的部分.這裏主要提到就是join與各種join的計算方式. 主要要注意的就是要如何的應用 spark join.

Lab2

比起Lab1來說,Lab2的份量實在是多了很多. 案例是分析一個月的Apache Log 透過Spark的一些操作可以分析一些有用的數據. 由於資料量也變大,這次的每個小案例,需要花上比較多的時間來執行.

關於regular expression的grouping

這邊有提到regular expression 的grouping,方法就可以幫你把一行字只要符合的狀況下就會切成一個Array來處理. 這裏用一個簡單的案例:

    test_string = "[aa bbb ccc]"
    match = re.search('^[(\S*) (\S*) (\S*))]', test_string)
    #match[1] = aa, match[2] = bb, match[3] = ccc

常用到的幾個計算方式

這裏有一些常用到的計算流程很適合做筆記:

紀錄某個資料出現個數

假設要計算某個錯誤資料每天出現幾次,計算方式可以如下:

#將錯誤資料變成tuple (2015-06-15, 1), (2015-06-16, 1)....
errDateCountPairTuple = errRecords.map(lambda data: (data.datetime, 1) )

#將錯誤資料透過reduceByKey之後,然後將每一個加總.
errDateSum = errDateCountPairTuple.reduceByKey(lambda a,b: a+b)

#排序
errDateSort = errDateSum.sortByKey()

如果要畫圖得時候

#X軸
errDateSort.map(lambda (key, value): key).collect()
#Y軸
errDateSort.map(lambda (key, value): value).collect()

想要取得top5

#想要數字多的在前面,使用-1 如果要少的在前面 就使用+1
errDateSort.takeOrdered(5, lambda s: -1 * s[1])

這大概是比較常用的幾個,此外也有幾個function 需要注意. 不外乎是 distinct()cache(), 如果出現任何問疑的時候,也建議趕快把資料印出五個來debug

#檢查如果有誤
errDateSort.take(5)    

心得整理:

這一次作業的資料量已經有點大,而且裡面的題目也有點多. (大約有20~30題) 每一個運算都要跑好久才有結果.

以下是我的心得:

  1. 跑很久…
  2. 錯了再一次. 又要很久…
  3. 沒想好… 就跑… 真的要很久…..
  4. 不小心搞掛系統… 全部重跑.. 會更久……

此外,由於使用ipynb來單步執行作業,繳交作業前也要確認你的ipynb沒有任何的warning跟error.就算是之前不小心跑出來也要讓他都成功才能繳交作業.

參考鏈結:

  • TBD