Blog E

“Spanner does not actually beat CAP theorem. It chooses C over A when P happens. But the infra team in google manages it so well so they could still deliver high Availability to most users.”

但是，當然這麼好的神器便宜嗎？

“開一台 0.9 usd/hour，儲存和傳輸另外算錢” refer kaif

難道 Spanner 論文出來後沒有人試著把 Spanner 做出嗎?

當然有！就是之前很紅的小強資料庫 CockroachDB ，所以他們當然趁著風頭繼續推廣他們的 Open Source 小強資料庫

最後，別忘記 CockroachDB 使用 Golang 寫的!! 歡迎加入 Go程式語言 (Golang Taiwan, Gopher Taipei)

Machine Learning

Google軟件工程師解讀：深度學習的activation function哪家強？_幫趣網

Announcing TensorFlow Fold: Deep Learning With Dynamic Computation Graphs

有聲書/影片心得

February 14th, 2017

[Coursera] Illinois: Cloud Computing Concept Part 1 : Week 4

課程鏈結: 這裡

學習鏈結:

Week 1-2
Week 3
Week4
Week5
Mini Project (Gossip Protocol)

課程內容:

這裡先簡單的介紹整系列的課程內容，希望能讓大家了解這個課程想做什麼．

這整堂課主要是圍繞著 Cloud Computing 經常會使用到的技術與相關的概念．整堂課其實只有一個程式語言作業:

	使用 C++ 寫 Gossip Protocol

雖然課程裡面程式語言的作業不多，但是整體上的內容還算不少．除了有談到一些雲端技術的基本概念:

Map Reduce
Multicasting and Gossip Protocol
P2P Protocol and System
K/V DB, NOSQL, and Cassandra (畢竟都談了 Gossip)
Consensus Algorithm - Paxos, FLP Proof

其實課程內容很有料，也可以學到很多的東西．

前提:

總算到了第四個禮拜了，本週的內容相當的充實．主要就是討論 Cassandra, HBase 之外，就是討論 Cloud Computing 裡面關於時間順序的問題．

時間的對應對於 Cloud Computing 一直都是一個很難解的問題，因為多個主機間的時間必定不相同．如何確保訊息間的因果關係 (Causal) 關係是不變的，這裡介紹了兩個方式:

Leslie Lamport 的 Lamport Timestamps 還有 Vector Timestamps ．

看完這個，也能了解為何 Leslie Lamport 會為了解決 timestamps 的問題造就他寫出 Paxos 了．

Week4 - Key-Value Stores, Time, and Ordering

Cassandra

Replica Strategy (備份的策略)

Simple Strategy:

就是簡單地透過 Partition 來在同個地方備份多份資料．這邊有兩種方式:

Random Partition: 類似 Chord 的 Hashing (Consistent Hashing Ring)
ByteOrderedPartitioner: 直接給予一個範圍的來做切割

Network Topology Strategy:

如果你的 Cassandra 是跨多個 DC(Data Center) 的話，你就必須要參考這樣的備份方式．可能是一個資料中心 (DC) 有 2~3 份的備份．

NetworkTopologyStrategy:

會不斷的尋找 replica 直到不同 rack 為止．
舉例: Clockwise N1 ~ N6. N1, N2 in Rack1. N3 N4 in Rack2.. N5, N6 in Rack 3.
- 如果第一個 Replica 在 N3 ，則下一個 Replica 會出現在 N5．因為要透過 clockwise 尋找出不同 Rack 的機器． N4 在同一個 Rack 所以不選．要選下一個 N5 ．

對於 Network Topology 方式而言， Snitches 提供一個方式可以針對資料中心 (DC) 以及機架 (Rack) 來辨識的方式．提供以下方式，細節可以看文件:

Simple Snitch: 不在意各種網路架構（連 Rack 也不在意)
RackInferring: 假設分類與你的 IP 有關:
- ` 102.103.104.105 = X...`
- 舉例而言:
  - 同個 Rack : 102.103.104.122, 102.103.104.123
  - 同個 DC 不同 Rack: 102.103.104.122, 102.103.112.123
PropertyFile Snitch: 透過設定檔
EC2 Snitch: AWS EC2 的區域來判別 DC, Zone-> Rack
- Eg: X.<EC2 Region>.<Avaliable Zone>.<Node>

讀與寫的方式

Write:

如果某個 replica 斷線， Coordinator 會先寫在自己這邊等待恢復
如果全部的 replica 都斷線， Coordinator 會本地端暫存一下 (buffer)

當一個 Replica 收到 Write 的指令:

先寫 commit log file
寫在 MemTable
記憶體滿的話，就 flush 到 SSTable (Sort String Table)
透 Bloom Filter 來尋找有沒有存放該資料

刪除(Delete)

不會馬上刪除，會加上一個 tombstone (墓碑)
tombstone 的資料再 Compaction (SSTable 滿了需要壓縮與精簡) 發生的時候就會刪除

READ:

任何命令都會發送給 Coordinator ，然後尋找真正資料儲存的 Partition
發送查詢到所有的 replica ，等到”特定個數 X “的 replica 回覆就回答給查詢的人
收到各個 replica 的資料會比對，如果有不同會做一個 read repair 的動作來更新錯誤的 replica

Suspicion Mechanisms

Cassandra 透過 suspicion mechanism 來處理斷線或是結點出問題．

PHI 代表一個 heartbeat 變異數，也就是 timeout 的間隔．

Eg: PHI=5, timeout 10 ~ 15

Note: This already deprecated by Cassandra

CAP Theorem

資料庫的三大定理:

Consistency: 所有節點都要能在同一個時間讀到相同資訊
Availibility: 系統要在任何狀況下都要能夠運作，並且快速回覆．
Partition-Tolerance: 系統即使被切割的狀況下，要能夠繼續運作．

在一般的分散式系統中，通常只能有兩個能夠滿足．或是應該說三個只能有兩個被完全滿足，第三個可能會部分滿足．

Eg:

Cassandra:
- Eventually (weak) consistency, Availiability, Partition-tolerance.
RMDBSs:
- Strong consistency, Availiability, no Partition-tolerance.

BASE (Basically Available Soft-state Eventual consistency)

Eventually Consistency:

If all writes stop all its values will converge eventually.

Quorem

Quorem 就是選舉 Leader 的機制，而對於參加選舉的主機

R: 具有讀取的主機數 N: 所有的主機數 W: 具有寫入權限的主機數

必須滿足以下的格式：

W + R > N
W > N/2

Consistency 系列

Strong Consistency (RMDBs)
- 就一般的強一致性
CRDTs
- 只允許每次加一的變更數值．
Probabilistic
Red-Blue
- 分成藍色指令跟紅色指令，紅色必須要在同個 DC 中保持特定順序，藍色則不需要．
Per-key sequential
Causal
Eventual
- 所有寫入動作停止後，資料就全部會一致

HBase

Feature:

Yahoo 開源
Facebook 內部使用
API:
- Get/Put (row)
- Scan (row range filter)
- MultiPut
比較重視 Consistency

架構:

切割成不同區域 (regions) 分散在不同的備份主機上
ColumnFamily 就是一群的欄位 (column)
Store:
- 就是一個 ColumnsFamily + Region
- MemoryStore 放在記憶體中的 Store

HFile 結構:

Refer to Cloudera Blog: Apache HBase I/O – HFile

主要都是 key/value 架構，一個 HFile 包含多個 key/value pair
每一個 key/value 內容包含著
- Key length
- value length
- row id
- col family length
- col family
- ts
- key type
- value

如何達到 Strong Consistency : Hbase Write-Ahead Log

流程:

client 寫入數個資料 k1, k2, k3, k4
透過 HRegionServer 查到 k1, k2 在 region 1 而 k3, k4 在 region 2
透過 HRegion 找到相關的 HFile
這時候先將 log 寫到 HLog ，可以寫入失敗的時候可以再度重做
[預防資料遺失] 先將資料寫入 Hlog 然後才會去修改 MemStore
透過 Store 裡面的 MemStore 將 HFile 裡面的數值修改

Time and Ordering

Introduction

時間 (time) 指的是各個系統中用來同步的 clock ，在單機上面都是使用 CPU 的時脈作為所有內部軟體的時間資訊，來同步之用．

但是在分散式系統下，時間就變得難以同步．而每一個網路中的動作都需要的 ts 也就難以同步．困難的地方有：

每一台機器有自已的 CPU 時脈
如果時間沒有同步 Message Delay 跟 Process Delay 就無法正確的限制

這裡有兩個名詞:

Clock Skew: 指的是兩個時間 (clock) 在速度上相同但是有起始點的差異
Clock Drift: 指的是兩個時間 (clock) 雖然起始點相同，但是在速度上不同

所以相同速度，不同起始時間的兩個 clock 有著 non-zero clock skew but zero clock drift

多久需要同步一次兩個 clock ?

如果最多能夠忍受時間相差 M 分鐘 (Clock Skew M) 那麼 M/(2 * MDR) 就需要同步一次．

參考:

HBase – 存储文件HFile结构解析

Network Time Protocol (NTP)

NTP 為一個樹狀結構的方式來同步時間

根據以上的圖形

offset = ((t1-t0) + (t2-t3))/2
round-trip delay = (t3-t0) - (t2-t1)

Lamport Timestamps

這個定理就是由 Paxos 的作者提出的，當初他就是在做 Lamport Timestamps 的時候想到利用類似的方是可以解決 Consensus Problem 的方法．

基礎定理與標記

–> : 代表的是 Happen Before ，也就是左方的事件一定比右方的事件還早發生，不論雙方的時間究竟有沒有同步．

a –> b : time(a) < time(b) 同步過的時間必定 time(a) < time(b)
send(m) -> receive(m) : 因為傳送必定有網路需要傳遞的時間，所以開始傳送的時間必定比接受到的時間還前面．
遞移律 a –> b, b –> c 則必定 a –> c

透過一張圖來講解更多關於 Lamport Timestamp

針對這張圖，稍微講解:

P1, P2, P3 不一定是具有同步的 timestamp
P1 左到右是直線的，具有因果關係．也就是 A –> B (A happen before B)
有向的箭頭代表著某人傳訊息給另外一方． B ->(箭頭) F 代表著是 B 傳訊息給 F ，由於基礎定理 send(b) -> receive(f)．所以 B –> F (B happen before F)

幾個範例：

F –> G
F –> J
H –> J
C –> J
A –> F : A–> B ; B –> F ; A –> F

針對 Lamport Timestamp 計算時間上，如果 send(b) -> receive(f) ，則透過時間算法為:

	max(local clock, message timestamp) + 1

Vector Timestamps

這邊會有三個資料 (x1, x2, x3) ，其中 x1 代表循序的 P1 timestamps, x2 代表 P2 的 timestamps …

而傳訊息的時候，就會把其他兩個傳給對方．舉例而言， P1 （2, 0, 0) -> P2 原本前面是 (0, 1, 1) 本來應該是 (0, 2, 1) 但是由於 (2, 0, 0) –> (2, 2, 1) 就是 (max(x1, y1), max(x2, y2), max(x3, y3))

Lamport Timestamp v.s. Vector Timestamps

	Lamport Timestamps	Vector Timestamps
Timestamp Data	Single Integer	Tuple (x1, x2, …)
Causality	obey	obey
Identify Concurrent Events	No	Yes

關於作業 Homework

其實作業就是一堆 Lamport Timestamps 與 Vector Timestamps 的計算．整個計算相當的花時間，不過可以了解兩個算法之間的差異也相當的有趣．

February 10th, 2017

程式設計週記[2017/02/10]: 雞年要開始努力了

這是什麼?

程式週記主要內容如下:

Gihub project 介紹:

主要會貼一些github，但是會盡量寫上一些有用的評語（或是我容易想到的關鍵詞）幫助以後查詢

網路文章心得:

會寫些心得，強迫自己閱讀．

“程式週記”並且定期週期性更新．

大部分內容在我的twitter都會有，這邊只是將一些簡單的心得與感想註解一下．

本週摘要

過年的時候帶了家人去峇里島旅遊，事隔上次全家人出國也過了二十年了．家人永遠都是最重要的．

Go

travisjeffery/jocko: Kafka implemented in Golang with built-in coordination (No ZK dep, single binary install)

透過 Golang 將 Kafka 做出類似的功能．不需要依賴 ZooKeeper 並且是 single binary.

Go vs. Swift: The Languages of The Modern Tech Giants

一份文件比對 Swift 與 Golang 在各個方面的比較．

My Go Resolutions for 2017

Golang 大神 Russ Cox 把他 2017 的目標訂立出來，有不少的項目，其中有一個就是 Package Management．令人期待

golang/dep: Go dependency tool

golang/dep Google 官方的 #golang dependency tool ，會不會之後整合進去呢？可以好好觀察看看

講解 #Golang 的 selectors ，淺顯易懂

講解 Golang 的 selectors ，淺顯易懂

Python

Android/JAVA/NODE.JS/Scala

Docker

Kubernetes

iOS/Swift

其他程式語言

論文收集

網站文章

[若渴計畫] Studying Concurrency

關於 concurrency 的學習整理文章，很值得好好深讀．

RethinkDB: why we failed

RethinkDB 在去年的十月宣布要關閉，那時候就說會找個時間來把失敗的原因檢討一下．現在這份檢討報告出來了，來看看身為 DBAAS (Database As A Service) 公司創業失敗的檢討報告．

Machine Learning

CS565500 Large-Scale Machine Learning

清大課程學 Machine Learning 聽說老師也太有型了，講中文的課程，使用 python

https://cloud.google.com/blog/big-data/2017/01/learn-tensorflow-and-deep-learning-without-a-phd

用一系列的課程來教導你如何使用 Tensorflow 就算你不是 Data Scientist 的 Phd.

Google Data Engineer 的認證: Google Certified Professional (Beta)

GCP 認證的 Data Engineer

arxiv: Outrageously Large Neural Networks: The Sparsely-Gated Mixture-of-Experts Layer

Geoffrey Hinton 和 Jeff Dean 的神作，類神經網路取得 1000 倍以上的 model capacity 大躍進。

Scaling of Cloud Applications Using Machine Learning

講解 VMWare 如何使用 ML 來做 Web App Scaling．

有聲書/影片心得

January 20th, 2017

程式設計週記[2017/01/20]: 我也只有毅力這個優點

這是什麼?

程式週記主要內容如下:

Gihub project 介紹:

主要會貼一些github，但是會盡量寫上一些有用的評語（或是我容易想到的關鍵詞）幫助以後查詢

網路文章心得:

會寫些心得，強迫自己閱讀．

“程式週記”並且定期週期性更新．

大部分內容在我的twitter都會有，這邊只是將一些簡單的心得與感想註解一下．

本週摘要

本週是認真做事週，可以好好的把許多事情規劃並且處理一下．也更有時間可以把過去一些東西拿回來學學．把 MOOC 繳費開始要學習，並且也要認真學習看一些機器學習的論文，看不懂就可以跟強者同事們討論看看．

Go

xtaci/kcptun: A Simple UDP Tunnel Based On KCP

kcptun 是一個透過 KCP (A Fast and Reliable ARQ Protocol) 來達成的 tunnel 的方式．

會注意到這個專案是因為以前的公司曾經為了 firewall penetration 而使用 UDT ( http://udt.sourceforge.net/ ) ．但是 UDT 這個專案已經多年沒人維護，並且支援的程式語言相當的少 (C++) 要跟其他語言來結合就很麻煩．

快速整理: 在做 firewall penetration 由於封包特性，不使用 ICE protocol 下，最簡單方式就是將 TCP 封包改成 UDP 來做到資料傳遞到 stub．但是 UDP 又沒有 TCP 的相關優點，所以有 UDT 這個將 TCP 的機制做在 UDP protocol 上面的專案．

KCP 看起來有不少優點: (https://github.com/skywind3000/kcp)

支援語言比較多 (Go, C#, Lua…)
沒有修改 socket 部分，完全透過演算法來用 (所以封包會大 10~20%)
Header file 24 byte include control and data sync
近幾個月都還有在維護

UDT 比較麻煩點： (http://udt.sourceforge.net/)

只有 C++
一套完整的 UDP 解決方式，但是有不少雷可以踩
Header file 16 byte, separate control and data sync

KCP 畢竟是強國人開發，中文文件不少可能是一個優點．

相關鏈結:

Ross Cox:My Go Resolutions for 2017

Python

Android/JAVA/NODE.JS/Scala

Building the TensorFlow android example app on Mac OS

讓 Tensorflow 跑在你的 Android 手機上面直接做 prediction ．透過這樣的方式，就算你沒有網路也能讓手機跑已經學習好的機器學習模型．

不過這個範例需要的手機配備還蠻高規的，

Docker

Kubernetes

iOS/Swift

其他程式語言

論文收集

網站文章

AirBnB original deck in 2008

原本 AirBnB 在 2008 年的 pitch

The Infrastructure Behind Twitter: Scale

Twitter 在 2017 新的一年談到

另外可以看看 Uber Scale 的方式

RUNNING ONLINE SERVICES AT RIOT: PART II

Riot Game 介紹了他們的 Container Orchestration 架構 rcluster 是主要透過 Go 來完成的 ADMIRAL 來寫自己的 Resource Scheduler ．文章是寫在兩個月前，而這個系統其實是在目前的接近一年前開始探討與開發，當然他們也是有觀察過其他架構的:

Mesos + Marathon (後來的 DCOS )
- 不容易架設
- 不支援 Container Group
- 當時尚未支援 Docker Container ( Mesos 一開始只支援自己的 Container 架構)
Kubernetes (一開始的 LMCTFY )
- 當時還沒有 Constraint
- 之後有支援各種 constraint 或是 node select 甚至是之後的 1.5 要支援的 Taint
Fleet
- 剛剛才 Open Source ，還不夠成熟
- 比較適合建置系統服務，而不像是給一般應用程式部署而用．

所以他們在半年前建置了自己的 Resource Scheduler (Admiral) 結合了 Docker Container 的概念與 Mesos Constraint 的概念來建置，讓整個系統其實很像… 目前的 DCOS (笑) ．

最後的結論也提到，他們正在思考將 Admiral 慢慢轉移到 DCOS 上面來處理．

Machine Learning

谷歌云首席科学家李飞飞：人工智能极客公园 2017 年大会演讲

新智元：2016年全球AI巨头开源深度学习库Top 50

Gigaom对话吴恩达：迁移学习是未来五年的重要研究方向

Andrew Ng 談到他在百度的相關工作內容，並且提到 Transfer Learning 與 Multi-Tasking Learning 將會是未來 AI 的趨勢．

Multi-task learning（多任务学习）简介

創造AlphaGo的台灣「土博士」，他們眼中的黃士傑

黃博士的故事，這篇專注在他進到 DeepMind 之前的事情

A guideline from Google - Best Practices for ML Engineering from Google [pdf]

有聲書/影片心得

ATP 205: PEOPLE DON’T USE THE WEIRD PARTS

最近剛離開 Apple 到 Tesla 的 Chris Lattner 接受 ATP (ACCIDENTAL TECH PODCAST) 的邀請來談談 LLVM 跟其他相關科技．記錄一下一些重點摘錄:

關於職涯轉換:
- 當然有談一下關於 Apple 跟 Tesla 在職業生涯上面的轉換．對於 Chris Lattner 從工程師到管理階層的轉換，他自嘲不是一個所謂的 People person 但是他喜歡這方面的轉換．
有討論到 Apple 對於 Objective C 想要改善的想法，一直到了 ARC 甚至談到了 Swift 誕生的起因．
關於 Swift 的開源 (Open Source):
- Lattner 提到原本在他心中就覺得會發生，但是礙於公司政策無法來運作．
- 其實從一開始的 Commit 到相關工具的開發，都有顯示出來 Lattner 是從 Open Source 的角色來思考．
- 但是 Swift 2 Open Source 後，公司無法規劃到說會得到那麼多的回饋．

其實有更多的部分，對於 LLVM GC 有興趣的人都很歡迎好好聽聽．整段訪問有兩個多小時．

從 HN 找到一些，關於 Chris Lattner 的八卦:

他一直都是一個實務派的人，所以小木屋與木工也都自己做．照片在此:
- https://twitter.com/clattner_llvm/status/736237407016607744
- https://twitter.com/clattner_llvm/status/818499400313909249

備註一下: Chris Lattner 是 LLVM 跟 Swift 的發明者跟主要維護人．

參考:

Meetup

GDG#32 《Tensor What? AI and Mobile - 行動應用與人工智慧》

昨天晚上 GDG Tensorflow on Android 的投影片：

影片

心得：

雖然前一天已經把範例跑過了（需要 Nexus 5 以上手機) 但是這次演講對於 Machine Learning 由淺入深並且很有趣的介紹．

January 18th, 2017

[Coursera] Illinois: Cloud Computing Concept Part 1 : Week 3

課程鏈結: 這裡

學習鏈結:

Week 1-2
Week 3
Week4
Week5
Mini Project (Gossip Protocol)

課程內容:

這裡先簡單的介紹整系列的課程內容，希望能讓大家了解這個課程想做什麼．

這整堂課主要是圍繞著 Cloud Computing 經常會使用到的技術與相關的概念．整堂課其實只有一個程式語言作業:

	使用 C++ 寫 Gossip Protocol

雖然課程裡面程式語言的作業不多，但是整體上的內容還算不少．除了有談到一些雲端技術的基本概念:

Map Reduce
Multicasting and Gossip Protocol
P2P Protocol and System
K/V DB, NOSQL, and Cassandra (畢竟都談了 Gossip)
Consensus Algorithm - Paxos, FLP Proof

其實課程內容很有料，也可以學到很多的東西．

前提:

最近決定要把這堂課學完，於是付錢並且開始從 week3 繼續我的學習進度．

Week3 卡住相當久，由於裡面有許多東西需要好好的計算．往往就很難靜得下心來算．加上內容相當充實，介紹了許多種 P2P 軟體的運作方式，不僅僅有 Napster 還有 Bittorent 的運作方式，更有 Gnutella 與具有 Consistent Hashing 架構的 Chord

Week3 P2P (Peer-To-Peer) System

這一週主要講到 P2P (Peer To Peer) 不僅僅有提到基本的概論外，也有將各種 P2P 軟體的傳輸方式做一個簡單的整理．

Napster

伺服器不存檔案，但是存每個節點的資料與檔案清單．並且也存放節點網路狀況．

Server maintain <file, ip_address> tuple
How client search:
- Send key word to server
- Server search tuple list, return ip list
- Client ping each node to find transfer rate.
- Client fetch file from best host.
Using TCP

Problem:

Centralize server
Server cannot fixed SPOF
No security (plaintext)

Gnutella

下一代的 Napster ，主要針對 Napster 集中式伺服器的問題來解決．Client act as server call Servents

Gnutella 有五種訊息種類:

Query (Search)
QueryHit (Reponse for Search)
Ping (Hearbit)
Pong (Response for Heartbit)
Push (Init for transfer)

Message Format:

Descriptor ID
Payload Descriptor (Messavge Type)
TTL (Time To Life)
Hops (Increase by each node (hop) )
Payload Length

P.S.:

TTL only use for QueryHit to provide distance of overlay network.
透過 HTTP 傳遞檔案
具有 Reverse-Routed 功能的只有 QueryHit ，因為他是回應 Query 的答案，需要具有回傳的的功能．

避免過多的 Query 流量

每個節點記住傳過的清單
每個節點只會轉達 “一次” 相同來源的 Query
重複的 Qeury 會被 drop

Problem:

太多的 Ping/Pong 網路流量．(約莫 50%)
- 解法: 透過 cache 解決 heartbit 流量．

Fasttrack and Bittorent

Fasttrack 的特點

混合 Gnutella 與 Napster 的優點
某些節點( node )會變成 Supernode 也就是可以作為目錄的節點．

Bittorent

流程:

下載 .torrent 檔案
讀取裡面所有的 tracker (所謂的 tracker 就是管理所有 peer 的清單的伺服器）
分別到 tracker 去下載相關的 peer 清單
跟每一個 peer 去要求下載自己所需要的 block

選取檔案策略

採取 Local Rarest First 也就是會先找重複性最少的 block 來下載
如此一來可以增加檔案的健康度

Chord

效能比對

	Memory	Lookup Latency	Message for lookup
Napster	O(1)	O(1)	O(1)
Gnutella	O(n)	O(n)	O(n)
Chord	O(log(n))	O(log(n))	O(log(n))

What is Chord

A DHT (Destributed Hash Table)
Using consistent hashing

Finger Table 計算方式

根據上圖

如果 m = 7
那麼如果要找出 N80 的 ft(finger table of N80 ) 就會是:
- 80 + \(2^0\) = 80+ 1 = 81 > 80 –> 96
- 80 + \(2^1\) = 80+ 2 = 82 > 80 –> 96
- 80 + \(2^2\) = 80+ 4 = 84 > 80 –> 96
- 80 + \(2^3\) = 80+ 8 = 88 > 80 –> 96
- 80 + \(2^4\) = 80+ 16 = 96 = 96 –> 96
- 80 + \(2^5\) = 80+ 32 = 112 > 96 –> 112
- 80 + \(2^6\) = 80+ 64 = 144 mod 128 = 16 = 16 –> 16

How to handle Chord Failure?

尋找繼承者節點 (successor)

N32
- successor N45
- presuccessor N16
N112
- successor N16
- presuccessor N96

備份方式:

通常會有 r 份備份 \(r = 2 log(N)\)

新增節點

如果增加新節點 N40 在 N32 與 N45 之間，那麼有經過這兩個的上的 FT (並不是代表這兩個節點..) 就需要重新計算．

Pastry

特色

相當類似 Chord 使用consistent hashing table
每個葉節點 (Leaf Node) 會知道自己前一個( Predecessor ) 葉節點跟後一個( Successor )葉節點
Routing Table 採取 Prefix Matching
- 時間複雜度就是 \(log(N)\)
- 由第一個位元開始比對，相同 prefix 最多的就是 “best next-hop”

ex:

10110110111

的 best next-hop 就是 101101101”0”1

January 13th, 2017

程式設計週記[2017/01/13]: 他人看來的成功或失敗都是一時的，只要不認輸都不是失敗

這是什麼?

程式週記主要內容如下:

Gihub project 介紹:

主要會貼一些github，但是會盡量寫上一些有用的評語（或是我容易想到的關鍵詞）幫助以後查詢

網路文章心得:

會寫些心得，強迫自己閱讀．

“程式週記”並且定期週期性更新．

大部分內容在我的twitter都會有，這邊只是將一些簡單的心得與感想註解一下．

本週摘要

真是一個瘋狂的禮拜，每天都是滿滿的會議．見識了很多特別的人，也了解了許多商場上的策略．很開心能有這樣的機會了解與參與公司在擴張與尋找合作夥伴的機會．

在學習上，也開始能夠參加公司內部 Macine Learning 的讀書會．希望能花上更多時間來好好學習．

Go

uber/cherami-server: Distributed, scalable, durable, and highly available message queue system.

Uber 將他們的 Task Queue - Cherami 開源．原本 Uber 是使用 Celery (Python) 作為他們的 task queue ．由於業務的增加，對於 HA 的需求增加，於是用 #Golang 重寫成過，

並且與 Uber 許多好用的套件 TChannel (管 RPC) 與 RingPop (負責 Health Checking 與 Membership ) 結合在一起．

成為一個具有 Distributed, scalable, durable, 跟 highly available 的 task/message queue 系統

說明的部落格在這裡

主要推廣的 Golang Package Dataman-Cloud/swan: github.com/Dataman-Cloud/swan

教學文章整理:

Python

Android/JAVA/NODE.JS/Scala

Cassandra backup script on linux system

Use nodetool to backup cassandra DB.

Docker

Kubernetes

kubernetes-incubator/kompose: Tool to move from `docker-compose` to Kubernetes

幫你把 Docker-Compose 的機制放到 Kubernetes 上面，更容易來部署 Kubernetes 的 Pods ．

iOS/Swift

其他程式語言

論文收集

Apache Hadoop YARN: Yet another resource negotiator

Morning Paper 是一個會每天讀一篇論文，然後幫你寫導讀跟介紹的網站．裡面論文的精彩程度是每個做軟體工程師不可不讀的．

之前一系列的 Deep Learning 之後，作者準備要來好好讀讀分散式系統了．所選的第一篇論文就是這篇 Hadoop YARN 的論文．

YARN 是從 Hadoop 2.0 之後從 Hadoop 中抽出來的架構．本篇論文裡面的 YARN 還無法解決 SPOF ． (Hadoop 2.4 之後有支援 HA)

本篇論文也有討論到底 Mesos 跟 YARN 有什麼差異:

Mesos -> Offer-based approach YARN -> Request-based approach

同場加映:

有沒有辦法把 Mesos 跟 Hadoop YARN 一起用呢? 可以看看這篇文章

網站文章

资本寒冬，你真的懂怎么裁员吗？

對照 H 公司，這篇文章真的很有趣

各大互联网公司架构演进之路汇总

將中國大陸的比較大的互聯網架構演進文章都收集得好好的．