首頁 > 運動

從七橋問題開始：全面介紹圖論及其應用

由機器之心Pro 發表于運動2021-12-13

簡介連通圖可以用帶有根節點的樹來表示（當然還有其他屬性），不過要注意，實際的表示可能會隨著演算法或具體問題發生變化

七橋問題怎麼走圖解

圖論是計算機科學中最重要、最有趣的領域之一，同時也是最容易被誤解的。本長文從圖論最基礎的七橋問題開始，進而結合推特與 Facebook 例項解釋無向圖與有向圖。此外，本文還是用大量的例項解釋表徵圖、搜尋樹、雜湊表等關鍵概念。最後本文描述了基於深度的搜尋和基於廣度的搜尋等十分流行的圖演算法。

理解和使用圖幫助我們成為更好的程式設計師。用圖思考幫助我們成為最好的，至少我們應該那麼思考。圖是很多節點 V 和邊 E 的集合，即可以表示為有序對 G=（V， E）。

儘管嘗試研究過圖論，也實現了一些演算法，但是我還是非常困惑，因為它實在太無聊了。

事實上，理解一件事物的最佳方式是理解其應用。我們將展示圖論的多個應用，最重要的是，有很多插圖。

七橋問題

讓我們首先從《圖論的起源》中的「柯尼斯堡（Knigsberg）的七座橋」開始。在加里寧格勒（Kaliningrad）有七座橋，連線著由普雷戈里亞（Pregolya）河分割而成的兩個島嶼和兩大陸地。

在 18 世紀，這裡被稱為柯尼斯堡，隸屬普魯士，這一區域有很多橋。當時，有一個與柯尼斯堡的橋相關的腦筋急轉彎：如何只穿過橋一次而穿過整個城市。下圖為柯尼斯堡七座橋的簡化圖。

你可以嘗試一下，在穿過每座橋僅一次的情況下穿過這個城市。每座橋，意味著所有橋都被穿過；只穿過一次，意味著每座橋不能被穿越兩次及以上。如果你對這一問題有所瞭解，就知道這不可能。

Leonhard Euler

有時候，放棄這一問題是合理的。這就是 Leonhard Euler 的解決方法，他沒有試圖解決這一問題，而是證明其不可解決。讓我們試著去理解 Euler 的內在想法，做到像 Euler 一樣思考。首先我們從下圖開始。

圖中有四塊彼此分隔的區域，兩個島嶼和兩塊陸地，以及七座橋。探討每一區域的橋數是否有一定模式很有趣。

每塊區域的橋數

如圖所示，每塊區域的橋數皆為奇數。如果你只能穿過橋一次，區域有兩座橋，那麼你就可以進入並離開該區域。

有兩座橋的區域的示例

透過圖示很容易發現，如果你透過一座橋進入一個區域，那麼你也要透過第二座橋離開它。但是當第三座橋出現，則無法只穿過橋一次而離開。所以對於一塊區域，當橋數為偶時，則可以每座橋只穿過一次而離開；當橋數為奇時，則不能。請牢記。

讓我們再新增一座新橋，如下圖所示，看看其是否能解決問題。

注意新增的新橋

現在我們有兩個偶數和兩個奇數。讓我們在新增新橋的圖上畫一條新路線。

我們已經看到了橋的奇偶數是重要的。這裡有個問題：橋的數量解決問題了嗎？難道這個數不應該一直是偶數嗎？後來發現不是的。這就是 Euler 做的，他發現了一個顯示橋數量很重要的辦法。更有意思的事，有奇數個連線點的「陸地」也很重要。這時候 Euler 開始把陸地和橋轉化成我們看得懂的圖。下面是一幅表示了哥尼斯堡七橋（Knigsberg bridges）的圖（注意：我們「臨時」加的橋不在這裡）：

抽象化七橋問題

問題的泛化和提取是需要注意的。當你解決一個特定問題時，最重要的是為類似的問題概括答案。在這個實際問題裡，Euler 的任務是泛化過橋問題從而在將來可以解決類似的問題。比如：對於世界上所有的橋。視覺化也可以幫助我們從另一個角度看問題，如下面的圖也全是七橋問題的抽象：

所以，視覺化圖是解決該問題的好選擇，因此我們需要去找出哥尼斯堡七橋問題是怎樣被這張圖解決的。注意從圈裡面向外出來的線。因此我們命名圈為節點（或節點），連線他們的線為邊。你也許看到了字母表達法，V 是節點（vertex），E 是邊（edge）。

下一個重要的事是所謂節點自由度（Degree），即連線到節點的邊數量。在我們上面的例子裡，連線陸地和橋的邊的數量可以被表達成節點的自由度。

在 Euler 的努力下，他證明了在圖上（城市裡）每次只走過一條邊（橋）並且走過每一條邊是嚴格取決於節點自由度。由這樣的邊組成的路徑被叫做 Euler 路徑（Euler path），Euler 路徑的長度就是邊的數量。

有限無向圖 G（V，E）的 Euler 路徑是指 G 的每一個邊都只出現一次的路徑。如果 G 有一條 Euler 路徑，它就被稱之 Euler 圖。［註釋 1］

定理：有且僅有兩個確定的節點存在奇數自由度，其它的節點都有偶數自由度，那麼該有限無向圖為 Euler 圖。【1】

左圖：有兩個節點有奇數自由度的影象。右圖：所有節點都有奇數自由度。

首先，讓我們分清楚上面定理和理論中的新名詞。有限圖（Finite graph）是指有限數量的邊和節點的圖。

圖可以為有向的或無向的，這也是圖非常有趣的性質。你肯定看到過將 Facebook 和 Twitter 的作為有向圖和無向圖的例子。Facebook 朋友關係也許可以很簡單地表示為一個無向圖，因為如果 Alice 是 Bob 的朋友的話，Bob 也必須是 Alice 的朋友。

而且也要注意「Patrick」節點，因為它沒有連線一條邊（edges）。雖然它還是圖的一部分，但在這個案例中我們可以說該圖沒有連線上，這是個失聯圖（disconnected graph）（「John」、「Ashot」和「Beth」也是同樣的，因為它們是和別的節點都是分離的）。在一個連線的圖裡沒有到達不了的節點，這裡必須在每一對節點之間有一條路。

與 Facebook 的例子相反的是，如果 Alice 在 Twitter 上關注了 Bob，Bob 並不需要關注 Alice。所以「關注」關係必須是有向的連線，其表示節點（使用者）有一條有向邊（關注）連線到其它的節點（使用者）。

現在，我們瞭解了什麼是有限無向圖，讓我們再一次思考 Euler 圖：

所以為什麼我們最開始就討論了哥尼斯堡七橋問題和 Euler 圖呢？在接觸答案之前接觸一下問題背後的因素（節點、邊、有向、無向）也能避免枯燥的理論方法。我們現在應該更關注於用電腦表示圖，因為這是我們最大的興趣。用電腦程式表示圖將使我們設計出一個演算法來跟蹤圖路徑（graph path），這樣就能發現它是不是 Euler 路徑了。

圖表徵：前言

這是一個很沉悶的任務，要有耐心。記得陣列和連結串列之間的戰爭嗎？用如果你需要快速訪問元素就用陣列，如果你需要快速插入/刪除元素就用連結串列等。我很難相信你會在像「怎樣表示列表」這樣的問題上糾結。當然，在圖論中真正的表達是非常無聊的，因為首先你應該決定你將怎樣確切地表達圖。

現在我們以一個樹來開始。你肯定已經至少一次見到了二叉樹（下面的不是二叉搜尋樹）。

因為它是由節點和邊構成的，所以它就是圖。你也要想到一般最常見的二叉樹是怎樣表示的（至少在教科書上）。

struct BinTreeNode

{

T value； // don‘t bother with template<>

TreeNode* left；

TreeNode* right；

}；

class BinTree

{

public：

// insert， remove， find， bla bla

private：

BinTreeNode* root_；

}；

這個對於已經非常熟悉樹的人來說太詳細了，但是我必須確保我們在同一階段。（注意我們還是在用虛擬碼）。

BinTreeNode* root = new BinTreeNode（“Green”）；

root->left = new BinTreeNode（“Yellow”）；

root->right = new BinTreeNode（“Yellow 2”）；

BinTreeNode* yellow_2 = root->right；

yellow_2->left = new BinTreeNode（“Almost red”）；

yellow_2->right = new BinTreeNode（“Red”）；

如果你不是新手，仔細的讀上面的虛擬碼然後閱讀以下圖解：

當一個二叉樹是簡單的節點「集合」，每一個父節點有左子節點和右子節點的節點。二叉樹在應用簡單規則的時候是非常有意義的，例如允許快速的關鍵字查詢。二叉搜尋樹（BST）按序儲存他們的關鍵字。我們可以根據任何規則實現二叉樹（即使它會根據不同的規則而有不同的名字，比如，min—heap 或者 max——heap），最常見的 BST 規則是它符合二項搜尋性質（也是名字的由來），即「任意節點的鍵值必須比它左邊子樹的鍵值要大，比右邊子樹上的鍵值要小。「更大」是 BST 重要的本質，當你把它改成「比更大或一樣」時，你的 BST 可以在插入新節點時解決複製鍵值得問題，除此之外它將只保留唯一鍵值的節點。你可以在網上找到很好的二項樹的文章，我們不會提供一個二元搜尋樹的全面實現，但我們將展示一個簡單的二元搜尋樹。

Airbnb

樹是非常有用的資料結構，你也許還沒有實現過樹型結構，但你也許無意間用過它們。像你注意到的，二叉搜尋樹（Binary Search Tree）中有「搜尋」，簡單來說，所有需要快速查詢的事，應該被放到二叉搜尋樹中。「應該」不意味著一定，在程式設計中最重要的事情是用合適的工具去解決問題。這裡有很多案例可以看到簡單鏈表（O（N）複雜度）搜尋相比 BST（O（logN）複雜度）搜尋更受歡迎。一般來說我們可以用一個庫來實現一個 BST，但是在這個教程中我們可以重新發明我們自己的輪子（BST 是基本在所有多用途程式語言庫都有實現）。接近了「一個真實世界例子」，這裡是我們試著去處理的問題：

Airbnb 房源搜尋一瞥：

怎樣用濾波器基於詞條儘可能快的搜尋房源，這是一項很難的任務。如果我們考慮到 Airbnb 儲存了幾百萬條表格的情況下，這個任務更難了。

所以當用戶搜尋房源時，他們也許就會「接觸」到四百萬條資料庫中的記錄。的確，在網站主頁上能夠展現的「top listings」有限，而使用者對瀏覽百萬條列表也並不感興趣。我沒有任何 Airbnb 的分析記錄，但我們可以用程式語言中叫做「假設」的強大工具，所以我們假設單個使用者檢視最多 1 千個房源就會發現中意的房源。並且最重要的因子是即時使用者的數量，因為它會影響資料結構、資料庫和專案構架的選擇。就像這看起來的那麼明顯，如果這裡總共有 100 個使用者，我們就不用去操心。相反，如果即時使用者數量超過了百萬級，我們必須去思考每一個決定到底對不對。每個決策都被正確的使用，這是為什麼巨頭們僱傭最好的人才，為提供卓越的服務而努力的原因（Google、Facebook、Airbnb、Netflix、Amazon、Twitter 和許多其他公司都在處理大量的資料；招聘正確的工程師來做正確的選擇，為數百萬實時使用者每秒處理百萬級位元組的資料。這就是為什麼我們碼農糾結於可能遇見的資料結構，演算法和問題處理，因為需要的是工程師有能力快速、有效地解決這樣大的問題）。

所以在 Airbnb 的案例裡，使用者瀏覽了他們的房源主頁，Airbnb 試著去過濾房源來找出最適合的。我們怎樣處理這個問題呢？（注意這個問題是後端的，所以我們不需要管前端或者網路流量或者 https over http 或者 Amazon EC2 over home cluster 等。首先，因為我們已經熟悉了程式設計師倉庫中最強大的工具（在說假設而不是抽象），我們假設處理的是完全適配 RAM 的資料。然後你也可以假設我們的 RAM 是足夠大的。足夠大去支援，但這是多大呢？這是另一個非常好的問題。需要多大的記憶體來儲存真正的資料呢？如果我們處理的是四百萬單元的資料（還是假設），如果我們大概知道每一個單元的大小，之後我們可以簡單地驅動需要的記憶體，就是 4M*sizeof（one_unit）。考慮下「房源」及其性質（properties），事實上，至少考慮一下處理這一問題必要的性質（一個「房源」是我們的單元）。我們需要用 C++結構虛擬碼來表示一些問題，你可以簡單地將他們轉化為一個 MongoDB 略圖目標或者任何你想要的形式，我們只討論性質的名字和類別。（試著去想象這是在空間經濟裡用字位段或者位集合）

// feel free to reorganize this struct to avoid redundant space

// usage because of aligning factor

// Remark 1： some of the properties could be expressed as enums，

// bitset is chosen for as multi-value enum holder。

// Remark 2： for most of the count values the maximum is 16

// Remark 3： price value considered as integer，

// int considered as 4 byte。

// Remark 4： neighborhoods property omitted

// Remark 5： to avoid spatial queries， we’re

// using only country code and city name， at this point won‘t consider

// the actual coordinates （latitude and longitude）

struct AirbnbHome

{

wstring name； // wide string

uint price；

uchar rating；

uint rating_count；

vector photos； // list of photo URLs

string host_id；

uchar adults_number；

uchar children_number； // max is 5

uchar infants_number； // max is 5

bitset<3> home_type；

uchar beds_number；

uchar bedrooms_number；

uchar bathrooms_number；

bitset<21> accessibility；

bool superhost；

bitset<20> amenities；

bitset<6> facilities；

bitset<34> property_types；

bitset<32> host_languages；

bitset<3> house_rules；

ushort country_code；

string city；

}；

假設。上面的結構不是完美的（很顯然），而且這裡有很多假設或者不完整的地方，去再讀一下免責宣告。我只是看了下 Airbnb 的過濾器和應該存在的符合搜尋查詢的設計性產權表。這只是個例子。現在我們應該能計算每一個 AirbnbHome 物件會在記憶體中佔用多少空間。name 是一個 wstring 來支援多語言的名字/頭銜的，這個意味著每一個字元佔了 2 位元組（我們不想擔心字元大小如果我們需要用其他的語言，但在 C++中，char 是 1 位元組然後 wchar 是 2 位元組）。

快速的看一下 Airbnb 的表可以讓我們估計房源的名字可以佔到最多 100 個字元（雖然最多的是 50 個左右，而不是 100 個），我們會認為 100 個字元是最多的量，這佔了差不多 200 位元組的記憶體。uint 是 4 位元組，uchar 是 1 位元組，ushort 是 2 位元組（還是假設）。假設圖片是在儲存服務旁邊，像 Amazon S3（目前據我所知，這個假設對於 Airbnb 來說是最可能實現的，當然這也是假設）而且我們有這些照片的 URL，而且考慮這裡沒有 URL 的標準尺寸的限制，但這事實上有一個眾所周知的上線-2083 字元，我們將要用這個當成任何 URL 的最大尺寸。所以考慮到這個，平均每個房源有 5 張照片，這可以佔到 10Kb 記憶體。

讓我們重新想一下，一般儲存用同樣的基礎 URL 服務，像 http（s）：//s3。amazonaws。com//