過去幾天本港經歷大雨冰雹天氣,之後天文台及渠務署就該場大雨的罕見程度各自表述。渠務署稱大家對重現期 (return period) 估計的差異源於量度尺度之不同,這引發坊間對「N年一遇」等說法的討論。
1.「N年一遇」的含義
「N年一遇」包含平均的概念。如果說某件事件 A 是十年一遇,即是說 A 平均每十年會發生一次。換句話說,假設每年間 A 發生與否皆為獨立事件,A 在某一年發生的機會是 10%。這並不是說 A 必然會於某十年間發生一次。事實上,A 不會於未來十年內發生的機會為 $(1-0.1)^{10} = 0.35$,即高達三成半。另一方面,A 有 1% 機會 ($=0.1^2$) 於連續兩年發生。
「N年一遇」是表達重現期,即某事件平均重現間距的一種方法,而在討論重現期的同時往往會牽涉到重現水平 (return level),這是由於事件的極端性通常取決於某項可測度變量的多寡。譬如說「某地平均每 5 年會出現一次日雨量超過 200 毫米」,這裡重現期為 5 年,而所對應的重現水平則是 200 毫米/日。不難理解,重現水平 (雨量) 越高,所對應的重現期會越長。
2. 怎樣能簡易地估計某重現水平所對應的重現期?
如果該重現水平不太極端,我們可以直接利用已有數據估算相對應的重現期。下圖顯示 1884-1939 及 1947-2011 年三月最高日雨量的直方圖 (histogram),共 121 數據點,可見大多年份三月沒有一天雨量超過 60 毫米,而最高日雨量則為 130 毫米 (於 2002 年 3 月 23 日錄得)。
1884-1939 及 1947-2011 年三月最高日雨量直方圖 |
根據日雨量的分布,我們可以繪製一張顯示累積概率的圖表 (如下)。橫軸為雨量,而縱軸為日雨量於該水平或以下的機率。假設 $X_1$、$X_2$、$\cdots$、$X_{121}$ 代表該 121 年的三月最高日雨量的隨機變量 (random variable),那縱軸顯示的為 $\mathbb{P}(X_i \le x)$ 此一機會 ($x$ 為橫軸所示雨量,而 $X_i$ 有任一年的意思)。
每年最高日雨量的累積概率圖 |
不同雨量之重現期。留意橫軸使用對數刻度以便閱讀及比較 |
3. 如果 N 很大怎麼辦?
極值分布
先前的討論假設 N 不是太大,所以我們可以由其經驗分布 (empirical distribution) 中導出重現期。從 121 年數據的經驗分布中找出 2、5 或 10 年的重現期是頗為可靠的,但是如果 N 較大,如 100 甚至 1000,那我們不可能由經驗分布中找出重現期;即使從上圖勉強能說「百年一遇」的雨量為 127 毫米,此估計亦是極不可靠的。在此情況下,我們需使用統計學中的極值理論 (extreme value theory),藉助數學理論對極限附近行為的結果來推算。簡單來說,我們可以在不知道雨量理論分布之情況下,利用數學方法分析該些雨量最大值 (例如說,三月的最高日雨量) 的屬性。
以下的討論假設讀者對基本概率論有一些認識,如機率分布 (probability distribution),機率密度函數 (probability density function),隨機變量 (random variable)。如讀者不欲深究理論結果,可直接跳至下面「數據分析」一節中的圖表。
假設 $X_1,\ldots,X_n$ 為 $n$ 個獨立變量並根據同一機率分布 $F$,那麼不難發現,當 $n$ 趨向無限大時,它們的最大值 $M_n := \max(X_1, \ldots , X_n)$ 將趨向那些變量可取數值的上限。簡單地說,假如 $X_1,\ldots,X_n$ 本身沒有上限,由於 $M_n$ 只會隨 $n$ 增加,當 $n$ 趨向無限大時, $M_n$ 同時會趨向無限大。對 $M_n$ 的特性進行分析看似是沒有可能的事;可是極值理論告訴我們,對於大部分的分布 $F$ [註一],我們可以找出標準化常數 $a_n$ 及 $b_n$,使得 $\dfrac{M_n-b_n}{a_n}$ 跟隨某種非退化分布 (non-degenerate distribution) [註二],從而令分析 $M_n$ 變得可能。學者們證明出,該非退化分布必定為 Weibull、Gumbel 或 Fréchet 其中一款,而它們可以整合為廣義極值分布 (generalized extreme value distribution),其累積分佈函數 (cumulative distribution function) 是
$$G(x;\mu,\sigma,\xi) = \exp\left\{-\left[\max\left\{1+\xi\left(\frac{x-\mu}{\sigma}\right),0\right\}\right]^{-1/\xi}\right\}$$
其中 $\mu,\sigma,\xi$ 為該分布的參數,而 $\xi$ 最為重要,這是因為 $\xi$ 越大,該分布的「尾巴」越長,出現極端值的機會越高。
這理論性結果跟中心極限定理 (central limit theorem) 相似:大家都是將一個變量標準化,而該標準化後的變量趨向某個分布。
有了此結果,我們可以套用此概率模型於極值數據上,從而對極值的屬性進行分析,如計算重現期。
註一:這理論對於一般簡單的連續機率分布 (如正態分布及指數分佈) 均適用。
註二:退化分布為只有一個可能數值的分布,例如估計只有一個已知號碼球的攪珠機所攪出的號碼。
數據分析
要留意此分布適用於極值 (即 $M_n$) 而非原始數據上。你可能會問,一組數據只會有一個最大值,我們怎樣可抽取一個足夠大的樣本 (sample) 來作分析呢?實際上,我們通常會將數據分為多個區塊 (block),於每個區塊中抽取其最大值用作分析。區塊的大小往往是與一些實質時間分隔相關,如年、月等。選擇區塊大小也有學問:如果區塊太大,每組的最大值會更為準確但所得出樣本會較小 (因為區塊的大小與數目成反比),導致結果變化 (variability) 較大;如果區塊太小,那雖然樣本會較大,但每個區塊中的極值可能不太極端,令統計模型出現偏差,得出的結論可能無效。
留意於上述討論中我們使用的數據是每年三月份的最高日雨量,因此它們已經是極值數據了。將廣義極值分布套用於最高日雨量數據中,我們可找出於該分布中重現水平相對應的重現期,如下圖所示:
統計模型分析所得之重現水平-重現期的關係 |
重現期 (年) | 經驗分布所得重現水平 (毫米) | 極值分布所得重現水平連 95% 置信區間 (毫米) |
10 | 約 55 | 60.1 (49.1, 79.4) |
50 | 約 122 | 125.2 (88.7, 214.3) |
100 | 約 127 | 166.3 (108.9, 323.0) |
500 | 無法估計 | 310.3 (165.4, 825.1) |
1000 | 無法估計 | 402.0 (194.8, ~1200) |
3 月 30 日當天雨量為 103.1 毫米,按照此模型所估計的重現期為 32 年 (即平均每世紀會出現三次)。同樣做法可套用於時雨量或瞬時雨量,來計算出所對應的重現期。
4. 使用極值理論時要注意的事項
上述計算假設每年間的三月日最高雨量是獨立事件。由於每個數據點時間相差接近一年,此假設較為合理。但是,假如你想用此方法分析每個月的最高雨量,它們就很可能不是獨立事件,所得出的結論可能會有偏差。此外,極值理論屬於漸近理論 (asymptotic theory),數據量需趨向無限才成立。當然現實應用中不可能有無限量的數據,因此解讀結果時需要小心。最後,要得出「千年一遇」等估計無可避免地要使用外推法。由於該處沒有實測數據,一般來說估算所得重現水平的置信區間 (confidence interval) 會較闊。如上表,100 年一遇的雨量為 166 毫米,其 95% 置信區間為 109 至 323 毫米;外推至 1000 年一遇的估計重現水平為 402 毫米,但 95% 置信區間闊度竟然達 1000 毫米!因此,分析長周期的重現水平數據時,必須同時取得標準差或置信區間等資料,以估計該重現水平的可信度。就此例子而言,以 121 年的三月最高日雨量來估算千年一遇的重現水平並不太可靠。
後記
「N年一遇」的估算隱藏多個假設,所以不同機構因使用不同數據而得出大相逕庭的結論絕對有可能發生。對極值統計有興趣的朋友,可參考以下的入門書籍,此書顯淺而詳盡地介紹極值理論及其應用,適合初學者閱讀 (當然,假設讀者已有基本概率論的知識)。
Coles, S. (2001). An Introduction to Statistical Modeling of Extreme Values. Springer.