notice:本文的一些长公式你可以通过滚动条阅读,原谅我没有找到好的使得公式换行的方法,我已尝试了更换markdown渲染内核从marked到kramed,可惜我之前一些没有注意到的失误使得整个过程无法正常进行,除非我一切重来。

为什么做这个综述?

在我学习【概率论与数理统计】这门课的时候,一个环节是对均匀分布参数矩估计与最大似然估计之间的有效性比较,而后者则涉及了均匀分布次序统计量的均值、方差。一些文献所提出的关于均匀分布次序统计量的一些性质为计算参数估计量的方差提供了基础,他们直接给出了在均匀分布条件下单个次序统计量的概率密度函数,但没有提供直接的证明过程。

我发现目前关于均匀分布次序统计量的概率密度函数推导并不少,于是我开始幻想能不能将分布一般化。

我查阅了大量的资料得到了本文,主要焦点集中在推导次序统计量的概率密度函数。首先,回顾连续型随机变量中基于累积分布函数推导单个次序统计量分布的基本方法,阐述该方法与利用离散化处理作概率重构方法的等效性;此外,还将阐述如何结合概率微元的方法达成同样的目的,并为其在后文的延伸打下基础。接着,本文将探讨离散型随机变量情况下的次序统计量分布与连续型随机变量推导过程中的根本差异,并对其中的一些问题作讨论。

另外,本文还将对进一步扩展到多个次序统计量的分布推导作综述。通过以两个次序统计量为基础,逐步推导多个次序统计量的联合概率密度函数,这一推导过程扩展了单个次序统计量分布的推导方法。

注: 需要说明的是,本文是对次序统计量分布推导方法的综述与复现,并非原创性的内容产出。

相关符号说明

符号 说明
$X_1, X_2, \dots, X_n$ 来自总体的 $n$ 个样本
$X_{(1)}, X_{(2)}, \dots, X_{(n)}$ $n$ 个样本中从小到大排序的次序统计量
$F(x)$ 总体的累积分布函数
$f(x)$ 总体的概率密度函数(连续型随机变量)

单个次序统计量的概率密度函数

基于累积分布函数的推导

由随机变量累积分布函数的定义可知:

$$ F_{X_{(k)}}(x) = P(X_{(k)} \le x) $$

由于 $ X_{(1)} \le X_{(2)} \le \dots \le X_{(n)} $,因此 $ X_{(k)} \le x $ 要求至少有$k$个样本值小于$x$。记$P=F(x)$,则有:

$$ F_{X_{(k)}}(x) = P(X_{(k)} \le x) = \sum_{i = k}^n \binom{n}{i} P^i (1 - P)^{n-i} $$

为进一步推导,需要证明下述等式:

$$ \sum_{i = k}^n \binom{n}{i} P^i (1 - P)^{n-i} = k \binom{n}{k} \int_{0}^P x^{k-1} (1 - x)^{n-k} , dx $$

证明:

对于右式有:

$$ \frac{d}{d P} \left[ k \binom{n}{k} \int_{0}^P x^{k-1} (1 - x)^{n-k} , dx \right] = k \binom{n}{k} P^{k-1} (1 - P)^{n-k} $$

对于左式有:

$$
\frac{d}{d P} \left[ \sum_{i=k}^n \binom{n}{i} P^i (1 - P)^{n-i} \right] = \sum_{i=k}^n \binom{n}{i} \left[ i P^{i-1} (1 - P)^{n-i} - (n - i) P^i (1 - P)^{n-i-1} \right] = k \binom{n}{k} P^{k-1} (1 - P)^{n-k} - (n - k) \binom{n}{k} P^k (1 - P)^{n-k-1} + (k + 1) \binom{n}{k+1} P^{k} (1 - P)^{n-k-1} - (n - k - 1) \binom{n}{k+1} P^{k+1} (1 - P)^{n-k-2} + \dots + (n - 1) \binom{n}{n-1} P^{n-2} (1 - P)^1 - \binom{n}{n-1} P^{n-1} (1 - P)^0 + n \binom{n}{n} P^{n-1} (1 - P)^0 - 0
$$

$$
\begin{aligned}
(n - i) \binom{n}{i} = (n - i) \frac{n!}{i! (n - i)!} = \frac{n!}{i! (n - i - 1)!}
(i + 1) \binom{n}{i+1} = (i + 1) \frac{n!}{(i + 1)! (n - i - 1)!} = \frac{n!}{i! (n - i - 1)!}
\end{aligned}
$$

因此:

$$ (n - i) \binom{n}{i} = (i + 1) \binom{n}{i+1} $$

所以左式求导得到可相消的式子,进而有:

$$ \frac{d}{d P} \left[ \sum_{i=k}^n \binom{n}{i} P^i (1 - P)^{n-i} \right] = k \binom{n}{k} P^{k-1} (1 - P)^{n-k} $$

所以:

$$
\begin{aligned}
\frac{d}{d P} \left[ k \binom{n}{k} \int_{0}^P x^{k-1} (1 - x)^{n-k} , dx \right] = \frac{d}{d P} \left[ \sum_{i=k}^n \binom{n}{i} P^i (1 - P)^{n-i} \right]
\end{aligned}
$$

进而

$$
\begin{aligned}
k \binom{n}{k} \int_{0}^P x^{k-1} (1 - x)^{n-k} , dx = \sum_{i=k}^n \binom{n}{i} P^i (1 - P)^{n-i} + C \text{(C为与P无关的“常”数)} \xrightarrow{P=0} C = 0
\end{aligned}
$$

故等式得证。

因此:

$$ F_{X_{(k)}}(x) = P(X_{(k)} \le x) = \sum_{i = k}^n \binom{n}{i} P^i (1 - P)^{n-i} = k \binom{n}{k} \int_{0}^P x^{k-1} (1 - x)^{n-k} , dx $$

求导得到 $ X_{(k)} $ 的概率密度函数为:

$$ f_{X_{(k)}}(x) = k \binom{n}{k} [F(x)]^{k-1} [1 - F(x)]^{n-k} f(x) $$

从离散化与概率重构角度思考此方法

令随机变量 $Y$ 表示随机样本中样本值小于等于 $x$ 的个数,那么单个次序统计量的概率分布可以表达为:

$$ P(X_{(k)} \le x) = P(Y \ge k) $$

这是一个相当朴素的思想,其后续的推导步骤与基于分布函数的推导过程实质上毫无差异。若将两者视为独立推导方法,则它们在本质上是完全等价的。然而,这一基础思想深刻揭示了后者的内在本质,即通过分布函数的定义,巧妙结合次序统计量所具有的有限性特征,成功将一个连续型随机变量的分布函数离散化处理。在此基础上,我们得以将概率重新构建为求和的形式,而非传统的积分或代入求导方式。这一转变在某种程度上为后续进行变量变换与消元提供了坚实的理论支撑。

在后续对两个次序统计量联合概率密度的推导综述中,若直接从联合分布函数出发,问题可能会显得异常复杂且难以处理。然而,上述这一基础性的本质思想却为我们提供了解决该难题的有效途径。

利用概率微元的推导

教材在证明连续型随机变量在某值处的概率为 0 时,采用了概率微元的概念,即:

$$ P(x \le X \le x + \Delta x) = f(x) \Delta x $$

这里将概率微元写为:

$$ P(x \le X \le x + dx) = f(x) dx + o(dx) $$

有:

$$ f_{X_{(k)}}(x) = \lim_{\Delta x \to 0} \frac{P(x \le X_{(k)} \le x + \Delta x) + o(\Delta x)}{\Delta x} = \lim_{\Delta x \to 0} \frac{P(x \le X_{(k)} \le x + \Delta x)}{\Delta x} $$

由于总体为连续型随机变量,可以将整个一维数轴不重不漏地划分为 $ (-\infty, x) $, $ [x, x + \Delta x) $, $ [x + \Delta x, +\infty) $ 三部分,且 $ \Delta x \to 0 $ 时,几乎一定可以使 $ [x, x + \Delta x) $ 只包含一个样本点。

在上述基础上,$ x \le X_{(k)} \le x + \Delta x $ 等价于有 $ k - 1 $ 个样本点的值小于 $ x $,有且仅有 1 个样本的值在 $ [x, x + \Delta x) $ 中,其余 $ n - k $ 个样本点的值大于等于 $ x + \Delta x $,因此有:

$$
\begin{aligned}
P(x \le X_{(k)} \le x + \Delta x)
= \binom{n}{k-1} [F(x)]^{k-1} \binom{n - k + 1}{1} \left[ F(x + \Delta x) - F(x) \right] \binom{n - k}{n - k} [1 - F(x + \Delta x)]^{n - k}
= \frac{n!}{(k - 1)! (n - k + 1)!} \cdot \frac{(n - k + 1)!}{1! (n - k)!} \cdot 1 \cdot [F(x)]^{k-1} \left[ F(x + \Delta x) - F(x) \right] [1 - F(x + \Delta x)]^{n - k}
= k \binom{n}{k} [F(x)]^{k-1} \left[ F(x + \Delta x) - F(x) \right] [1 - F(x + \Delta x)]^{n - k}
\end{aligned}
$$

$$
\begin{aligned}
\therefore f_{X_{(k)}}(x) = k \binom{n}{k} \lim_{\Delta x \to 0} \frac{F(x + \Delta x) - F(x)}{\Delta x} [F(x)]^{k-1} [1 - F(x + \Delta x)]^{n - k}
= k \binom{n}{k} f(x) [F(x)]^{k-1} [1 - F(x)]^{n - k}
\end{aligned}
$$

连续型与离散型随机变量在次序统计量分布推导中的区别

在连续型随机变量中,单个次序统计量分布的推导可以通过概率微元的方法极大地简化。该方法基于连续型随机变量的特性,即能够将整个一维数轴不重不漏地划分为三个区间:$(-\infty, x)$、$[x, x + \Delta x)$ 和 $[x + \Delta x, +\infty)$,并且当 $\Delta x \to 0$ 时,$[x, x + \Delta x)$ 区间几乎一定只包含一个样本点。

然而,在离散型随机变量中,数轴被划分为 $(-\infty, x)$、${x}$ 和 $(x, +\infty)$(这里没有 $\Delta x$ 或 $dx$ 的概念)。由于离散型随机变量的值可能重复,多个样本点的值可能均为 $x$,这导致需要考虑多种情况,使得问题变得复杂。因此,模仿连续型随机变量对 $\mathbb{R}$ 进行划分的方法在离散型随机变量中失效。这是连续型随机变量与离散型随机变量在单个次序统计量分布推导上的根本区别。

尽管如此,基于分布函数定义的思想仍然是正确的。

离散型随机变量值的可重复性

离散型随机变量值是具有可重复性的:

以 $X_{(k)} \le x$ 为例,该事件等价于至少有 $k$ 个样本点的值小于等于 $x$。因此,单个次序统计量的分布函数可以表示为各种情况的概率之和。关键在于,除去小于等于 $x$ 的点,其他点的概率值应取大于 $x$,还是大于等于 $x$?

  • 若取大于$x$:这与离散型随机变量值的可重复性存在矛盾。如图 1 所示,当计算到有 $k$ 个样本小于等于 $x$ 时,按照这种算法,会导致 $ X_{(k+1)} = X_{(k+2)} = x $ 的情况被忽略。
  • 若取大于等于$x$:则每种情况的概率之和可能超过 1,而非二项分布的形式,其合理性有待讨论。

Wiki 对该问题采取了后者的策略,但我认为这个问题仍有待讨论,因此这里不再作推导,以免违背严谨性。

多个次序统计量的联合概率分布

延展概率微元方法做推导

以两个次序统计量 $X_{(i)}, X_{(j)}$ 为例。$F_{X_{(i)}, X_{(j)}}(x, y) = P(X_{(i)} \leq x, X_{(j)} \leq y) (i < j)$,规定 $ x < y $,否则 $F_{X_{(i)}, X_{(j)}}(x, y) = P(X_{(j)} \leq y) = F_{X_{(j)}}(y)$。

延展单个次序统计量概率微元的推导,这里将 $\mathbb{R}$ 不重不漏地划分为 $(-\infty, x), [x, x + \Delta x), [x + \Delta x, y), [y, y + \Delta y), [y + \Delta y, \infty)$。同样地,连续型随机变量能做到当 $(\Delta x, \Delta y) \to (0, 0)$ 时,$[x, x + \Delta x), [y, y + \Delta y)$ 中均仅有一个样本点。则 $x \leq X_{(i)} \leq x + \Delta x, y \leq X_{(j)} \leq y + \Delta y$ 等价于有 $i-1$ 个样本小于 $x$,有 1 个在 $[x, x + \Delta x)$ 中,有 $j-1-i$ 个在 $[x + \Delta x, y)$ 中,有 1 个在 $[y, y + \Delta y)$ 中,有 $n-j$ 样本大于 $ y $.

于是
$$
\begin{aligned}
P(x \leq X_{(i)} \leq x + \Delta x, y \leq X_{(j)} \leq y + \Delta y)
= {n \choose {i-1}} [F(x)]^{i-1} {n-i+1 \choose 1} [F(x + \Delta x) - F(x)] {n-i \choose j-i-1} [F(y) - F(x + \Delta x)]^{j-i+1}
{n-j+1 \choose 1} [F(y + \Delta y) - F(y)] {n-j \choose {n-j}} [1 - F(y + \Delta y)]^{n-j}
= \frac{n!}{(i-1)!(n-i+1)!}(n-i+1) \frac{(n-i)!}{(j-i-1)!(n-j+1)!}(n-j+1) \cdot 1 \cdot [F(x)]^{i-1}
[F(x + \Delta x) - F(x)] [F(y) - F(x + \Delta x)]^{j-i+1} [F(y + \Delta y) - F(y)] [1 - F(y + \Delta y)]^{n-j}
\overset{\bigtriangleup}{=} \frac{n!}{(i-1)!(j-i-1)!(n-j)!} g(x)
\end{aligned}
$$

根据概率微元的概念,有
$$
\begin{aligned}
f_{X_{(i)}, X_{(j)}}(x, y) = \lim_{(\Delta x, \Delta y) \to (0, 0)} P(x \leq X_{(i)} \leq x + \Delta x, y \leq X_{(j)} \leq y + \Delta y)
= \frac{n!}{(i-1)!(j-i-1)!(n-j)!} [F(x)]^{i-1} [F(y) - F(x)]^{j-i+1} [1 - F(y)]^{n-j} f(x) f(y)
\end{aligned}
$$

可以看到,概率微元在连续型随机变量次序统计量的讨论中有着十分重要的作用。基于这个概念,可以将两个次序统计量拓展到 $\forall r, 1 < r \leq n$ 个次序统计量中。一些常见的结论如下:

  • 记任意 $s \in [1, n]$ 个次序统计量 $Y_i \overset{\bigtriangleup}{=} X_{(r_i)} (i=1, 2, …, s, r_1 < r_2 < … < r_s)$ 的联合概率密度函数为
    $$
    f_Y(y_1, y_2, …, y_s) = n! \prod_{j=0}^s \frac{[F(y_{j+1}) - F(y_j)]^{r_{j+1} - r_j - 1}}{(r_{j+1} - r_j - 1)!} \prod_{j=1}^s f(y_j)
    $$
    其中 $r_0 = 0, r_{s+1} = n + 1, y_0 = -\infty, y_{n+1} = \infty, y_1 < y_2 < … < y_s$。

  • 特别地,前 $r$ 个次序统计量的联合概率密度函数为
    $$
    g(y_1, y_2, …, y_r) = \frac{n!}{(n-r)!} [1 - F(y_r)]^{n-r} \prod_{i=1}^r f(y_i)
    $$

延展离散化与概率重构方法做推导

2.1 中阐明了一个朴素的离散化思想,在两个次序统计量中对该思想做延展。

记 $U, V$ 分别为样本中样本值小于等于 $x$、大于 $x$ 小于等于 $y$ 的个数,则

$$
F_{X_{(i)}, X_{(j)}}(x, y) = P(U \geq i, U + V \geq j) (x < y)
$$

该转化完成了离散化的过程,$U, V$ 是离散的,概率被重构为

$$
\sum_a \sum_b P(U = a, V = b)
$$

显然 $i \leq a \leq j, j \leq a + b \leq n$,注意这里不涉及对 $\mathbb{R}$ 进行划分,$a \leq j$ 是可取等的,故

$$
P(U = a, V = b) = \sum_{a=i}^j \sum_{b=j-a}^{n-a} P(U = a, V = b)
$$

视每取一次样本 $X_i$ 为一个事件,则该事件只可能存在三种结果:

  • $X_i \leq x$
  • $x < X_i \leq y$
  • $y < X_i \leq n$

因此 $(U, V, n - U - V)$ 服从一个三项分布,则

$$
P(U = x_1, V = x_2, n - U - V = n - x_1 - x_2) = \frac{n!}{x_1! x_2! (n - x_1 - x_2)!} [F(x)]^{x_1} [F(y) - F(x)]^{x_2} [1 - F(y)]^{n - x_1 - x_2}
$$

$$
F_{X_{(i)}, X_{(j)}}(x, y) = \sum_{a=i}^j \sum_{b=j-a}^{n-a} \frac{n!}{a! b! (n - a - b)!} [F(x)]^{a} [F(y) - F(x)]^{b} [1 - F(y)]^{n - a - b}
$$

因此,记 $[F(x)]^{a} [F(y) - F(x)]^{b} [1 - F(y)]^{c} f(x) f(y) \overset{\Delta}{=} D(a, b, c)$,则有

$$
f_{X_{(i)}, X_{(j)}}(x, y) = \frac{\partial^2 F}{\partial x \partial y}= \sum_{a=i}^j \sum_{b=j-a}^{n-a} \frac{n!}{a! b! (n - a - b)!} {ab \cdot D(a-1, b-1, n-a-b) - a(n - a - b) \cdot D(a-1, b, n-a-b-1) - b(b-1) \cdot D(a, b-2, n-a-b) + (n - a - b)b \cdot D(a, b-1, n-a-b-1)}
$$

先讨论求和内部

分为 $b = j - a, b \geq j - a$ 两部分,再记 $\frac{n!}{a! b! (n - a - b)!} \overset{\Delta}{=} Q(a, b)$,从 第一个式子 可得到

$$
Q(a, j - a) a (j - a) \cdot D(a-1, b-1, n-a-b) + \sum_{b=j-a+1}^{n-a} Q(a, b) ab \cdot D(a-1, b-1, n-a-b)
$$

从第三个式子可得到

$$
\begin{aligned}
- Q(a, j - a) (j - a)(j - a - 1) \cdot D(a, b-2, n-a-b) - \sum_{b=j-a+1}^{n-a} Q(a, b) b(b-1) \cdot D(a, b-2, n-a-b)
\end{aligned}
$$

对上面两个式子的求和式做变量替换 $b’ = b - 1$,则两个求和式变为

$$
\begin{aligned}
+ \sum_{b’=j-a}^{n-a-1} Q(a, b’+1) a(b’+1) \cdot D(a-1, b’, n-a-b’-1) - \sum_{b’=j-a}^{n-a-1} Q(a, b’+1) b’(b’+1) \cdot D(a, b’-1, n-a-b’-1)
\end{aligned}
$$

在第二个式子和第四个式子中,当 $b = n - a$ 时式子为 0,上限修改为 $n - a - 1$,即

$$
\begin{aligned}
+ \sum_{b=j-a}^{n-a-1} Q(a, b) (n - a - b) b \cdot D(a, b-1, n-a-b-1) - \sum_{b=j-a}^{n-a-1} Q(a, b) a (n - a - b) \cdot D(a-1, b, n-a-b-1)
\end{aligned}
$$

又因为

$$
Q(a, b+1) a(b+1) = \frac{n!}{a! (b+1)! (n - a - b - 1)!} a(b+1) = \frac{n!}{(a-1)! b! (n - a - b - 1)!} = Q(a, b) a(n - a - b)
$$

同理有

$$
Q(a, b+1) b(b+1) = Q(a, b) b(n - a - b)
$$

因此,通过相消,故

$$
f_{X_{(i)}, X_{(j)}}(x, y) = \sum_{a=i}^j [Q(a, j-a) a(j-a) \cdot D(a-1, b-1, n-a-b) - Q(a, j-a) (j-a)(j-a-1) \cdot D(a, b-2, n-a-b)]
$$

同理地,分为 $a = i, a > i$ 两部分求和,并考虑取上限时为 0 的情况,得到

$$
f_{X_{(i)}, X_{(j)}}(x, y) = Q(i, j-i) i(j-i) \cdot D(i-1, j-i-1, n-j) + \sum_{a=i+1}^{j-1} Q(a, j-a) a(j-a) \cdot D(a-1, j-a-1, n-j) - \sum_{a=i}^{j-2} Q(a, j-a) (j-a)(j-a-1) \cdot D(a, j-a-2, n-j)
$$

对后两项和式做变量替换 $a’ = a - 1$,同理可消去得到

$$
f_{X_{(i)}, X_{(j)}}(x, y) = Q(i, j-i) i(j-i) \cdot D(i-1, j-i-1, n-j)
$$

$$
f_{X_{(i)}, X_{(j)}}(x, y) = \frac{n!}{(i-1)! (j-i-1)! (n-j)!} [F(x)]^{i-1} [F(y) - F(x)]^{j-i+1} [1 - F(y)]^{n-j} f(x) f(y)
$$