여기서 "자연 파라미터"가 리다이렉트 됩니다.미분 지오메트리에서 이 용어를 사용하려면 자연 모수화를 참조하십시오.
확률 및 통계학에서 지수 계열은 아래에 지정된 특정 형식의 모수 분포 집합입니다.이 특별한 형태는 수학적인 편의를 위해 선택되었으며, 일반성뿐만 아니라 몇 가지 유용한 대수적 특성에 근거해 일반성을 고려하기에 매우 자연스러운 분포 집합이다.지수 클래스라는 용어는 "지수 패밀리"[1] 또는 더 오래된 용어인 쿱만-다무아 패밀리 대신 사용되기도 한다.조건과"가족""분포"종종 느슨하게:매개 변수와 특정 유통하는 것은, 구체적으로 기하 급수적인 가족은 집합[를] 하지만, 분포의 파라메트릭 가족은 종종"유통"( 같은"정규 분포""정상적인 분배를 가족 의미는 사용된다.")모든 지수족 집합은 때때로 느슨하게 "지수족"이라고 불립니다.이들은 다양한 바람직한 속성을 가지고 있기 때문에 구별되며, 가장 중요한 것은 충분한 통계량의 존재이다.
일반적으로 사용되는 분포 대부분은 아래 하위 섹션에 나열된 지수 계열 또는 지수 계열의 부분 집합을 구성합니다.그 뒤의 하위 섹션은 점점 더 일반적인 지수 계열의 수학적 정의의 연속이다.일반 독자는 이산 또는 연속 확률 분포의 단일 모수 계열에 해당하는 첫 번째 가장 단순한 정의에 주의를 제한할 수 있습니다.
지수 집합 분포 예제
지수 집합에는 가장 일반적인 분포가 많이 포함됩니다.여러 가지 중에서도 지수 패밀리에는 다음이 포함됩니다.
지수 집합이 아닌 일반 분포의 예로는 학생t, 대부분의 혼합물 분포, 경계가 고정되지 않은 경우 균일한 분포 집합 등이 있습니다.상세한 것에 대하여는, 다음의 항을 참조해 주세요.
스칼라 파라미터
단일 모수 지수 계열은 확률 밀도 함수(또는이산분포의 경우 확률 질량 함수)가 다음과 같이 표현될 수 있는 확률 분포의 집합이다.
여기서 T(x), h(x), "("") 및 A(")는 기존의 함수입니다.함수 h(x)는 당연히 음수가 아니어야 합니다.
종종 제공되는 동등한 대체 형식은 다음과 같습니다.
또는 동등하게
값 is을 패밀리의 파라미터라고 합니다.
f X( (, f X({X\는 보다 { [6]에 의존하지 않습니다.이는 모수 패밀리 분포를 지수 패밀리로부터 제외하기 위해 사용할 수 있습니다.예를 들어, Pareto 분포에는 xx m { x \ x _ {} ( m } )에 되어 있는pdf 가 있습니다.따라서 그 은 xm { m 입니다., m () { m} 의 이므로,은(는) 매개 변수 값에 따라 달라지며, Pareto 분포 패밀리는 지수 분포 패밀리를 형성하지 않습니다( xm {m}을(를) 알 수 경우).
종종 x는 측정의 벡터이며, 이 경우 T(x)는 x의 가능한 값 공간부터 실수까지의 함수일 수 있습니다.보다 일반적으로는 (θ)와 T(x는 각각 θ와T T가 실가치가 되도록 벡터값으로 할 수 있다.그러나 곡선 지수 패밀리에 대한 벡터 매개 변수에 대한 다음 설명을 참조하십시오.
η(가) = θ이면 지수군은 정준형이라고 한다.변환된 파라미터 η = ( ( )을 정의함으로써 지수 패밀리를 정규 형식으로 변환할 수 있습니다.T(x)에 그 상수의 역수를 곱하거나 c에 [ - T( )\ display \exp \ \ exp !\l [ \ 를 곱하는 경우, θ(x) 및 h(x)에 상수 c를 추가할 수 있으므로 표준 형식은 고유하지 않습니다.θ(θ) = θ 및 T(x) = x인 특수한 경우, 군을 자연 지수족이라고 합니다.
x가 스칼라이고 파라미터가 1개밖에 없는 경우에도 다음과 같이 함수 θ(θ)와 T(x)는 벡터일 수 있습니다.
함수 A(') 또는 동등한 g(')는 다른 함수가 선택되면 자동으로 결정됩니다.이는 분포를 정규화하는 형식(도메인 전체에 걸쳐 하나의 형태로 합산 또는 적분)을 취할 필요가 있기 때문입니다.또, 이러한 함수는, θ(θ)가 일대일 함수가 아닌 경우라도, 즉 θ의 2이상의 다른 값이 θ(θ)의 같은 값에 매핑되어 있기 때문에, θ(θ)를 반전할 수 없는 경우에도 항상 θ의 함수로 쓸 수 있다.이 경우, A(') 및g(')에 대한 매핑의 모든 값도 같은 값이 됩니다.
관련된 변수의 인수분해
주목해야 할 중요한 것과 모든 지수족 변형을 특징짓는 것은 변수와 관측 변수가 직접 또는 지수 연산의 어느 한 부분(기저수 또는 지수) 내에서 인수분해되어야 한다는 것이다(각각은 하나의 변수 유형만 포함하는 곱으로 분리될 수 있음).일반적으로 밀도 또는 질량 함수를 구성하는 모든 인자는 다음 중 하나의 형태여야 합니다.
여기서 f와 h는 x의 임의의 함수이고, g와 j는 θ의 임의의 함수이며, c는 임의의 "가변" 식이다(즉, x나 θ를 포함하지 않는 식).
그러한 요소들이 얼마나 많이 발생할 수 있는지에 대한 추가적인 제약이 있다.예를 들어, 다음 두 가지 식입니다.
동일한 두 가지 "허용된" 요소의 산물입니다.하지만 인수분해된 형태로 다시 작성하면
필요한 형태로 표현할 수 없다는 것을 알 수 있다(다만, 이러한 종류의 형태는 지수 내에서 여러 인수분해 항을 사용할 수 있는 곡선 지수군의 구성원이다).[citation needed]
양식의 표현 이유를 확인하려면
자격요건수,
따라서 지수 내부에서 인수분해됩니다.유사하게,
그리고 다시 지수 내부에서 인수분해 합니다.
두 유형의 변수가 모두 관련된 합계로 구성된 계수(: 1+ ( ) ( ) (\1 + ((\) (일부 지수에서 직접 발생하는 경우를 제외하고)는 이러한 방식으로 인수분해할 수 없습니다. 예를 들어, 코시분포와 학생 분포가 아닌 이유는 다음과 같습니다.xponential family.
벡터 파라미터
하나의 실수 파라미터에 대한 정의는 하나의 실수벡터 파라미터로 확장될 수 있습니다.
확률밀도함수(또는 이산분포의 경우 확률질량함수)가 다음과 같이 기록될 수 있는 경우 분포군은 벡터 지수족에 속한다고 한다.
아니면 좀 더 컴팩트한 형태로
이 형식은 벡터 값 함수 ( ) \ \ bold \} ( { \ symbol \ ) tt) T ( ) t t t t t t t t t of of of of of of of of of of of of of of of of of of of of of of of of of of of of of of of of of of of of of of of of of of of of of of
자주 볼 수 있는 동등한 대체 형태는 다음과 같습니다.
스칼라 값 사례에서와 같이, 지수 패밀리는 다음과 같이 표준 형식이라고 한다.
벡터 지수 패밀리는 다음과 같은 경우 곡선이라고 한다.
벡터의 차원보다 작습니다.
즉, 파라미터 벡터의 차원 d가 확률밀도함수의 상기 표현에서 파라미터 벡터의 함수s보다 작을 경우이다.지수 패밀리의 대부분의 일반적인 분포는 곡선이 아니며, 모든 지수 패밀리와 함께 작동하도록 설계된 많은 알고리즘은 분포가 곡선이 아니라고 가정합니다.
상기 스칼라값 파라미터의 경우와 마찬가지로 함수가 선택되면 A A}) 또는에 상당하는gg({\ {}}})가 자동으로 결정되므로 분포 전체가 정규화된다.In addition, as above, both of these functions can always be written as functions of , regardless of the form of the transformation that generates from . Hence an exponential family in its "natural form" (자연 파라미터에 의해 파라미터화됨)은 다음과 같습니다.
또는 동등하게
위의 폼은T () T(x )( \ \ \ (x )로 표시되는 경우가 있습니다. 폼은 정확하게 동등합니다
벡터 파라미터, 벡터 변수
단일 스칼라 값 랜덤 변수에 대한 벡터 모수 형식은 랜덤 변수의 벡터에 대한 공동 분포를 포함하도록 3차적으로 확장할 수 있습니다.결과 분포는 스칼라 x가 벡터에 의해 대체될 때마다 스칼라 값 랜덤 변수에 대한 위의 분포와 같다.
H가 실제 변수의 비감소 함수라고 가정합니다.으로, Lebegue-Stieltjes 적분은 dH ()에 적분이다. (\는 H에 의해 생성된 지수군의 기준 측도에 대한 적분이다.
해당 지수 계열의 모든 구성원이 누적 분포 함수를 가지고 있습니다.
H(x)는 기준 측정의 Lebegue-Stieltjes 적분자이다.기준 측도가 유한하면 정규화할 수 있으며 H는 사실 확률 분포의 누적 분포 함수입니다.F가 기준 x일반적으로 르베그 측도)에 대해 f { f {\d} {x로 절대 연속인 경우 d x {} {d, {\rm {d} {d} {x} {x로 쓰면 .및 d H ( ) (x ) x {\ H x) (x ) 、{d,} x, } 라고 쓸 수 있기 때문에, 수식은 앞의 단락의 수식으로 줄일 수 있습니다.F가 이산인 경우 H는 스텝 함수(F를 지원하는 스텝 포함)입니다.
또는 확률 측도를 다음과 같이 직접 작성할 수 있습니다.
일부 기준 μ \mu에 대해 설명합니다.
해석
위의 정의에서는 함수T(x),θ(θ) 및A(θ)가 임의로 정의되어 있는 것으로 보인다.그러나 이러한 함수는 결과 확률 분포에서 중요한 역할을 합니다.
T(x)는 분포에 대한 충분한 통계량입니다.지수 계열의 경우 충분한 통계량은 알 수 없는 모수 값과 관련하여 데이터 x가 제공하는 모든 정보를 유지하는 데이터의 함수입니다.즉, 모든 세트x(\x)와(\ y에 대해 우도비는 즉,( ;)( ;)= f( y; 2) { style ; )입니다) = T(y) . x 와 y 가 상당히 다른 경우, 즉 d(x ,) { , ) > 0 , 해당됩니다. T(x)의 치수는 and의 파라미터 수와 같으며 파라미터 θ에 관련된 모든 데이터를 포함합니다.독립적이고 동일한 분포의 데이터 관측치 집합의 충분한 통계량은 단순히 개별적인 충분한 통계량의 합이며, 주어진 데이터(따라서 모수의 원하는 추정치를 도출하는 데)의 사후 분포를 설명하는 데 필요한 모든 정보를 캡슐화한다.(이 중요한 속성은 아래에서 자세히 설명합니다.)
θ를 자연 파라미터라고 합니다.( ; ) { eta)} 가 적분 가능한 for의 값 집합을 자연 파라미터 공간이라고 한다.자연 파라미터 공간은 항상 볼록하다는 것을 알 수 있다.
A())는 정규화 계수의 로그이기 때문에 로그 분할[b] 함수라고 불리며, 계수가 없으면 f {는 확률 분포가 되지 않습니다.
함수 A는충분한통계량T(x)의 평균, 분산 및 기타 모멘트를 단순히 A( a)를 미분함으로써 도출할 수 있기 때문에 그 자체로 중요하다.예를 들어 log(x)는 감마 분포의 충분한 통계량 성분 중 하나이므로 A(η)를 사용하여 E [ x \ {\ x}를 결정할 수 있습니다.엄밀히 말하면, 이것은 사실이다.
일부 분포는 모수 중 일부가 고정된 경우에만 지수 집합입니다.최소 한계m x가 고정된 파레토 분포군은 지수 군을 형성합니다.시행 횟수가 고정되어 있지만 확률 모수를 알 수 없는 이항 및 다항 분포의 군들은 지수 군입니다.고장 횟수가 고정된 음의 이항 분포 군(정지 시간 모수) r은 지수 군입니다.단, 위의 고정 파라미터 중 하나를 변경할 수 있는 경우 결과 패밀리는 지수 패밀리가 아닙니다.
위에서 설명한 바와 같이 일반적으로 지수 패밀리의 지원은 패밀리의 모든 매개변수 설정에서 동일하게 유지되어야 합니다.위의 사례(예: 시행 횟수가 다양한 이항식, 최소 경계가 다양한 파레토)가 지수 패밀리가 아닌 이유이며, 모든 경우에서 해당 매개변수가 지원에 영향을 미칩니다(특히 최소 또는 최대 가능 값 변경).비슷한 이유로 이산 균등 분포와 연속 균등 분포는 둘 중 하나 또는 둘 다 다르기 때문에 지수 계열이 아닙니다.
고정 형상 모수가 k인 Weibull 분포는 지수 군입니다.이전 예시와 달리 형상 매개변수는 지지에 영향을 주지 않습니다. 형상 매개변수를 변동시킬 수 있는 것은 와이불 확률 밀도 함수의 특정 형태(k는 지수의 지수에 표시됨)에 기인합니다.
다음 표에서는 다수의 공통 분포를 자연 모수를 사용하여 지수 패밀리 분포로 다시 쓰는 방법을 보여 줍니다.메인 지수 패밀리에 대해서는 플래시[11] 카드를 참조해 주세요.
scalar 변수 및 scalar 파라미터의 형식은 다음과 같습니다.
스칼라 변수 및 벡터 파라미터의 경우:
벡터 변수 및 벡터 파라미터의 경우:
위의 공식에서는 로그 파티션 A ( " A ( { \ symbol { )를 가진 지수 패밀리의 함수 형식을 선택합니다.그 이유는 이 함수를 미분하는 것만으로 충분한 통계 모멘트를 쉽게 계산할 수 있기 때문입니다.대체 형태로는 자연 매개변수 일반 매개변수 {\ {})로 이 함수를 매개변수화하거나 지수 외부에 g {\{eta 를 사용합니다.후자와 전자의 관계는 다음과 같습니다.
두 가지 유형의 매개 변수를 포함하는 표현 간에 변환하려면 다음 공식을 사용하여 다른 유형의 매개 변수를 작성합니다.
충분한 통계의 모멘트를 쉽게 계산할 수 있도록 매개변수화가 다른 세 가지 변형이 제공된다.
주의: r ( ) ( ) 、 \ {( \ {T}^ { \ { \ { } ( \ { } ) = \ c { c ) 。행렬 매개변수는 지수 형식에 삽입될 때 벡터화(벡터 배치)되는 것으로 가정합니다.또한 V와 X는 대칭이므로, 예를 V. {\^{\{T} = \ 등입니다.
* Iverson 브래킷은 이산 델타 함수를 일반화한 것입니다.괄호로 묶은 표현이 참일 경우 괄호 값은 1이 됩니다.포함된 문이 거짓일 경우 Iverson 괄호는 0이 됩니다.많은 변형 표기법이 있습니다. 예를 들어, 웨이브 괄호 "a=b"는 위에서 사용한 [a=b] 표기법과 동일합니다.
Variant 1은 표준 파라미터와 자연 파라미터의 관계가 단순한 k k개의 자연 파라미터를 하지만 자연 파라미터 중만 이며 k k개의 파라미터 세트는 식별할 수 없다.일반 파라미터에 대한 제약은 자연 파라미터에 대한 유사한 제약으로 변환됩니다.
변형 2는 전체 자연 매개변수를 식별할 수 없다는 사실을 보여준다.자연 모수에 상수 값을 추가해도 결과 분포에는 영향을 주지 않습니다.그러나 자연 매개변수에 대한 제약을 사용함으로써 자연 매개변수에 대한 정규 매개변수에 대한 공식을 추가된 상수에 대해 독립적인 방식으로 작성할 수 있습니다.
Variant 3은 C - C=-\ p_ .} 를 설정하여 파라미터를 쉽게 식별할 수 있도록 하는 방법을 보여 줍니다. 이 은 pk {k} 의 를 효과적으로 "표시"하고 마지막 자연 파라미터의 값을 0 으로 합니다.나머지 공식은 모두 p 에 않는 방식으로 작성되므로 모델에는k - {k-1} 파라미터(통상 및 자연)만 유효합니다.
변형 1과 2는 실제로는 표준 지수 패밀리가 아닙니다.오히려 곡선 지수족이다. 즉, k k[12]공간에 k- k-1 독립 매개변수가 되어 있다.지수 패밀리에 대한 많은 표준 결과는 곡선 지수 패밀리에 적용되지 않습니다.예를 들어 로그 파티션 A () \ A ( ) \ 이며, 곡선 케이스의 값은 0 입니다.표준 지수 군에서 이 함수의 도함수는 충분한 통계의 모멘트(더 엄밀히 말하면 누적량)에 해당한다(예: 평균과 분산).단, 값이 0이면 충분한 통계정보의 평균과 분산이 균일하게 0인 반면, 실제로 의 은 이어야 합니다. (이는 변동으로 표시된xx)\ 을 사용하면 올바르게 나타납니다.개미 3).
충분한 통계량의 순간과 누적
분포의 정규화
확률 분포의 정규화부터 시작합니다.일반적으로 확률분포(x에 대한 모든 의존성을 부호화하는 부분)의 커널로서 기능하는 비음함수 f(x)는 정규화함으로써 적절한 분포로 만들 수 있다.
the sufficient statistics are and the log-partition function is
We can find the mean of the sufficient statistics as follows. First, for η1:
Where is the digamma function (derivative of log gamma), and we used the reverse substitutions in the last step.
Now, for η2:
again making the reverse substitution in the last step.
To compute the variance of x, we just differentiate again:
All of these calculations can be done using integration, making use of various properties of the gamma function, but this requires significantly more work.
Example 2
As another example consider a real valued random variable X with density
indexed by shape parameter (this is called the skew-logistic distribution). The density can be rewritten as
Notice this is an exponential family with natural parameter
sufficient statistic
and log-partition function
So using the first identity,
and using the second identity
This example illustrates a case where using this method is very simple, but the direct calculation would be nearly impossible.
Example 3
The final example is one where integration would be extremely difficult. This is the case of the Wishart distribution, which is defined over matrices. Even taking derivatives is a bit tricky, as it involves matrix calculus, but the respective identities are listed in that article.
From the above table, we can see that the natural parameter is given by
the reverse substitutions are
and the sufficient statistics are
The log-partition function is written in various forms in the table, to facilitate differentiation and back-substitution. We use the following forms:
Expectation of X (associated with η1)
To differentiate with respect to η1, we need the following matrix calculus identity:
Then:
The last line uses the fact that V is symmetric, and therefore it is the same when transposed.
Expectation of log X (associated with η2)
Now, for η2, we first need to expand the part of the log-partition function that involves the multivariate gamma function:
Computing these formulas using integration would be much more difficult. The first one, for example, would require matrix integration.
Entropy
Relative entropy
The relative entropy (Kullback–Leibler divergence, KL divergence) of two distributions in an exponential family has a simple expression as the Bregman divergence between the natural parameters with respect to the log-normalizer.[13] The relative entropy is defined in terms of an integral, while the Bregman divergence is defined in terms of a derivative and inner product, and thus is easier to calculate and has a closed-form expression (assuming the derivative has a closed-form expression). Further, the Bregman divergence in terms of the natural parameters and the log-normalizer equals the Bregman divergence of the dual parameters (expectation parameters), in the opposite order, for the convex conjugate function.[14]
Fixing an exponential family with log-normalizer (with convex conjugate ), writing for the distribution in this family corresponding a fixed value of the natural parameter (writing for another value, and with for the corresponding dual expectation/moment parameters), writing KL for the KL divergence, and for the Bregman divergence, the divergences are related as:
The KL divergence is conventionally written with respect to the first parameter, while the Bregman divergence is conventionally written with respect to the second parameter, and thus this can be read as "the relative entropy is equal to the Bregman divergence defined by the log-normalizer on the swapped natural parameters", or equivalently as "equal to the Bregman divergence defined by the dual to the log-normalizer on the expectation parameters".
Maximum-entropy derivation
Exponential families arise naturally as the answer to the following question: what is the maximum-entropy distribution consistent with given constraints on expected values?
The information entropy of a probability distribution dF(x) can only be computed with respect to some other probability distribution (or, more generally, a positive measure), and both measures must be mutually absolutely continuous. Accordingly, we need to pick a reference measuredH(x) with the same support as dF(x).
The entropy of dF(x) relative to dH(x) is
or
where dF/dH and dH/dF are Radon–Nikodym derivatives. The ordinary definition of entropy for a discrete distribution supported on a set I, namely
assumes, though this is seldom pointed out, that dH is chosen to be the counting measure on I.
Consider now a collection of observable quantities (random variables) Ti. The probability distribution dF whose entropy with respect to dH is greatest, subject to the conditions that the expected value of Ti be equal to ti, is an exponential family with dH as reference measure and (T1, ..., Tn) as sufficient statistic.
The derivation is a simple variational calculation using Lagrange multipliers. Normalization is imposed by letting T0 = 1 be one of the constraints. The natural parameters of the distribution are the Lagrange multipliers, and the normalization factor is the Lagrange multiplier associated to T0.
According to the Pitman–Koopman–Darmois theorem, among families of probability distributions whose domain does not vary with the parameter being estimated, only in exponential families is there a sufficient statistic whose dimension remains bounded as sample size increases.
Less tersely, suppose Xk, (where k = 1, 2, 3, ... n) are independent, identically distributed random variables. Only if their distribution is one of the exponential family of distributions is there a sufficient statisticT(X1, ..., Xn) whose number of scalar components does not increase as the sample size n increases; the statistic T may be a vector or a single scalar number, but whatever it is, its size will neither grow nor shrink when more data are obtained.
As a counterexample if these conditions are relaxed, the family of uniform distributions (either discrete or continuous, with either or both bounds unknown) has a sufficient statistic, namely the sample maximum, sample minimum, and sample size, but does not form an exponential family, as the domain varies with the parameters.
Bayesian estimation: conjugate distributions
Exponential families are also important in Bayesian statistics. In Bayesian statistics a prior distribution is multiplied by a likelihood function and then normalised to produce a posterior distribution. In the case of a likelihood which belongs to an exponential family there exists a conjugate prior, which is often also in an exponential family. A conjugate prior π for the parameter of an exponential family
is given by
or equivalently
where s is the dimension of and and are hyperparameters (parameters controlling parameters). corresponds to the effective number of observations that the prior distribution contributes, and corresponds to the total amount that these pseudo-observations contribute to the sufficient statistic over all observations and pseudo-observations. is a normalization constant that is automatically determined by the remaining functions and serves to ensure that the given function is a probability density function (i.e. it is normalized). and equivalently are the same functions as in the definition of the distribution over which π is the conjugate prior.
A conjugate prior is one which, when combined with the likelihood and normalised, produces a posterior distribution which is of the same type as the prior. For example, if one is estimating the success probability of a binomial distribution, then if one chooses to use a beta distribution as one's prior, the posterior is another beta distribution. This makes the computation of the posterior particularly simple. Similarly, if one is estimating the parameter of a Poisson distribution the use of a gamma prior will lead to another gamma posterior. Conjugate priors are often very flexible and can be very convenient. However, if one's belief about the likely value of the theta parameter of a binomial is represented by (say) a bimodal (two-humped) prior distribution, then this cannot be represented by a beta distribution. It can however be represented by using a mixture density as the prior, here a combination of two beta distributions; this is a form of hyperprior.
An arbitrary likelihood will not belong to an exponential family, and thus in general no conjugate prior exists. The posterior will then have to be computed by numerical methods.
To show that the above prior distribution is a conjugate prior, we can derive the posterior.
First, assume that the probability of a single observation follows an exponential family, parameterized using its natural parameter:
Then, for data , the likelihood is computed as follows:
Then, for the above conjugate prior:
We can then compute the posterior as follows:
The last line is the kernel of the posterior distribution, i.e.
This shows that the posterior has the same form as the prior.
The data X enters into this equation only in the expression
which is termed the sufficient statistic of the data. That is, the value of the sufficient statistic is sufficient to completely determine the posterior distribution. The actual data points themselves are not needed, and all sets of data points with the same sufficient statistic will have the same distribution. This is important because the dimension of the sufficient statistic does not grow with the data size — it has only as many components as the components of (equivalently, the number of parameters of the distribution of a single data point).
The update equations are as follows:
This shows that the update equations can be written simply in terms of the number of data points and the sufficient statistic of the data. This can be seen clearly in the various examples of update equations shown in the conjugate prior page. Because of the way that the sufficient statistic is computed, it necessarily involves sums of components of the data (in some cases disguised as products or other forms — a product can be written in terms of a sum of logarithms). The cases where the update equations for particular distributions don't exactly match the above forms are cases where the conjugate prior has been expressed using a different parameterization than the one that produces a conjugate prior of the above form — often specifically because the above form is defined over the natural parameter while conjugate priors are usually defined over the actual parameter
Exponential families form the basis for the distribution functions used in generalized linear models, a class of model that encompass many of the commonly used regression models in statistics.
^For example, the family of normal distributions includes the standard normal distribution N(0, 1) with mean 0 and variance 1, as well as other normal distributions with different mean and variance.
^"Partition function" is often used in statistics as a synonym of "normalization factor".
Barndorff-Nielsen, Ole (1978). Information and exponential families in statistical theory. Wiley Series in Probability and Mathematical Statistics. Chichester: John Wiley & Sons, Ltd. pp. ix+238 pp. ISBN0-471-99545-2. MR0489333.
Reprinted as Barndorff-Nielsen, Ole (2014). Information and exponential families in statistical theory. John Wiley & Sons, Ltd. doi:10.1002/9781118857281. ISBN978-111885750-2.
Fahrmeir, Ludwig; Tutz, G. (1994). Multivariate Statistical Modelling based on Generalized Linear Models. Springer. pp. 18–22, 345–349. ISBN0-387-94233-5.
Keener, Robert W. (2006). Theoretical Statistics: Topics for a Core Course. Springer. pp. 27–28, 32–33. ISBN978-0-387-93838-7.
Lehmann, E. L.; Casella, G. (1998). Theory of Point Estimation (2nd ed.). sec. 1.5. ISBN0-387-98502-6.