識別的モデル

識別的モデル(しきべつてきモデル、discriminative models)とは、条件付きモデル(じょうけんつきモデル、conditional models)とも呼ばれる、分類や回帰に使用されるロジスティックモデルの一種である。これらのモデルは、合格/不合格、勝ち/負け、生/死、健康/病気など、観測データに基づいて決定境界を設定する。

代表的な識別的モデルの例として、ロジスティック回帰(LR)、条件付き確率場(CRF)(無向グラフで指定される)や決定木などがある。一方、生成的モデルの代表例としては、単純ベイズ分類器ガウス混合モデル(英語版)変分オートエンコーダ敵対的生成ネットワークなどがある。

定義

識別的モデルは、観測されていない変数(ターゲット) x {\displaystyle x} を、観測された変数(訓練サンプル)に基づくクラスラベル y {\displaystyle y} に対応付ける条件付き確率分布 P ( y | x ) {\displaystyle P(y|x)} に焦点を当てた研究である。

この点において、同時確率分布 P ( x , y ) {\displaystyle P(x,y)} を研究する生成的モデルとは異なる。

たとえば物体認識では、 x {\displaystyle x} は通常、画像の生の画素または画像の生の画素から抽出された特徴のベクトルを表す。確率論的な枠組みで条件付き確率分布 P ( y | x ) {\displaystyle P(y|x)} をモデル化することで、 x {\displaystyle x} から y {\displaystyle y} を予測することができる。

条件付きモデルと識別的モデルは別物であるが、単純に識別的モデルとしてまとめられることが多い。

純粋な識別的モデルと条件付きモデルの比較

上述のように、条件付きモデルは、条件付き確率分布をモデル化するものである。一方、従来の識別的モデルは、最適化のために最も類似した訓練済みサンプルに入力をマッピングすることに焦点を当てている[1]

識別的モデリングの代表的な手法

これらのモデリング手法は、訓練データセット D = { ( x i ; y i ) | i N Z } {\displaystyle D=\{(x_{i};y_{i})|i\leq N\in \mathbb {Z} \}} が提供されていることを前提としており、入力 x i {\displaystyle x_{i}} に対応する出力を y i {\displaystyle y_{i}} とする[2]

線形分類器

線形分類法を用いて訓練データセットで観察される挙動をシミュレートするため、関数 f ( x ) {\displaystyle f(x)} と結合特徴ベクトル ϕ ( x , y ) {\displaystyle \phi (x,y)} を使用する。決定関数は次のように定義される。

f ( x ; w ) = arg max y w T ϕ ( x , y ) {\displaystyle f(x;w)=\arg \max _{y}w^{T}\phi (x,y)}

Memisevicの解釈では、 w T ϕ ( x , y ) {\displaystyle w^{T}\phi (x,y)} c ( x , y ; w ) {\displaystyle c(x,y;w)} とも呼ばれ、入力 x {\displaystyle x} と潜在的出力 y {\displaystyle y} との適合性を測るスコアを計算する[2]。そして、もっとも高いスコアを持つクラスが arg max {\displaystyle \arg \max } を用いて決定される。

ロジスティック回帰 (LR)

0-1損失関数決定理論で一般的に使用される関数であることから、条件付き確率分布 P ( y | x ; w ) {\displaystyle P(y|x;w)} をロジスティック回帰モデルで次のように書き直すことができる(ここで、 w {\displaystyle w} は訓練データを最適化するためのパラメータベクトル)。

P ( y | x ; w ) = 1 Z ( x ; w ) exp ( w T ϕ ( x , y ) ) {\displaystyle P(y|x;w)={\frac {1}{Z(x;w)}}\exp(w^{T}\phi (x,y))}
Z ( x ; w ) = y exp ( w T ϕ ( x , y ) ) {\displaystyle Z(x;w)=\textstyle \sum _{y}\displaystyle \exp(w^{T}\phi (x,y))}

2つの式はいずれもロジスティック回帰を表し、主な違いは、事後確率の導入方法である。事後確率は、パラメトリックモデルから推測され、次の式でパラメータを最大化することができる。

L ( w ) = i log p ( y i | x i ; w ) {\displaystyle L(w)=\textstyle \sum _{i}\displaystyle \log p(y^{i}|x^{i};w)}

この方程式は、対数損失方程式で置き換えることもできる。

l log ( x i , y i , c ( x i ; w ) ) = log p ( y i | x i ; w ) = log Z ( x i ; w ) w T ϕ ( x i , y i ) {\displaystyle l^{\log }(x^{i},y^{i},c(x^{i};w))=-\log p(y^{i}|x^{i};w)=\log Z(x^{i};w)-w^{T}\phi (x^{i},y^{i})}

対数損失は微分可能であるため、勾配に基づく手法でモデルの最適化を行うことができる。目的関数はであるため、大域的な最適化が保証される。対数尤度の勾配は次のように表される。

L ( w ) w = i ϕ ( x i , y i ) E p ( y | x i ; w ) ϕ ( x i , y ) {\displaystyle {\frac {\partial L(w)}{\partial w}}=\textstyle \sum _{i}\displaystyle \phi (x^{i},y^{i})-E_{p(y|x^{i};w)}\phi (x^{i},y)}

ここで E p ( y | x i ; w ) {\displaystyle E_{p(y|x^{i};w)}} p ( y | x i ; w ) {\displaystyle p(y|x^{i};w)} の期待値である。

この方法は、比較的少数の分類数に対して効率的である。

識別的モデルと生成的モデルの比較

手法の対照

m {\displaystyle m} 個のクラスラベル(分類)と n {\displaystyle n} 個の特徴変数 Y : { y 1 , y 2 , , y m } , X : { x 1 , x 2 , , x n } {\displaystyle Y:\{y_{1},y_{2},\ldots ,y_{m}\},X:\{x_{1},x_{2},\ldots ,x_{n}\}} を持つ訓練サンプルが与えられたとする。

生成的モデルは、 入力 x {\displaystyle x} 、ラベル y {\displaystyle y} の同時確率 P ( x , y ) {\displaystyle P(x,y)} を用いて、ベイズの定理を適用して未知入力 x ~ {\displaystyle {\widetilde {x}}} に対してもっとも可能性のある既知のラベル y ~ Y {\displaystyle {\widetilde {y}}\in Y} を予測する[3]

一方、識別的モデルは、観測変数と目的変数の同時分布からサンプルを生成することはできないが、同時分布を必要としない分類や回帰のようなタスクでは、生成的モデルよりも優れた性能を発揮することができる(計算する変数が少ないことも一つの理由)[4][5][3]。一般的に生成的モデルは、複雑な学習課題における依存関係をより柔軟に表現することができる。また、ほとんどの識別的モデルは本質的に教師あり学習で、教師なし学習をサポートしない。最終的に、識別的モデルと生成的モデルのどちらを選択するかは、特定のアプリケーションの要件に依存する。識別的モデルと生成的モデルは、事後確率の導入方法が異なる[6]。識別的モデルでは、パラメトリックモデルから事後確率 P ( y | x ) {\displaystyle P(y|x)} を推定し、訓練データからパラメータを得る。パラメータの推定は、パラメータに対する尤度の最大化または分布計算によって得られる。これに対し、生成的モデルは同時確率に着目し、ベイズの定理におけるクラス事後確率 P ( k ) {\displaystyle P(k)} を考慮する。したがって、クラス事後確率は、

P ( y | x ) = p ( x | y ) p ( y ) i p ( x | i ) p ( i ) = p ( x | y ) p ( y ) p ( x ) {\displaystyle P(y|x)={\frac {p(x|y)p(y)}{\textstyle \sum _{i}p(x|i)p(i)\displaystyle }}={\frac {p(x|y)p(y)}{p(x)}}} として求められる[6]

応用における長所と短所

ロジスティック回帰と単純ベイズモデルを適用した二値分類タスクの実験を繰り返すと、識別的学習では漸近誤差が小さく、生成的学習では漸近誤差の増大が早くなることが分かった[3]。しかし、UlusoyとBishopは共同研究「物体検出と分類のための生成的手法と識別的手法の比較(Comparison of Generative and Discriminative Techniques for Object Detection and Classification)」において、この結果はモデルがデータに適している場合、すなわち生成的モデルがデータ分布を正確にモデル化している場合にのみ成り立つと述べている。

長所

識別的モデルには、次のような大きな利点がある。

  • より高い精度を得、主に学習結果の向上につながる。
  • 入力を簡素化し、条件付確率 P ( y | x ) {\displaystyle P(y|x)} への直接なアプローチが可能。
  • 計算資源を節約できる。
  • 漸近的誤差が小さい。

生成的モデルの利点と比較すると、識別的モデルは次のような特徴がある。

  • 生成的モデルは、すべてのデータを考慮することで、処理速度が遅くなる制約がある。
  • 識別的モデルは、より少ない訓練サンプルで済む。
  • また、他のアプリケーションのニーズと容易に連携できる柔軟なフレームワークを提供する。

短所

  • 識別的モデルの学習法には、複数の数値最適化手法を要することが多い[1]
  • 識別的モデルは、入力変数と出力変数の関係にのみ着目するため、すべてのデータを考慮できる生成的モデルと比較し、複雑な実世界の問題を解決するために複数のサブタスクの組み合わせを要することがある[2]

応用における最適化

このように、2つのモデリングには長所と短所が存在し、両方のアプローチを組み合わせた手法により、実用化において優れた結果が得られている。たとえば、Marrasの論文「A Joint Discriminative Generative Model for Deformable Model Construction and Classification[7]では、モデルの顔分類に両モデルを組み合わせて適用した結果、従来の手法よりも高い精度が得られた。

Kelmの論文「Combining Generative and Discriminative Methods for Pixel Classification with Multi-Conditional Learning[8]でも、ピクセル分類のために2つのモデリングの統合が提案されている。

識別的モデルは、一般的に、分類の前に複数のサブタスクの組み合わせが含まれる。たとえばクラスタリング前に識別的な特徴抽出をする場合、主成分分析(PCA)がよく使用されるが、PCAはクラスの違いを考慮しないため、必ずしも最も効果的な識別的手法とは言えない。一方、線形判別分析(LDA)(潜在的ディリクレ配分法(英語版)と混同しないこと)は、クラス間の差異を明示的にモデル化して次元を削減しようとするため、上記の短所に対する適切な解決策を提供する[9]

種類

識別的モデルの例の一つに、ロジスティック回帰がある。これは一般化線形回帰(GLM)の一種で、2値またはカテゴリ出力(英語版)の予測に使用される(最大エントロピー分類器(英語版)としても知られる)。

その他の例としては、次のようなものがある。

参考項目

ポータル 数学
ポータル 数学
  • 生成的モデル - 観測可能変数と目的変数との同時確率分布に基づく統計モデル

脚注

  1. ^ a b Ballesteros, Miguel. “Discriminative Models”. 2018年10月28日閲覧。[リンク切れ]
  2. ^ a b c Memisevic, Roland (2006年12月21日). “An introduction to structured discriminative learning”. 2018年10月29日閲覧。
  3. ^ a b c Ng, Andrew Y.; Jordan, Michael I. (2001). On Discriminative vs. Generative classifiers: A comparison of logistic regression and naive Bayes. http://citeseer.ist.psu.edu/viewdoc/summary?doi=10.1.1.19.9829 
  4. ^ Singla, Parag; Domingos, Pedro (2005). “Discriminative Training of Markov Logic Networks”. Proceedings of the 20th National Conference on Artificial Intelligence - Volume 2. AAAI'05 (Pittsburgh, Pennsylvania: AAAI Press): 868–873. ISBN 978-1577352365. http://dl.acm.org/citation.cfm?id=1619410.1619472. 
  5. ^ J. Lafferty, A. McCallum, and F. Pereira. Conditional Random Fields: Probabilistic Models for Segmenting and Labeling Sequence Data. In ICML, 2001.
  6. ^ a b Ulusoy, Ilkay (2016年5月). “Comparison of Generative and Discriminative Techniques for Object Detection and Classification”. Microsoft. 2018年10月30日閲覧。
  7. ^ Marras, Ioannis (2017年). “A Joint Discriminative Generative Model for Deformable Model Construction and Classification”. 2018年11月5日閲覧。
  8. ^ Kelm, B. Michael. “Combining Generative and Discriminative Methods for Pixel Classification with Multi-Conditional Learning”. 2018年11月5日閲覧。
  9. ^ Wang, Zhangyang (2015年). “A Joint Optimization Framework of Sparse Coding and Discriminative Clustering”. 2018年11月5日閲覧。
標本調査
要約統計量
連続確率分布
位置
分散
モーメント
カテゴリデータ
推計統計学
仮説検定
パラメトリック
ノンパラメトリック
その他
区間推定
モデル選択基準
その他
ベイズ統計学
確率
その他
相関
モデル
回帰
線形
非線形
時系列
分類
線形
二次
非線形
その他
教師なし学習
クラスタリング
密度推定(英語版)
その他
統計図表
生存分析
歴史
  • 統計学の創始者
  • 確率論と統計学の歩み
応用
出版物
  • 統計学に関する学術誌一覧
  • 重要な出版物
全般
その他
カテゴリ カテゴリ