連載「理論と実践をつなぐ」第3回　ディープラーニングへの応用－アカデミック・アドバイザー朝野熙彦

「理論と実践をつなぐ」朝野熙彦, ナレッジ, 市場調査クリニック

これまでロジスティック回帰分析と多重ロジスティック関数の応用を述べた。

各分析モデルには、社会からの要請があって導入されてきた実践の歴史がある。その一方で、様々な分析モデルに共通した理論が存在することは珍しくない。その典型例がロジットモデルである。ロジットモデルは個人をターゲティングする問題に限らず、ディープラーニングの世界にも応用されている。

サラ金のために働く

私が実社会で実務をしていた1980年当時のことであった。某サラ金の企業から、データの裏付けのある与信システムが構築できないかというご相談を受けたことがある。融資を決定する与信と債権管理は金融ビジネスの車の両輪といえる。精度の高い与信が実現できて始めて融資のリスクを低減させビジネスが成り立つからである。

当時のサラ金は近代的な産業として社会から認知され急成長を始めた時期にあった。

支店網の拡大に伴って目利きのローンオフィサーが不足したために、業務の標準化と自動化が迫られたのは当然の成り行きであった。

与信の審査を紙ベースで行うかコンピュータ処理をするかが問題の本質ではない。データにもとづいてスコアリングと呼ばれる融資の審査基準を合理的に決めることが本命の課題であった。（注１）

表１　信用度のスコア（米国のローン審査の一例）

スコアリングとは融資先の信用度（あるいはリスク度）を点数化することをさす。表１はコンシューマー・スモール・ローンの与信スコアの例だが、ルールオブサムとしか言いようのないスコアである。当時はコンピュータ化といっても、単純にベテランの知識をエキスパートシステムに移すくらいしか考えられない時代だった。

さらに金融関係の刊行物を調べてみると返済履歴データを回帰分析してスコアを決めるという事例も出てきた。本連載の第１回で指摘した通り、デフォルト（債務不履行）の確率を回帰分析で予測するのは誤りである。

与信スコアリングのシステム開発

貸付時の情報は説明変数として利用でき、入金状況からデフォルトの事実も分かるので、第２回で紹介した多重ロジスティック関数でデフォルト確率を予測することにした。約１万４千件のデータを分析した。融資判定には判定値の決定が必要になる。そこで判定値自体を変数として動かしながら、与信による貸倒損失と与信しないことによる機会損失の和を最小化する判定点をシミュレーションで探索した。まだパソコンもない時代だったので、パラメータ推定とシミュレーションにはFORTRANのプログラムと汎用コンピュータを用いた。

図１　システム開発のフロー

図１における最大のミソは予測モデルに説明変数を入れる際に、原データをそのまま入力するのではなく、説明変数を組み合わせて分散分析を行い、有意な組み合わせを検出した上で２次の交互作用をモデルに組み入れたところにある。実践の現場ではこのような手間のかかる地道な作業が欠かせない。

また開発したスコアリングは一部の支店で実施テストを行い、現場での検証を経てから導入した。企業の生死にかかわる重大なシステムであるだけに、このように慎重な導入姿勢は当然のプロセスといえよう。（注２）

さて多重ロジスティック関数は医学のトルーエら（1967）らが提唱した方法なので、隠すものでもないことから1982年にある学会で報告した。その後、金融業界の講演会でも同じことを話した。その際、参加者から「与信に多重ロジスティック関数を利用するなんて当たり前じゃないか」というお叱りは受けなかった。皆さん黙って聞いておられたので、私の報告に新奇性があったかどうかは不明である。実際のところ金融業におけるロジスティック関数の普及率については公的な統計はなさそうである。

ディープラーニングとの関係

ロジスティック関数と多項ロジットモデルをそれぞれ①、②に示す。

　【ロジスティック関数】

　【多項ロジットモデル】

多項ロジットモデルは心理学の選択公理から生まれ、その後、離散選択理論として経済学に取り入れられたモデルである。マーケティングではブランド選択モデルとして有名で、②式は消費者がｍ個のブランドから第ｊブランドを選ぶ予測モデルとして応用されている。は各ブランドの選択確率を表す。①と②の理論的な関係は図２のようにまとめられる。

図２　ロジットモデルの相互関係（朝野、2010）

さて最近流行のディープラーニングでは、ニューラルネットの計算に①、②が使われている。活性化関数としてしばしば利用される図３のシグモイド関数は①そのものである。またニューラルネットの出力層で使うソフトマックス関数は②と同じである。

図３　ニューラルネットの活性化関数

ディープラーニングが何か新しい関数を生み出したわけではなく、昔からある関数に新しい呼び名をつけただけの話である。

図４　ニューラルネット

ニューラルネットではラメルハートらが提唱した誤差逆伝播法を今日でも使っている。これは30年以上前に提唱されたアルゴリズムである。AIとかディープラーニングといえば新しそうに聞こえるが、起源は古い。

（注１）良質な与信スコアリングが開発できるかどうかは金融ビジネスの死活問題である。その教訓を社会に示したのが2005年に開業し2年で破綻が明らかになった新銀行東京であった。当初目論んでいた融資事務の省力化と迅速化は容易に達成できた。しかし一番肝心な与信スコアリングに、データにもとづく統計的な根拠がなかった。根拠のない与信スコアリングに頼って安易に融資を続けたことが同行破綻の原因とされる。

（注２）今日であればデフォルトの判別にディープラーニングも利用できる。データを訓練データとテストデータに分割して一般化を検証するのは最低限の作業である。実務においては、さらにシステムを実地テストしてから本格導入するくらいの用心深さが必要である。

【引用文献】

朝野熙彦（1982）人の信用度を測る──カテゴリカル多重ロジスティック分析による消費者金融の与信システム、日本心理学会第46回大会発表論文集，p458.

朝野熙彦（2010）「最新マーケティング・サイエンスの基礎」講談社、p120　

Rumelhart,D.E.,Hinton,G.E. and Williams,R.J.(1986) Learning representations by Back-propagating errors, Nature,323(9),533-536.

Truett,J. Cornfield,J and Kannel W. (1967) A multivariate analysis of the risk of coronary heart disease in Framingham. Journal of Chronic Disease, Vol.20, 511- 524.

＜　第2回　確率予測への外部情報の組み込み

朝野熙彦「マーケティング・リサーチ入門 ―「調査」の基本から「提言」まで」東京図書
2018年12月6日発行

本書は、とかくビッグデータの掛け声に踊らされがちな産業界の切実な悩みに応えるものであり、ビジネスの意思決定を導く実践的なガイドになることを目指しています。
私が書籍全体の編集にあたり、さらにこれまで「マーケティングの処方箋」で述べた一部の内容を転載することにしました。各章は自己完結的な内容とし、実務の上で発生する様々な課題に対して、最新の分析手法を応用することで明確なガイドを与えることを目指しています。
皆様にはぜひご高覧いただき、お仕事に活用していただければ幸いです。

朝野煕彦 （あさのひろひこ）
＜略歴＞
1969年、千葉大学文理学部卒業後、マーケティング・リサーチの企業に就職し、コンサルティング業務を行う。1980年、埼玉大学大学院修了。その後、筑波大学特別研究員、専修大学教授を経て、東京都立大学、首都大学東京教授を歴任する。現在、中央大学および多摩大学大学院客員教授。日本マーケティング・サイエンス学会論文誌編集委員。日本行動計量学会理事。著書は「最新マーケティング・サイエンスの基礎」（講談社）など多数。