データアナリティクス

データアナリティクス技術の研究開発

近年、データアナリティクス技術は目覚ましい発展を遂げています。
しかし、実務的な課題を解決するために用いることができるデータはしばしば理想的なものではなく、以下のような特性を考慮した解析が求められます。

非定常性データの性質が絶えず変化する
複雑性データ生成メカニズムの複雑さ／意思決定メカニズムの考慮の必要性
希少性データを原理的に増やせない／アノテーションにコストがかかる

こうしたデータの性質は単独で生じるものではなく、いくつかの要因が重なり合うことも珍しくはありません。
近年のデータアナリティクス技術の研究では、こうした実データへの適用を意識した様々な分析手法が提案されています（下図参照）。

データアナリティクス技術の研究開発のイメージ図

このように、ビジネスの現場で得られるデータの特性に合わせて、様々な分析手法を用いる必要があります。
当社では、様々な視点から最新のデータ解析技術の研究を重ね、実務のニーズに即したモデルの構築や分析の実施を進めています。
以下では、いくつかの研究事例について取り上げます。

不確実性の推定

過去のデータから学習された予測モデルは常に正しい予測結果を出力するとは限らないため、モデルが出力する予測の確信度や不確実性を評価することは実用上重要なことです。例えば、予測の不確実性が高い場合には人間による判断を組み合わせるなどの対処を行うことで、誤った予測に基づく行動を避けることができます。

真のラベル（紫：０／黄：１）

真のラベル（紫：０／黄：１）

モデルによる予測値

モデルによる予測値

予測の不確実性（黄：不確実性大）

予測の不確実性（黄：不確実性大）

インクリメンタル学習

ビジネスの現場で得られるデータの性質は時間とともに変化するため、モデル構築時点では精度が高くても、そのモデルを運用していくうちにモデルの精度が徐々に悪化するということがしばしば起こります。そのような状況下では、直近のデータを活用してモデルを継続的に更新する「インクリメンタル学習」と呼ばれるアプローチが効果的です。

データの分布が時間変化する際のモデルの精度の変化を手法毎に検証
（横軸：時間）

OOD検知

予測モデルの学習時に用いたデータセットと異なる分布に従うサンプルを検知する手法を OOD（Out-of-Distribution）検知と言います。
特に深層ニューラルネットワーク（Deep Neural Network）については、このような分布外データに対しても非常に確信度の高い予測値を返すことが知られています。OOD 検知の手法を活用することで、予測を行う際に得られたデータの正当性を検証するなど、想定外の入力が与えられた場合に適切なアクションを取ることが可能になります。

訓練データ／分布外データ

訓練データ／分布外データ

モデルの出力する予測確立

モデルの出力する予測確立

ODD検知の結果
（色が明るいほどOODスコアが高い）

ODD検知の結果（色が明るいほどOODスコアが高い）

*訓練データの各クラスタに別の教師ラベルが付与されている
*右の二つの図とスケールが異なる

転移学習

転移学習とは、あるドメイン（ソースドメイン）のタスクで学習したモデルを、類似した別のドメイン（ターゲットドメイン）のタスクに活用する手法です。特に、ソースドメインからは大量にデータが得られるものの、ターゲットドメインからは少量のデータしか得られない場合に効果を発揮します。

一方で、転移学習は必ず成功するとは限らず、むしろ精度が悪化する場合（負の転移）もあるため、どのような状況で転移学習が有効であるかを見極めるのが重要です。

#training samples: 25

#training samples: 25

*緑：検証用データに対するパフォーマンス
*横軸：転移学習手法のパラメータ

AutoML基盤

より複雑なデータ条件やフェアネス等の制約条件を考慮した分析手法など、現実世界を見据えたデータ解析手法の研究が進展する一方で、OSSの発展により、構造化されたデータに対して勾配ブースティング木やプレーンなDeep Neural Networkなどを用いたモデリングは、誰でも容易に実施できるようになってきています。
当社では、そうしたOSS等も活用しながら、AutoMLの基盤を自主開発し、そこに独自のアルゴリズムや分析ノウハウを集約することにより、データ分析業務の効率化を図っています。
また、このAutoML基盤は当社のグループ企業でも活用されているほか、この基盤を用いてモデルの構築からデプロイまで行い、業務システムの一部として活用して頂いている事例もございます。

従来の機械学習業務応用フローのイメージとプラットフォームによる機械学習応用フローイメージ

データアナリティクスの活用

信用スコアリングモデル

銀行では、個人や法人のお客さま向けに、様々なローン商品をご提供しています。こうしたローンの貸出審査にあたっては、お客さまからご提供いただく情報を統計的に分析して返済可能かを判定する信用スコアリングモデルが広く利用されております。
当社でも、より多くのお客さまに、迅速、かつご安心してローンをご利用いただくため、口座のご利用状況等のリアルタイムデータやAIを活用した信用スコアリングモデルの構築に取り組んでいます。

法人向け信用スコアリングモデルの構築イメージ

法人向け信用スコアリングモデルの構築イメージ

不正検知（取引異常検知，不正登録データ検知）

お客さまの大切な資産をお預かりする金融機関では、成りすましや特殊詐欺などからお客さまの資産を守ることが求められています。また、犯罪組織によるマネーロンダリングを防止することも、国際的に大きな課題となっています。当社でも、異常検知等の技術を活用して銀行のトランザクションデータを解析してモニタリングを行うことにより、こうした不正な取引を未然に防ぐ取組を進めています。

法人向け信用スコアリングモデルの構築イメージ