News

CALCに関するイベントや研究の最新情報をお届けします。

生成AI時代のデータ分析
〜因果の分析はなぜ必要か〜 開催レポート

生成AI時代のデータ分析、因果の分析は、なぜ必要か イベント告知ビジュアル

今回のイベントは、ソニーコンピュータサイエンス研究所(ソニーCSL)とクウジットの2社が共同で企画しました。両社は因果分析ツール「CALC」を共同でビジネス展開しており、その活動の一環として、「因果を考えることの面白さと重要性を体感してほしい」という思いからこのイベントを企画しました。事業会社のデータ担当者やデータ活用推進に携わる方など、約30名にご参加いただきました。

ワークショップ

ワークショップの様子。会場で参加者がノートPCを使いながら登壇者の説明を聞いている

前半のワークショップでは「生成AIができる分析とCALCによる因果情報分析の比較」をテーマに、同じデータを使って、2つのアプローチでどのような違いが生まれるかを体験していただきました。

今回使用したのは、有名なオープンデータで、約1,500人分の架空の従業員の年齢・職種・給与・満足度・残業の有無など35項目にわたる情報が含まれており、「どの従業員が会社を辞めるか」を予測することを目的として設計されたデータセットです。

まず参加者の皆さんには、このデータを生成AIに渡し、「離職の要因を分析してください。過去の知見を調べるのではなく、自分で機械学習モデルを作成して分析を実行し、結果をまとめてください。」と依頼してもらいました。すると生成AIはデータセットを用いてランダムフォレストなどの機械学習モデルを用いて、どの要素が離職予測に大きく寄与しているかを重要度順に提示しました。

一方、同じデータセットをCALCで分析すると、見たい変数に対してどの要因がどのように影響しているかが構造的に把握できます。生成AIによる分析では「何が離職に関係しているか」はわかりますが、変数同士がどのような関係性でつながっているかまでは見えません。CALCの分析結果を見ると、変数間の因果の流れが可視化され、一般的な予測分析だけではわかりづらい変数同士の関係性も明らかになります。

データの背景を考慮せず、生成AIの出力だけを鵜呑みにして意思決定を行うことには大きなリスクが伴います。そもそも機械学習における寄与率(や重要度)は「予測」の精度を高めるための指標であり、変数間の因果関係を推測するものではないからです。

「重要な要因がわかった」だけでなく、「どの変数が直接的な原因なのか」「どの変数は単に連動している擬似相関なのか」「どの変数が間接的でも介入して効果がありそうなのか」まで読み解けることが、因果推論ならではのアプローチです。

こうした予測分析と因果分析の違いを端的に表現したイメージを下図に示します。

予測分析と因果分析の違いを示すイメージ図。一般的な予測分析では構造(因果の流れ)は見えないが、CALCでは変数間のつながりを捉え直接的な要因を特定できる
予測分析と因果分析の違い(イメージ図)

この図のように、疑似相関ではなく原因と言える変数に施策を実施して、結果を変えていくという要因分析の王道とも言える方法が因果分析であると我々は考えています。

構造的な情報は説明変数同士の新しい関係の発見・気づきももたらし、さらにデータ全体の理解を深めたり、あるいは図中の右側のモデルにおいて、結果変数Yを変えるために、変数BとCにそれぞれ施策を実施せずとも、より根源的な原因Aに施策を実施することで、より効率的にYを変えることも可能です。

また、構造がわかることで介入効果の因果推論も実施して、Aの仮想的施策のYへの効果の大きさを定量的に見積もることもできます。さらには、別の変数への副作用がどれくらいあるのか、なども計算することができ、Yへの効果だけでなく全体への影響を見て施策を判断することもできます。

今回のワークショップを通じて見えてきたのは、2つのアプローチの役割分担です。生成AIは膨大な変数の中から相関のあるものを高速に特定することで、仮説出しのツールとして有用です。一方、CALCのような因果推論ツールは、変数間の階層構造を解き明かし、直接要因、上流の要因、原因ではない環境要因を分離することで、確実な一手を特定することができます。

このように生成AIと因果推論ツールはどちらが優れているという話ではなく、それぞれの強みを活かしながらうまく使い分けていくことが、データ活用の精度をさらに高める鍵になります。

技術紹介&事例紹介

技術紹介・事例紹介の様子。ソニーCSLの磯崎隆司シニア・リサーチャーが登壇している

後半は、ソニーCSLのシニア・リサーチャーであり、CALCの開発者でもある磯崎隆司さんによる技術紹介と事例紹介です。

ワークショップで実際にデータに触れた後だったこともあり、会場からは次々と鋭い質問が飛び出しました。「なぜ要因が構造的にわかるのか」「データセットに含まれていない隠れた要因はわかるのか」といった、踏み込んだ問いに対して、技術的な背景を交えながら丁寧に説明していきました。

続いて、ソニーグループ内外の実際のビジネス事例を交えながら、CALCがどのように活用されているかをご紹介しました。自動車エンジンの不具合の原因解明、半導体製造における不良要因の分析、損害保険会社でのDMプロモーション効果の分析、日用品メーカーにおけるアンケート分析など、幅広い業界での活用事例が紹介されました。

参加者の声

参加者からは以下のような声をいただきました。

難解なテーマですが、軽快な切り口で解説いただきありがとうございました。詳細なテーマでの開催もあれば参加したいと思います。
生成AIの台頭でデータサイエンスも過渡期にありますが、因果推論でのアプローチについて大変勉強になりました。
非常に面白い手法だと思いました。またこのような機会をいただけますと幸いです。
CALCとは

CALCは、ソニーコンピュータサイエンス研究所が研究開発し、クウジット株式会社および株式会社電通総研をはじめとするパートナー企業と共同事業として提供している因果分析ツールです。データから因果関係を推定し、「何が結果に原因として影響しているのか」を定量的に明らかにします。

https://causight.tech/
詳しく話を聞いてみたい方へ

「自社データに応用できるか試してみたい」「もう少し詳しく話を聞きたい」という方は、お気軽にお問い合わせください。個別にご状況をお聞きしたうえで、最適なご提案をさせていただきます。

▶ お問い合わせはこちら

※CALCは株式会社ソニーコンピュータサイエンス研究所(ソニーCSL)が開発した技術で、ソニーCSL、クウジット、電通総研をはじめとするパートナー企業による業務提携に基づき提供されています。

※「CALC」はソニーグループ株式会社の登録商標です。

< トップページに戻る