C06

人工知能/計算機に思考させる

Artificial intelligence

異なるアルゴリズムを同じ視点から眺めてみよう

機械学習の幾何学的解釈

代表者名

ガラムカリ和/杉山研究室

共同発表者名

杉山麿人

所属分野

情報学プリンシプル研究系総合研究大学院大学

Principles of Informatics Research Division|SOKENDAI|The Graduate University for Advanced Studies

pdf-image

要旨

機械学習技術の発展に伴い,さまざまなタスクが解けるようになりました.私は学習アルゴリズムを枚挙的に並べるだけでなく,統一的な観点から整理,議論する研究をしています.具体的には情報幾何学と呼ばれる,確率分布についての幾何学を使うことで,一見すると全く関連がないように見える複数のアルゴリズムが,幾何的に一緒に議論できることを指摘します.これにより複数のタスクを同時に解く新たなアルゴリズムの設計が可能になるのではないかと考えています.

この講演では,行列の行和と列和を1に揃えるタスクと,行列のランクを削減するタスクが,思わぬ幾何的構造を持っていることを指摘します.

関連動画

コメント

  1. h.o. より:

    行列の階数(rank)は、行の入れ替えに関して不変だと思いますが、ここで導入されている変数 theta は行を入れ替えると非自明に変化しますか?例えば、例2の問題は「行列」側では、行の入れ替えをしても同じ答えを与えると思いますが、「確率」側では、どうなっているのか興味深いです。

  2. h.o. より:

    階数1近似は例2でよくわかりましたが、階数2近似も例2のように theta でわかりやすく記述できるのですか?

    1. ガラムカリ和[NII] より:

      ご質問ありがとうございます。回答します.

      Q.階数1近似は例2でよくわかりましたが、階数2近似も例2のように theta でわかりやすく記述できるのですか?

      A.はい,わかりやすく記述できます.例えば,3次元行列Aに対応する確率分布p(θ)は9個のパラメータθを持っていますが,θについて
      条件1)θ_22 = θ_32 = 0
      条件2)θ_23 = θ_33 = 0
      条件3)θ_22 = θ_23 = 0
      条件4)θ_32 = θ_33 = 0
      のいずれか一つが成立している場合に,ランクが2になります.条件1から条件4はどの行/列が,他の行/列の定数倍になっているかに対応しています.

      一般に,n次元正方行列Aに対応する確率分布pはn^2個のθパラメータを持っていますが,
      θ_i2=θ_i3=…θ_in=0 を満たす1を除くiの数をw
      θ_2i=θ_3i=…θ_ni=0 を満たす1を除くiの数をv としたとき,rank(A) = n-max(v,w) が成立します.

      詳細は,以下arXivの定義1(ビンゴルール)と定理1が分かりやすいと思います.arXivでは行列のインデックスがゼロからスタートしていることに留意してください.

      https://arxiv.org/abs/2006.05321

      Q.行列の階数(rank)は、行の入れ替えに関して不変だと思いますが、ここで導入されている変数 theta は行を入れ替えると非自明に変化しますか?例えば、例2の問題は「行列」側では、行の入れ替えをしても同じ答えを与えると思いますが、「確率」側では、どうなっているのか興味深いです。

      A.行列の階数(rank)は、行の入れ替えに関して不変だと思います.きちんとした証明はしていませんが,θを行/列に関して入れ替えてもランクは変化しないと思います.(行列Aに対応する確率分布のθを行/列に関して入れ替えてθ’を得ます.このとき,θ’をパラメータに持つ確率分布に対応する行列をA’とするとき,A=A’が成立するとは限らないですが,rank(A)=rank(A’)が成立するはずです)

  3. ガラムカリ和[NII] より:

    発表者です.

    Notationが統一されておらず,混乱を招いているかもしれません.

    ポスター右側の図の軸が(θ_11,θ_10,θ_01)となっていますが,(θ_22,θ_21,θ_12)とすると左のNotationと一致します.

    ηについても同様で,(η_11,η_10,η_01)を(η_22,η_21,η_12)とすると左のNotationと一致します.