Wikipedia graph mining: dynamic structure of collective memoryを読んだ

概要

Volodymyr Miz, Kirell Benzi, Benjamin Ricaud, and Pierre Vandergheynst, Wikipedia graph mining: dynamic structure of collective memory, arXiv 1710.00398 (submitted to KDD2018)

  • Wikipediaを題材としてcollective memoryという概念を解析・走査する手法を提案
  • モデルはニューラルネットワークの初期ブームの火付け役になったホップフィールドネットワーク

補足: collective memory - 共同体にいる人たちの心の中に共通して存在し受け継がれていく思い、という概念

https://canadajournal.com/backnumber_cj/2002-2004/0402/column/kotoba.html

データ

Kirell Maël Benzi. From recommender systems to spatio-temporal dynamics with network science. EPFL, Chapter 5, 97–98, 2017.で使われている(らしい)Wikipediaのdumpデータ。端的にはデータ構造と、1時間辺りの訪問者数のデータらしい。ノードはWikipediaのデータ、対応付けられている時系列は1年分程度の規模。前処理として、系列の平均と標準偏差を計算し、そこから飛び出している回数をburstiness bとして評価し、これが小さいページは定常的なページに相当するので削除している。

f:id:takilog:20180515231604p:plain

Collective Memory Learning

具体的なアルゴリズムなどはなし。データ解析のため、作成したグラフ構造と系列データを自己組織化し、知見を抽出したい。この解析のためにホップフィールドネットワークを利用。次元削減と、全結合ではなくハイパーリンクで特徴つけられた構造に対してのみ学習(w/ ヘブ則)を行う。

学習すると重みがベキ則に乗ってくる。また多くの辺の重みが0になって、自己組織化によって一部が抽出(組織として)されている。これは力場モデルで描画した結果からも分かる。力場モデル描画に置ける色は、抽出されたコミュニティを表す。

f:id:takilog:20180515232338p:plain

  • 重み分布

f:id:takilog:20180515232421p:plain

  • コミュニティ可視化

f:id:takilog:20180515232516p:plain

例: NFL

  • NFLチームに対するアクセスと時期の関係を可視化した図

f:id:takilog:20180515232758p:plain

コメント

  • 見た感じの面白さはあるが、技術的な話があまり書かれていないのでよく分からない(reproduceらしい)
  • ホップフィールドネットワークは余り知らないのでコメントなし
  • 結局Collective Memoryがどういうものなのかよく分かってない