Automated Knowledge Base Construction
AKBCは知識ベースの自動構築をテーマにした国際会議です。10年ほどワークショップが開かれていましたが、2019年に初めて単独のconferenceになりました。
どういった観点で知識ベースへの関心が高まっているか、ワークショップや採択論文から概観します。
Keywords
個人的に気になったキーワードはここら辺。グラフ構造を用いた知識表現であるKnowledge Graphについて触れているものが散見されました。
テキストは(relationやsemanticまで考慮すると)画像のように綺麗なベクトルで表現できない点、Graph Neural Networkの盛り上がりなどが一因でしょうか?
大量のデータの用意が困難な専門ドメインに対して、弱教師あり学習で低コストにデータを用意できるSnorkelの名前がちらほら出てきました。以前から気になってたやつ。
あとはspaCyベースで生命医学に特化したテキスト処理ツールのscispaCy。
- Knowledge Graph: グラフ構造の知識表現(knowledge baseの一種)、詳細はTowards a Definition of Knowledge Graphs参照
- Graph Neural Network: グラフ構造を入力としたニューラルネットワーク
- Snorkel: 弱教師あり学習用データ生成フレークワーク
- scispaCy: 生命医学向けのテキスト処理ツール(PoS, NER)
Conference
Accepted Papersは全24本。気になったのを後で読むようにメモ。
- MedMentions: A Large Biomedical Corpus Annotated with UMLS Concepts
- Semi-supervised Ensemble Learning with Weak Supervision for Biomedical Relation Extraction
- Learning Relation Representations from Word Representations
- Applying Citizen Science to Gene, Drug, Disease Relationship Extraction from Biomedical Abstracts
- Joint Learning of Hierarchical Word Embeddings from a Corpus and a Taxonomy
Workshops
以下の4つが開催
- Knowledge Bases and Multiple Modalities
- Scientific Literature Knowledge Bases
- Neural and Symbolic Representation and Reasoning
- Federated KBs and the Open Knowledge Network
特に関心があるScientific Literature Knowledge Basesについてまとめました。
Scientific Literature Knowledge Bases
knowledge baseは科学の仮説を記述するのに適した構造です。これまでマニュアルでknowledge baseが作成されてきましたが、それらがカバーする範囲は科学文書全体に比べればあまりにも微小です。
既存の(自然言語で記述された)科学文書を有効活用するためには自動ないし半自動でknowledge baseを構築する手法を確立することを目指したworkshopです。
招待講演は以下の4テーマ
- アカデミックドメインのknowledge base
- 用語集を用いた生物医学文書の自動タグ付け
- オントロジーを利用した生命科学的経路の統一表現
- データセット・研究・分野・手法の紐付け
Accepted Abstractsは11本、個人的に気になるのは
- Building a Biomedical Knowledge Graph and Predicting Novel Relations: Knowledge graphを用いた疾病遺伝子間の関係性や薬物相互作用の予測(ただし論文のabstractを直接突っ込めるモデルではない)
- Extracting T cell function and differentiation characteristics from immunology literature with Snorkel and SciSpacy: Snorkel, scispaCyをパイプラインでつないだ分析
- NormCo: Deep Disease Normalization for Biomedical Knowledge Base Construction: 病名の正規化、シンプルながら難しいタスクです。詳しいことがわかんなかったので全文待ち
全文が公開されたらAccepted Papersとまとめて読みます。
所感
研究を繋ぐことを目的とするものがいくつかありました。
確かに専門ドメインにて機械学習を活用する研究は、
- ドメイン固有の問題(タスクやデータセット)
- 機械学習の手法(モデル)
の2つの要素が組み込まれています。論文をまとめるときに単純な階層構造ではまとめられなくて難儀していました。
ずーっと言ってることですが、人間の記憶や理解が階層構造になっていないので、ファイルを階層構造で管理するのは無理がありますよね。そこら辺を上手く扱えるようになって論文検索やサジェストがストレスフリーになることに期待します。
5/20-22に開催。ワークショップに資料とか挙がるのが待ち遠しいです。