Pathway Figure OCRは、公開文献からのパスウェイ情報を抽出し、誰でも自由に使用できるようにするプロジェクトです(原著論文:
Pathway information extracted from 25 years of pathway figures.)。毎年、数千ものパスウェイ図が論文用の図として発表されますが、これらの図はそのままでは計算やツールによる分析に用いることができない状態です。OCR(Optical character recognition: 光学文字認識)や機械学習、手動キュレーションを組み合わせることで、1995年から2021年までに発表された79,949のパスウェイ図を特定し、14,253のユニークなヒト遺伝子や11,100の化学物質、1,204の疾患を多様な生物学的プロセスから抽出しています。(これは論文発表時点の数字で、更新されています)Pathway Figure OCRによって収集されたこれらの図のデータは、図には含まれていても論文の本文には記述されていない遺伝子や、他のパスウェイデータベースから欠落している遺伝子を含んでおり、新たな発見や研究の機会を提供します。