日本語 English
株式会社ヒューリンクス
TEL:03-5642-8384
営業時間:9:00-17:30

Mathematica で化学構造認識(OCSR)その1

Mathematica で化学構造認識(OCSR)その1

  • 執筆者:技術部・宮本
  • 掲載日:2023/11/21
  • 使用したバージョン:Mathematica 13.3.1.0
  • 使用した主な関数:MoleculeRecognize

はじめに

Mathematica ではバージョン 12.0 から分子に関する関数が実装されており、
分子情報を扱うことができるようになっています。
今回は、化学構造式の光学認識 (Optical Chemical Structure Recognition) の性能を検証します。
OCSR については magattaca様のブログ が非常に参考になります。

MoleculeRecognize とは?

Mathematica には「MoleculeRecognize」という関数が用意されています。 この関数を用いることで、画像から化学構造式を認識できます。

ベンチマーク計算

OCSR_Review at V1.0 にあるデータセットを用いてベンチマーク計算を行いました。

  • CPU : i7-10700 2.90GHz
データセットデータ数計算時間 (min)認識精度 (%)
USPTO571933.788.3
UOB574033.980.2
CLEF 20129926.083.5
JPO4505.266.4

OCSR が失敗した分子の例

認識できなかった分子には次のような傾向が見られました。

原因元の画像認識した分子
官能基が認識できない or 未対応
元素記号が認識できない or 未対応
結合が読み取れない or 誤認識する
分子以外の情報を誤認識する

所感

まあまあいけてるなと思いました。

次回はGUIを用意してインタラクティブなツールを作ってみます。

参考文献