化合物データベース

イベント・講習会の情報

統合データベース講習会:AJACS筑波4

  • 日時:2018年7月10日(火)14:20-15:50
  • 会場:物質・材料研究機構 千現地区研究本館1階第2会議室

化合物データベース

  • 公益財団法人野口研究所 山田一作(やまだいっさく) issaku@noguchi.or.jp

内容

  1. 概要
  2. 関連データ
  3. 表記
  4. ファイル形式
  5. 使ってみよう
  6. ツール

1. 概要

化合物データベース

2. 関連データ

化学構造式

  • 原子の元素記号と単結合(一重線)、二重結合(二重線)、三重結合(三重線)を組み合わせて分子構造を表す。

    Image from Gyazo

物性値(沸点融点溶解度

バイオアッセイ

化合物同定

安全性

  • 有害性情報、法規制情報など
    • 独立行政法人製品評価技術基盤機構 (NITE) 化学物質総合情報提供システム
      • 化学物質の番号や名称等から、有害性情報、法規制情報及び国際機関によるリスク評価情報等を検索することができるシステム
      • https://www.nite.go.jp/chem/chrip/chrip_search/srhInput
  • 化学物質等安全データシート (Safety Data Sheet, SDS)
    • 一般社団法人日本試薬協会 SDS検索
      • https://www.j-shiyaku.or.jp/Sds

その他

3. 表記

  • IUPAC命名法

    • 化合物を命名する際の基本となる、国際純正・応用化学連合(International Union of Pure and Applied Chemistry、IUPAC)の命名法
    • 化学構造式が複雑な化合物になると正しい命名をするのが簡単ではない。

    • 日本語による化合物命名法

      • http://cicsj.chemistry.or.jp/14_5/hata.html
    • (2R,3S,5R)-5-(6-aminopurin-9-yl)-2-(hydroxymethyl)oxolan-3-ol


  • 慣用名

    • デオキシアデノシン
    • 2'-deoxyadenosine

  • ID

    • PubChem Compound CID
      • 0-9の数字のみでを利用
    • PubChem Substance SID

      • 0-9の数字のみでを利用
    • CAS 登録番号

    • その他のデータベースのID

  • SMILES

    • C1[C@@H]([C@H](O[C@H]1N2C=NC3=C2N=CN=C3N)CO)O
    • 混合物の場合 CO.CCO.OCCC.C1CCCCC1.C2=CC=CC=C2

  • CTFile (Molfile, SDfile)

    • 古くから利用されている。バージョンとしてV2000とV3000がある。一般的にはV2000が利用されているが、原子数、結合数が各999個までの制限がある。V3000にはこの制限はない。
    • ファイル形式の説明でもう少し詳しく説明します。

  • IUPAC International Chemical Identifier (InChITM)

    • InChI=1S/C10H13N5O3/c11-9-8-10(13-3-12-9)15(4-14-8)7-1-5(17)6(2-16)18-7/h3-7,16-17H,1-2H2,(H2,11,12,13)/t5-,6+,7+/m0/s1

  • InChIKey

    • OLXZPDWKRNYJJZ-RRKCRQDMSA-N

4. ファイル形式

  • .smi
    • SMILESを格納、複数行にSMILESを記載することで一つのファイルに複数の化学構造を記述することができる。

CO CCO OCCC C1CCCCC1 C2=CC=CC=C2

Image from Gyazo


  • .mol

``` 887 -OEChem-07031813262D

6 5 0 0 0 0 0 0 0999 V2000 2.5369 -0.2500 0.0000 O 0 0 0 0 0 0 0 0 0 0 0 0 3.4030 0.2500 0.0000 C 0 0 0 0 0 0 0 0 0 0 0 0 3.7130 -0.2869 0.0000 H 0 0 0 0 0 0 0 0 0 0 0 0 3.9399 0.5600 0.0000 H 0 0 0 0 0 0 0 0 0 0 0 0 3.0930 0.7869 0.0000 H 0 0 0 0 0 0 0 0 0 0 0 0 2.0000 0.0600 0.0000 H 0 0 0 0 0 0 0 0 0 0 0 0 1 2 1 0 0 0 0 1 6 1 0 0 0 0 2 3 1 0 0 0 0 2 4 1 0 0 0 0 2 5 1 0 0 0 0 M END ```

Image from Gyazo


  • .sdf

``` 887 -OEChem-07031813262D

6 5 0 0 0 0 0 0 0999 V2000 2.5369 -0.2500 0.0000 O 0 0 0 0 0 0 0 0 0 0 0 0 3.4030 0.2500 0.0000 C 0 0 0 0 0 0 0 0 0 0 0 0 3.7130 -0.2869 0.0000 H 0 0 0 0 0 0 0 0 0 0 0 0 3.9399 0.5600 0.0000 H 0 0 0 0 0 0 0 0 0 0 0 0 3.0930 0.7869 0.0000 H 0 0 0 0 0 0 0 0 0 0 0 0 2.0000 0.0600 0.0000 H 0 0 0 0 0 0 0 0 0 0 0 0 1 2 1 0 0 0 0 1 6 1 0 0 0 0 2 3 1 0 0 0 0 2 4 1 0 0 0 0 2 5 1 0 0 0 0 M END

887

InChI=1S/CH4O/c1-2/h2H,1H3

OKKJLVBELUTLKV-UHFFFAOYSA-N

$$$$ 888 -OEChem-07031813262D

6 5 0 0 0 0 0 0 0999 V2000 2.5369 -0.2500 0.0000 O 0 0 0 0 0 0 0 0 0 0 0 0 ... ... $$$$ ```

Image from Gyazo

5. 使ってみよう

PubChem


ブラウザからの利用

化合物のページ


データの取得方法

PubChem’s PUG (Power User Gateway)

  • PUG-REST

    • URL

    https://pubchem.ncbi.nlm.nih.gov/rest/pug/<input specification>/<operation specification>/[<output specification>][?<operation_options>]

    • レコード検索

      https://pubchem.ncbi.nlm.nih.gov/rest/pug/substance/sourceid/DTP.NCI/747285/SDF

      https://pubchem.ncbi.nlm.nih.gov/rest/pug/substance/sourceid/DTP.NCI/747285/PNG

      https://pubchem.ncbi.nlm.nih.gov/rest/pug/compound/cid/2244/SDF

      https://pubchem.ncbi.nlm.nih.gov/rest/pug/compound/cid/2244/PNG

      https://pubchem.ncbi.nlm.nih.gov/rest/pug/compound/cid/2244/SDF?record_type=3d

      https://pubchem.ncbi.nlm.nih.gov/rest/pug/compound/cid/2244/PNG?record_type=3d&image_size=small

      https://pubchem.ncbi.nlm.nih.gov/rest/pug/compound/name/aspirin/SDF

      https://pubchem.ncbi.nlm.nih.gov/rest/pug/compound/inchikey/BPGDAMSIGCZZLK-UHFFFAOYSA-N/SDF

      https://pubchem.ncbi.nlm.nih.gov/rest/pug/assay/aid/1000/XML

      https://pubchem.ncbi.nlm.nih.gov/rest/pug/assay/aid/1000/CSV?sid=26736081,26736082,26736083

      https://pubchem.ncbi.nlm.nih.gov/rest/pug/assay/aid/1000/concise/CSV

    • Compound Property Tables

      https://pubchem.ncbi.nlm.nih.gov/rest/pug/compound/cid/1,2,3,4,5/property/MolecularFormula,MolecularWeight,InChIKey/CSV

      https://pubchem.ncbi.nlm.nih.gov/rest/pug/compound/cid/1,2,3,4,5/property/MolecularFormula,MolecularWeight,InChIKey/JSON

      https://pubchem.ncbi.nlm.nih.gov/rest/pug/compound/cid/1,2,3,4,5/property/IsomericSMILES,XLogP,TPSA,HBondDonorCount,HBondAcceptorCount,RotatableBondCount,AtomStereoCount,BondStereoCount/JSON

    • Synonyms

      https://pubchem.ncbi.nlm.nih.gov/rest/pug/compound/name/aspirin/synonyms/JSON

      https://pubchem.ncbi.nlm.nih.gov/rest/pug/compound/smiles/CCCC/synonyms/XML

      https://pubchem.ncbi.nlm.nih.gov/rest/pug/substance/sid/53789435/synonyms/TXT

    • Description

      https://pubchem.ncbi.nlm.nih.gov/rest/pug/compound/cid/1983/description/XML

      https://pubchem.ncbi.nlm.nih.gov/rest/pug/compound/cid/1983/description/JSON

    • SIDS / CIDS / AIDS

      https://pubchem.ncbi.nlm.nih.gov/rest/pug/substance/name/glucose/sids/XML

      https://pubchem.ncbi.nlm.nih.gov/rest/pug/substance/name/glucose/sids/XML?list_return=listkey

      https://pubchem.ncbi.nlm.nih.gov/rest/pug/substance/name/glucose/cids/XML?list_return=grouped

      https://pubchem.ncbi.nlm.nih.gov/rest/pug/substance/name/glucose/cids/XML?list_return=flat

      https://pubchem.ncbi.nlm.nih.gov/rest/pug/substance/sourceall/MLSMR/sids/JSON?list_return=listkey

      https://pubchem.ncbi.nlm.nih.gov/rest/pug/substance/sourceall/R%26D%20Chemicals/sids/XML?list_return=listkey

      https://pubchem.ncbi.nlm.nih.gov/rest/pug/substance/sid/123061,123079/cids/XML?cids_type=all

      https://pubchem.ncbi.nlm.nih.gov/rest/pug/compound/cid/2244/sids/JSON

      https://pubchem.ncbi.nlm.nih.gov/rest/pug/compound/cid/192180/cids/TXT?cids_type=component

      https://pubchem.ncbi.nlm.nih.gov/rest/pug/compound/cid/2244/aids/JSON?aids_type=active

      https://pubchem.ncbi.nlm.nih.gov/rest/pug/compound/cid/2244/sids/JSON?sids_type=component

      https://pubchem.ncbi.nlm.nih.gov/rest/pug/compound/cid/2244/cids/TXT?cids_type=same_connectivity

      https://pubchem.ncbi.nlm.nih.gov/rest/pug/compound/cid/21145249/cids/XML?cids_type=parent

      https://pubchem.ncbi.nlm.nih.gov/rest/pug/assay/aid/1000/sids/XML?sids_type=inactive

      https://pubchem.ncbi.nlm.nih.gov/rest/pug/assay/aid/504526/sids/JSON?sids_type=doseresponse

      https://pubchem.ncbi.nlm.nih.gov/rest/pug/assay/type/doseresponse/aids/JSON

      https://pubchem.ncbi.nlm.nih.gov/rest/pug/assay/sourceall/DTP.NCI/aids/XML

      https://pubchem.ncbi.nlm.nih.gov/rest/pug/substance/xref/PatentID/EP0711162A1/sids/XML

      https://pubchem.ncbi.nlm.nih.gov/rest/pug/compound/name/myxalamid/cids/XML?name_type=word

      https://pubchem.ncbi.nlm.nih.gov/rest/pug/compound/name/myxalamid/cids/XML?name_type=complete

      https://pubchem.ncbi.nlm.nih.gov/rest/pug/assay/target/genesymbol/USP2/aids/TXT

      https://pubchem.ncbi.nlm.nih.gov/rest/pug/assay/target/gi/116516899/aids/JSON

      https://pubchem.ncbi.nlm.nih.gov/rest/pug/assay/activity/EC50/aids/TXT

    • Assay Description

      https://pubchem.ncbi.nlm.nih.gov/rest/pug/assay/aid/490/description/XML

      https://pubchem.ncbi.nlm.nih.gov/rest/pug/assay/aid/490/description/JSON

    • Assay Targets

      https://pubchem.ncbi.nlm.nih.gov/rest/pug/assay/aid/490,1000/targets/ProteinGI,ProteinName,GeneID,GeneSymbol/XML

      https://pubchem.ncbi.nlm.nih.gov/rest/pug/assay/aid/490,1000/targets/ProteinGI,ProteinName,GeneID,GeneSymbol/JSON

    • Assay Summary

      https://pubchem.ncbi.nlm.nih.gov/rest/pug/compound/cid/1000,1001/assaysummary/CSV

      https://pubchem.ncbi.nlm.nih.gov/rest/pug/substance/sid/104234342/assaysummary/XML

      https://pubchem.ncbi.nlm.nih.gov/rest/pug/substance/sid/104234342/assaysummary/JSON

      https://pubchem.ncbi.nlm.nih.gov/rest/pug/assay/aid/1000/summary/XML

      https://pubchem.ncbi.nlm.nih.gov/rest/pug/assay/aid/1000/summary/JSON

    • Assay Dose-Response

      https://pubchem.ncbi.nlm.nih.gov/rest/pug/assay/aid/504526/doseresponse/XML

      https://pubchem.ncbi.nlm.nih.gov/rest/pug/assay/aid/504526/doseresponse/CSV?sid=104169547,109967232

      https://pubchem.ncbi.nlm.nih.gov/rest/pug/assay/aid/602332/sids/XML?sids_type=doseresponse&list_return=listkey

    • Classification

      https://pubchem.ncbi.nlm.nih.gov/rest/pug/substance/sid/1917/classification/XML

      https://pubchem.ncbi.nlm.nih.gov/rest/pug/compound/cid/1983/classification/JSON?classification_type=original

    • XRefs

      https://pubchem.ncbi.nlm.nih.gov/rest/pug/substance/sid/127378063/xrefs/PatentID/XML

      https://pubchem.ncbi.nlm.nih.gov/rest/pug/compound/name/vioxx/xrefs/RegistryID,RN,PubMedID/JSONP

    • Example Scripts


  • PUG-SOAP

    • web service definition language (WSDL)
      • https://pubchem.ncbi.nlm.nih.gov/pug_soap/pug_soap.cgi?wsdl
    • PUG SOAP Client Help

      • https://pubchem.ncbi.nlm.nih.gov/pug_soap/client_help.html

      Image from Gyazo


PubChemRDF

  • RESTful Interface

    curl -L -H "Accept: text/rdf" -o CID2244.rdf http://rdf.ncbi.nlm.nih.gov/pubchem/compound/CID2244

    http://rdf.ncbi.nlm.nih.gov/pubchem/compound/CID2244.rdf

    http://rdf.ncbi.nlm.nih.gov/pubchem/compound/CID2244.html

    http://rdf.ncbi.nlm.nih.gov/pubchem/compound/CID2244.turtle

    http://rdf.ncbi.nlm.nih.gov/pubchem/compound/CID2244.json

    http://rdf.ncbi.nlm.nih.gov/pubchem/compound/CID2244.jsonld

    http://rdf.ncbi.nlm.nih.gov/pubchem/compound/CID2244.ntriples

  • Query RESTful Interface

    https://pubchem.ncbi.nlm.nih.gov/rest/rdf/query?graph=synonym&name=aspirin

    https://pubchem.ncbi.nlm.nih.gov/rest/rdf/query?graph=synonym&name=aspirin&contain=true

    https://pubchem.ncbi.nlm.nih.gov/rest/rdf/query?graph=synonym&name=aspirin&return=compound

    https://pubchem.ncbi.nlm.nih.gov/rest/rdf/query?graph=synonym&name=aspirin&format=json

    https://pubchem.ncbi.nlm.nih.gov/rest/rdf/query?graph=substance&predicate=rdf:type&offset=10000

    https://pubchem.ncbi.nlm.nih.gov/rest/rdf/query?graph=synonym&pred=rdf:type&obj=sio:CHEMINF_000561

    https://pubchem.ncbi.nlm.nih.gov/rest/rdf/query?graph=synonym&pred=rdf:type&object=sio:CHEMINF_000446,sio:CHEMINF_000447&offset=1275000


  • Classification Browser

    * オントロジーや分類法から、化合物のデータセットを絞り込み、絞り込んだデータセットをダウンロードすることができます。
    
    1. 右のClassificationをクリック Image from Gyazo

    2. Select classificationから、データセットを選ぶ。 Image from Gyazo

    3. 今回はChEBIを選択してみます。 Image from Gyazo

    4. Data type counts to displayで、SubstanceCompoundを切り替えると、下のカウントの数値が変わります。

    5. Treeの ▶ をクリックして、目的のセットを探します。 Image from Gyazo

    6. 5.以外の方法として、Search selected classification byで、Keywordを選択(デフォルト)で、キーワード(ここでは、glycolipid)を入力しSearchします。 Image from Gyazo

    7. Classificationの左のプラスのアイコンをクリックします。 Image from Gyazo

    8. 展開された状態で、ブラウザの検索機能でglycolipidを検索します。 Image from Gyazo

    9. 検索したglycolipidをクリックすると、ウインドウが開きます。glycolipidの左の青い数字をクリックします。 Image from Gyazo

    10. 検索(選択)された化合物のリストが表示されます。右のStructure Downloadをクリックします。 Image from Gyazo

    11. 検索(選択)した化合物のリストをダウンロードするためのサイトが開きます。必要に応じでformatなどを変更し、Downloadボタンを押します。 Image from Gyazo

    12. 自動的に選択した形式でデータのダウンロードが開始されます。この場合は、ファイル名4363722229543774033.sdf.gzとしてダウンロードされます。 Image from Gyazo

    13. ダウンロードされたファイルを解凍すると、エディタなどでデータを見ることができます。

    14. データセットとして、Gene Ontology: biological processを選択してみます。Data typeとして、PubMed, Gene, Protein, Taxonomyが選択できるようになります。 Image from Gyazo

    15. ここでは、Geneを選択し、Biological Process > metabolic process > glycosylation を選択してみます。

      Image from Gyazo

    16. glycosylationの右の「520」をクリックすると、新しいウインドウが開きます。Geneのリストが表示されます。Gene IDのリンクをクリックすると詳細画面を見ることができます。 Image from Gyazo

    17. SDFを選択した場合の例

      ``` 350080125 -OEChem-07041809452D

      59 60 0 1 0 0 0 0 0999 V2000 15.5021 -26.1389 0.0000 O 0 0 0 0 0 0 0 0 0 0 0 0 17.2204 -26.1388 0.0000 O 0 0 0 0 0 0 0 0 0 0 0 0 ... 13.7741 -22.6873 0.0000 C 0 0 0 0 0 0 0 0 0 0 0 0 14.6327 -23.1842 0.0000 C 0 0 0 0 0 0 0 0 0 0 0 0 1 12 1 0 0 0 0 1 15 1 0 0 0 0 ... 56 57 1 0 0 0 0 57 58 1 0 0 0 0 58 59 1 0 0 0 0 M END ...

      350080125

      ChEBI

      CHEBI:139221

      CHEBI:139221 N-[(1S,2S,3R)-1-[(alpha-D-galactopyranosyloxy)methyl]-2,3-dihydroxy-10-phenyldecyl]hexacosanamide N-[(2S,3S,4R)-1-(alpha-D-galactopyranosyloxy)-3,4-dihydroxy-11-phenylundecan-2-yl]hexacosanamide N-[(2S,3S,4R)-1-(alpha-D-galactosyloxy)-3,4-dihydroxy-11-phenylundecan-2-yl]hexacosanamide

      ...

      $$$$ 350080124 -OEChem-07041809452D ... ```

    18. SMILESを選択した場合の例

      • 化学構造がSMILESへ変換できない場合は、ID(SID)のみ出力されます。 Image from Gyazo

      350080125 CCCCCCCCCCCCCCCCCCCCCCCCCC(=O)N[C@@H](CO[C@@H]1[C@@H]([C@H]([C@H]([C@H](O1)CO)O)O)O)[C@@H]([C@@H](CCCCCCCC2=CC=CC=C2)O)O 350080124 CC(CC/C=C(\C)/CC/C=C(\C)/CC/C=C(\C)/CCC=C(C)C)CCOP(=O)(O)OP(=O)(O)O[C@@H]1[C@@H]([C@H]([C@@H]([C@H](O1)CO)O[C@H]2[C@@H]([C@H]([C@@H]([C@H](O2)CO)O[C@H]3[C@H]([C@H]([C@@H]([C@H](O3)CO[C@@H]4[C@H]([C@H]([C@@H]([C@H](O4)CO[C@@H]5[C@H]([C@H]([C@@H]([C@H](O5)CO)O)O)O[C@@H]6[C@H]([C@H]([C@@H]([C@H](O6)CO)O)O)O)O)O[C@@H]7[C@H]([C@H]([C@@H]([C@H](O7)CO)O)O)O[C@@H]8[C@H]([C@H]([C@@H]([C@H](O8)CO)O)O)O)O)O)O[C@@H]9[C@H]([C@H]([C@@H]([C@H](O9)CO)O)O)O[C@@H]1[C@H]([C@H]([C@@H]([C@H](O1)CO)O)O)O[C@@H]1[C@H]([C@H]([C@@H]([C@H](O1)CO)O)O)O)O)O)NC(=O)C)O)NC(=O)C 332875751 329737157 CCCCCCCCCCCCCCCCCCCCCCCC(=O)N[C@@H](CO[C@H]1[C@@H]([C@H]([C@@H]([C@H](O1)CO)O[C@H]2[C@@H]([C@H]([C@H]([C@H](O2)CO)O[C@H]3[C@@H]([C@H]([C@H]([C@H](O3)CO)O)O)NC(=O)C)O[C@@]4(C[C@@H]([C@H](C(O4)[C@@H]([C@@H](CO)O[C@@]5(C[C@@H]([C@H](C(O5)[C@@H]([C@@H](CO)O)O)NC(=O)C)O)C(=O)O)O)NC(=O)C)O)C(=O)O)O)O)O)[C@@H](/C=C/CCCCCCCCCCCCC)O ...


  • PubChem FTP

    • FTPサイトからデータセットをダウンロードすることができます。

    • 右のPubChem FTPをクリック

    Image from Gyazo

    1. FTPサイトが表示されます。

    Image from Gyazo

    1. アッセイデータの例、AID-AID.zip のリストが表示されます。必要なデータをクリックするとダウンロードできます。

    Image from Gyazo

    1. 以下のようにディレクトリをたどると、Compoundの2018-06-28更新データをSDF形式でダウンロードできます。ダウンロードしたデータは、上述のように解凍することでエディタなどでデータを見ることができます。

    Image from Gyazo


6. ツール

  • 化合物をコンピュータで扱うためのソフトウェア

    • データベースとは別の話なので、興味がある人はリンクなどを参考ください。これらのツールを利用すると簡単なデータベースを自分で作ることができます。構造の類似度の計算や構造検索、ファイル形式変換、図の生成などが可能です。

    • 分子表示

      • PubChem 3D Viewer
        • 右の3D Conformer Toolsをクリック

      Image from Gyazo

      * 表示したいCIDまたはSIDを入力し、Viewをクリック
      

      Image from Gyazo

      * 表示されるウインドウで、化合物のコンフォマーの構造を見ることができます。また、左のツールをクリックして、画像やデータの保存することができます。
      

      Image from Gyazo


      • GLmol - Molecular Viewer on WebGL/Javascript

        • http://webglmol.osdn.jp/glmol/viewer.html
      • サイトを開く Image from Gyazo

      • https://pubchem.ncbi.nlm.nih.gov/compound/13730 のダウンロード、3D ConformerのSDFで Display をクリックします。 Image from Gyazo

      • 表示されたSDFデータをクリップボードにコピーします。 Image from Gyazo

      • 1.のサイトの Loadをクリックします。 Image from Gyazo

      • 緑で選択された入力欄に、コピーしたSDFデータをペーストします。 Image from Gyazo

      • Reload molecule from textareaをクリックして、SDFデータを読み込みます。 Image from Gyazo

      • Load をクリックして、メニュをたたみます。 Image from Gyazo

      • Rotate, Translate, Zoom, Slab を選択して、適当に分子の表示を変更してください。


  • ID変換サービス