生物多様性情報学の出張所

生物多様性情報学関係のあれこれを中心に扱います。「生物多様性情報学の情報交換の場」の投稿の抜粋中心。

イギリス自然史博物館のデータポータル雑感(前編)

つい先日、イギリス自然史博物館データポータルのベータ版が公開されました。データポータルは至ってシンプルで、データセットを選んで検索し詳細をみるというものですが、いろいろ詳しくみていくと、さすがの出来映えだなあと思うところが色々ありましたので、感想をメモとして残していきたいと思います。

データコンテンツについて

いわゆる標本データベースは250万点公開されています。また、各標本は電子化されていない標本についても、標本の有無を調べられる種名リスト Index Lots という別のデータセットで、何と72万種の情報が公開されています。データを見てみると、オリジナルの種名と、現在の有効名が両方併記されて非常に便利ですね。きちんとコレクションが整理され使えるようになっていることもわかります。

さらに、データポータルの解説ページには、「データは指数的に増やしていきます。私たちの野心的な電子化プログラムは、5年間で2000万個体の電子化を目的としています」と書いてありました。イギリス自然史博物館の底力をみてとれます。

データ利用条件

データの利用条件は基本的にCC0、すなわち、誰でも目的に関係なく無制限にデータを使うことができるようになっています。誰でも自由にデータを使えるようにしようと言ういわゆるオープン化の波のもと、イギリス自然史博物館もデータのオープン化に大きく舵を切ったように思います。

一方で、データを使用する際には、データセットをDOIつきで引用するように強く勧告しています(引用方法について;DOIの解説はたとえば武田英明先生のプレゼンなど参照)。データをDOIを使って引用を追跡できるようにすると、論文と同様に引用回数や被引用論文のリストなどを作れるようになります。データ公開を促進する一つの方法として注目をされ(参考:Global Biodiversity Informatics Outlookの関連項目)、GBIFなどでも対応を進めているところですが、このポータルでも対応しています。

データ形式など

データ項目には、生物標本には生物多様性情報で最も流通している Darwin Core 形式を採用。ヨーロッパでは Biological Collection Access Services というコレクションネットワークが採用している ABCD という別の形式が採用されることも多いのですが、ABCD よりシンプルで使いやすい Darwin Core の方が良かったのでしょうか。各標本の詳細ページは、一般向けにわかりやすく整形した「Normal View」と、Darwin Coreをわかっている人が生データをみるための「Darwin Core」という二つのViewが用意されているのも面白いです。しかも「Darwin Core」の各項目が、TDWGウェブサイトにあるDarwin Coreの各項目の定義ページに飛ぶようになっていて至れり尽くせりです。

各標本を特定する方法、すなわちID周りをみていきます。たとえばある標本のURLは http://data.nhm.ac.uk/dataset/collection-specimens/resource/05ff2255-c38a-40c9-b657-4ccb55ab2feb/record/2047038 となっています。まずURLの長い文字列「05ff2255-c38a-40c9-b657-4ccb55ab2feb」は、データセットのIDを指しています。GBIFでも採用されているUUIDですね。URLに生のUUIDをつけるのはシステム的にはシンプルで良いですが、ちょっと野暮ったい気もします。

標本を特定するIDは、これまでいわゆる「機関略号」「コレクション略号」「カタログ番号」の組み合わせが使われてきました。とくに、使われてきたのが、「URN:catalogue:機関略号:コレクション略号:カタログ番号」というURNです。しかし、GBIFでは、最近occurrenceIDという項目の方針を変更し、UUIDなどより変更されづらいIDの仕様を奨励しています(参考:Promoting the use of stable occurrenceIDs)。イギリス自然史博物館のポータルでは、「機関略号」「コレクション略号」「カタログ番号」は、標本に実際につけられている番号になっており、先ほどの例ではそれぞれ「NHMUK」「BMNH(E)」「BMNH(E)962207」です。ちょっとややこしいのは、各レコードを特定する項目occurrenceIDは、NHMUK:BMNH(E):962207 などとなっているかと思いきや、NHMUK:ecatalogue:2800545という別の番号が割り振られている点です。標本データと電子データはまた別の管理体系をもっていると思われますが、管理方法を聞いてみたいところです。また、occurrenceIDの末尾の番号2800545は、標本に割り振られているURLの末尾の番号2047038とも違っています。最後の番号は、データベースの主キーの番号なのかなと思いますが、URLとカタログ番号だけで相互変換するのは難しそうです。

目をひいたのは、鉱物標本にも Darwin Core を採用しているところです。ScientificNameに安山岩 (andesite) などと入れているのが、目をひきますね。古生物標本までは Darwin Core の適用範囲ですが、鉱物で使われた例を私は知りません。しかし、自然史系標本という括りでの相互運用性を考えると、できるだけ揃えられるところは揃えたいという意向があったのかなと思います。また、meteoriteClassなど、Darwin Coreでは定義されていない項目も確認できますが、これはどのように定義しているのでしょうか。一般的に、Darwin Core では、最小限の語彙だけしか定義されていません。そのため、項目を加えたいことは良くあります。実際、Darwin Coreには、定義されていない項目を追加するためのextentionという機能があり、「鉱物のための拡張項目セット」といったものも定義できます。しかし、このデータポータルでは、別の方法で解決していました。Darwin Core Viewでみると、このような項目はDynamic properties の中に入っていました。Dynamic properties は、「前翅長=10.5mm」といったような、計測値などレコードに関する様々な変数を「項目=値」の組でいれるための項目です(参考:DwCでの定義)。つまり、多くの鉱物固有の項目は、項目としては定義されず、「レコードの様々な変数」という扱いになっているわけです。博物館で独自仕様は作らないという方針なのか、いままさに博物館内で策定中なのか、どこか標準化の動きがあるのか、は、わかりませんが、この扱いは要注目です。日本でも鉱物の標本データベースを作る際に参考になるかもしれません。

長くなったので一旦切ります。