生物多様性情報学の出張所

生物多様性情報学関係のあれこれを中心に扱います。「生物多様性情報学の情報交換の場」の投稿の抜粋中心。

イギリス自然史博物館のデータポータル雑感(後編)

イギリス自然史博物館データポータルの感想の続きです。こんどはシステム周りをみていきます。前編はこちらから

イギリス自然史博物館のデータポータルの特徴として、オープンに開発が進められているソフトウェアを多く取り入れていることがあげられます。ポータルのトップページの下には、使用されているソフトウェアが色々書いてありますね。活発に開発やサポートが行われていて、様々な導入実績のあるいわゆる「定番の」ソフトウェアを採用している印象があります。

コアシステムとしてのCKAN

中でも目をひくのが「powered by CKAN」という見出しです。CKANOpen Knowledge Foundation Networkが中心となって開発されているオープンソースのデータカタログサイト構築システムで、データ公開・検索・利用などに必要な様々な機能を提供しています。政府系のオープンデータ(オープンガバメント)のデータカタログサイトでの利用が有名で、イギリス政府のData.gov.ukやアメリカ政府のData.govも採用しています。日本でもCKANの導入は進んでおり、国内のデータのオープン化を推進する団体Open Knowledge Foundation Japan によって日本語化され、日本政府のオープンデータカタログData.go.jpで採用されています。

このイギリス自然史博物館のデータポータルもシステムのコアはCKANシステムが採用されているわけですが、生物多様性関係でこのような例はほかに私は知りません。CKANの採用はこのポータル最大の特徴だと私は思います。

オープンなシステムのメリット・デメリット

オープンなソフトウェアをつかうメリットとしては、多くの人によって様々な角度からよく練られていることがあげられます。たとえば、CKANには、データカタログの構築に必要な様々な機能、ノウハウが詰まっています。データを公開するためのウェブサイトであれば、検索や閲覧など似たような機能が必要となります。CKANのようなソフトウェアを使うことで、同じような機能をもう一度作り直してしまう「車輪の再発明」を防ぐことができると考えられます。

例として、ウェブサイトの検索やデータ取得をプログラムレベルで行うための機能、すなわちAPIを考えてみます。CKANには、データの取得・検索、あるいはデータの投入・更新を行うための様々な機能がAPIとして用意されていますが、イギリス自然史博物館のデータポータルでは、これらCKANのAPIがそのままAPIとして提供されています。それは、データポータルのトップページ右下にあるAPIガイドのリンク先が、CKANのAPI解説ページになっていることからも明らかです。ポータル構築側は、汎用の機能をCKANのそれを用いることでデータ固有の問題に焦点を絞り込め、サービス開発側は使い慣れているAPIをそのまま使えるため効率よく開発できる、といったメリットが考えられます。

また、オープンなシステムを使うことは、いわゆる「ベンダーロックイン」を防ぐにも有効です。ベンダーロックインは、特定の企業の技術やシステムに依存しすぎることで、他社製品への乗り換えが困難になることを指します。オープンなソフトウェアを使用することによって、様々なニーズの変化への迅速な対応ができなくなる、あるいはメンテナンスが高コストになってしまう、といった状況をある程度防止できるかもしれません。

一方で、ベンダーに依存しないようにするには、博物館側で、きちんとした開発者を確保しておく必要があります。イギリス自然史博物館のデータポータルには、このシステムは「イギリス自然史博物館の生物多様性情報学グループによるオープンソースプロジェクト」であると書かれています。すなわち、博物館にオープンデータを含む生物多様性情報学に詳しい専任グループがいる、ということですね。こういった専門性の強い専任のサポート要員が多くいるのは、海外の博物館のすごいところだと思います。

ポータル自体もオープンソース

先ほどのシステムの解説にはこのポータルが「オープンソースプロジェクト」であることが明記されています。実際その通りで、ポータルを構成しているプログラムのソースは、オープンソースプロジェクトの管理システムの一つであるGitHubイギリス自然史博のアカウントページにて公開されています。私にはその内容はわかりませんが、多くが、CKANをカスタマイズするためのライブラリのようです。

GitHubを見ていると、ポータルサイト以外のオープンソースプログラムももあるようです。たとえばsu2014はScience Uncovered 2014の略で、flickrを使用しつつ標本写真上のラベル情報を電子化するクラウドソーシングプロジェクトのためのソフトウェアです。このプロジェクトでラベル情報などを転写されたデータは、ポータルでは 「Crowdsourcing the collection」というデータセットで公開されています。

おわりに

このように、イギリス自然史博物館のデータポータルは、データとしての徹底したDarwin Coreの採用、システムとしてのCKANの採用、地図表示には MapQuestOpenStreetMap によるタイルが使われているなど、定番のソフトウェアでがっちりと固めてあるというのが私の印象です。どこをとってみても良くできているシステム、なんとかお手本にしたいものですね。