岡西政典

岡西政典

青空のもとに広がる石垣の海。

(写真:佐藤秀明

バケツ一杯の水からそこに住む生物種を検出しうる「メタバーコーディング解析」。活用に必要なのは……

chatGPTが公開されたことにより、AIの凄まじい発展を多くの人が目撃することになった。しかし、chatGPTはオンライン上のテキストデータを情報源にしているのであり、その真偽を見極める力はまだ弱い。「見分ける」ことの専門家である分類学の専門家は、現在の状況をどのようにみているのであろうか。分類学者の言葉を紹介しよう。

Updated by Masanori Okanishi on March, 23, 2023, 5:00 am JST

AIに必要なのは「正解」である

AIに関して私は過分に素人であるため、想像も含まれるが、AI学習に必要なものは「正解」だと思われる。これは基準と置き換えても良いだろう。例えばAIが写真からその生物の名前を判定するための学習を行う場合、まずは確実に種名が分かっている生物の写真、すなわち「正解」を、片っ端から読み込ませるところから開発が始まるだろう。そしてその正解が十分量になったところで、別の写真を読み込ませる。基準から完全に外れた不正解、やや惜しいもの、ほとんど正解、完全なる正解を学習するうちに、AIの中で種の境界線ができていく。最終的に、あらゆる画像から正解「率」を判定できるまでになるのだろう。これは、分類学の基本的な分け方と似た方法である(岡西、2022)。

もう少し想像力を働かせれば、最初の正解画像の枚数が学習効率に関わるはずだ。仮に最初の正解が数枚の画像だけであったとしても、時間をかければその後AIは学習を深めていくと思われるが、最初に数百枚の正解画像を読み込ませられれば、学習効率は圧倒的に高まるはずだ。

試しに、私の研究分野に関して「日本におけるクモヒトデの研究の歴史は?」という質問をChat GPTに投げかけてみたところ、全く聞いたこともない研究者の名前が次々に列挙される事態となった(2023/3/14現在)。残念ながらクモヒトデに関する「一次情報」とその「正解」が、Chat GPTにはまだ十分に読み込まれていないのであろう。

バケツ一杯の水から生命の情報を検出できるか

さて、なぜこの段に至ってAIの話を持ち出したのか。

一次情報と正解の関係が、そのままDNAの配列情報と学名の関係に当てはめられるからである。具体的な話をしてみよう。ここ数年の間に、生物学や保全学の界隈で、「環境DNA」というワードをよく耳にするようになった。これは狭義には、生物の体表粘液や排泄物から、土壌や水中に放出されたDNAのことを表す。私達が目にしている海の中には、実は目に見えない大きさの生物のDNAが、むき出しでたくさん漂っているのである。

このようなDNAが存在すること自体はどうやら数十年前から知られていたようだが、あまりに微量過ぎてその配列を調べることはできなかった。しかし前稿でも述べたDNA解析技術が発達を遂げた2008年に、ある革命が起こった。ため池に生息するウシガエルのDNAが、水のみから検出されたのである(Ficetola et al. 2008)。生物を採らなくても、それどころか目視できなくても、水や土だけから、そこにどんな種がいたのかという「環境DNA解析」が可能であることが示されたのだ。

環境DNA解析の優れた点は、とにかく手軽な点につきる。海岸で紐付きバケツを海に放り込み、水を収集する、山で土を採取してくる、それだけで済むのである。削減されるのは時間と労力だけではない。近年はこの環境DNAの解析受託企業が増えており、例えば水であれば、それを企業に送るれば一件数万円で解析が可能だ。野外でチームを組み、何泊かで調査を行い、さらに研究室に標本を持ち帰り精査するための調査費や人件費などに比べて、相当なコストカットになる。

例えば海洋の分野では、最近魚類(Miya et al. 2015)と甲殻類(Komai et al., 2019)の研究が発表されている。ここでは、水族館の飼育水槽や海岸で汲んだバケツ1杯の水から、魚類では200種以上、甲殻類では30種以上が検出されている。特に魚類では、水族館で飼育されている魚のほぼすべての種が検出できたことから、非常に高い精度の技術であることが証明されている。このように、DNA情報から網羅的にそこに住む生物種を検出しようとする技術を「メタバーコーディング解析」と呼ぶ。

一方で、最初に大規模な魚の論文が発表された2015年から現在まで、国内の海洋メタバーコーディング研究の例で、一つの分類群の種レベルの解析に焦点をあてて大規模に行われたものは甲殻類に限られる。この要因には、学名とDNAの問題がからんでいると私は踏んでいる。

素晴らしい技術があっても照らし合わせるデータがなければ解析はできない

結論から言えば、メタバーコーディング解析を行うためには、より「正確な学名」(※)に紐づいたDNA情報が必要なのである。どういうことか、順を追って説明しよう。メタバーコーディング技術の開発においては、まずはプライマーと呼ばれる小さなDNAの断片を開発する。誤解を恐れずに言えば、これは特定の生物のDNAだけを引き寄せる(実際には検出可能なレベルまで「増幅する」という表現が正しい)磁石のようなものである。解析技術が向上したとはいえ、一度に解読できるDNAの量には限界がある。そのため、そのまま環境中のDNAを解析すると、例えば魚のような大型の生物が放つ大量のDNA配列ばかりが得られることになりかねない。

プライマーの一つの役割は、そのような環境中の有象無象のDNAの中から、一度に解析できる「ちょうどよい」量の生物のDNA量を選別することだ。甲殻類の研究であれば甲殻類用のプライマーを、魚類であれば魚類用のプライマーを開発することがメタバーコーディング解析の第一歩である。

このプライマーの開発の成功の可否には、まだ運が絡む部分が大きいらしい。理論的にはうまくいくはずだとしても、実際には他の生物が大量に採れてしまうという話も聞く。そのあたりが実験の醍醐味でもあるのだが、やはり成功の母にはなるべく会いたくないものだ。

一次情報がない限り、環境DNA解析は全く意味が無い

さてそれでは、仮に素晴らしいウニ用のプライマーが作れて、環境DNAから、その海域に生息するウニのDNAをバッチリ増幅することができたとする。では、これで解析は成功かと言われれば、答えはNOである。なぜならこの時点で私達が得たのは、PCの画面上に並ぶDNAのATGCの塩基配列のみである。当然この状態から、ウニの種類は判別できない。この文字の羅列を意味のあるものにするために、「DNA-正確な学名」という対応が必要なのである。

具体的な例を挙げてみよう。ある海岸で水を採り、ウニ用のメタバーコーディングプライマーを使ってDNAを解析してみたところ、”AAAAA”, “GGGGG”という2つの配列が得られたとする。この状態で分かるのは「おそらく2種類のウニのDNA配列が得られた」ということである。そしてこの海域のウニを実際に採集し、仮にムラサキウニ、アカウニ、バフンウニが採れたとする。そしてこの3種類のウニのDNA配列を、上記のプライマーを使って解読してみたところ、それぞれ”AAAAA”, “GGGGG”, “TTTTT”であったとする。この結果を比べることで初めて、「この海域に実際に生息する3種類のウニのうち、ムラサキウニ(”AAAAA”)とアカウニ(”GGGGG”)のDNAが検出できたが、バフンウニ(”TTTTT”)のDNAは検出できなかった」ということが言えるのである。

ここでの「ムラサキウニ(Heliocidaris crassispina)⇔”AAAAA”」という、正確に同定された学名と紐づけられたDNA情報、これこそがプライマーによって増幅されたDNAに「命」を与える最重要情報といえるのである(田中・大作・幸塚,2019)。つまり、一次情報の精度は、環境DNA解析の結果の解釈に大きく影響を及ぼすのだ。

前稿で、インターネット上には、”Ophiuroidea sp.”(クモヒトデの一種)と銘打たれた配列が存在する、と述べた。もしクモヒトデ用のプライマーで得られた環境DNA配列を比較した時に、このOphiuroidea sp.が混じっていたとすれば、それは往々にして「ノイズ」となる。

最近、筆者はクモヒトデ類の環境DNAメタバーコーディングプライマーを開発した論文を発表した(Okanishi et al. 2023)。日本では3例目の海産動物の例であるが、これが為せたのは、私自身がクモヒトデ類の「DNA-正確な学名」という対応を付けた一次情報データベースを自ら作成できたからである。しかしそれでも、海水中から”Ophiuroidea sp.”という種は検出された。これは海外の研究者がINSDに残したデータであるが、例えばこれが海外では手に入りやすく、日本では手に入りにくい種であった場合は、何度メタバーコーディング解析を行っても、この種が検出結果の候補に挙がるのを食い止めることはできない。

AIが発展したからこそ、その素材となる情報が重要となる

INSD上にあるDNAの由来の生物がいつまでも未同定であることは、解析によってはプラスどころか、マイナス要素になりうるのである。しかし、例えば”Ophiuroidea sp.”のINSD情報に、その標本写真が載せられているだけで、我々は科、属、運が良ければ種まで同定精度を上げることができる。それにより環境DNA解析の解像度はぐっと深まるはずである。

このような状況を考えると、INSD上のデータには、専門家の「お墨付き」が載せられる事が望ましいのではないだろうか。ネット上のデータには、その生物の非専門家が同定したデータもある。これもまた、誤同定というマイナス要素を生む大きな要因となる。少なくともメタバーコーディング解析においては、専門家の「お墨付き」が得られたデータはかなり重宝されるはずだ。

秋の松林。八ヶ岳山麓にて
秋の松林。八ヶ岳山麓にて。

この専門家の役割を分類学者が担うことは、そう不自然なことではないだろう。近年の急速なDNA解析技術の発展は、生物学にDXをもたらしていることは間違いない。そんな世の中において、分類学という長い歴史を持つ学問の必要性が高まっているのである。
これまで述べたように、分類学は、生物学が生物の名前を「使いやすく」するため、その整理に多大な労力を割いてきた。「研究室の一室で、古びた標本とずっとにらめっこしている」.分類学者にはそんなかび臭いイメージがあるかもしれない。しかし分類学者はその役割を見失わず、粛々と学名の整理にいそしみ続けてきた。そしてその情報は、今日到来している生物学の転換期において、今まさに日の目を見るべきであると予想している。

これまで4回に渡って、この分類学を紹介してきたが、なるべく皆様にもわかりやすいような表現を心掛けてきたつもりである。このような分類学が存在すること、そしてそれを遂行する分類学者が、今も新たなデータを吸収し続け、生物学に貢献すべく、今も発展し続けていることが皆様の心に少しでも残ることを願い、筆を擱くことにしたい。

※「正確な学名」という表現は分類学的にはナンセンスな言葉である。学名とは、あくまでも人間が認識するためのものであって「100%正確な学名」はまず存在しない。実際には「最も望ましい学名」という表現がより適切であろう。

参考文献
生物を分けると世界が分かるー分類すると見えてくる、生物進化と地球の変遷』岡西政典(講談社 2022年)
ウニハンドブック』田中颯、大作晃一、幸塚久典(文一総合出版 2019年)
・Ficetola GF, Miaud C, Pompanon F, Taberlet P. (2008) Species detection using environmental DNA from water samples. Biology Letters 4: 423-425. http://doi.org/10.1098/rsbl.2008.0118
・Miya M, Sato Y, Fukunaga T, Sado T, Poulsen JY, Sato K, Minamoto T, Yamamoto S, Yamanaka H, Araki H, Kondoh M, Iwasaki W. (2015) MiFish, a set of universal PCR primers for metabarcoding environmental DNA from fishes: detection of more than 230 subtropical marine species. Royal Society. Open Science 2: 150088. http://doi.org/10.1098/rsos.150088
・Komai T, Gotoh RO, Sado T, Miya M (2019) Development of a new set of PCR primers for eDNA metabarcoding decapod crustaceans. Metabarcoding and Metagenomics 3: e33835. https://doi.org/10.3897/mbmg.3.33835
・Okanishi M, Kohtsuka H, Wu Q, Shinji J, Shibata N, Tamada T, Nakano T, Minamoto T (2023) Development of two new sets of PCR primers for eDNA metabarcoding of brittle stars (Echinodermata, Ophiuroidea). Metabarcoding and Metagenomics 7: e94298. https://doi.org/10.3897/mbmg.7.94298

※2023年3月26日、一部の記述につきまして改訂を行いました。