AIに必要なのは「正解」である
AIに関して私は過分に素人であるため、想像も含まれるが、AI学習に必要なものは「正解」だと思われる。これは基準と置き換え ても良いだろう。例えばAIが写真からその生物の名前を判定するための学習を行う場合、まずは確実に種名が分かっている生物の写真、すなわち「正解」を、片っ端から読み込ませるところから開発が始まるだろう。そしてその正解が十分量になったところで、別の写真を読み込ませる。基準から完全に外れた不正解、やや惜しいもの、ほとんど正解、完全なる正解を学習するうちに、AIの中で種の境界線ができていく。最終的に、あらゆる画像から正解「率」を判定できるまでになるのだろう。これは、分類学の基本的な分け方と似た方法である(岡西、2022)。
もう少し想像力を働かせれば、最初の正解画像の枚数が学習効率に関わるはずだ。仮に最初の正解が数枚の画像だけであったとしても、時間をかければその後AIは学習を深めていくと思われるが、最初に数百枚の正解画像を読み込ませられれば、学習効率は圧倒的に高まるはずだ。
試しに、私の研究分野に関して「日本におけるクモヒトデの研究の歴史は?」という質問をChat GPTに投げかけてみたところ、全く聞いたこともない研究者の名前が次々に列挙される事態となった(2023/3/14現在)。残念ながらクモヒトデに関する「一次情報」とその「正解」が、Chat GPTにはまだ十分に読み込まれていないのであろう。
バケツ一杯の水から生命の情報を検出できるか
さて、なぜこの段に至ってAIの話を持ち出したのか。
一次情報と正解の関係が、そのままDNAの配列情報と学名の関係に当てはめられるからである。具体的な話をしてみよう。ここ数年の間に、生物学や保全学の界隈で、「環境DNA」というワードをよく耳にするようになった。これは狭義には、生物の体表粘液や排泄物から、土壌や水中に放出されたDNAのことを表す。私達が目にしている海の中には、実は目に見えない大きさの生物のDNAが、むき出しでたくさん漂っているのである。
このようなDNAが存在すること自体はどうやら数十年前から知られていたようだが、あまりに微量過ぎてその配列を調べることはできなかった。しかし前稿でも述べたDNA解析技術が発達を遂げた2008年に、ある革命が起こった。ため池に生息するウシガエルのDNAが、水のみから検出されたのである(Ficetola et al. 2008)。生物を採らなくても、それどころか目視できなくても、水や土だけから、そこにどんな種がいたのかという「環境DNA解析」が可能であることが示されたのだ。
環境DNA解析の優れた点は、とにかく手軽な点につきる。海岸で紐付きバケツを海に放り込み、水を収集する、山で土を採取してくる、それだけで済むのである。削減されるのは時間と労力だけではない。近年はこの環境DNAの解析受託企業が増えており、例えば水であれば、それを企業に送るれば一件数万円で解析が可能だ。野外でチームを組み、何泊かで調査を行い、さらに研究室に標本を持ち帰り精査するための調査費や人件費などに比べて、相当なコストカットになる。
例えば海洋の分野では、最近魚類(Miya et al. 2015)と甲殻類(Komai et al., 2019)の研究が発表されている。ここでは、水族館の飼育水槽や海岸で汲んだバケツ1杯の水から、魚類では200種以上、甲殻類では30種以上が検出されている。特に魚類では、水族館で飼育されている魚のほぼすべての種が検出できたことから、非常に高い精度の技術であることが証明されている。このように、DNA情報から網羅的にそこに住む生物種を検出しようとする技術を「メタバーコーディング解析」と呼ぶ。
一方で、最初に大規模な魚の論文が発表された2015年から現在まで、国内の海洋メタバーコーディング研究の例で、一つの分類群の種レベルの解析に焦点をあてて大規模に行われたものは甲殻類に限られる。この要因には、学名とDNAの問題がからんでいると私は踏んでいる。