松浦晋也

松浦晋也

南米パタゴニアの大地に立つ、水を汲み上げるための風車。

(写真:佐藤秀明

AIが躍進させる地球観測領域。ただし必要なのは、ますます多くの観測データである

画像解析や画像生成の領域において、AIは目覚ましい発達を遂げている。しかし、AIが成長をしていくためには、大量のデータという餌が必要になる。それは地球観測の領域でも変わらない。宇宙ビジネスの一大領域である地球観測技術が、今後どのように発達していきそうなのかを見てみよう。

Updated by Shinya Matsuura on November, 10, 2022, 5:00 am JST

1日1回地表を観測すると、1年に蓄積されるデータの量は? 

ひとつ、簡単な見積もりをしてみよう。地球の表面積はおよそ5億1,000万平方km、うち陸地が1億5,000万平方kmで、海洋が3億6,000万平方km。このうちの陸地を地球観測衛星で観測するとする。

分解能としては、現在の民間地球観測衛星の上限である25cmを仮定しよう。パンクロマチックの画像を得るとして、1ピクセルに16ビットのデータ量を割り当てるとする。白をゼロ、真っ黒を65535としてグレーの階調を記録するという意味だ。ランドサットの観測データは8ビットで階調を記録している。データ量2倍というのは、近未来の地球観測衛星のセンサーとしては妥当なところだろう。2022年現在、最新の地球観測衛星は、11〜12ビットを採用している。

すると、全地表をモノクロの16ビット、分解能25cmで観測した場合のデータ量は、1億5000万×1000×1000×16×16=38.4京ビットということになる。もう少し馴染みのある単位に換算すると、8で割って4.8京バイト。48ペタバイトと言ったほうが通りがいいかもしれない。これは10進法で表記した場合で、コンピューターの記録媒体などでは10の三乗=1000倍ではなく、1024倍でメガ、ギガ、テラと名称を切り換えていく。こちらの表記では43ペタバイト程度となる。

これはモノクロのデータだから、カラーのデータを得ようとすると容量は増える。人間の目はRGBの3色で色彩を認識するので、3波長で観測するとなるとデータ量は3倍、これに近赤外1波長を加えると4倍になる。多波長に分光してデータを得るとなると、データ量は観測波長の数だけ増えていく。とりあえずここでは、可視光3波長に近赤外1波長を観測すると仮定すると、データ容量は4倍の約170ペタバイトとなる。ただし、現行の地球観測センサーの設計では、分光データの分解能はモノクロの1/3〜1/4程度に落ちる。モノクロが分解能25cmなら、分光データは1m程度ということだ。するとトータルでは、データ量は約2倍の86ペタバイトだ。

マンハッタンの街
マンハッタンの通り。太陽が低くなる冬は、太陽がストリートを横切るときだけ光が街を照らし出す。

この密度で1日1回地表を観測するとするなら、1年に蓄積されるデータは365倍の約15〜30エクサバイトである。

「何という巨大な容量か」と一瞬思ってしまうのだが、実は2022年の今現在、人類が地上に保有する総ストレージ容量は、すでにエクサの上のゼタバイトの単位に突入している。IDCの調査によると、2023年の世界のクラウドサービスの総容量は11.7ゼタバイトになる予想されるという。つまり、2030年か40年か、いずれにせよ今世紀前半のどこかで、人類はこの規模の地球観測データを楽々扱える計算機環境を構築することになるだろう。

膨大な地球観測データをどのように扱うか

もちろん1日86ペタバイト、年間30エクサバイトというのは、いくつもの仮定を積みかさねた数字であって、現実にはここまで巨大なデータにはならないはずだ。例えば、植生のような自然環境の観測には、25cmというような分解能は必要ない。分解能を2.5mまで落とせば、データ容量は一気に1/100になる。気象観測データのように、分解能は500mでも構わないが、撮像頻度は1日1回ではなく10分〜数分に1回必要、というような用途もある。その一方で、これだけの規模の全地球的観測を行う事業者は、全世界で1つだけということはないだろう。全世界で10社が市場に参入すれば、それだけでデータ量は10倍になる。

それやこれや勘案し、ざざっと「桁さえ合っていればOK」の見積もりを行うと、10年とか20年の未来のうちに、クラウドに毎日ペタバイト単位の地球観測データが蓄積されていく時代が確実にやってくると予想できるわけだ。

ここで問題になるのは、それら膨大な地球観測データをどのように扱って、人類社会に役立たせるかだ。

第3回で、地球観測データの利用にあたってはグラウンド・トゥルース(地上の真実)が重要だと書いた。地球観測データは、各波長の電磁波(光も電磁波に含まれる)の反射率を2次元で測定したデータの塊だ。それが具体的に地上のどのような現象を意味するかは、実際に地上がどうなっているかと付き合わせて確認しなければ分からない。「データではこのように写っているものは、実際にはこれである」という対応が分かっていないと、データを読み解くことができないのである。

従来、事前に蓄積した写ったデータと地上の実際の対応の知識に基づいて、データを読み解くのは、解析専門の技術者の仕事だった。このため、地球観測データの解析には大変な人手を必要とした。その後コンピューターの発達で、大規模なデータから自動的に特徴を抽出して画像を読み解く解析ソフトウエアが使われるようになり、データ解析は一気に高速化した。しかしその場合も、どのような特徴をどうやって抽出するかというアルゴリズムは、過去のグラウンド・トゥルースの知見に基づいて、解析技術者が組み立てる必要があった。

状況が変化したのは、2010年代に入り、ディープラーニングを使う人工知能(AI)が長足の進歩を見せてからだ。地球観測データとグラウンド・トゥルースのデータをAIに教え込ませれば、AIがどんどん学習して、精度良く地球観測データを自動的に解析するようになったのである。また、今までは関連するとも思われていなかったデータと地球観測データをAIに学習させることで、見過ごされていた新たな情報を、地球観測データから引き出すことも可能になった。地球観測データ解析の可能性が一気に広がったのである。

人類の経済活動に関する地理情報は、すべてグラウンドトゥルースとして使える

Google scholarで、「”earth observation”  ”deep learning” data」を2001年〜2010年の間で検索すると34本の論文が見つかる。2011年〜2015年の5年間だと114本だ。これが2016年は1年で190本、2017年は475本、2018年は986本、2021年には実に4,000本もの論文が見つかる。 AIを使った衛星観測データの解析で、大きな進捗が起きていることは、こんなところからも見て取ることができる。

では、AIによる地球観測データ解析手法を一層進歩させるには、一体どうしたらいいのか。答えは簡単で、AIに「食わせる」ビッグデータを大量に用意することだ。それも衛星から得られる地球観測データだけではなく、地表で調べたグラウンド・トゥルースのデータをセットで用意する必要がある。 

グラウンド・トゥルースとしては、国土地理院のような公的機関が蓄積してきた地形や地質、植生などのデータが使える。さらには道路の混雑状況や、携帯電話で計測した人の動きのデータといったものも使えるはずだ。人類の経済活動に関する地理情報は、すべてグラウンドトゥルースとして使えると考えるべきである。

グラウンド・トゥルースとして使えるのは、ランドサットシリーズのデータのように、過去50年近くに渡って連続的に蓄積されている地球観測データは、十分に「このようなデータの特徴は、地表になにがあるという意味なのか」というグラウンド・トゥルースによる検証が進んでいるので、それ自身が十分グラウンド・トゥルースとして使えるだろう。気象観測衛星の観測データも1970年代以降全世界で蓄積され、十分に利用されているので、グラウンド・トゥルースの利用が可能なのではなかろうか。

AIに「食わせる」データは無料ではない。地球観測領域で圧倒的に有利な地位に立つ者とは……

実のところ、現状においてAIによる解析技術の進歩の足かせになっているのは、地球観測データの価格だ。ランドサットが民営化で苦闘していた1980年代と比較すれば、現在はかなり地球観測データの価格は下がっている。が、それでも無料ではない。AIを訓練して特定の用途に使えるようにするには、膨大なデータが必要だ。2010年代に入ってからディープラーニングが実用化したのは、もちろんムーアの法則によりコンピューターの演算速度が高速化したことと、AI専用のアーキテクチャを持つ半導体チップが実用化したからだが、もうひとつネット社会の進展により、ネット上に無料で公開されている膨大なデータを学習に使えるようになったことも見逃せない。

2022年の夏から秋にかけて、与えられたキーワードから絵を生成するAIが次々に公開された。最初はAIならではのエラー——例えば描かれた人物の指の本数が多いなど——が目立ったが、ほんの数か月で一応の観賞に堪える絵やイラストを生成するところまで進歩した。この進歩には、ネット上の画像データをクロールしてAIの学習に使用できたことが大きく寄与している。もちろんそれは良いことだけでなく、学習に使われた絵の作者の著作権は一体どうなるのかとか、AIが生成した絵の著作権は、AIの生成画像に人間が手を加えた場合はどうするかなど、今まで存在しなかった問題が、新たに発生しているわけだが。

イースター島
孤独なモアイ像と夕日。イースター島にて。

地球観測データを解析するAIを訓練するためには、大量のグラウンドトゥルース情報と大量の地球観測データが必要となる。が、それだけの地球観測データを購入するとなると、大変なコストがかかる。

だから地球観測データの解析にAIを適用する場合、追加コストなしに大量の地球観測データを用意できる者が、新技術の開発と市場でのビジネス展開の両面で圧倒的に有利な地位を占めることになる。すなわち、長年地球観測を続けてきて、大量の観測データを所有している衛星運用事業者である。

躍進するのはどの企業か

地球観測衛星の歴史を復習すると、まずランドサットなどの国が行う学術研究として始まったものが、1980年代に商業化を目指して一度挫折。その後1994年3月、米クリントン政権は、「大統領令NSC23号(Presidential Dicision Directive NSC-23)」で、高分解能の地球観測データのビジネス利用が可能になった。

「高分解能ならば民間市場が立ち上がるか」と20世紀末からいくつものベンチャーが民間高分解能地球観測衛星を開発・運用した。しかし、思ったほど市場は拡大せず、ベンチャーも合従連衡を経て、最終的に米MAXAR社と、欧州連合の産業政策による後押しをうけるエアバス・ディフェンス・アンド・スペース社に集約された。

2010年台に入ると小型衛星性能向上に伴い、「小さな衛星を多数打ち上げて、時間分解能を上げる」という地球観測衛星コンステレーションの構築が始まる。この波とほぼ重なる形で、AIによるデータ解析技術の革新が起きているという構図になる。

これらのなかで、AIによる解析技術の開発と運用でもっとも有利なポジションにいるのは米MAXARであり、欧州エアバスだ。共に高分解能地球観測衛星を運用しており、大量の観測データを蓄積・販売している。特にMAXARは、20年以上の高分解能地球観測衛星の運用経験を持ち、手持ちのデータの量では一頭図抜けている。事実、この2社のホームページを観ると、AIによるデータ解析を前面に押し出しており、AI利用の解析技術開発に力を入れていることが窺える。特にエアバスは、「AI-Driven Earth Observation Partnership Ecosystem」というプログラムで、保有する地球観測データを、解析ソフトウエアを開発するベンチャーに開放している。解析技術はアイデアひとつで大きく進歩する分野なので、なるべく多数の開発者が参入することが望ましい。データを抱え込むのではなく、データを使ってソフト開発者を抱え込もうというわけだ。

それに続くのが、小型衛星で地球観測に参入したベンチャーであろう。トップは超小型のDove衛星を200機近く運用して、地上の任意地点の1日1回観測を達成した米プラネット・ラボだ。光学衛星、レーダー衛星を問わず、プラネット・ラボを追うベンチャーが何社も出て来ている。彼らはこれから2020年代半ばから2030年代にかけて、AIの訓練に十分なデータを蓄積して、それぞれに特色あるサービスを打ち出してくるだろう。

長らく地球観測は「大量のデータが溜まっていくが、その利用はなかなか進まない」という状況が続いた。AI技術の発達でその構図は覆りつつある。これまで「なんの役に立つのか」と言われつつも蓄積してきた地球観測データが、AIを訓練し、新たな情報をデータから引き出す手法の開発に使われているのだ。

参照リンク
世界のストレージ導入規模が2023年には11.7ゼタバイトに、IDC(2019年の予想)(@IT)
AI-driven analytics(MAXAR)
Artificial Intelligence for Analysts in the Age of Rapid Revisit(MAXAR)
AI-Driven Earth Observation Partnership Ecosystem(AIRBUS Group)