農研機構、AI研究用スパコン「紫峰」と総合DBを導入 データ駆動型農業研究を推進
農研機構は、国内農業系研究機関で初となるAI研究用スーパーコンピューター「紫峰」、および農研機構内に分散して所有管理されている各種の研究データを収集・統合し、農研機構内外の研究者が分野横断的に利活用できるデータベース「NARO Linked DB(ナロ リンクド データベース)」の稼働を2020年5月より開始した。
政府が目標として掲げているSociety5.0実現のためのデータ駆動型農業の重要性の高まりや、農林水産省におけるスマート農業の促進などを受けて、農研機構でもAI研究およびデータ連携のための農業情報研究基盤の整備が求められている。そうしたことから、2018年10月に設立した農業情報研究センターに、人工知能研究用スーパーコンピューターおよび大規模データベースを整備。
国内の先進的な事例を参考にするとともに、農研機構内での計算機資源の利用状況を踏まえて、必要な計算機の能力・規模を算出し、計算速度1ペタフロップス(ペタはギガの100万倍、フロップスはコンピューターの性能を表す単位)の計算性能を有するAI研究用スーパーコンピューター「紫峰」と、データ容量3ペタバイト(300万ギガバイト)の大規模データベース「NARO Linked DB」を導入した。
紫峰に計算処理装置として搭載されている画像処理装置(GPU)「NVIDIA Tesla V100」は、AI、高性能計算などの計算分野において、1つで中央演算装置(CPU)100個分の性能を誇る高性能なもので、これを計128基搭載。複数のGPUを同時に利用して画像認識等を高速に実施したいAI研究者にも対応できる構成となっている。
計算性能だけでなく、Webブラウザを通した入出力、高速な画像表示を行うなど、対話形式による解析や画像処理を可能とし、パソコンのように扱いやすいスーパーコンピューターを目指す。さらに最新の機械学習用のプログラム群をあらかじめインストールした仮想化技術を導入して、利用者がこれらをすぐに利用できるようにしているという。
これまで農研機構内の個々の研究センターや各部門で所有していた病害虫、気象、遺伝資源、ゲノム情報など各種の研究データについて、組織内での連携利用に向けた研究データベース運用ガイドラインを策定し、それに基づき、農研機構内全研究データの農研機構統合データベースへの一元的な集約を開始。
農研機構内の研究者がそれらのデータに横断的にアクセスして利活用するために、統合データベースでは、すべてのデータにメタデータ(著者、日付、ライセンス、内容など、データの属性を説明するためのデータ)を付与し、機構内全研究データの見える化・カタログ化を実現した。
データ間のフォーマットの違いなど異質性を解消し、AIによる分析を容易にすることで機構内での分野横断的な研究を加速。農業データ連携基盤WAGRIとも連携し、統合データベース内のデータを、WAGRIを介して安全に外部公開するシステムを設計・開発した。
なお、AIスパコンおよび統合データベースの導入は、富士通株式会社の協力により実現。双方の知見によるスーパーコンピューター向けのセキュリティ強化策や、新たな試みとしてリモートワークを活用した構築作業などを通してこれらの研究基盤が整備された。
また、統合データベースの活用によって過去の栽培記録や気象データなどから作物の生育や品質を予測する研究においても、貴重な学習データや開発した解析手法などを組織内で共有し、他地域や他の作目への適用を進めるなど、データ駆動型農業研究の推進に役立てることが可能になる。
農研機構 | 国立研究開発法人農業・食品産業技術総合研究機構
http://www.naro.affrc.go.jp/index.html
データ駆動型農業の推進を目指す
政府が目標として掲げているSociety5.0実現のためのデータ駆動型農業の重要性の高まりや、農林水産省におけるスマート農業の促進などを受けて、農研機構でもAI研究およびデータ連携のための農業情報研究基盤の整備が求められている。そうしたことから、2018年10月に設立した農業情報研究センターに、人工知能研究用スーパーコンピューターおよび大規模データベースを整備。
国内の先進的な事例を参考にするとともに、農研機構内での計算機資源の利用状況を踏まえて、必要な計算機の能力・規模を算出し、計算速度1ペタフロップス(ペタはギガの100万倍、フロップスはコンピューターの性能を表す単位)の計算性能を有するAI研究用スーパーコンピューター「紫峰」と、データ容量3ペタバイト(300万ギガバイト)の大規模データベース「NARO Linked DB」を導入した。
紫峰に計算処理装置として搭載されている画像処理装置(GPU)「NVIDIA Tesla V100」は、AI、高性能計算などの計算分野において、1つで中央演算装置(CPU)100個分の性能を誇る高性能なもので、これを計128基搭載。複数のGPUを同時に利用して画像認識等を高速に実施したいAI研究者にも対応できる構成となっている。
計算性能だけでなく、Webブラウザを通した入出力、高速な画像表示を行うなど、対話形式による解析や画像処理を可能とし、パソコンのように扱いやすいスーパーコンピューターを目指す。さらに最新の機械学習用のプログラム群をあらかじめインストールした仮想化技術を導入して、利用者がこれらをすぐに利用できるようにしているという。
数ある研究データをひとつに集約
これまで農研機構内の個々の研究センターや各部門で所有していた病害虫、気象、遺伝資源、ゲノム情報など各種の研究データについて、組織内での連携利用に向けた研究データベース運用ガイドラインを策定し、それに基づき、農研機構内全研究データの農研機構統合データベースへの一元的な集約を開始。
農研機構内の研究者がそれらのデータに横断的にアクセスして利活用するために、統合データベースでは、すべてのデータにメタデータ(著者、日付、ライセンス、内容など、データの属性を説明するためのデータ)を付与し、機構内全研究データの見える化・カタログ化を実現した。
データ間のフォーマットの違いなど異質性を解消し、AIによる分析を容易にすることで機構内での分野横断的な研究を加速。農業データ連携基盤WAGRIとも連携し、統合データベース内のデータを、WAGRIを介して安全に外部公開するシステムを設計・開発した。
なお、AIスパコンおよび統合データベースの導入は、富士通株式会社の協力により実現。双方の知見によるスーパーコンピューター向けのセキュリティ強化策や、新たな試みとしてリモートワークを活用した構築作業などを通してこれらの研究基盤が整備された。
AIスパコンと総合データベースの導入で可能になること
例えば、大量の画像処理が必要な画像からの病害虫の発生状況把握が従来よりもおよそ100倍(理論値:87倍)高速になることが想定される。具体的には、1ヘクタールのジャガイモ畑の画像から、画像処理でウィルス病発病株の検出をするのに従来の計算機資源ではおよそ200時間(個人のパソコンでは500日)かかるところ、紫峰では2時間で終わらせることができる。また、統合データベースの活用によって過去の栽培記録や気象データなどから作物の生育や品質を予測する研究においても、貴重な学習データや開発した解析手法などを組織内で共有し、他地域や他の作目への適用を進めるなど、データ駆動型農業研究の推進に役立てることが可能になる。
農研機構 | 国立研究開発法人農業・食品産業技術総合研究機構
http://www.naro.affrc.go.jp/index.html
SHARE