目次

皆さん、こんにちは。

今回は、機械学習が新型コロナウイルスへの対応にどのように活用されているかを説明した記事を集めています。予測システムやAIベースの診断、データサイエンスコミュニティにおける取り組み、及び新型コロナウイルスの公開データセットを紹介させて頂きます。

監視システム

以下に記載されているのは、ウイルスの拡散状況、報告件数、新規感染者数に関する世界全体および国ごとの最新情報を世界中の人々に提供するために設計された公開分析システムです。

COVID-19ダッシュボードが1時間ごとに、世界におけるウイルスの拡散状況を視覚化

こちらの自動視覚化ダッシュボードは、ウイルスの新規感染者数に関する統計や予測、グローバルな探索的データ解析、米国の確認件数、推定致死率が表示され、1時間ごとに更新されています。主に、ジョンズホプキンズ大学COVID-19データレポジトリからのデータを利用しています。

グローバル・アナリティクス・ダッシュボード

世界全体および国ごとの新型コロナウイルスに関する最新情報を提供するため、Anodotは、機械学習をベースとしたアナリティクス・ダッシュボードなどの公共サービスを開始しました。このダッシュボードは、ジョンズ・ホプキンズ大学とシステム科学工学センター両方のデータを利用して、報告された新型コロナウイルスの感染者数を追跡しています。

ClosedLoop.ai、AIベースの識別モデルを公開

ClosedLoopのAIモデルは、インフルエンザや肺炎などの呼吸器感染症による入院の可能性を予測して、新型コロナウイルスによる合併症に対して最も脆弱な人々を特定することを目的としています。 200万人以上の高齢者および障害者からの医療費請求データを利用して構築・テストされました。彼らのオープンソースAIベース・ツールキット、「CV19脆弱性指標」はこちらです

AIベースの診断

AIシステムは、ウイルス構造の予測、CTスキャンデータの読み取り、治療薬開発のためのタンパク質構造の予測など、様々な方法で医療診断に貢献しています。

Baidu(百度)のLinearfoldアルゴリズム、ウイルスの分析速度を120倍に

バイドゥはCOVID-19の診断方法に関する研究を支援するため、診断システムの改良に取り組む科学・医療チームがLinearfoldアルゴリズムを利用できるようにしました。バイドゥは次のように発表しています。

「2019年にオレゴン州立大学とロチェスター大学との協力によって開発されたLinearfoldアルゴリズムは、従来型アルゴリズムと比べて著しく速くウイルスのRNA二次構造を予測することができます。科学者は、相同性の高いRNAウイルス配列(コウモリとヒトなど)の間で二次構造の変化を分析することによって、ウイルスがどのように種を超えて感染するのかについて理解を深めることができます。最近のアウトブレイクを受け、バイドゥのAI科学者は、このアルゴリズムを利用して、新型コロナウイルスのRNA配列から二次構造を予測しました。分析全体にかかった時間は55分から27秒に短縮し、120倍高速化されました」

新型コロナウイルスのスクリーニング用深層学習システムについて詳述した研究論文

こちらの研究論文は、深層学習システムを利用して新型コロナウイルスと他の疾患を区別し、COVID-19に感染している確率を計算する方法について詳しく解説しています。この論文で紹介されているモデルは、中国の武漢の病院から入手した新型コロナウイルスの感染者、インフルエンザ感染者、健常者のCTスキャンデータを利用して深層学習が行われました。

アリババ、自社のAIモデルが96%の精度でCOVID-19感染を特定すると発表

アリババの研究所Damoアカデミーは、自分たちが開発したAIベースの診断システムが最大96%の精度で新型コロナウイルスの症例を検出できると発表しました。この診断システムは、CTスキャンから、新型コロナウイルスと通常のウイルス性肺炎の違いを検出します。確認された新型コロナウイルスの症例5,000件以上を集めたサンプルデータで機械学習が行われています。Damoアカデミーによると、このアルゴリズムは20秒間でスキャン可能であり、最近の治療ガイドラインや最近発表された研究も含まれているということです。このシステムは湖北省、広東省、安徽省の100以上の病院で採用される予定だとアリババは述べています。

AIを診断に利用するため、概念実証を行った査読前論文

中国全土の大学、病院、研究所の専門家らによるこちらの論文は、CTスキャンの診断に利用される別の深層学習アルゴリズムについて詳しく述べています。モデルはCOVID-19感染が確認された症例と典型的なウイルス性肺炎と診断された症例から集めた1,119個の画像で学習が行われています。内部検証で89%、外部のテストデータセットで79%の精度を達成しました。
※こちらの論文は2020年3月23日時点で、まだ査読が行われていません。

Deepmind、新型コロナウイルスのタンパク質構造の予測を公開

Deepmindは、自社の最新Alphafoldシステムを利用してCOVID-19を引き起こすウイルスSARS-CoV-2に関連するいくつかのタンパク質の構造を予測したことを発表しました。AlphaFoldシステムは、深層学習アルゴリズムを利用して、非常に高い精度でタンパク質構造を予測し、タンパク質の3Dモデルを生成します。まだ試験・検証されていませんが、Deepmindは、この予測がウイルスの感染機構の解明や今後の治療薬の開発に役立つことを期待しています。

予測システム

(2019年12月30日) AIプラットフォーム「BlueDot」が新型コロナウイルスを検出

新型コロナウイルスの感染者の発生が公表されてから間もなく、AI駆動の「BlueDot(ブルードット)」プラットフォームがウイルスの感染拡大を予測していたことが報じられました。BlueDotは、感染症拡大の追跡、特定、分析を行うために設計されています。そして、それを可能にしているのは、公衆衛生機関や人口統計、さらには家畜の健康レポートまでを含む数千の情報源から収集したデータを分析する機械学習アルゴリズムです。データは健康の専門家とプログラマーのチームによってチェックされ、15分ごとに更新されています。

米疾病管理予防センター、COVID-19感染拡大を予測するため、機械学習に注目

米疾病管理予防センターは、新型コロナウイルスの感染拡大を予測するため、数十のチームに協力を要請しています。その中の一つ、カーネギーメロン大学のチームは、人間が確認してサポートしながら、機械学習アルゴリズムを利用してデータの流れを読み取り、リアルタイムの予測を行っています。

データサイエンスの視点から見たCOVID-19

3月19日、神沢雄大氏による「COVID-19と社会とあなた — データサイエンスの視点から」という記事が、Qiitaに投稿されています。この記事では、医療システムに求められている事柄や新型コロナウイルスとインフルエンザの違い、曲線の平坦化などについて解説しています。彼らのレポートは、今回の感染拡大や、過去の同様のイベント(規模ははるかに小さいとしても)についてデータからわかることを包括的に説明しています。この記事は15言語以上で利用できます。この投稿は”Covid-19, your community, and you — a data science perspective”を日本語に翻訳したものであり、15言語以上に翻訳されています。

ロボット工学: 中国、消毒ロボットを利用

COVID-19感染拡大を防ぐため、中国の病院では無人運転技術を使った消毒ロボットが利用されています。UVDロボッツ社が開発したこのロボットは、紫外線を利用して自律的に細菌をスキャンして殺します。

新型コロナウイルスのデータセット

地図データや国ごとの症例から致死率や性別分布まで、新型コロナウイルスの感染が確認さている国からのデータセットを以下にまとめました。

新型コロナウイルスデータセット: グローバル

  • 新型コロナウイルスCOVID-19(2019-nCoV)データレポジトリ: ジョンズ・ホプキンス大学とESRI社Living Atlasチームによって維持されているデータセット。データは世界保健機関(WHO)、中国疾病管理予防センター、米疾病管理予防センター、カナダ政府など複数のソースから収集されています。
  • 2019コロナウイルスデータ: ジョンズ・ホプキンス大学のデータセットをCSVファイル形式に変換したもの。2020年1月から2月までのデータが含まれる。
  • 新型コロナウイルス・ゲノム: 完全なCOVID-19ゲノムシーケンスを含むテキストファイル形式のデータセット。
  • COVID-19時系列+緯度/経度: データソースや国および地域のデータが含まれる新型コロナウイルスの症例データセット。症例が報告された国の緯度と経度の座標も含まれる
  • 完全なCOVID-19データセット: 世界中の新型コロナウイルスの症例データが含まれるCSVファイル。24時間ごとに更新される。
  • COVID-19 世界の症例: 新型コロナウイルス感染者数が国ごとに分けて記載され、定期的に更新されている。
  • Dimensions COVID-19: 学術研究データベースDimensionsから新型コロナウイルスに関連する全ての臨床試験、出版物、データセットを集めたレポジトリ。

新型コロナウイルスデータセット: オーストラリア

新型コロナウイルスデータセット: カナダ

新型コロナウイルスデータセット: 中国

  • 新型コロナウイルス: 中国および他国: 中国および他国の感染者数と治癒件数を比較したKaggleノートブック。比較に利用されたデータセットも含まれる。
  • 中国の地域マップ: 中国の地域に関するGeoJSON形式のデータセット。中国の地域ごとに新型コロナウイルス感染者数を表示するために利用可能。より大きなデータセットである TopoJSON-Githubから収集。
  • 致死率: 2020年2月11日時点での中国におけるCOVID-19の致死率を表示した小規模なデータセット。
  • 死亡者数および回復者数: 中国における新型コロナウイルス感染者数、死亡者数、回復者数を地域ごとに表示したデータセット。XLS形式またはPPT形式でダウンロード可能であり、データは定期的に更新される。
  • COVID-19感染者の年齢別分布: 2020年2月11日時点での中国における新型コロナウイルス感染者の年齢別分布を示すグラフ。
  • 性別分布: 2020年2月11日時点での中国における新型コロナウイルス感染者の性別分布を示すデータセット。

新型コロナウイルスデータセット: イタリア

新型コロナウイルスデータセット: 日本

  • 日本新型コロナウイルスデータ: 3月6日時点の日本の新型コロナウイルス感染者数を表示したデータセット。武漢から帰国して感染が確認された人の数と感染者総数の両方を表示。

新型コロナウイルスデータセット: 韓国

  • COVID-19(韓国): 韓国疾病管理予防センター(韓国CDC)からの情報を基にしたデータセット。韓国で確認されたCOVID-19患者の性別、生まれた年、地域、確認日、退院日などのデータポイントが含まれる。

こちらのデータセットは以下の形式にアップデートされています。

1. 症例.csv
症例ID / 道・特別市・広域市 / 市 / クラスター感染の有無 / クラスター名 / 確認された数 / 緯度 / 経度

2. 患者.csv
患者ID / グローバル変数 / 性別 / 生まれた年 / 年齢 / 国 / 道・特別市・広域市 / 市 / 持病 / クラスター名 / 感染順 / 誰から感染したか / 連絡先 / 確認日 / 退院日 / 死亡日 / 状態

3. ルート.csv
患者ID / グローバル変数 / 日付 / 道・特別市・広域市 / 市 / 訪問 / 緯度 / 経度

4. 地域.csv
コード / 道・特別市・広域市 / 市 / 緯度 / 経度

5. 時間.csv
日付 / 時間 / テスト / 陰性 / 確認 / 退院 / 死亡

新型コロナウイルスデータセット: 米国

お探しのデータを見つける上でこの記事がお役に立てれば幸いです。上記のリスト以外の特定の国のデータをお探しの場合は、最初の「グローバル」セクションのデータセットをご覧ください。また、生命科学、医療関連のデータセットはこちらにも紹介しております。

弊社は現在、テレワークを実施させて頂いております。今後も状況の変化に伴い、政府などののガイドラインおよびアドバイスを遵守してまいります。とはいえ、オンラインでAI学習データサービスの提供を継続していく予定です。ご質問やご懸念がある場合、あるいはAIプロジェクトでお手伝いが必要な場合は、ご遠慮なくお問い合わせください。

アラビア語音声コーパス

国立研究開発法人情報通信研究機構(NICT)では、先進的な音声認識及び自動翻訳技術の研究開発を推進しており、これらの研究開発における、アラビア語の音声翻訳対応のために必要な音声認識学習用コーパスを必要とされていました。

無料
機械学習用
音声コーパス
YouTubeビデオから抽出した10秒程度のサウンドクリップ他

随時追加中