目次

リーガルテックとは?

リーガルテックとは、リーガルサービスを提供するために使用される技術のことです。リーガルテックを開発している企業は一般的に、リーガル市場を革新的な技術で、法務の自動化を支援することを目的としています。例えば、Legal ForceはAIを用いた契約書レビューのサービスを提供しています。

AIは幅広い業種で大きなニュースになっていますが、法律のAIはあまり思い浮かびません。しかし、AIは既に多種多様な場面で法律分野を変革しています。まず、従来の煩雑な過程をストリーミングしており、専門家はより高度なタスクに注力できるようになっています。

法律分野の機械学習アプリケーション開発に興味をお持ちの方のために、高品質の公開データセットをまとめました。

リーガルテックに使えるデータセット

  1. Legal Case Reports: 自動要約と引用分析のための4000の訴訟事例の文例集。各ドキュメントについてキャッチフレーズ、引用文、引用キャッチフレーズと引用分類が含まれる。
  2. Department of Justice Open Data: 米国司法省が2013年に公開した価値の高いデータセットで、犯罪関連のデータや、統計報告等の未加工データが含まれる。
  3. 究極の裁判データベース: SCDBは1791年から2017年までに裁判所で決定された訴訟についての200件以上の情報を収録。
  4. 判例法アクセスプロジェクト (CAP): 判例法アクセスプロジェクト (CAP) APIとバルクデータサービスは、 360年間の米国判例法に従い、4000万ページの米国の判決と約650万件の個別の判例を収録。
  5. 司法局: 法執行局、刑務所、保護監察局、法廷についてのデータがみつかる。
  6. 特許訴訟: 52年間にわたる500万以上の関連文書の74000例以上を扱う。訴訟側、その法定代理人、結果、場所、日付の詳細を記載したファイル五種類。
  7. Google特許公開データ: 国際特許システムの実証的分析用に公開された関連データベーステーブルのコレクション。
  8. カリフォルニアの犯罪と法の執行: カリフォルニア州の犯罪率と法執行職についてのデータ。
  9. クレジットカード契約データベース: 数百人以上のカード発行者のクレジットカード契約のデータベースを保有。

リーガルテックに使えるデータセットをお探しですか?

お探しのデータセットが見つからない場合は、当社がご用意いたします。こちらから、お気軽にご相談ください

アラビア語音声コーパス

国立研究開発法人情報通信研究機構(NICT)では、先進的な音声認識及び自動翻訳技術の研究開発を推進しており、これらの研究開発における、アラビア語の音声翻訳対応のために必要な音声認識学習用コーパスを必要とされていました。

無料
機械学習用
音声コーパス
YouTubeビデオから抽出した10秒程度のサウンドクリップ他

随時追加中