目次
機械翻訳とは?「機械翻訳」と「自動翻訳」の違いは?
機械翻訳とは、コンピュータによって行われる自動翻訳のことをいいます。「機械翻訳」と「自動翻訳」はどちらも、機械によって自動的に行われる翻訳なので同じことだと思われるかもしれませんが、実際には意味が少々異なります。自動翻訳を行う際に、機械翻訳の技術が使用されると、といったほうが正確でしょう。また、「自動翻訳」は主に音声の自動翻訳を指す場合に使われます。
過去10年間で翻訳サービスは飛躍的に成長し、ハードウェアデバイスも翻訳サービスに含まれるようになりました。例えば、Microsoft翻訳は文章だけでなく音声や画像、道路標識まで翻訳します。 GoogleやFacebook翻訳も日常的に広く使用されています。AIのおかげで翻訳のスピードや精度はどんどん向上しています。
機械翻訳の種類には、ルールベース機械翻訳(rule based machine translation)、ニューラル機械翻訳(neural machine translation)、統計的機械翻訳 (statistical base machine translation) 、があります。
ルールベース機械翻訳
まず、ルールベース機械翻訳 (rule based machine translation) は、1970年代後半から一般的な仕組みとなり、登録済みのルールを適用することで原文を分析し、訳文を出力する機械翻訳の方法です。ここでいう「ルール」は文法です。
1954年、Georgetown experimentではルールベース機械翻訳によって60以上のロシアごの文章を翻訳することができましたが、6つのルールと250単語しか扱っていませんでした。また、1967年に設定されたSYSTRANは、米国防省や欧州委員会などにルールベースで機械翻訳された文章が提供されました。1980年代、PC技術の普及と性能向上とともに、ルールベース機械翻訳のソフトウェアがPC向けパッケージとして販売もさました。しかし、ルールベース機械翻訳は、結局は人手で設備されたルールに基づくものなので、精度が向上しないままとなってしまいました。
ルールベース翻訳の次に研究されたのが、1980年代後半から1990年代初期にExample based machine translation(用例に基づく機械翻訳)で、翻訳の事例を含む対訳コーパスを利用する手法でした。
ニューラル機械翻訳
ニューラル機械翻訳とは、ルールベース機械翻訳と統計的機械翻訳と比べ、比較的新しい技術です。2014年から登場し、2016年、Googleが発表したGoogle翻訳ではニューラル機械翻訳が利用されており、機械翻訳の品質が飛躍的に向上しました。
ニューラル機械翻訳には、単語列(シーケンス)から単語列を発生させる seq2seqというニューラルネットワークがベースとなっています。対訳コーパスを学習データとし、単一モデルのトレーニングを行うだけでEnd-to-endで翻訳モデルが構築できます。
また、モデル作成には、2018年に提案されたOpenAIのGPT、ELMo,GoogleのBERTなども活用されます。OpenAIのGPTは文章生成モデル、ELMoはLSTM双方向LSTM(Bidirectional LSTM)を用いて大量のコーパスを学習し、同じ単語でも文脈によって異なる埋め込み表現を獲得することができる手法、そしてBERTは自然言語処理向けの事前学習技術です。これらの自然言語処理技術は、Transformerモデルという、CNNやRNNを使わずに、アノテーション機構のみでベンチマークデータセットにおける質疑応答などのタスクにて高精度を達成している技術を活用しています。
ニューラル機械翻訳では、ネイティブ話者が話すような自然な出力し、TOEIC900点以上の人間と同等の英訳文も生成可能だと言われており、既にロボティクスや自動運転など、様々な分野において広く導入されています。また、言語技術は機械翻訳に限らず、音声合成、音声認識、文字認識など、言語に関わる各種認識処理などでも利用されます。
統計的機械翻訳
統計的機械翻訳 (statistical base machine translation) は、1980年代後半からIBMの研究グループが研究に取り組み、1990年以降主流となった仕組みで、対訳データで機械翻訳をトレーニングさせる方法です。単語の翻訳確率や並び替えの確率など、対訳コーパスから統計的な情報として学習していきます。本記事では、統計的機械翻訳のトレーニングに使える対訳コーパスを紹介していきます。
AIによる自動翻訳は、翻訳サービスに新しい機会をもたらす
AIの進歩に伴って翻訳者へのニーズが無くなってしまったのではなく、新しい経済が生み出され、翻訳者はAIシステムのトレーニングのために至急大量に必要とされる多言語データへの需要に対応しています。
機械翻訳(自動翻訳)ツールを紹介
機械翻訳(自動翻訳)ツールの機能やサービス内容をいくつかご紹介していきます。
DeepL翻訳: 最先端のニューラルネットワーク技術を駆使して開発された、超高性能な機械翻訳システムです。英語、日本語、ドイツ語、フランス語、スペイン語、ポルトガル語、イタリア語、中国語などに対応可能。
ロゼッタ: ロゼッタのAI自動翻訳「T-400」はユーザー企業毎のど国の社内表現や言い回しを学習し、より高精度の自動翻訳を提供しています。医療、化学、法務、IT、金融などの専門分野でも95%の精度を達成し、英語・日本語をはじめに100言語に対応可能。
Mirai Translator: ニューラル機械翻訳を搭載する機械翻訳サービスで、23言語ペアに対応可能。固有の商品名や専門用語等の名詞の辞書登録機能を利用して、職場全体で、より高い精度での翻訳処理が可能です。定型表現として翻訳したい文章には、翻訳メモリ機能で翻訳結果を定型化することができます。翻訳データ処理を国内サーバで完結しているので、企業のクラウドサービス利用時のセキュリティ要件や各種情報保護規定へ対応します。翻訳機能としては、テキスト翻訳とファイル翻訳処理機能を実装しています。
対訳コーパスとは
多くのAIシステムと同様に、機械翻訳が良質な訳文を生み出すためには、大量の学習データが必要です。対訳コーパス(パラレルコーパスともいう)とは、二言語間の大量の訳文テキストを構造化したものです。機械翻訳アルゴリズムによる高品質な翻訳を実現するためには、通常、翻訳家によって生成されたデータを用いたトレーニングが行われます。
機械翻訳に使える対訳コーパス(パラレルコーパス)
それでは、機械翻訳の学習に使える訳文データは、どこで入手すればよいのでしょうか。そのような要望に答えるために、今回はウェブ上で探し出した究極の対訳コーパスをまとめてみました。
- 日本語対訳データ: 日本語を対象とする機械翻訳システムの構築に利用できる言語資源のリストです。主に日英翻訳の資源を取り上げていますが、最後の方に多言語に対応したコーパスもいくつか取り上げています。リストに掲載されている資源は、対訳文からなるコーパスで、統計的機械翻訳システムの学習に利用できます。各項目は名前、リンク、文数、説明、研究・商用利用の可能性とおおよその金額などが入っています。主に10万文以上からなるコーパスを中心にリストアップしていますが、小さいものも一部載せています。
- 第36回カナダ議会議事録対訳集: 英語とフランス語の二言語による対訳コーパス。
- 欧州議会議事録対訳コーパス 1996〜2011: 欧州の21カ国語の訳文から成る対訳コーパス。
- グローバル・ボイス対訳コーパス: ニュースポータルサイト、グローバル・ボイスの記事の一部を57カ国語で提供。
- RATS言語識別: アラビア語、ペルシャ語(ファルシ語)、ダーリ語、パシュトー語、ウルドゥー語の電話による会話を約5,400時間分集めたもの。 音声セグメントのアノテーション付き。
- 中国語・フランス語テキスト: 中国のニュース放送からおよそ30,000字分の中国語の文章を収集し、フランス語の訳文と共に提供。
- Arabiziテキスト: 英語とArabizi (チャットで用いられるアラビア語の表記方法) を混合したテキストの中から自動的にコードスイッチングを検出するための学習データ。522件のツイートを含む。
- 英語・ベトナム語テキスト: 英語の文章とベトナム語訳文を500,000対含むコーパス。
- 英語・ペルシャ語テキスト: 英語とペルシャ語の訳文を 200,000対以上含む。
- 中国語・英語の電子メール: 電子メールから中国語15,000字分 (約10,000語相当) を収集し、英語の参考訳を付けたもの。
- フランス語・アラビア語新聞: 10,000語に相当するアラビア語の文章を収集し、それに対応する二種類のフランス語の参考訳を付けたもの。原文は 2013年5月に『ル・モンド・ディプロマティーク』のアラビア語版から収集した記事。
- パシュトー語・フランス語テキスト: 106時間分のパシュトー語の音声記録をフランス語に翻訳したもの。
- ドイツ語・英語テキスト: 単語アライメントのために手動翻訳を行なったドイツ語・英語の対訳コーパス。
- トルコ語・英語テキスト: WMT2018のためのトルコ語・英語の対訳コーパス。
- 国連翻訳テキスト: 国連の文書を六カ国語で提供。
- XhosaNavy: 英語とコサ語による南アフリカ海軍の対訳コーパス。
- ウィキペディア: ウィキペディアから抽出した文章を20カ国語で提供する対訳コーパス。
- 英語・クロアチア語: 英語とクロアチア語の訳文から成る。
- カタルーニャ語・スペイン語: カタルーニャ政府の官報からの文書をカタルーニャ語とスペイン語で提供。
- 英語・日本語: ウィキペディアの京都に関する記事を手動翻訳した約500,000対の英語と日本語の文章を含む。
- 中欧の電話の会話: チェコ語とスロバキア語の電話による会話、約44時間分をアノテーション付きで提供。
- 南アジアの電話の会話: ベンガル語、ヒンディー語、パンジャブ語、タミル語、ウルドゥー語による電話の会話を約118時間分、アノテーション付きで提供。
- トルコ語の電話の会話: トルコ語の電話の会話を約18時間分含む。
- 中国語ツリーバンク: 中国のニュースワイヤー、政府文書、雑誌の記事、様々なニュース放送から約150万語の文章が収集されている。各文に統語構造アノテーションが付与されている 。
- アラビア語ニュース放送トランスクリプト: 2008年と2009年に収集されたアラビア語のニュース放送の約37時間分のトランスクリプト。
お探しのデータセットが見つからない場合
お探しのデータセットが見つからない場合は、当社が既存のパッケージデータセットからご用意いたします。追加作成分もお手伝いします。音声、画像、動画、アノテーション等のサービスを提供し、研究開発を支援しております。音声データの文字起こしや音韻表記など、様々なデータやアノテーションタイプに対応できるため、多言語チャットボット、OCR、顔認証、自動運転など、幅広い研究開発向けの教師データをご用意できます。