Zoom でウェブ上のミートアップを開催中(2020.8.11)

DeepL翻訳は「主語の曖昧性」を解消できるのか

この記事の概要
この記事では、DeepL翻訳が誤訳する日本語の特徴を「主語の曖昧性」に焦点を当てて調査しました。その結果、日本語の一・二人称主語が適切に訳出される一方で、三人称の主語の取り違えが発生しました。さらに、プリエディットの手法も考察したところ、省略された主語を補完することで主語の取り違えを解消できたものの、誤訳が生じる例も見られました。

DeepL翻訳って?

DeepL翻訳は、ニューラルネットワークを用いた機械翻訳、いわゆるニューラル機械翻訳に分類される自動翻訳システムです。代表的なシステムであるGoogle翻訳では訳せない言葉をDeepL翻訳は訳せる事例が見られており、Google翻訳を凌駕した実力であると近年話題になっています。最近では、雑誌AERAでも取り上げられるほどです。

「Google翻訳では訳せないけれどDeepL翻訳なら訳せる」とは例えばどのようなものか。以下にいくつか挙げてみます。

昨日はバタバタしてました。
Google翻訳:I was fluttering yesterday.
DeepL翻訳:Yesterday was a busy day.

「バタバタ=忙しい」という擬態語はGoogle翻訳では “fluttering” と訳されますが、DeepL翻訳では “a busy day” と訳せています。

このように場合によってはそのまま使えるレベルの訳文を出力してくれるDeepL翻訳ですが、誤訳が無いというわけではありません。例えば、以下のように日本語の主語が曖昧である場合、DeepL翻訳では、主語の取り違えが発生するケースが見られます。

花子さんからの質問です。(花子さんは)機械翻訳にあまり慣れていないみたいです。
This is a question from Hanako. He is not very familiar with machine translation.

二文目の「慣れていない」のは「花子さん」であると予想できますが、自動翻訳結果では “He is not familiar with…” となっており、「慣れていない」のは “he(彼)” と訳されています。通常、花子という名前は女性に付けられるので、これは誤訳と判断できそうです。

では、このように主語が省略されていることによって生じる機械翻訳の誤訳はどのように解消できるのでしょうか。この記事では、DeepL翻訳が誤訳しやすい「主語の曖昧性」に焦点を当てて、DeepL翻訳の(現段階の)実力と限界を調査し、その結果から考えられるプリエディット(機械翻訳の誤訳を減らすために原文を編集すること)の手法を考察していきます。

この調査をする目的

そもそも、この調査を行う目的とは何でしょうか。大まかには、2つが挙げられます。

「機械翻訳が訳しにくい日本語の言語学的特徴を記述すること」

機械翻訳の精度が向上するにつれて、どのような日本語の特徴を訳せるようになったのか・まだ訳すことができないかを記述します。今回注目する「主語の曖昧性」も「言語学的特徴」の一つです。例えば、この記述は、自動翻訳結果を求められる品質に達するまで編集する際(ポストエディット)に、その修正範囲を予想する指標になりえます。また、機械翻訳システムの開発においても、システムが改善すべき側面を把握することは重要なステップでしょう。

「機械翻訳結果の誤訳を予防するような原文の編集方法(=プリエディット)を模索すること」

もしも訳せない日本語があるとすれば、どのように原文を修正すればそのような機械翻訳の誤訳を予防できるのかを考察します。プリエディットを行うメリットとは、例えば、多言語展開において全体の翻訳フローを効率化することです。目標とする言語が複数ある場合、共通である原文に編集を加えて自動翻訳の誤訳を減らすことで、目標言語のそれぞれの修正の負担を下げることが期待できます。詳しくはこちらをご覧ください。

どうやって調査するか

上記の目的を達成するために、DeepL翻訳に日本語を入力し、出力された英訳の誤訳を分析します。誤訳が見つかった場合、対応する原文の箇所(日本語)の特徴を記述します1)この調査で扱うテクストはほんの一例であるため、一般化することは困難です。あくまで事例として、一般化する前の小さなステップであることをご了承ください。

注意
DeepL翻訳の訳出結果は2020年4月時点のものです。機械翻訳の精度は日々変化しているため、記事で紹介した訳出結果が現在のものと一致しない可能性があります。

使用するテクスト

使用するテクストは、サッカーについての三人の会話です2)『外国語を身に着ける日本語レッスン(2003, p.62)』から引用。この会話は以下のような状況で交わされています。

  • 会話が三人以上で交わされている。
  • 競技場に試合を見に行ったことがあるのは一人だけで、後の二人は未経験である。
  • 一人が他の二人に質問し、質問された人たちがそれぞれ対応している。

実際の会話の内容は以下の通りです。

昨日のアメリカ対ドイツの試合を見た?
見たよ。ミュラーのシュートがすごかったな。」
「いや、ミュラーはただチャンスを最大限に利用しただけさ。何と言ってもその前のゲイヤーのアシストが良かったんだよ。どう思う?
「クラウス・ゲイヤー?頭脳プレーが得意だよね。ファンなんだ。
競技場で見ると面白さが違うって言ってたけど、本当かな?
この前競技場に見に行ったよ。
どうだった?
「迫力が違うよ。今度一緒に行かないか?

上記の例文では、太字の例文で主語が省略されています。省略されている主語を補完すると以下のようになります。補完の方法は引用元に従っています。

君たちは昨日のアメリカ対ドイツの試合を見た?
僕は見たよ。ミュラーのシュートがすごかったな。」
「いや、ミュラーはただチャンスを最大限に利用しただけさ。何と言ってもその前のゲイヤーのアシストが良かったんだよ。君たちはどう思う?
「クラウス・ゲイヤー?彼は頭脳プレーが得意だよね。僕はファンなんだ。
サッカーは競技場で見ると面白さが違うって誰かが言ってたけど、本当かな?
僕はこの前競技場に見に行ったよ。
その試合はどうだった?
「迫力が違うよ。僕たち今度一緒に行かないか?

このように主語が補完されていることにより、上記で説明した状況が明確になります。

このような口頭での会話は、書き言葉よりも文脈(コンテクスト)に依存する側面が強いと考えられます。なぜなら、口頭の会話ではコミュニケーションを取る相手とある程度の文脈(=最初に示した会話の状況などの、すでに伝えられた、もしくは伝えるまでもない自明の情報)を共有できており、そのことを聞き手も話し手も前提としているからです3)これはあくまでも、書き言葉を用いるコミュニケーション(これは、例えば、この記事を書いている筆者と、この記事を読んでくださっている読者のあなたとの関係性です)よりも既に共有されている情報が多いと推測できるからです。口頭での会話でも、文脈が共有されていない状態(≒話し手がすでに共有されていると誤って判断した状態)で情報を省略してしまうとミスコミュニケーションが発生してしまいます。このことを考慮すると、省略を予防するようなプリエディットは単に機械翻訳だけでなく、人のコミュニケーションにおいても有用な概念であると言えます。。その結果の一部として、主語が曖昧になる(≒省略される)ケースが目立つことも予想できます。

品質を評価する基準

本調査の焦点は「主語」なので、「主語を取り違えていないか=正しい主語が訳出されているか」を品質評価の基準に設定します。今回はわかりやすく一人称、二人称、三人称にわけて考えます。

DeepL翻訳の訳出結果

それでは、訳出結果を見ていきましょう。主語が問題なく訳出されている場合は青のマーカー、取り違えられているものを赤のマーカーでハイライトしています。

(君たちは)昨日のアメリカ対ドイツの試合を見た?」
Did you watch the US vs Germany game yesterday?
(僕は)見たよ。ミュラーのシュートがすごかったな。」
saw it. That was a great shot by Muller.
「いや、ミュラーはただチャンスを最大限に利用しただけさ。何と言ってもその前のゲイヤーのアシストが良かったんだよ。(君たちは)どう思う?」
No, Muller just made the most of his chance. If anything, it was Gayer’s assist before that that was good. What do you think?
「クラウス・ゲイヤー?(彼は)頭脳プレーが得意だよね。(僕は)ファンなんだ。」
Klaus Geyer? You’re good at playing with your brains. I’m a fan.
(サッカーは)競技場で見ると面白さが違うって(誰かが)言ってたけど、本当かな?」
You said it’s different when you see it on the field, but is that true?
(僕は)この前競技場に見に行ったよ。」
I went to the stadium the other day to watch it.
(その試合は)どうだった?」
How’d it go?
「迫力が違うよ。(僕たち)今度一緒に行かないか?」
The power is different. Would you like to go with me sometime?

原文の主語が省略されていても、DeepL翻訳は適切な主語を補完して英訳できる場合があるようです。これには、一人称の「僕(たち)」、二人称の「君(たち)」、三人称の「サッカー」「試合」などがありました。一人称と二人称では、それぞれ “I” “you” と適切に訳されている一方、三人称に関しては、“it” と無難に訳されています。

一方で、主語を取り違えている例が2点ありました。

「クラウス・ゲイヤー?(彼は)頭脳プレーが得意だよね。(僕は)ファンなんだ。」
Klaus Geyer? You’re good at playing with your brains. I’m a fan.

「頭脳プレーが得意」である人が「彼」(三人称)ではなく、”you” (二人称)になっています。前後の会話の流れ上、「得意」なのは「クラウス・ゲイヤー(=彼)」であることは明らかなので、この “you” は誤訳であると判断できます。

(サッカーは)競技場で見ると面白さが違うって(誰かが)言ってたけど、本当かな?」
You said it’s different when you see it on the field, but is that true?

「言ってた」の主語である「誰か」(三人称)が原文側で省略されており、DeepL翻訳はこれを “you” (二人称)で補完しています。文末の「本当かな?」と疑問を投げかけていること、後に質問をされた相手が「この前競技場に見に行ったよ。」と言っていること(もしも「競技場で見ると面白さが違う」と言ったのが同一人物だとしたら、競技場に行ったことを再度伝えるのは不自然です)、そして会話の条件の一つが「競技場に試合を見に行ったことがあるのは一人だけで、後の二人は未経験である。」であり、”you” が質問も回答もしていない3人目であるとも考えられないことから、「競技場で見ると面白さが違う」と「言ってた」のは “you” でないことは想像がつきます。そのため、”You said …” と訳してしまうのは誤訳に当たると言えます。

これらの誤訳に共通するのは、省略されている主語が「三人称」であるということです。この省略された三人称の主語は、言外の情報(ここでは、対象となる一文に含まれない情報という意味です)がない限り、推測できないことはわかります。例えば、一つ目の例では、前文の「クラウス・ゲイヤー」という人物の情報が、二つ目の例では、後に続く発言と会話にすら含まれない「会話の状況」が、省略された主語を推測・補完するヒントとなります。このような情報の処理は機械翻訳のシステム上、明示的に考慮されていません。このことから、省略されている日本語の主語が三人称の場合に、誤訳が発生しやすいことが示唆されます

以上が分析の結果となります。まとめると、一人称と二人称に関しては上手く訳せるケースが多いものの、三人称になると文脈の吟味が必要となるため、訳文の品質が怪しくなってくる(この場合、どちらの例も二人称で補完されました)ということです。

プリエディット手法の考察

この結果をもう少し展開して、上記の誤訳を予防するためにはどのようにプリエディットすべきかを考えてみます。上記の結果を考慮すると、三人称については省略せずに明確にした方がよさそうです。ここでは、本記事の「どうやって調査するか」で紹介した「主語の補完」の例を挙げます。この例では、以下のように主語を補完して、動作の主体(「誰が〇〇する・した」)を明確にしていました。

以下は、この補完の例(主語が省略されず明示化されているもの)をDeepL翻訳に入力した結果です。

君たちは昨日のアメリカ対ドイツの試合を見た?」
Did you guys see the USA-Germany game yesterday?
僕は見たよ。ミュラーのシュートがすごかったな。」
saw it. That was a great shot by Muller.
「いや、ミュラーはただチャンスを最大限に利用しただけさ。何と言ってもその前のゲイヤーのアシストが良かったんだよ。君たちはどう思う?」
No, Muller just made the most of his chance. If anything, it was Gayer’s assist before that that was good. What do you think?
「クラウス・ゲイヤー?彼は頭脳プレーが得意だよね。僕はファンなんだ。」
Klaus Geyer? He’s a great brain player. I’m a fan.
サッカーは競技場で見ると面白さが違うって誰かが言ってたけど、本当かな?」
Someone said that football is different when you watch it on the playing field, is that true?
僕はこの前競技場に見に行ったよ。」
I went to the stadium the other day.
その試合はどうだった?」
How was the game?
「迫力が違うよ。僕たち今度一緒に行かないか?」
The power is different. We should go together next time you’re in town.

上記の結果を一人称・二人称と三人称に分けて分析してみましょう。まずは、一人称・二人称について見てみます。

君たちは昨日のアメリカ対ドイツの試合を見た?
Did you guys see the USA-Germany game yesterday?
元の訳文:Did you watch the US vs Germany game yesterday?

主語の「君たち」を追加しました。主語の “you” が “you guys” に変更され、質問を投げかけている相手が複数人であることが明確化されています。

僕は見たよ。
I saw it.
元の訳文:I saw it.

主語の「僕は」を追加しました。訳出に変化はありませんでした。

僕たち今度一緒に行かないか?
We should go together next time you’re in town.
元の訳文:Would you like to go with me sometime?

主語の「僕たち」を追加しました。 “woule you like…(〜したいですか?)” という疑問文から “we should go(一緒に行こう)” という形式の提案文になっており、コアな意味に変化はありませんでした。しかし、その後に続く “next time you’re in town(今度あなたが街にいるとき)” の部分は原文に含まれないメッセージであり、これは前後の文脈と会話の状況からも読み取れない情報であるため、完全な誤訳と判断できます4)この予想外の誤訳はニューラル機械翻訳によく見られるものであり、プリエディットで扱える範囲外の問題です。そのため、プリエディット手法の作成と適用が困難である理由の一つと言えます。プリエディット手法を構築する指針としては、プリエディットによる誤訳の予防率と発生率のトレードオフを考慮しながら、場合によっては後に続くポストエディットで予想外の誤訳を修正するなどの対策も検討できると思われます。

次に、三人称について見てみましょう。

その試合はどうだった?
How was the game?
元の訳文:How’d it go?

主語の「その試合」を追加しました。元の訳文も誤訳ではありませんが、主語が “the game” に変更され、元の訳文の “it” の指示する対象が明確になっています。

サッカーは競技場で見ると面白さが違うって、誰かが言ってたけど、本当かな?
Someone said that football is different when you watch it on the playing field, is that true?
元の訳文:You said it’s different when you see it on the field, but is that true?

主語の「サッカー」と「誰か」を追加しました。”you” が “someone” に、”it” が “football” に変更されました(it に関しては、目的語から主語に品詞が変更されています)。「言ってた」の主語が “someone” となり、”it” で示されている対象が明確になっています。

まとめると、原文側で省略された主語を補完するプリエディットの手法で機械翻訳による主語(特に三人称の場合に効果が大きい)の取り違えを抑制できる例が多かったものの、一部では主語以外の訳文の箇所が変化し、場合によっては誤訳に繋がってしまうケースが見つかりました(今回の例では、この誤訳は三人称ではなく、一・二人称で発生しました)。

まとめ

この記事では、DeepL翻訳の出力された英訳文を主語の観点から分析しました。この調査でわかったことは以下の通りです。

  • 一・二人称主語が適切に訳出される一方で、三人称の主語の取り違えが発生した
  • 省略された主語を補完することで主語の取り違えを解消できる例が多かった一方、その他の箇所の訳文が変化し誤訳が生じる場合も見られた

今回の調査では、第一歩として主語の曖昧性による機械翻訳の誤訳の事例やプリエディットが与える影響を示すことができました。しかし、この結果は一般化が困難であるため、プリエディットのルールを作成することはできません。そのため、今後は事例の数を増やすともに、定量的な調査にも挑戦したいと思います。

References   [ + ]

1. この調査で扱うテクストはほんの一例であるため、一般化することは困難です。あくまで事例として、一般化する前の小さなステップであることをご了承ください。
2. 『外国語を身に着ける日本語レッスン(2003, p.62)』から引用
3. これはあくまでも、書き言葉を用いるコミュニケーション(これは、例えば、この記事を書いている筆者と、この記事を読んでくださっている読者のあなたとの関係性です)よりも既に共有されている情報が多いと推測できるからです。口頭での会話でも、文脈が共有されていない状態(≒話し手がすでに共有されていると誤って判断した状態)で情報を省略してしまうとミスコミュニケーションが発生してしまいます。このことを考慮すると、省略を予防するようなプリエディットは単に機械翻訳だけでなく、人のコミュニケーションにおいても有用な概念であると言えます。
4. この予想外の誤訳はニューラル機械翻訳によく見られるものであり、プリエディットで扱える範囲外の問題です。そのため、プリエディット手法の作成と適用が困難である理由の一つと言えます。プリエディット手法を構築する指針としては、プリエディットによる誤訳の予防率と発生率のトレードオフを考慮しながら、場合によっては後に続くポストエディットで予想外の誤訳を修正するなどの対策も検討できると思われます。

コメントを残す

メールアドレスが公開されることはありません。

CAPTCHA


このサイトはスパムを低減するために Akismet を使っています。コメントデータの処理方法の詳細はこちらをご覧ください