Hoarding Examples (英語例文等集積所)

いわゆる「学校英語」が、「生きた英語」の中に現れている実例を、淡々とクリップするよ

【再掲】機械翻訳において「流暢な誤訳」が生じるのはなぜか/同格, 比較級, 時制(バーミンガムの連続殺傷事件)

↑↑↑ここ↑↑↑に表示されているハッシュタグ状の項目(カテゴリー名)をクリック/タップすると、その文法項目についての過去記事が一覧できます。

【おことわり】当ブログはAmazon.co.jpのアソシエイト・プログラムに参加しています。筆者が参照している参考書・辞書を例示する際、また記事の関連書籍などをご紹介する際、Amazon.co.jpのリンクを利用しています。

このエントリは、2020年9月にアップしたものの再掲である。こちらは、前回のエントリとはやや異なり、技術がどれほど進もうと、古びる内容ではないと思う。流暢な機械翻訳を使うということは、こういうふうな、流暢さゆえに誤訳だと認識することも難しいような誤訳をどうするのかという新たな問題を抱えることでもある。こんな都合の悪い真実は、あまり大声では言われないと思うが、仮に、全体では「誤訳率は1%」であるとしても、誤訳された箇所にとっては「誤訳率100%」であるし、最大の問題は、その「誤訳率100%」の箇所がどこにあるかわからない状態で、出力された流暢な文面を読まねばならない(多くの場合は、ただ読むだけでなく、それを読んだうえで何かを判断しなければならない)ということである。

-----------------

今回は、前回の続き。

今回の本題は、前回のエントリの最後の方で見た「DeepL翻訳による流暢な誤訳」についての検討だが、その前に、前回エントリの発端となった例文について、機械翻訳という観点から少し補足しておきたい。

前回エントリの発端となったのは "There are cases where honesty does not pay" という文だったが、これのコアの部分、 "Honesty doesn't pay." は一種の成句で、日本語でも「正直者がバカを見る」という成句が対訳としてセットになっている。

機械翻訳においてはそこがキモで、この文が常にこの形のままで使われるならその対訳セットを常に当てはめておけば構わない。("doesn't" を "does not" と表記することもあるというのなら、その表記のパターンもセットに加えて、覚えさせてしまえばよい。日本語の漢字変換のイメージでいうと、「重複」という漢字に「ちょうふく」と「じゅうふく」を対応させておく、という感じだ。)

だが、 "Honesty doesn't pay." =「正直者がバカを見る」という対訳が成立するからといって、 honesty という英単語に「正直者」という意味があるかどうか、doesn't pay というフレーズに「バカを見る」という意味があるかどうかというと話は別だ。「正直者がバカを見る」という日本語は、この英文を翻訳したものではなく、この英文とは別個に日本語の中に存在している成句で、たまたま意味(意味されるもの)が同じだから対応関係にある、というだけの話であり、この対訳ペアから、その文を構成する語(単語)の語義を導き出すことはできない。

機械翻訳は《意味》を考えない」というのはまさにそういうところで、機械翻訳が出力するのは、私たち人間が使っているような「《意味》あってのことば」ではないのである。 "Honesty doesn't pay." が「正直者がバカを見る」になるのは、「正直さがペイしない」という直訳よりも「正直者がバカを見る」の方が、同じ意味内容を表す日本語として、自然だからである。

同じような「自然だから」で成立している対訳ペアとして、"Nice to meet you." = 「はじめまして」が挙げられる。これも、nice, meetといった英語の単語それぞれに「はじめ」や「まして」の日本語の単語の意味があるわけではなく、英語のフレーズ全体で言っていること(意味)を表す日本語のフレーズが「はじめまして」である、というだけの関係だ。

それを、This is Mr Smith. =「こちらはスミスさんです」の対訳ペア(this = 「こちら」、Mr Smith =「スミスさん」)のように扱うことはできないし、扱ってはいけない。しかし「そのように扱ってはいけない」ということは、人間なら普通に考えて判断できるかもしれないが、機械には判断できない。機械は「普通に考える」ということをしないからだ。

"Nice to meet you." レベルで「見るからに成句」だとまだやりようがあるかもしれないが、 "Honesty doesn't pay." となるとなかなかに厄介だ。そもそも honesty は「正直さ」という意味であって、「正直者(正直な人)」という意味はない、ということは、機械は理解していない(そもそも機械は、何かを理解するということはしない)。

英語のhonestyが日本語で「正直者」に対応しているケースはほかにもあるだろうが、それでもhonestyという語自体が「正直者、正直な人」という語義を持っているわけではない。たまたま、日本語ではそういう言葉で表現するのが自然だ、というだけだ。例えば文芸作品の翻訳で、"I trust him because he's honest." という文を「わしはフィンバーのせがれを信用しとるよ、何せ正直者だからな」と訳出しているというケースを想定してみよう。その場合、himという単語自体に「フィンバーのせがれ」という意味がある(どんな文脈でもhimという語が出てきたら「フィンバーのせがれ」と解釈できる)わけではなく、その文脈ではそういうことであり、日本語では「彼」などとするよりもそう言葉にした方が通りがよい(自然だ)というだけのことだ。"he's honest" を「正直者だ」としているのも同様で、訳者は「奴は正直だから」とアウトプットすることもできたのに、何らかの理由(おそらく「その方が通りがよい」という理由)で「正直者だから」としている、というだけのことで、honesty自体に「正直者 (an honest person)」という《意味》があるわけではない。

だが、"Honesty doesn't pay." =「正直者がバカを見る」という対訳ペアを与えられた機械は、そういうことは考えない(そもそも機械は考えないので、より正確な言葉遣いをするならば、「考慮に入れない」、すなわち「計算過程に介在させない」ということになるだろうか)。

それどころか、前回引用した@yunodさんの連続ツイートで指摘されていた通り、"Honesty doesn't pay." が "Honesty does not pay." になっただけで、対訳ペアが見つけられなくなって(古の、文法ベースの機械翻訳ではこういう問題は起こりにくかったのではないかと記憶している)、"Honesty doesn't pay." から「正直者がバカを見る」の太字部分を引っ張ってきた上に、内部で別の対訳ペアを参照し、そこから、何の合理的根拠もなしに、 "doesn't pay" =「(お)金を払わない」というのを引っ張ってきて、両者をくっつけ、最後にどういう理由か日本語の助詞の「が」を「は」にするという流暢化を行なって、「正直者はお金を払わない」というものを、「訳文」と称して出力する。

これが機械翻訳のやることであり、「流暢な誤訳」の生じるプロセスである。

というわけで今回の実例。前回最後の方で言及した「流暢な誤訳」の生じた文について。出典の記事はこちら: 

www.bbc.com

 

私のこのツイートで例として使った文。《同格》やら《時制》やら《比較級》やらで何だか大変そうな文である: 

Witness Cara Curran, a club promoter working in the Arcadian Centre, said it had been busier during the evening than it had been at any time since the start of lockdown.

DeepL翻訳が出力した「アルカディアンセンター*1で働いているクラブのプロモーターである目撃者のカーラ・カランは」は、《同格》でだらだらと長くなったものが、問題なく出力されている例だ。人名や施設名、職業など、どの単語も、機械で処理するとなるとわりと難しいと思うのだが、"Cara Curran" が人名であることも、"a club promoter" が職業であることも何となくわかっていそうで(「何となく」ということは強調しておかねばならないのだが)、この点は正直、技術の進展に素直に感心してしまう(昔の機械翻訳を少しは知ってるからね)。

だがその次、「ロックダウンが始まって以来、夜の間はいつにも増して忙しくなっていたと話しています」は、とても流暢なのでこの日本語だけを読んでいたら何もひっかからないかもしれないが、実はとんでもない誤訳という厄介なものだ。

いや、慎重に読みさえすれば、この日本語だけを読んでもおかしいということには気づくだろう。なぜならこの日本語はそのまま解釈すれば、「ロックダウンが始まったあと、夜遊びでクラブに来る人が増えて、忙しくなった」と言っているからだ。先入観がある読者は、新宿か? 歌舞伎町か? 夜の街か? 東京アラートか? という連想が即座に働いて、「イギリスでも同じだな!」と結論してしまうかもしれない。だがそれは事実に照らして正しくないし、元の英文に照らしてさえ、全然正しくない(それが「誤訳」というものである)。

DeepL翻訳の出力結果でうまく処理できているのは《時制》だけである。この《過去完了》と《過去》を「~していたと話している」と処理しているのは、日本語の報道文の文体として完全に自然だ。だがこの処理がうまくいっているのは、おそらく偶然の産物だ。私がコピペで入力したこの文が報道文だったから、日本語の報道文の文体で出力されても違和感がないというだけの話である。ものによっては「…と話していた」と過去形にしないと違和感がある場合もあるだろう。

問題のある個所を丁寧に見てみよう: 

it had been busier during the evening than it had been at any time since the start of lockdown.

これは文の動詞のsaidの目的語になっているthat節(thatは省略されている)で、節内の主語itは先行する単数の名詞、 "the Arcadian Centre" (施設名)である。つまり「クラブがbusyだった」と言っているので、このbusyは「忙しい」ではなく「混雑した」だ。

機械は代名詞を読み解かないし、こういうことを考えて訳語選択の判断をすることもない。人間なら、少なくとも「翻訳」という作業を多少は専門的にやっていれば、必ずその代名詞の読解と適切な訳語選択という過程を通して日本語をアウトプットする。

busyは「むぎゅむぎゅと詰まっている」というのがコア・イメージで、それが人の様子について言うのなら「その人の予定帳はやることや先の予定でぎっしり」という感じだし(「忙しい」)、街路や建物内などの空間について言うのなら「その空間は人や車でぎっしり」だし(「混雑した」)、電話回線なら「すでにふさがっているので新たにはつながらない」ということだ(「電話がつながらない」)。人間ならそのどれがその場合にふさわしいかを瞬時に判断して訳語を選択する。機械翻訳が引っ張り出してくる訳語は、機械は機械なりにコンテクストを読むなどの作業はバックグラウンドでやってはいるにせよ、ぶっちゃけて言えば「たまたま」「偶然」「まぐれ」といった性質の何かによって決定されている。うちら人間は「まぐれ」で訳語を選ぶということはしない。人間が訳せば「昨日は環七が混んでいたが、今日は山手通りが忙しかった」になることはありえないが、機械が訳したらそうなることもありうるのだ。

 

さらに細かく見てみよう。

it had been busier during the evening than it had been at any time since the start of lockdown.

太字にした "the evening" はこの記事(バーミンガムで9月5日の夜に発生した連続殺傷事件についての報道記事)の文脈では「その晩」で、「事件のあった晩」のことだが、そういう文脈がない場合でもeveningという単語は定冠詞のtheを伴うのが普通で、つまり "the evening" とあるだけでは「ある特定の晩、その晩」なのか「(一般的に)晩」なのかは判断できない。それを判断するのが人間の仕事で、少なくとも英語から日本語への翻訳ではその作業が欠かせない(が、意識してやってる翻訳者はまずいないと思う。このくらいのことは無意識にできるくらいの能力がある人しかできない仕事だから)。

下線で示した部分はシンプルな《比較級》で、「その晩は~よりも混雑していた」という意味になる。

そしてthan以下、"it had been at any time since the start of lockdown" の主語itは先ほどのitと同じで、the Arcadian Centre のこと。"at any time" は「いかなる時点においても」で、直訳すれば「ロックダウンの開始以来、いかなる時点においてもそうであった(混雑していた)のに比べて」となる。

つまり、「その晩は、そこ(=アーケイディアン・センター)は、ロックダウンの開始以来、いかなる時点においてもそうであった(混雑していた)のよりも混雑していた」というのが直訳(訳読した結果)である。こんな読みづらい日本語を他人様にお読みいただくわけにはいかないのでもろもろ調整すると「その晩は、ロックダウンが始まって以降、一番、混雑していた」となる。だが、「混雑していた(客が多かった)」といっても、新型コロナウイルスの問題が出てくる前ほどは混雑していなかっただろうから(ロックダウン後の店の営業再開には、ソーシャル・ディスタンスの導入が必須である)、「その晩は、ロックダウンが始まって以降、一番、お客さんが多い晩だった」っくらいに訳出するのが平凡で穏当なところだろう。人力翻訳ならばね。

だが機械は……と、ここでDeepLの出力結果を見ると、脳の言語野がバグって深刻なダメージを受けるので、見ないことにさせてください。変な日本語は見たくない。

それにもう、今回、5800字に達しているんだ……終わります。

 

f:id:nofrills:20201006171926p:plain

 

参考書:  

英文法解説

英文法解説

 
通訳翻訳ジャーナル 2020年7月号

通訳翻訳ジャーナル 2020年7月号

  • 発売日: 2020/05/21
  • メディア: 雑誌
 
機械翻訳:歴史・技術・産業

機械翻訳:歴史・技術・産業

 

 

 

 

 

 

 

 

*1:より厳密に英語としてカナにするなら「アルケイディアンセンター」や「アーケイディアンセンター」になるだろうが、この揺れは許容範囲である。

当ブログはAmazon.co.jpのアソシエイト・プログラムに参加しています。筆者が参照している参考書・辞書を例示する際、また記事の関連書籍などをご紹介する際、Amazon.co.jpのリンクを利用しています。