Hoarding Examples (英語例文等集積所)

いわゆる「学校英語」が、「生きた英語」の中に現れている実例を、淡々とクリップするよ

機械翻訳に関するメモ(何がどのようにできないのか)【2022年8月版、Google翻訳、英語→日本語】

↑↑↑ここ↑↑↑に表示されているハッシュタグ状の項目(カテゴリー名)をクリック/タップすると、その文法項目についての過去記事が一覧できます。

【おことわり】当ブログはAmazon.co.jpのアソシエイト・プログラムに参加しています。筆者が参照している参考書・辞書を例示する際、また記事の関連書籍などをご紹介する際、Amazon.co.jpのリンクを利用しています。

今回は、いつもと趣向を変えて、機械翻訳についてのメモを。

先日来、当ブログを休載して、ウィキペディア英語版のcultural Marxismの項を日本語にするという作業をやっている。これが、予想外に難航している。ざっと読んだとき、つまり自分が百科事典から情報を得るように読んだときには気にならなかった記述のクセがどうにも難物で(ぶっちゃけ、拙い)、「翻訳」である以上は原文から離れるわけにはいかないのだが、ウィキペディアの場合は原文をそのまま翻訳すればいいというものでもなく、これをこのまま日本語にしたところで、日本語の百科事典として果たしてどのくらいの意味があるのかがわからず、結局、英語版のウィキペディアでソースとして参照されている論文や記事などを読んで、もろもろ匙加減のようなものを判断することになっている。

とりあえず、主要な部分は今日の時点でだいたい作業完了している(体裁などはまだこれから手を入れるが)。

ja.wikipedia.org

さて、この作業を行うにあたり、ウィキペディアに備わっている「翻訳」の機能をチェックしてみた。

ウィキペディア日本語版は最近見た目(レイアウトとデザイン)が変わったのだが、ログインした状態で右上にある人の形のアイコンの横にある上下方向のボタンをクリックすると、下記のようなメニューが出てくる。この「翻訳」(添付図、ピンク色の枠内)をクリックすると、翻訳用特設エディターへの入口みたいな画面が開く。

理念的には便利そうなのだが、これをそのまま「翻訳」のために使うということは私はしていない。なぜなら、ウィキペディアに埋め込まれているのは、原文(英語)を機械翻訳ウィキペディアではGoogle翻訳を使っている)に投げて、その出力結果(訳文、とされているもの)を表示し、「変なところは修正する」という作業を前提とした2ペインのエディターで、つまり機械翻訳に下訳をやらせて人間が推敲・修正するという、機械翻訳信奉者がイメージしている通りのことができる環境なのだが、実際には、機械翻訳に下訳なんかできないからだ。使い物にならない。これはひがみとかで言ってるわけではない。私だって、機械が下訳してくれるんなら、やってもらいたい。だってダルいもん。

実際のところ、機械翻訳に任せることができるのは、せいぜい、外国語で書かれた化学物質の名前を、人間がいちいち辞書を引いたりすることなく、日本語にする、という程度の作業だ。

最近は句動詞の処理もうまくなっているし、動詞の訳語もこなれた感じになってきているから、出力結果(「訳文」)の見かけ上の「流暢性」は、例えば1980年代までの学者が訳した外国語文献ではありがちだった生硬さや、堅苦しさにあふれた人力翻訳の文よりも、ひょっとしたら上かもしれない。だから、「専門家が見たら粗はあるのかもしれないけど、そこまでこだわらなければ使えるんじゃね」と思われるかもしれない。でも、それは見てわかる部分だけにごまかされてる。断面部分に具がたっぷり入ったサンドイッチに手が伸びてしまっている状態だ。実際にはそのサンドイッチには、断面部分にしか具は入っていない。

では具体的に、何がどうダメなのか。

そういうことを、今回のウィキペディアの作業で扱った3000語程度の文から偶然見つけたものを通じて、書き留めておきたいと思う。

なお、機械翻訳に下訳をやらせるということをしていないのなら、何をしているのかというと、ウィキペディアの翻訳では非常に煩雑なウィキペディア内リンクの作業をやってもらっている。内蔵翻訳エディターは、例えば英語のsocial mediaというページ見出しが、日本語では「ソーシャル・メディア」(ナカグロあり)なのか「ソーシャルメディア」なのかをいちいち人力で調べなくても、自動でリンクしてくれるっぽい挙動になっていたので、これは煩雑なだけで翻訳そのものとは関係のない作業が楽になるかもしれない、と思ったのだ。

実際にやってみると、そういうわけでもなかったのだが……。

というわけで、見つけた問題点を列挙していくことにしよう。

機械がわかんないものはしれっと訳抜けする

機械は、わけのわからない単語や表現に出会うと、そこで動作を停止してしまう。いや、停止してくれたってかまわない。適当に判断して嘘八百を並べ立てた訳文をでっちあげるくらいなら、停止してくれたほうがいい。

でも、「ここ、わかんなかったんで、空欄にしてあります」みたいな印はつけてほしいよね。

現実には、単にぶった切って終わりだ。

上図の例では、 "bête noire" というフランス語からの外来語表現が "bêtes noires" と複数形になっていることで混乱して、処理を打ち切っている。

人間翻訳者(私)がフランス語は多少知識があるから複数形が原因だということがわかったけど、これが私にはまったくわからない言語(例えばルーマニア語)からの移入語だったら何が何なのかすらわからないだろう。

こういうときは、「機械にはわかりませんでした。ぴえん」とかいう記号を付けておいてくれれば、それでいいのだが、単にぶった切られても、こっちがぴえんだ。

 

原文が英語の場合、固有名詞はとりあえず英語読みされる

そこのあなた。英語の文章の中にHerbertという人名が出てきたら、どう読むだろうか。

そう、「ハーバート」だ。普通はそれでいい。

だが、そのHerbertがドイツ人だった場合、英語では「ハーバート」と英語読みしてしまうかもしれないが、その英語の文を日本語にするときは、Herbertという人名もドイツ語読みで「ヘルベルト」とカタカナにすることになっている(特殊な場合を除く)。

というわけで、Herbert Marcuseは「ハーバート・マルキューズ」ではなく「ヘルベルト・マルクーゼ」なのである。

この例は、出力結果の画面上では「ハーバート・マルキューズ」となっていたが、カーソルを走らせてみたら「ヘルベルト・マルクーゼ」も出てきた。キャプチャ画像左のエディタ―部分の2ペインと、右の書式設定みたいなところのカラムは、別々の機械の処理で出力されているのだと思う。つまり、英語版の記事にあるウィキペディア内リンクを、ウィキペディア日本語版で参照して出力結果(「訳文」)の画面に出しているのではなく(それは右側のカラムでやっている)、ただ単に左ペインの文字列を文字列として処理して右ペインに出力・表示しているだけ。左ペインの「Fascist」が右ペインで「ファシスト」と出力されて、リンク先も正しいのは、偶然。この偶然の頻度が上がれば、機械翻訳界隈でいう「精度が高い」ということにあるが、それは「精度」という言葉で語るべきものとは違うと思う。

 

おそらく教師データがダメなので、ありえないレベルの滅茶苦茶な誤訳が出る

下記の例を見て「この機械翻訳は使える」と言う先生がいたら、その先生とはお別れしたほうがいい。そういうレベルの滅茶苦茶な誤訳を、機械はやりうる(こういう語訳は、辞書を引くということをしない人間もやりうる)。しかしこんな短いパラグラフで、2か所も、致命的な誤訳をするか? そんな性能のものを、「翻訳です」っつって一般に提供しないでほしい。

ちなみに、Christian rightといえば「キリスト教右派」のこと。妊娠中絶反対、離婚反対、同性結婚反対、っていうか同性間の恋愛を認めず、「治療」しようとするような人たちのこと。(これがイスラム教になるとzealotとかfanaticという言葉が使われるというオリエンタリズムど真ん中の表現でもある。)

 

「そんな日本語ないでしょ」ってものを出力してよこしてくる

この項は画像のみ。テキストにすると検索ノイズになっちゃうと思うんで。

 

こんなところです。

もっとまじめに機械の出力結果を見ればもっとたくさんの変なところが見つかると思うけど、私はざっと目を走らせてリンクを拾うついでに目についたおかしなところを拾っているだけなので、この程度で済んでいる。

本気で見たらこんなものでは済まないでしょう。

なお、Googleにせよ他のエンジンにせよ、機械翻訳は原理的に、今回の出力結果が次回も出力されるとは限らないので、上記のものは2022年8月上旬の例だということは、このメモを踏まえて何かをされる場合には踏まえておいていただければと思います。

 

※3800字

 

 

 

当ブログはAmazon.co.jpのアソシエイト・プログラムに参加しています。筆者が参照している参考書・辞書を例示する際、また記事の関連書籍などをご紹介する際、Amazon.co.jpのリンクを利用しています。