PowerCMS X ブログ
2022-12-16
12月13日にリリースした PowerCMS X ver.3.09で、AI翻訳が苦手な原文や逆翻訳結果と原文比較が簡単に行えるAI翻訳支援機能を追加しました。
いくつかの追加設定をすることで「やさしい日本語」の文章を作成する際の助けになる「やさしい日本語チェッカー」として利用する方法をご紹介します。
リッチテキストエディタのAI翻訳ボタンでの翻訳時に、AI翻訳時に誤訳に繋がりやすい表現を指摘したり、逆翻訳の結果を提示することで、翻訳の精度を高めるのを補助する機能です。
以上で準備は整いました。
「ツール」→「やさしい日本語」または、記事などのリッチテキストエディタのあるモデルの新規作成画面に移動します。
テキストを入力して、翻訳したい部分を選択します。「翻訳ボタン」をクリックします。
ここでは、例として、以下の文章をテストします。
市立小学校の1学級において、本日11月10日(木曜日)に、新型コロナウイルスに感染した児童が複数人確認されました。
次のようなダイアログが表示されます。
該当する箇所に、色が付いた状態で「伝わりにくい」「機械翻訳の誤訳につながる可能性のある」部分を指摘します。チェックする項目は以下の通りです。
1文の長さが指定拍数を超えている、同一文字種の連続については、設定でパラメタを変更できます。
"machinetranslator_japanese_check_len" : 62,
"machinetranslator_kanji_characters" : 7,
"machinetranslator_katakana_characters" : 7,
"machinetranslator_hiragana_characters" : 13,
やさしい日本語チェックに利用するのであれば、machinetranslator_japanese_check_lenを「24」など小さめの数字に設定して下さい。
尚、「指定拍数」は「文字数」ではなく「ひらがなに換算したときの文字数」と考えて下さい。
この文章では、以下のエラーが検出されました。
- 1文の長さが長すぎます。文章を分割することを検討してください。
- 文中に主語が見つかりませんでした。
- 受動態は能動態に変更できないか検討してみてください。
さらに、その下に、機械翻訳の結果、その下に、翻訳結果を逆翻訳した結果を表示します。
In the first class of a municipal elementary school, several children infected with the new coronavirus were confirmed today, Thursday, November 10.
市立小学校の1学級で、本日11月10日(木)に新型コロナウイルスの感染者が数名確認されました。
「In the first class」が明らかにおかしな翻訳になっていることがわかります。
ダイアログの見出し横の「鉛筆」アイコン(クリックすると「再評価」ボタンに変わります)をクリックすると、文章を修正することができます。
英訳結果と「警告」の内容を踏まえ、以下のように文章を修正します。
11月10日、市立小学校の1つの学級で、複数人の児童が新型コロナウイルスに感染しました。
再翻訳結果を確認し「翻訳を適用」「原文を修正」するかのいずれかのボタンをクリックします。さらに続きの文章を検証します。
感染した児童の在籍する学級において、発熱等の体調不良による欠席者が目立つようになったため、感染症拡大防止の観点から、該当する小学校の1学級を、下記のとおり児童の保護者への引き渡し、及び学級閉鎖をします。
チェック結果は以下の通りです。
- 1文の長さが長すぎます。文章を分割することを検討してください。
- 固有名詞を除いて、同種の文字が連続する時は漢字、ひらがな、カタカナをバランスよく使った文章にしてください。
逆翻訳の以下の部分がおかしくなっています。
感染児童が在籍する学級において、発熱等による欠席者が目立つようになったため、感染症拡大防止の観点から、当該小学校の1学級を児童保護者に引き渡し、下記の通り休講とさせていただきます。
これらを踏まえ、以下のように文章を3つに分割した上で、修正を行いました。
感染した子どもが在籍する学級では、発熱などの体調不良による欠席者が目立つようになりました。
感染症の拡大を防ぐため、当該小学校の1つの学級では、児童を保護者に引き渡します。
感染した子供がいるクラスは閉鎖します。
エラーの指摘はなくなりました。結果を確認してから、「翻訳を適用する」または「原文を修正する」をクリックします。
(もちろん人によって違いますが)「英語ならある程度はわかる」人も多いと思います。翻訳結果がおかしくなっている場合も、英語であれば気づくことができるのであれば、最初に英語で試してから、原文を修正し、言語を切り替えてから翻訳を行うのがおすすめです。
言語を切り替えるには、画面右下の地球アイコンをクリックしてください。
ここまでは、多言語翻訳への前チェックとしての使い方を紹介しましたが、この機能を「やさしい日本語」チェッカとして使うこともできます。
この機能を有効かするには環境変数「machinetranslator_difficulty_check」に trueを指定します。単語の難易度チェックが追加されます。
さらに「UniDic アイコン別ウィンドウで開きます」を利用することで「漢語」と「和語」「外来語」「数字」などを可視化することもできます。
参考 : MeCab + Unidic を使って単語の語種(和語、漢語)を表示する アイコン別ウィンドウで開きます
output-format-type = unidic2
node-format-unidic2 = %m\t%f[9]\t%f[6]\t%f[7]\t%F-[0,1,2,3]\t%f[4]\t%f[5]\t%f[12]\n
unk-format-unidic2 = %m\t%m\t%m\t%m\t%F-[0,1,2,3]\t%f[4]\t%f[5]\n
bos-format-unidic2 =
eos-format-unidic2 = EOS\n
設定後、ダイアログが以下のように変わります。
独自のデータベースを元に、単語の難易度を5段階(+級外、固有名詞)で可視化します。このデータベースは以下の情報ソースを利用して独自に作成しました。
※ NHKの「NEWS WEB EASY アイコン別ウィンドウで開きます」や、大学などの研究成果として公開されている「やさしい日本語コーパス アイコン別ウィンドウで開きます」などを利用しました。
Unidicを利用して「漢語」「和語」「外来語」「数字」を分類して可視化します。一般的には「漢語」を使いすぎず、「和語」の比率を上げたほうがやさしい日本語になると言われています。
尚、エディタ上の「やさしい日本語」ボタンを利用することで「伝えるウェブ アイコン別ウィンドウで開きます」による言い換えを行うこともできます。必要に応じて言い換えのヒントに利用してください。