PowerCMS X ブログ

2022-12-16

AI翻訳支援機能を「やさしい日本語チェッカー」として利用する

12月13日にリリースした PowerCMS X ver.3.09で、AI翻訳が苦手な原文や逆翻訳結果と原文比較が簡単に行えるAI翻訳支援機能を追加しました。
いくつかの追加設定をすることで「やさしい日本語」の文章を作成する際の助けになる「やさしい日本語チェッカー」として利用する方法をご紹介します。

リッチテキストエディタのAI翻訳ボタンでの翻訳時に、AI翻訳時に誤訳に繋がりやすい表現を指摘したり、逆翻訳の結果を提示することで、翻訳の精度を高めるのを補助する機能です。

この機能を利用するための設定

  • PowerCMS X ver.3.09へアップグレードします。
  • 「TinyMCE」「MachineTranslator」「SimplifiedJapanese」プラグインを有効化します。
  • 必要に応じてスキーマをアップグレードします。
  • プラグイン「MachineTranslator」のプラグイン設定で Microsoft Translatorのサブスクリプション・キーを登録します。
  • プラグイン「TinyMCE」の設定、ツールバーに「pt-translate」必要に応じて「pt-simplified-japanese pt-break-with-clauses pt-furigana pt-ruby pt-remove-ruby」を追加して下さい。
  • プラグイン「SimplifiedJapanese」のプラグイン設定で「やさしい日本語エディタ画面に言語選択ボタンを表示する」にチェックを入れて保存して下さい。
  • 環境変数「machinetranslator_japanese_check」を trueに設定して下さい。

以上で準備は整いました。

AI翻訳支援機能の利用

「ツール」→「やさしい日本語」または、記事などのリッチテキストエディタのあるモデルの新規作成画面に移動します。
テキストを入力して、翻訳したい部分を選択します。「翻訳ボタン」をクリックします。

リッチテキスト上でテキストを選択して「翻訳」ボタンをクリックします

ここでは、例として、以下の文章をテストします。

市立小学校の1学級において、本日11月10日(木曜日)に、新型コロナウイルスに感染した児童が複数人確認されました。

次のようなダイアログが表示されます。

警告と翻訳結果と逆翻訳結果を表示・警告の該当箇所には色が付いている

該当する箇所に、色が付いた状態で「伝わりにくい」「機械翻訳の誤訳につながる可能性のある」部分を指摘します。チェックする項目は以下の通りです。

  • 1文の長さが指定拍数を超えている
  • 主語/目的語が見つからない
  • 二重否定
  • 否定疑問文
  • 不要な修飾語や冗長な表現
  • 受動態
  • 指示語・代名詞
  • 曖昧な表現(ましょう・でしょう)
  • オノマトペ
  • 慣用句
  • 使役動詞
  • 同一文字種の連続(漢字・カタカナ・ひらがな)※固有名詞を除く
  • 和暦
  • 午前/午後n時

1文の長さが指定拍数を超えている、同一文字種の連続については、設定でパラメタを変更できます。

        "machinetranslator_japanese_check_len" : 62,
        "machinetranslator_kanji_characters" : 7,
        "machinetranslator_katakana_characters" : 7,
        "machinetranslator_hiragana_characters" : 13,

やさしい日本語チェックに利用するのであれば、machinetranslator_japanese_check_lenを「24」など小さめの数字に設定して下さい。
尚、「指定拍数」は「文字数」ではなく「ひらがなに換算したときの文字数」と考えて下さい。

この文章では、以下のエラーが検出されました。

  • 1文の長さが長すぎます。文章を分割することを検討してください。
  • 文中に主語が見つかりませんでした。
  • 受動態は能動態に変更できないか検討してみてください。

さらに、その下に、機械翻訳の結果、その下に、翻訳結果を逆翻訳した結果を表示します。

In the first class of a municipal elementary school, several children infected with the new coronavirus were confirmed today, Thursday, November 10.

市立小学校の1学級で、本日11月10日(木)に新型コロナウイルスの感染者が数名確認されました。

In the first class」が明らかにおかしな翻訳になっていることがわかります。

ダイアログの見出し横の「鉛筆」アイコン(クリックすると「再評価」ボタンに変わります)をクリックすると、文章を修正することができます。

編集可能な状態になる

英訳結果と「警告」の内容を踏まえ、以下のように文章を修正します。

11月10日、市立小学校の1つの学級で、複数人の児童が新型コロナウイルスに感染しました。

再翻訳結果を確認し「翻訳を適用」「原文を修正」するかのいずれかのボタンをクリックします。さらに続きの文章を検証します。

感染した児童の在籍する学級において、発熱等の体調不良による欠席者が目立つようになったため、感染症拡大防止の観点から、該当する小学校の1学級を、下記のとおり児童の保護者への引き渡し、及び学級閉鎖をします。

チェック結果は以下の通りです。

  • 1文の長さが長すぎます。文章を分割することを検討してください。
  • 固有名詞を除いて、同種の文字が連続する時は漢字、ひらがな、カタカナをバランスよく使った文章にしてください。

逆翻訳の以下の部分がおかしくなっています。

感染児童が在籍する学級において、発熱等による欠席者が目立つようになったため、感染症拡大防止の観点から、当該小学校の1学級を児童保護者に引き渡し、下記の通り休講とさせていただきます。

これらを踏まえ、以下のように文章を3つに分割した上で、修正を行いました。

感染した子どもが在籍する学級では、発熱などの体調不良による欠席者が目立つようになりました。
感染症の拡大を防ぐため、当該小学校の1つの学級では、児童を保護者に引き渡します。
感染した子供がいるクラスは閉鎖します。

エラーの指摘はなくなりました。結果を確認してから、「翻訳を適用する」または「原文を修正する」をクリックします。

原文を修正してから他の言語に切り替えて翻訳する

(もちろん人によって違いますが)「英語ならある程度はわかる」人も多いと思います。翻訳結果がおかしくなっている場合も、英語であれば気づくことができるのであれば、最初に英語で試してから、原文を修正し、言語を切り替えてから翻訳を行うのがおすすめです。

言語選択ダイアログ

言語を切り替えるには、画面右下の地球アイコンをクリックしてください。

やさしい日本語チェッカとして利用する

ここまでは、多言語翻訳への前チェックとしての使い方を紹介しましたが、この機能を「やさしい日本語」チェッカとして使うこともできます。

この機能を有効かするには環境変数「machinetranslator_difficulty_check」に trueを指定します。単語の難易度チェックが追加されます。
さらに「UniDic 別ウィンドウで開きます」を利用することで「漢語」と「和語」「外来語」「数字」などを可視化することもできます。

参考 : MeCab + Unidic を使って単語の語種(和語、漢語)を表示する 別ウィンドウで開きます

  • UniDicをインストールする
  • dicrcをカスタマイズする(以下を追加)
output-format-type = unidic2
node-format-unidic2 = %m\t%f[9]\t%f[6]\t%f[7]\t%F-[0,1,2,3]\t%f[4]\t%f[5]\t%f[12]\n
unk-format-unidic2  = %m\t%m\t%m\t%m\t%F-[0,1,2,3]\t%f[4]\t%f[5]\n
bos-format-unidic2  =
eos-format-unidic2  = EOS\n 
  • 環境変数「simplifiedjapanese_unidic_path」に unidicのパスを設定します「/usr/local/lib/mecab/dic/unidic」など。

設定後、ダイアログが以下のように変わります。

単語の難易度と漢語と和語、外来語を可視化したものが追加される

難易度の判定について

独自のデータベースを元に、単語の難易度を5段階(+級外、固有名詞)で可視化します。このデータベースは以下の情報ソースを利用して独自に作成しました。

  • 日本語能力試験(JLPT)の(旧)出題基準
  • 日本語能力試験(JLPT)の(現)問題例・試験問題例
  • やさしい日本語で書かれた文章(※)をコーパスとして解析し、単語の出現頻度を考慮して難易度を調整

※ NHKの「NEWS WEB EASY 別ウィンドウで開きます」や、大学などの研究成果として公開されている「やさしい日本語コーパス 別ウィンドウで開きます」などを利用しました。

漢語・和語・外来語の類別について

Unidicを利用して「漢語」「和語」「外来語」「数字」を分類して可視化します。一般的には「漢語」を使いすぎず、「和語」の比率を上げたほうがやさしい日本語になると言われています。

やさしい日本語チェックの方法

  • 「警告」が出ている部分の見直し
  • 翻訳結果・逆翻訳結果の確認(逆翻訳結果が原文と大きく異なる時は見直したほうが良いかもしれません)
  • 難語(色の濃い部分)の他の単語への言い換えの検討
  • 漢語率が高い文章は、和語への置き換えを検討

尚、エディタ上の「やさしい日本語」ボタンを利用することで「伝えるウェブ 別ウィンドウで開きます」による言い換えを行うこともできます。必要に応じて言い換えのヒントに利用してください。

伝えるウェブの機能で言い換えた結果を参考にする

カテゴリー:プラグイン | 技術情報

投稿者:Junnama Noda

ブログ内検索

アーカイブ