2019年9月26日木曜日

自動翻訳と科学英語(の教育)

今週から研究室セミナーが始まった。初回の日は新しく参加する3回生もいるので、PIからラボの決まりやゼミの進め方などのオリエンテーションがあった。基本的にはラボセミナーは一人1つの論文を紹介していくジャーナルクラブと、月一くらいで仕事の進捗紹介がある。オーソドックスな内容だが、これまでを見ていると、学部生にとっては英語の論文を読んで説明することはかなりのプレッシャーになっているようだ。論文1つはそこまで長い文章ではないけれど、英語が得意という人以外が辞書を引きながら全部自分で訳するとなるとそこそこに時間がかかる。さらに、3, 4年生の場合は背景知識が不足するせいで文章の意図が掴めなくとても時間がかかるということはよく分かる。その辺を考え、googleなどのサイトで提供されている自動翻訳機能を参考にしても良い、ただし、翻訳された内容についてよく理解して、自分で整理し直した上で発表するように、とPIは言っていた。
横で聴きながら、つい先日読んだ日経の自動翻訳についての記事を思い出した。自分もgoogle翻訳を使っているが、最近になって機能が飛躍的に伸びたのを感じている。これからの英語周りでITの力を使わない選択肢はないと思う。では主に理系の大学でやっている、科学英語やジャーナルクラブといった、教育や半分教育(半分研究)みたいな英語との関わりは、これからどうなるのだろう?


googleの自動翻訳と論文紹介


数年前のゼミから気づいていたが、学生は論文を読むときにgoogle翻訳をかなり使っている。4〜5年前は翻訳の制度は今よりもずっと悪く、「なんとなく文章になっているけど全体的には意味不明」で、ですます調も統一されず、文末がクローズせず突然終わるような文章になることが多かった。そして、要領の悪い(あるいは、悪びれない)学生の場合それをそっくりそのままコピペして資料を作り発表(というか朗読?)した。当然、文章になっていない文だから、読んでいる本人が途中で読むのにつまることも多かった。
聞いている方はうんざりするが、間違いを指摘する(あるいは真面目に取り組むように指導する)のも簡単だった。ところが、ここ1〜2年でそういう発表でも日本語の文章がこなれてきて、ただ聞く限りでは文章の内容におかしなところが無いようになってきた。ごくたまに現れる文法間違いや、専門用語の変な和訳で、なんとなく自動翻訳そのままであるかどうかは判別できる気がする。でもそれも、そのうちにわからなくなるくらい精度が向上するかもしれない。

節約したのは和訳の時間ではなく理解することそのもの


精度が上がった自動翻訳機能を科学の英語に応用すること自体は別に悪くない。ラボPIも、自動翻訳をうまく使って和訳に時間を取られすぎずに、内容を理解していい発表をする準備の方に時間を割け、といっていた。そのこと自体は同意見だ。
ただ、学生のジャーナルクラブの場合、意図した方向へは向かわず、結果的に逆の方向(理解の度合いや発表のわかりやすさが低下する)に作用しているように感じる。自動翻訳に頼り切った学生の発表には特徴がある。全訳したレジュメを印刷して配り、発表では和訳を順に朗読するように発表する。発表スライドがあっても、そちらを指し示しながら発表することはなく、発話とスライドが分離した状態で発表される。
結局のところ、節約したのは和訳にかける時間ではなく、その文章が何を主張しているのかを理解しようとすることそのものになっている。タチが悪いのは、先述した通り聞いているだけなら意味が通じることを話しているので、あからさまな間違いがないことだ。プレゼンがよろしくない、という批判はできる。でも、当の本人が「正確に」述べていることそのものを、本当に理解できているのか試すような質問をいちいちすることは相手を信用していないようで気が咎めるしやりたくはないし、聞かれる方も嫌だろうと思う。自動翻訳を使えば和訳に時間をかけずにすみ、慣れた日本語になった文章で意味をじっくり考えることができるように理屈では思うが、実際には考えることそのものも、どうしても一緒に停止してしまっているように思える。これなら、自動翻訳を禁止する方が、英語の勉強になる分マシなように思えてくる。推測だけれど、自分で時間をかけて訳する過程の中で、内容そのものを考えたり理解したりする時間が(半強制的に)確保されたんじゃないかなと思う。

高精度の自動翻訳があること前提の英語教育や研究教育に(意外と)まだ対応できていない?


上に述べたことは、単に取り組む人の姿勢の問題かもしれない。内容を理解したいと思っている人なら、和訳されたものをベースに自分で色々考えるからそれでいいが、やっつけ仕事でなるべく時間をかけずに効率よく済ませたいと思っている場合は、和訳の手間だけでなく+αなことそのものがまとめて節約されているのかもしれない。そんな場合は、自動翻訳を禁止する方が学習効果は上がるのかもしれない。でもそれはそれで、便利で合理的なやり方があるのにあえて使わないというのは非合理的な気がする。

論文紹介に限って言えば、ちゃんとプレゼン資料を作らせてそれを評価する、一般的に言われる良いプレゼンができているかどうか見る、発表で話すことより質疑応答(ディスカッション)をメインにする、内容全体をきちんと要約する、といったような、以前から大事だと考えられていたことをきちんと行うことで、「考えるのを節約する」ということ自体は回避できると思う。そういう意味では自動翻訳に頼ったよくない発表が増えるのは教えるサイドの怠慢の問題と捉えることができるのかもしれない。

科学英語の演習や講義も、自動翻訳があることを前提とした形に変えたほうがいいんじゃないかと思う。和訳や単語問題等が演習内容になることも多いようだが、自動翻訳やウェブ辞書がこれだけあるのに、なぜ自動翻訳を禁止して効率の悪いやり方で訳しないといけないのか、分からなくなるかもしれない。自動翻訳を使うことを前提とした多読や英文メール、レビューなど実践的な内容にしてもいいのかもしれない。たまに、自動翻訳禁止の先生もいるが、機械が安価に訳できるのにそれを禁止する理由もない気がする(あえてあげれば、英語の勉強か)。

自分のとりあえずの学習目標


今の自分のTOEICの得点は700点代で、対して高くもないが、non-nativeな日本人の中ではとても低いわけでもない。これから自動翻訳がもっと普及していけば、個々人の英語能力の相対的な価値は低下するのかもしれない。だとしたら英語学習に長い時間を割くことは将来的には無駄になる可能性がある。しかし実際には、ここ数年〜10年くらいは、英語が比較的上手な人の方が自動翻訳技術の恩恵を受けやすいのではないかと予想している(完全自動翻訳化される前までは)。例えば英文メールなどを書くときに、日本語の文章をそのまま自動翻訳に送り込んでも最良の結果は出ない。挨拶の文化の違いや言い回し、情報の出し方などを知っている方が、自動翻訳を使ってより自然な感じの訳を作ることができそうだ。それは、論文を書くときもだいたい同じだと思う。

年に数十通のメールを英語で書く。また、論文の査読が2〜3ある。論文やプロトコルは毎日読んでいる。英語の発表などがたまにあり、論文を書き上げて改訂する作業が年1~2報分あるくらいだと思う。これらがより効率的に行えるように、TOEICで言えば800点くらいまでを目安に安定的にキープできるようにして、自動翻訳などのIT技術を取り入れた作業フローを作っていきたい。


2019年9月21日土曜日

MinIONの稼働開始

ナノポア社のMinIONが研究室に導入されたが、コントロール用のPCも納入され、いよいよ本格的に稼働するようになった。最初の用途は、研究室で進められているアブラナ科植物の細胞融合個体やコムギ-オオムギ染色体添加系統におけるゲノム構造変異の検出で、ライゲーションベースのプロトコルを用いてDNA-Seqをすることになる。
MinIONは、制御用のコンピュータにそこそこのスペックを要求する。選定を頼まれたので色々考えたが、コマンドライン操作が特段の設定なく容易にできて、アップデート等の保守が楽という考えからMac mini(2018)を選んだ。これまでのMac miniより大幅に能力が上がり(値段も上がり)、シークエンス後の解析にも使いやすくなっていると思う(ただし拡張性はない)。後からメモリもストレージも増やせないので、MinIONに必要な条件より多少積み増して32GbRAMにした。CPUは8th Core i7 3.2GHz、SSDは1TBにした。データが増えてきたら、外付けのSSDで対応しようと思っている。

ナノポアのシークエンサーについてのプロトコルは、機材を購入した上で、登録したコミュニティサイトにアクセスしないと基本的に得られないようになっているようだ。サイトにログインすると色々なプロトコルや最初にやるチュートリアルなどの情報が得られる。概ね見やすく情報が整理されているように感じた。


実験室の片隅を借りて、MinION解析用のベンチを即席で作った。macが奥に鎮座し、その前に実験スペースが作られるというこれまでとちょっと変わったベンチになった。横に、小型の卓上遠心機とVortex、Qubitを置いている。

 電源につないでみると、MinIONの側面の排気口っぽいとこにLEDがついていて解析中はずっと点灯していたのが、なんとなくかっこよかった。


 シークエンスのラン前にgDNAをライゲーションするが、操作自体は簡単だった。ただ、最初のうち慣れないと目安の70分よりかはだいぶん時間がかかった。基本的にプロトコルの通りに手作業していけばよかった。一番問題になるのはDNAの抽出と精製のステップだろう。ナノポアのサイト内にも、植物の場合のDNA抽出方法のプロトコルが一つ置いてあった。基本的にはCTAB法でとって短い断片を取り除く精製を行うという感じのようだ。日本ジーンが取り扱っているShort Read Eliminator XSも購入された。投入DNAの濃度が25-150ng/ulに指定されており、それを下回ると収量が悪いと書いてあるので、抽出の際のElution Buffer量には注意が必要だし、場合によっては濃縮してやらないといけないだろう。前回、同じくロングリードのPacBioシーケンサーでシークエンスした際は、別の研究室のDNAプチVacをお借りして遠心しながらヒートして濃度を調節した(関係ないけれど、この製品はもう販売終了になったらしい。結構便利だと思っていたので残念)。



MinIONは本体は制御用の電子回路っぽい機械で、実際の流路や読み取りのナノポアがあるのは本体にセットするフローセルの方だ。こちらは黒いパックに入っており、使い終わった後の返却用の説明書?っぽいものも同封されていた。



 実際にフローセルをセットしてみたところ。黄色っぽい四角いところにナノポアがあるらしい。反対側にあるくねくねしたところが廃液が流れていくところ。チュートリアルでは、とにかくエアバブルを入れるなと注意していて、空気が流路に入るとナノポアが使えなくなってしまうらしい。なんとなく、キャピラリーシークエンサーでエアバブル抜きをしてい当時のことを思い出してしまった。あの頃もエアバブルを混ぜてしまって失敗するというケースがたまにあった。こちらはフローセルごとダメにしてしまうようで、ちょっと注意が必要。


 操作して行ってる途中で、なんとなく小さな泡が見えるような気がしてとても心配だったが、シークエンス自体はアクティブなポアを見る限りちゃんとできているようだ。使用後にフローセルを洗って保存しておく時にもバッファーをロードしなくてはならないが、ここでも同様にエアバブルを入れないように最初に吸い取る作業をしなければならない(ラン後にここをちょっとまちがえてしまった気がする。このフローセルがどうなってしまっているのか、何かのサンプルで検証してみたいと思う)。

 ネットで見つけたフローセルの解説図。Priming portからエアバブル発生防止のための吸い出しをしなければならない。また、ここには書いていないようなのだが、廃液が流れるところの最初の方のところにもWaste portがあり、ここからでも廃液を捨てることができる。

解析中はCPU使用率はユーザー側のものが跳ね上がっており100%に近い稼働になっていた。一方でメモリプレッシャーにはまだ余裕がある印象だった。とにかくずっとMacminiのファンが唸って熱い排気を出していた。結構頑張って働いてるんだなと思った。シークエンスが終わっても、PC側ではBasecallが続くのでPCは動いたままになる。

最初にチュートリアルとしてLambdaDNAをシークエンスした時に手間取ったのは、クラウドベースの解析ソフトの使用方法だった。PC側のfastq等の出力ファイルをアップロードして解析してくれるEPI2MEというアプリケーションもチュートリアルにしたがって導入していたのだが、初期設定で指定されているディレクトリとデータが吐き出される場所が異なっていたらしく、最初全然アップロードされなかった。Library/MinION下のところにデータが出てくるディレクトリがあったが、そこを直接指定するとエラーになった。少し検索してみると、アクセス権の問題があるようだった。ファイルをホームディレクトリ下に作ったディレクトリにおき、そこを指定すると、解析が始まった。
実際には、fastqファイルまたはfast5ファイルを得たら、後のマッピングやアセンブル等は手元のコンピュータで行うことになりそうなので、あまり使う機会はないかもしれない。

今後植物のgDNAをいろいろ抽出し、精製方法も変えた場合にどのような結果になるか、最初のうちはいろいろと比較しながら、楽に抽出精製して使用に耐えるデータを出せる条件を掴みたいと思う。