2019年10月26日土曜日

MinKNOWの.rawファイルを.fast5ファイルにリカバリーする

前回MinKNOWを使用した際にランが不正終了してしまい、同時に行われていたベースコールも途中でとまってしまった。この際にquened_readsというディレクトリの中に.rawという拡張子がついたファイルが大量に残されており、ファイルサイズからもここにベースコールされていないデータがあると思われた。情報を検索してみると、biostarsにポストがあり、nanoporeのコミュニティサイトのなかに詳しいリカバリ方法が示されているということだったので、そちらの情報を参考にしてデータのリカバリーを試みた。


手順

communityのポストの情報を見ると、MinKNOWの中に、recover_readsというプログラムがある、と書いてあった。場所はポストの情報とはやや異なり、

/Applications/MinKNOW.app/Contents/Resources/bin/recover_reads

だった。これを使って.rawを.fast5に変換できるらしい。
このプログラムを使うには、--template-readオプションを使えと書いてあった。最初どういうことかよくわからなかったが、当該ランで作られた.fast5ファイルを何か指定して、ランの情報を見るために使われるらしい(多分)。そこで、MinKNOWフォルダ下にあったfast5_passのなかに入っていたファイルを一つ適当に選んで使うことにした。

ライブラリのフォルダのなかにMinKNOWというフォルダが作られているが、そこにqueued_readsというフォルダがある。ここの中に、complete_reads_c1ff7110-263a-4625-9a8c-f5292a179a27といった感じの名前のフォルダが作られている。この下に.rawという拡張子のついた大量のファイルがあり、今回のランの場合合計で140GBくらいの大きさになっていた。これに対して、

recover_reads --template-read ./template_read.fast5 ./queued_reads ./revovered_reads

といったランをおこなう。この作業によって、recovered41c77748-25e7-49ce-b87b-14af63a20c38<番号>.fast5という名前のファイルが生成される。この.fast5ファイルを使って、guppy_basecallerによってベースコールをおこなうということも可能だそうだ。サイズはかなり大きくなる。CPU負荷はそれほど大きくはならないようだ。



参考URL


https://www.biostars.org/p/388640/

https://community.nanoporetech.com/posts/how-to-convert-raw-to-fa