small RNA配列の類似性でグループ分けをしたくなって、いくつかツールを試しながらパイプラインを作っている。最初にpythonで配列をざっと見て、同一配列などをカウントしてまとめていく。配列類似性のクラスタリングはメジャーなツールとしてはuclustやcd-hitなどだろうか。uclustはサイトからダウンロードして実行権限をつけて使ってみた。cd-hitの方はcondaから導入できた。まだ詳細に試していないが、どちらかで分類していくつもりだ。
一方で、閾値の設定をどうすれば良いのかについてあらかじめ分かっているわけではなく、配列間の類似性の分布によっては、閾値の設定が高すぎる場合や低すぎる場合等でてきて最適な値かどうかは検討が必要だろう。こちらの方の記事でわかりやすく解説されていたが、MeShClustというプログラムはこの問題を解決してくれるかもしれない。今回解析しているデータではないが、配列類似性に基づいたトランスポゾンのデータ解析でも、アラインメントやグループ分けのところで似たようなことに悩むことは多い。このプログラムにアラインメントツールなどを組み合わせて、目視も含めながら効率的に解析していく方法があるんじゃないかとふと思った。配列類似性に加えて、挿入位置や向きなども組み込みながら解析するようなパイプラインができそうな気がするが、時間があるときに考えてみたい。