Python3〜セットの基本的な操作

バイオインフォマティクスは、膨大な生物データを解析するためにコンピュータ技術を駆使する学問です。特にPythonは、その使いやすさと豊富なライブラリにより、バイオインフォマティクス分野で広く使われています。この記事では、Python3で「セット」の基本操作と、バイオインフォマティクスにおける応用について紹介します。

セットとは？
1. 基本操作
バイオインフォマティクスにおける応用
まとめ

セットとは？

セット（集合）は、重複する要素を持たないデータ構造です。数学的な集合の概念と同じく、順序がなく、要素の重複が許されません。バイオインフォマティクスでは、遺伝子リストやDNA配列の特徴など、重複を排除したデータ処理が頻繁に行われるため、セットの操作は非常に重要です。

Pythonのセットは、他の基本データ型（リストやタプルなど）と同様に使いやすく、要素の追加、削除、集合演算（和、積、差など）が可能です。まずは、セットの基本操作について見ていきましょう。

基本操作

1. セットの作成

Pythonでセットを作成するには、以下の方法を使います。リストやタプルなどの他のデータ型と異なり、セットでは要素が自動的に重複排除されます。

# 空のセットを作成
my_set = set()

# 初期値を持つセットを作成
my_set = {1, 2, 3, 4, 5}

# リストからセットを作成（重複は排除される）
my_list = [1, 2, 2, 3, 4, 5, 5]
my_set = set(my_list)
print(my_set)  # 出力: {1, 2, 3, 4, 5}

2. 要素の追加

セットにはadd()メソッドを使って要素を追加できます。要素は重複しないため、既に存在する要素を追加しようとしてもエラーは出ず、何も起こりません。

my_set = {1, 2, 3}
my_set.add(4)
print(my_set)  # 出力: {1, 2, 3, 4}

3. 要素の削除

remove()メソッドやdiscard()メソッドを使ってセットから要素を削除できます。remove()は指定した要素が存在しない場合にエラーを出しますが、discard()はエラーを出さずに動作します。

my_set = {1, 2, 3, 4}
my_set.remove(4)
print(my_set)  # 出力: {1, 2, 3}

my_set.discard(3)
print(my_set)  # 出力: {1, 2}

4. セットの結合・和

2つのセットの和（結合）を求めるには、union()メソッドまたは|演算子を使います。これは2つのセットに含まれるすべての要素を一つのセットにまとめます。

set1 = {1, 2, 3}
set2 = {3, 4, 5}
result_set = set1.union(set2)
print(result_set)  # 出力: {1, 2, 3, 4, 5}

5. セットの積（共通部分）

2つのセットの共通部分を求めるには、intersection()メソッドまたは&演算子を使います。

set1 = {1, 2, 3}
set2 = {2, 3, 4}
result_set = set1.intersection(set2)
print(result_set)  # 出力: {2, 3}

6. セットの差

1つ目のセットに含まれていて、2つ目のセットに含まれていない要素を取得するには、difference()メソッドまたは-演算子を使います。

set1 = {1, 2, 3}
set2 = {2, 3, 4}
result_set = set1.difference(set2)
print(result_set)  # 出力: {1}

バイオインフォマティクスにおける応用

バイオインフォマティクスでは、セットを使ったデータ操作がしばしば必要となります。ここでは、具体的な例をいくつか紹介します。

1. 重複遺伝子の除去

バイオインフォマティクスでは、しばしば遺伝子リストを扱いますが、同じ遺伝子が複数回登場することがあります。セットを使えば、簡単に重複を除去できます。

genes = ["BRCA1", "TP53", "BRCA1", "EGFR", "TP53"]
unique_genes = set(genes)
print(unique_genes)  # 出力: {'BRCA1', 'EGFR', 'TP53'}

2. 遺伝子リストの比較

異なる条件下で得られた遺伝子リストを比較することは、遺伝子研究で非常に重要です。セットを使えば、簡単にリスト間の共通遺伝子や、条件ごとの固有遺伝子を求めることができます。

例えば、ある条件下で発現する遺伝子リストAと、別の条件下で発現する遺伝子リストBがあるとします。これらのリストの共通遺伝子や、片方のリストにしかない遺伝子をセット操作で簡単に見つけられます。

genes_A = {"BRCA1", "TP53", "EGFR", "MYC"}
genes_B = {"BRCA2", "TP53", "EGFR", "KRAS"}

# 共通遺伝子
common_genes = genes_A.intersection(genes_B)
print(common_genes)  # 出力: {'TP53', 'EGFR'}

# 条件A特有の遺伝子
unique_genes_A = genes_A.difference(genes_B)
print(unique_genes_A)  # 出力: {'BRCA1', 'MYC'}

# 条件B特有の遺伝子
unique_genes_B = genes_B.difference(genes_A)
print(unique_genes_B)  # 出力: {'KRAS', 'BRCA2'}

3. DNA配列の特徴解析

バイオインフォマティクスでDNA配列を扱う場合、例えばDNAシーケンスの特定のモチーフを探す際に、セットを利用して効率的に検索や解析を行うことができます。

以下は、DNAシーケンス内のユニークなモチーフ（特定の配列パターン）をセットを使って抽出する例です。

sequence = "ATGCGATACGATACGAT"
k = 3  # モチーフの長さ
motifs = set()

for i in range(len(sequence) - k + 1):
    motif = sequence[i:i+k]
    motifs.add(motif)

print(motifs)  # 出力: {'TGC', 'ATG', 'GAT', 'GCG', 'TAC', 'ACG', 'CGA', 'ATA'}

このように、セットを使うことで、重複するモチーフを自動的に排除し、ユニークなモチーフのみを抽出できます。

まとめ

Python3のセットは、バイオインフォマティクスでのデータ処理において非常に有用なデータ構造です。重複遺伝子の除去や、異なる条件下で発現する遺伝子リストの比較、DNAシーケンスの解析など、さまざまな場面で活躍します。基本的なセット操作を理解することで、効率的かつ簡単にデータを扱うことが可能です。

バイオインフォマティクスでPythonを使う際には、セットの操作を習得しておくと、多くのタスクを効率化できます。