sed や awk、grep、その他のプログラム処理で文字列を扱うときに、よく用いられる「正規表現」についてまとめます。

正規表現とは
正規表現とは、文字列集合を特殊文字(メタキャラクタ)で表現する方法です。メタキャラクタには、$(ダラー)や^(サーカムフレックス)、[](ブラケット)などが良く使われます。例えば、[0-9]は0〜9の数字のどれか、[Ww]ordはWordもしくはwordです。使うプログラムによって、正規表現の詳細は異なる場合がります。共通して使える基本的なものを中心に覚えると良いと思います。
基本的な正規表現メタキャラクタ1
任意の1文字にマッチ
- 書式
.(ピリオド) - 例
wo.d(word, wood など) - 使い方
$ cat bbb.txt word wood sky $ grep -e "wo.d" bbb.txt word wood
直前の1文字を任意回数繰り返し(0回を含む)にマッチ
- 書式
*(アスタリスク) - 例
w*(w, www, wwwwwwwwww, worldなど) - 使い方
$ cat bbb.txt word wood sky $ grep -e "wo.d" bbb.txt word wood $ grep -e "sk" bbb.txt sky
どれか1個にマッチ
ブラケットに囲まれた文字のうち、どれか1個にマッチする。1文字目に、サーカムフレックス(^)を置くと意味が反対になる。ハイフン(-)を使うと文字の範囲を意味する。
- 書式
[…](ブラケットで文字を囲む) - 例
[123](1か2か3)、[1-3](1〜3)、[^123](1-3以外の1つの数字) - 使い方
$ echo "Word" | sed 's/[^Ww]/!/g' W!!!

関連記事

正規表現 メタキャラクタ 検索・置換 後編
sed や awk、grep、その他のプログラム処理で文字列を扱うときに、よく用いられる「正規表現」についてまとめます。とにかく早く問題解決したい人はこちら>>直接、データ解析相談正規表現とは正規表現とは、文字列集合を特殊文字(メタキャラク...

awk 行の表示 先頭行 最終行 指定行
awkは、テキスト処理に欠かせません。よく使う「行を指定した処理」に使える定型スクリプトをまとめました。簡単に書けるように、省略できる部分は極力省きました。awk と 行awkで行を指定して「何かの処理」を実行するときは、「いま何行目?」を...

awk 置換や部分文字列などの文字列処理 gsub sub match index split 等
awkの文字列関数について、置換や部分文字列処理など、よく使う代表的なものを簡単なサンプルを使って紹介します。awk 置換文字列置換 gsub subgsub・subは、対象となる文字列tについて正規表現rにマッチした部分を置換文字列sで置...

awk 複数行の処理
ファイルには様々な形式があります。1行単位で記述されたCSV(カンマ区切り)ファイルやTSV(タブ区切り)ファイルは、awkやsed、その他のbashコマンドなどを使っても比較的処理がしやすい。しかし、複数行でレコードが構成される場合(1行...

awk split | サンプルでわかる列の分割とセパレータ指定方法
awkのsplit関数は、セパレータを指定して文字列を分割することができます。セパレータには文字や正規表現で指定できて、指定しない場合はフィールドセパレータがデリミタとして使われます。分割後の単語は、配列に格納されて1〜分割数nまでのインデ...

awk while・do 繰り返し処理
awkの繰り返し処理(for・while・do)についてまとめます。今回は、while・doについて。とにかく早く問題解決したい人はこちら>>直接、データ解析相談awk while 繰り返し処理条件を満たせば「ずっと」繰り返しを行います。繰...

404 NOT FOUND | バイオインフォ 道場 [bioinfo-Dojo]
バイオインフォ 道場

404 NOT FOUND | バイオインフォ 道場 [bioinfo-Dojo]
バイオインフォ 道場

awk 配列 使い方
awkでは、他のプログラミング言語のように配列を使うことができます。配列の簡単な使い方のまとめです。とにかく早く問題解決したい人はこちら>>直接、データ解析相談awk 連想配列awkの配列では、インデックスには文字列でも数字でも使うことがで...

404 NOT FOUND | バイオインフォ 道場 [bioinfo-Dojo]
バイオインフォ 道場

awk パターンとアクション
awkは、入力行に対してフィルタリングなどの処理を行う際によく用いられます。入力行に対して「どの行に処理を行うか」を指定するのがパターン、「どんな処理を行うか」を指定するのが「アクション」です。とにかく早く問題解決したい人はこちら>>直接、...

awk 区切り文字とフィールド
awkは、入力の各行を区切り文字でフィールドに分割して、それぞれを個別に取り出すことができます。とにかく早く問題解決したい人はこちら>>直接、データ解析相談awk 区切り文字の変更入力行をフィールドに分割するのは区切り文字です。デフォルトは...

awk コマンドラインでの実行とスクリプトファイルでの実行
awkを実行する場合、コマンドラインで指定する方法と、スクリプトファイルを指定する方法があります。とにかく早く問題解決したい人はこちら>>直接、データ解析相談awk コマンドラインで指定するpatternとactionは、シングルクォートで...

awk 使い方 フィールド取り出し スクリプトの書き方
awkで簡単なフィールドデータの取り出しを行います。awk は入力された行について、空白やタブで区切られたデータをフィールドと解釈します。・…を指定することで、各行のフィールドを取り出すことができます。尚、https://bioinfo-dojo.net/2016/02/18/awk_easy_field_filter/は入力行全体です。se...

sed スペース 空白文字の整理・空白行の削除
sed で、スペース・タブ、空行に関する処理をまとめました。これらは、フィールドやレコードのセパレータとして使われるので、使いこなせるようになるとデータ解析の前処理が楽になります。スペース・タブ(空白文字)の処理複数のスペースを1つにする1...

SED 便利な使い方 ファイル読み込み・ファイル書き出し
sedのファイル読込みコマンド(r)・ファイル書き込みのコマンド(w)が便利です。指定の位置に外部ファイルからデータを読み込んだり、パターンにマッチした部分を一括で複数のファイルに分割するなどの便利な処理を行うことができます。知っていれば、...

sed コマンド 行指定の置換・削除(アドレッシング)
sedコマンドの処理は行単位です。何も指定しなければすべての行が対象になりますが、アドレシングを指定することで特定の行だけに作用させることができます。とにかく早く問題解決したい人はこちら>>直接、データ解析相談sed コマンド 行指定の方法...

sed コマンド 削除(行番号とパターン)
sedで行の削除を行う際はdコマンドを使います。アドレスやパターンと一緒に指定します。アドレスの指定は、dコマンドの直前に行番号を指定します。ちなみに、末尾は$で表現可能です。パターンの指定は、行の特徴を正規表現で指定します。とにかく早く問...

sed コマンド 置換(全体と部分指定)
sedで置換を行う際はsコマンドを使います。マッチしたパターン全てに置換処理を適用したい場合は、gフラグを指定します。一方、部分的に置換処理を適用したい場合は数字を指定します。とにかく早く問題解決したい人はこちら>>直接、データ解析相談se...

sed コマンド 置換・削除・アドレッシングまとめ
sedはとても便利なツールです。よく使うコマンドやアドレシング・否定の指定方法など、ちょっとしたテクニックも知っておくと便利です。とにかく早く問題解決したい人はこちら>>直接、データ解析相談よく使うsedコマンド置換や削除はよく使います。そ...

sed コマンド スクリプトファイルの実行 スクリプトの書き方
sedはテキスト編集ツールとして有名なツールの1つです。フィルタリングや置換処理を行うときに使います。とにかく早く問題解決したい人はこちら>>直接、データ解析相談sedの書き方コマンドライン中で簡単なフィルタリングを行ったり、コマンドをまと...

sed コマンド 単純な置換
sed で単純な文字列置換を行います。sed の置換コマンド「s」を使います。複数のコマンドを並べて、連続で置換処理を行うことができます。とにかく早く問題解決したい人はこちら>>直接、データ解析相談sed の書き方(置換)sed 's/置換...
![バイオインフォ 道場 [bioinfo-Dojo]](https://bioinfo-dojo.net/wp-content/uploads/2016/03/some_object_luca-bravo-alS7ewQ41M8-unsplash.jpg)