正規表現 メタキャラクタ 検索・置換 前編

sed や awk、grep、その他のプログラム処理で文字列を扱うときに、よく用いられる「正規表現」についてまとめます。

正規表現とは
基本的な正規表現メタキャラクタ１
関連記事

正規表現とは

正規表現とは、文字列集合を特殊文字（メタキャラクタ）で表現する方法です。メタキャラクタには、$（ダラー）や^（サーカムフレックス）、[]（ブラケット）などが良く使われます。例えば、[0-9]は0〜9の数字のどれか、[Ww]ordはWordもしくはwordです。使うプログラムによって、正規表現の詳細は異なる場合がります。共通して使える基本的なものを中心に覚えると良いと思います。

基本的な正規表現メタキャラクタ１

任意の１文字にマッチ

書式
.（ピリオド）
例
wo.d（word, wood など）

使い方

      $ cat bbb.txt 
      word
      wood
      sky

      $ grep -e "wo.d" bbb.txt 
      word
      wood

直前の１文字を任意回数繰り返し（0回を含む）にマッチ

書式
*（アスタリスク）
例
w*（w, www, wwwwwwwwww, worldなど）

使い方

      $ cat bbb.txt 
      word
      wood
      sky

      $ grep -e "wo.d" bbb.txt 
      word
      wood

      $ grep -e "sk" bbb.txt 
      sky

どれか１個にマッチ

ブラケットに囲まれた文字のうち、どれか１個にマッチする。１文字目に、サーカムフレックス（^）を置くと意味が反対になる。ハイフン（-）を使うと文字の範囲を意味する。

書式
[…]（ブラケットで文字を囲む）
例
[123]（1か2か3）、[1-3]（1〜3）、[^123]（1-3以外の１つの数字）

使い方

      $ echo "Word" | sed 's/[^Ww]/!/g'
      W!!!

正規表現メタキャラクタ検索・置換後編

sed や awk、grep、その他のプログラム処理で文字列を扱うときに、よく用いられる「正規表現」についてまとめます。とにかく早く問題解決したい人はこちら＞＞直接、データ解析相談正規表現とは正規表現とは、文字列集合を特殊文字（メタキャラク...

awk 行の表示先頭行最終行指定行

awkは、テキスト処理に欠かせません。よく使う「行を指定した処理」に使える定型スクリプトをまとめました。簡単に書けるように、省略できる部分は極力省きました。awk と行awkで行を指定して「何かの処理」を実行するときは、「いま何行目？」を...

awk 置換や部分文字列などの文字列処理 gsub sub match index split 等

awkの文字列関数について、置換や部分文字列処理など、よく使う代表的なものを簡単なサンプルを使って紹介します。awk 置換文字列置換 gsub subgsub・subは、対象となる文字列tについて正規表現rにマッチした部分を置換文字列sで置...

awk 複数行の処理

ファイルには様々な形式があります。１行単位で記述されたCSV（カンマ区切り）ファイルやTSV（タブ区切り）ファイルは、awkやsed、その他のbashコマンドなどを使っても比較的処理がしやすい。しかし、複数行でレコードが構成される場合（１行...

awk split | サンプルでわかる列の分割とセパレータ指定方法

awkのsplit関数は、セパレータを指定して文字列を分割することができます。セパレータには文字や正規表現で指定できて、指定しない場合はフィールドセパレータがデリミタとして使われます。分割後の単語は、配列に格納されて１〜分割数nまでのインデ...

awk while・do 繰り返し処理

awkの繰り返し処理（for・while・do）についてまとめます。今回は、while・doについて。とにかく早く問題解決したい人はこちら＞＞直接、データ解析相談awk while 繰り返し処理条件を満たせば「ずっと」繰り返しを行います。繰...

404 NOT FOUND | バイオインフォ道場 [bioinfo-Dojo]

バイオインフォ道場

404 NOT FOUND | バイオインフォ道場 [bioinfo-Dojo]

バイオインフォ道場

awk 配列使い方

awkでは、他のプログラミング言語のように配列を使うことができます。配列の簡単な使い方のまとめです。とにかく早く問題解決したい人はこちら＞＞直接、データ解析相談awk 連想配列awkの配列では、インデックスには文字列でも数字でも使うことがで...

404 NOT FOUND | バイオインフォ道場 [bioinfo-Dojo]

バイオインフォ道場

awk パターンとアクション

awkは、入力行に対してフィルタリングなどの処理を行う際によく用いられます。入力行に対して「どの行に処理を行うか」を指定するのがパターン、「どんな処理を行うか」を指定するのが「アクション」です。とにかく早く問題解決したい人はこちら＞＞直接、...

awk 区切り文字とフィールド

awkは、入力の各行を区切り文字でフィールドに分割して、それぞれを個別に取り出すことができます。とにかく早く問題解決したい人はこちら＞＞直接、データ解析相談awk 区切り文字の変更入力行をフィールドに分割するのは区切り文字です。デフォルトは...

awk コマンドラインでの実行とスクリプトファイルでの実行

awkを実行する場合、コマンドラインで指定する方法と、スクリプトファイルを指定する方法があります。とにかく早く問題解決したい人はこちら＞＞直接、データ解析相談awk コマンドラインで指定するpatternとactionは、シングルクォートで...

awk 使い方フィールド取り出しスクリプトの書き方

awkで簡単なフィールドデータの取り出しを行います。awk は入力された行について、空白やタブで区切られたデータをフィールドと解釈します。・…を指定することで、各行のフィールドを取り出すことができます。尚、https://bioinfo-dojo.net/2016/02/18/awk_easy_field_filter/は入力行全体です。se...

sed スペース空白文字の整理・空白行の削除

sed で、スペース・タブ、空行に関する処理をまとめました。これらは、フィールドやレコードのセパレータとして使われるので、使いこなせるようになるとデータ解析の前処理が楽になります。スペース・タブ（空白文字）の処理複数のスペースを１つにする１...

SED 便利な使い方ファイル読み込み・ファイル書き出し

sedのファイル読込みコマンド（r）・ファイル書き込みのコマンド(w)が便利です。指定の位置に外部ファイルからデータを読み込んだり、パターンにマッチした部分を一括で複数のファイルに分割するなどの便利な処理を行うことができます。知っていれば、...

sed コマンド行指定の置換・削除（アドレッシング）

sedコマンドの処理は行単位です。何も指定しなければすべての行が対象になりますが、アドレシングを指定することで特定の行だけに作用させることができます。とにかく早く問題解決したい人はこちら＞＞直接、データ解析相談sed コマンド行指定の方法...

sed コマンド削除（行番号とパターン）

sedで行の削除を行う際はdコマンドを使います。アドレスやパターンと一緒に指定します。アドレスの指定は、dコマンドの直前に行番号を指定します。ちなみに、末尾は$で表現可能です。パターンの指定は、行の特徴を正規表現で指定します。とにかく早く問...

sed コマンド置換（全体と部分指定）

sedで置換を行う際はsコマンドを使います。マッチしたパターン全てに置換処理を適用したい場合は、gフラグを指定します。一方、部分的に置換処理を適用したい場合は数字を指定します。とにかく早く問題解決したい人はこちら＞＞直接、データ解析相談se...

sed コマンド置換・削除・アドレッシングまとめ

sedはとても便利なツールです。よく使うコマンドやアドレシング・否定の指定方法など、ちょっとしたテクニックも知っておくと便利です。とにかく早く問題解決したい人はこちら＞＞直接、データ解析相談よく使うsedコマンド置換や削除はよく使います。そ...

sed コマンドスクリプトファイルの実行スクリプトの書き方

sedはテキスト編集ツールとして有名なツールの１つです。フィルタリングや置換処理を行うときに使います。とにかく早く問題解決したい人はこちら＞＞直接、データ解析相談sedの書き方コマンドライン中で簡単なフィルタリングを行ったり、コマンドをまと...

sed コマンド単純な置換

sed で単純な文字列置換を行います。sed の置換コマンド「s」を使います。複数のコマンドを並べて、連続で置換処理を行うことができます。とにかく早く問題解決したい人はこちら＞＞直接、データ解析相談sed の書き方（置換）sed 's/置換...

正規表現とは

基本的な正規表現メタキャラクタ１

任意の１文字にマッチ

直前の１文字を任意回数繰り返し（0回を含む）にマッチ

どれか１個にマッチ

関連記事