Grepハンドブック

はじめに

grep（Global Regular Expression Print）は、テキストパターンを検索するための強力なコマンドラインツールです。テキストファイルやストリームから正規表現パターンに一致する行を抽出できます。

grepの特徴

行単位のパターンマッチング
POSIX基本正規表現（BRE）およびPOSIX拡張正規表現（ERE）対応
柔軟な出力オプション
再帰的なディレクトリ検索
マルチバイト文字・Unicode対応

grepの基本

基本的な構文

grep [オプション] パターン [ファイル...]

主要なオプション

-i: 大文字小文字を区別しない
-v: パターンに一致しない行を表示
-n: 行番号を表示
-l: 一致したファイル名のみを表示
-r, -R: ディレクトリを再帰的に検索
-w: 単語単位で一致を検索
-c: 一致した行数を表示
-A n: 一致した行の後n行を表示
-B n: 一致した行の前n行を表示
-C n: 一致した行の前後n行を表示

fgrepとegrep

fgrep（fixed-string grep）

正規表現を使用せず、固定文字列を検索
パターンをリテラルとして扱うため、高速
メタ文字をエスケープする必要なし
grep -F と同等

egrep（extended grep）

拡張正規表現（ERE）を使用
より豊富な正規表現機能
+, ?, |, () などの演算子を直接使用可能
grep -E と同等

正規表現サポート

基本正規表現（BRE）の主な要素

.: 任意の1文字
^: 行頭
$: 行末
[abc]: 文字クラス
[^abc]: 否定文字クラス
*: 直前の文字の0回以上の繰り返し
\{n,m\}: 直前の文字のn回以上m回以下の繰り返し

拡張正規表現（ERE）の追加要素

+: 直前の文字の1回以上の繰り返し
?: 直前の文字の0回または1回の出現
|: 選択（OR）
(): グループ化
{n,m}: 繰り返し指定（エスケープ不要）

実践的な使用例

ログファイル解析

# エラーメッセージの抽出
grep "ERROR" /var/log/syslog

# 特定のIPアドレスからのアクセスを検索
grep "192\.168\.1\.[0-9]\+" access.log

# 時間帯での絞り込み
grep "^2024-01-23 10:" server.log

ソースコード検索

# 特定の関数の使用箇所を検索
grep -n "function_name" *.cpp

# コメント行の抽出
grep "^[[:space:]]*\/\/" *.c

# TODO コメントの検索（再帰的）
grep -r "TODO:" .

システム管理

# 特定のユーザーのプロセスを検索
ps aux | grep "username"

# 開いているポートの確認
netstat -an | grep "LISTEN"

# 設定ファイルの特定の設定を確認
grep -i "^[[:space:]]*port" /etc/ssh/sshd_config

高度な使用方法

複数パターンの検索

# -e オプションを使用
grep -e "pattern1" -e "pattern2" file.txt

# パターンファイルを使用
grep -f patterns.txt file.txt

コンテキスト表示

# 一致行の前後の行を表示
grep -C 2 "error" log.txt

# 一致行の後の行のみ表示
grep -A 3 "BEGIN" file.txt

バイナリファイルの処理

# バイナリファイルをスキップ
grep -I "text" *

# バイナリファイルも検索
grep -a "string" binary_file

附録A: grepイディオム集

ファイル検索イディオム

特定の拡張子のファイルのみを検索

find . -name "*.txt" -exec grep "pattern" {} \;
# または
grep "pattern" **/*.txt

除外パターンを使用した検索

grep "pattern" * | grep -v "exclude"
# または
grep -v "exclude" * | grep "pattern"

複数の拡張子を対象とした検索

grep "pattern" *.{cpp,h,hpp}

テキスト処理イディオム

空行の検出と除去

grep -v "^$" file.txt
# または
grep . file.txt

コメント行の除去

grep -v "^[[:space:]]*#" config.txt

重複行の検出

grep -n "^.*$" file.txt | sort | uniq -d

ログ解析イディオム

タイムスタンプでの絞り込み

grep "^2024-01-23 1[0-2]:" logfile.txt

エラーと前後のコンテキスト

grep -B 2 -A 2 "ERROR" logfile.txt

特定のIPアドレス範囲の検索

grep "192\.168\.[0-9]\{1,3\}\.[0-9]\{1,3\}" access.log

附録B: grepベストプラクティス

パターン設計

堅牢なパターン作成

可能な限り行頭（^）や行末（$）をアンカーとして使用
文字クラスを適切に使用して曖昧さを排除
不要な後方参照を避ける

# 悪い例
grep "user.*login"

# 良い例
grep "^user[[:space:]]*login"

パフォーマンス最適化

可能な場合はfgrepを使用
必要な場合のみ再帰検索を使用
適切な除外パターンの設定

# パフォーマンスの良い例
fgrep -l "exactstring" *.txt

# 除外パターンの適切な使用
grep --exclude-dir={.git,node_modules} -r "pattern"

出力制御

有用な情報の表示

適切なコンテキスト行数の指定
行番号の表示が有用な場合は-nオプションを使用
ファイル名の表示制御（-H, -h）

# 開発者向け出力
grep -n "TODO" *.cpp | sed 's/:/ +/'

# システムログ解析
grep -h "ERROR" /var/log/* | sort | uniq -c

エラー処理

存在しないファイルに対する静かな失敗（-s）
バイナリファイルの適切な処理（-I）
エラーメッセージのリダイレクト

# エラーを抑制した検索
grep -s "pattern" nonexistent.txt

# バイナリファイルを除外
grep -I "string" *

セキュリティ考慮事項

安全なパターン使用

ユーザー入力を直接パターンとして使用しない
メタ文字の適切なエスケープ
ファイルパスの検証

# 安全なパターンの使用例
pattern=$(printf '%s' "$user_input" | sed 's/[]\/$*.^[]/\\&/g')
grep "$pattern" file.txt

アクセス制御

適切な権限でのファイルアクセス
センシティブな情報の取り扱い注意
結果の適切な制限

# 権限のあるファイルのみを検索
find . -type f -perm -444 -exec grep "pattern" {} \;

保守性

スクリプト化での使用

明確な変数名の使用
パターンの文書化
エラー処理の組み込み

#!/bin/bash
pattern="error|warning|critical"
logfile="/var/log/app.log"

if ! grep -E "$pattern" "$logfile"; then
    echo "No issues found" >&2
    exit 0
fi

デバッグとトレース

-vオプションでの検証
--colorオプションでの視覚化
デバッグ出力の活用

# デバッグモードでの実行
grep -v '^$' file.txt | grep --color=always "pattern"

ワークフロー統合

パイプラインでの使用

適切なストリーム処理
エラー出力の制御
終了ステータスの確認

# パイプラインでの効果的な使用
cat file.txt | grep "pattern" | sort | uniq > results.txt

バージョン管理との統合

.gitignoreパターンの活用
コードレビュー用の grep
CI/CDパイプラインでの使用

# Gitで管理されているファイルのみを検索
git ls-files | xargs grep "TODO"

これらのベストプラクティスを適切に組み合わせることで、より効率的で保守性の高いgrep使用が可能になります。状況に応じて適切なプラクティスを選択することが重要です。

さいごに

grepは単純なテキスト検索から複雑なログ解析まで、幅広いタスクに対応できる強力なツールです。本ハンドブックで紹介した例や技術を基に、実際の問題解決に活用してください。