歡迎來到Linux教程網

設為首頁加入收藏

Linux教程網

Linux教程網

Linux教程網

首頁 Linux基礎 Linux管理 Linux編程 Linux綜合 Unix知識

Linux教程網 >> Linux基礎 >> Linux教程 >> Linux 文件比較(grep/comm/awk)

Linux 文件比較(grep/comm/awk)

日期：2017/2/28 16:14:59 编辑：Linux教程

首先描述一下這個問題：比如兩個文件file1和file2，刪除兩個文件中共同的部分，留下兩個文件中獨自有的部分。在網上找到一篇解決的答案，地址在這裡http://www.linuxidc.com/Linux/2011-05/36171p2.htm。這裡提到三種方法，但是沒有給具體的解釋。

方法一：使用grep
grep -v -f file1 file2 && grep -v -f file2 file1
grep命令的詳細使用方法，可以參考man，這裡有一個簡單實用的介紹：http://www.linuxidc.com/Linux/2011-05/36171p3.htm。在方法一中，用到了兩個參數。參數-v，表示invert match，即反向匹配，輸出沒有匹配上的項。參數-f，表示從文件中讀取匹配模板(pattern)。方法一中的前一部分，在文件file1中匹配模板，來反向匹配文件file2中的內容，即輸出文件file2中，在file1中沒有的內容。後面的一部分同理可得，輸出文件file1中，在file2中沒有的內容。

方法二：實用comm
comm -3 file1 file2
這個方法看起來最簡單。命令comm的功能就是，逐行比較兩個排好序的文件，默認輸出有三列：只在file1中有的行、只在file2中有的行、在file1和file2中共有的行。有參數-1 -2 -3，分別來抑制輸出對應的列。例如在我們的方法二中，實用-3參數，不輸出file1和file2中共有的部分。即能達到我們本文的目的。
但是注意到，comm比較排好序的兩個文件，comm在處理文件的時候，首先要查看文件是否有序，例如file1和file2的內容如下：

$cat file1
line1
line2
line3

$cat file2
line0
line1
line3
line2
調用前面方法二的命令的時候，就會提示file2文件時無序的，輸出的結果如下：

$ comm -3 file1 file2
line0
line2
comm: file 2 is not in sorted order
line2
如果使用--nocheck-order參數，不進行有序性檢測，結果如下：

$ comm -3 --nocheck-order file1 file2
line0
line2

line2

從這個結果中我們可以看到，這還是不是我們真正想要的結果。這裡可體現comm的另一個特征，就是逐行比較。它是對file1和file2進行逐行往下的比較，檢測是否相同。所以，在用comm的時候，要根據具體的情況進行分析了。

方法三：使用awk
awk '{print NR, $0}' file1 file2 |sort -k2|uniq -u -f 1|sort -k1|awk '{print $2}'
或者：
awk '{print $0}' file1 file2 |sort|uniq -u
awk命令的使用，聽牛人說可謂博大精深，我也沒有太搞清楚。這裡只是使用了一些簡單的功能。下面以我自己的理解來解釋一下上面的shell代碼。awk就是文本的解釋器和過濾器。awk把每一行看成是一個記錄(record)，每個記錄使用分隔符(默認是空格)把每條記錄分成若干域。awk內置參數$0表示整行，$1、$2...分別表示各域，內置參數NR，表示記錄的計數，awk '{print NR, $0}' file1 file2表示依次讀取file1 file2，打印出每行，並且在前面添加行號。

命令sort，就是對行進行排序，參數-k表示根據各行的第幾個參數關鍵字開進行排序，這裡的-k2表示根據第二個關鍵字開始進行排序。

命令uniq，進行報告或者忽略重復的行，參數-u，表示只是打印出唯一的行(unique lines)，-f表示忽略的每行的前n個域的比較。

上一頁:升級Fedora 13 & 14到Fedora 15
下一頁:Linux下Bash腳本重啟ColdFusion Apache

Linux教程

linux初級運維知識體系圖

linux運維做的很雜，需要學習的也很多，資料堆積如山，以致於很多

Linux下用Split命令分割大文件

Fedora 9 配置yum源

Vi 常用復制與粘帖技巧

Linux iptables：規則組成

Linux SVN命令詳解

將Emacs配置成一個C/C++的IDE編程環境

Ubuntu 14.04/14.10 用戶如何安裝 Mate 1.10.0

比Win7還炫！SUSE Linux11系統全面體驗

Linux教程網

10 個 OS X El Capitan 高級技巧推薦

OS X El Capitan 是蘋果公司在 2015 年 10 月正式發布的新一代Mac 桌面操作系統。

Ubuntu操作系統分區詳解

中小企業可使用Fedora 8取代昂貴的window XP VISTA

用Linux構建企業門戶網站

雙網卡上網

Linux中誤刪除了某個文件後從進程相關的文件描述中恢復數據

倪光南:軟件創新體系及環境建設思考

Linux 2.4 iptables MAC地址匹配繞過漏洞

php+apache+mysql+worpress+linux平台搭建

相关文章

Linux基礎知識 Linux入門 Linux技術 Linux教程 Linux服務器關於Linux

文章推荐

cobbler 主機自動化部署

virtualbox--在win7設置ubuntu虛擬機網絡

在 FreeBSD 10.1中安裝 Mate 桌面

Linux基礎教程：AndroidStudio配置Git及Git文件狀態說明

Android Studio配置Git

热点聚焦

Ubuntu已經完美支持佳能A650IS數碼相機

用U盤替代CD光驅安裝Ubuntu Linux

CrossOver Games 面向 Linux 版正式發布

Ubuntu用gparted合並分區

getopt：命令行選項、參數處理

Ubuntu 14.04下安裝功能強大的屏幕截圖軟件 Shutter

Ubuntu 14.10開機屏幕亮度設置

在VMware中安裝RHEL6.2（下）—— RHEL系統安裝

Linux的五個查找命令

Linux下的grub.conf文件的備份與修復

Copyright © Linux教程網 All Rights Reserved