linux中去掉文件重复数据行的方法(去重复ip)

一、去掉相邻重复的数据行

复制代码

代码如下:

$cat data1.txt | uniq
输出:
beijing
wuhan
beijing
wuhan

二、去掉所有重复的数据行

复制代码

代码如下:

$cat data1.txt | sort | uniq

注:
只有uniq命令的话,只是把相邻的重复的数据行去掉。
如果先 sort 的话,就会把所有重复的数据行变成相邻的数据行,再 uniq 的话,就去掉所有重复的数据行了。

输出:
beijing
wuhan

附:data1.txt

复制代码

代码如下:

[root@syy ~]# cat data1.txt
beijing
beijing
wuhan
wuhan
wuhan
beijing
beijing
beijing
wuhan
wuhan

注:在过滤日志中的IP地址很有用。

Linux下删除大数据文件中部分字段重复的行

最近写的一个数据采集程序生成了一个含有1千多万行数据的文件,数据由4个字段组成,按照要求需要删除第二个字段重复的行,找来找去linux下也没找到合适的工具,sed/gawk等流处理工具只能针对一行一行处理,并无法找到字段重复的行。看来只好自己python一个程序了,突然想起来利用mysql,于是进行乾坤大挪移:

1. 利用mysqlimport --local dbname data.txt导入数据到表中,表名要与文件名一致
2. 执行下列sql语句(要求唯一的字段为uniqfield)

复制代码

代码如下:

use dbname;
alter table tablename add rowid int auto_increment not null;
create table t select min(rowid) as rowid from tablename group by uniqfield;
create table t2 select tablename .* from tablename,t where tablename.rowid= t.rowid;</p><p>drop table tablename;
rename table t2 to tablename;

(0)

相关推荐

  • 如何使用命令行在Linux中查找文件和文件夹

    大多数人使用图形文件管理器在Linux中查找文件,例如Gnome中的Nautilus,KDE中的Dolphin和Xfce中的Thunar.但是,无论您使用什么桌面管理器,都有几种使用命令行在Linux ...

  • LINUX中,查看文件内容的方法及分页显示的办法

    LINUX中查看文件内容的指令很多,下面分别介绍一下: cat file1 [file2] -- cat的本来的意思是连接,就把所有文件的内容全部显示在一起,纵向排列 paste file1 [fil ...

  • 电子表格excel中重复数据快速检索方法

    相信很多小伙伴在日常办公中都会用到电子表格excel,在表格中输入大量重复数据时,我们怎么去对这些数据进行查重呢?方法很简单,下面小编就来为大家介绍.具体如下:1. 首先,打开电脑上的excel,在其 ...

  • Linux中执行shell脚本的4种方法总结

    主要介绍了Linux中执行shell脚本的4种方法总结,即在Linux中运行shell脚本的4种方法,需要的朋友可以参考下 操作方法 01 方法一:切换到shell脚本所在的目录(此时,称为工作目录) ...

  • Linux中cp和scp命令的使用方法

    Linux为我们提供了两个用于文件copy的命令,一个是cp,一个是scp,但是他们略有不同。 cp --- 主要是用于在同一台电脑上,在不同的目录之间来回copy文件 scp --- 主要是在不同的 ...

  • Excel中按年月汇总数据的快捷方法

    Excel中按年月汇总数据的快捷方法 以下面的表格为例,A列是消费日期,B列是消费摘要,C列是记账金额,一共有300多条数据. 这样的表格数据量虽然很多,但是带给我们的信息却是十分有限的. 如果能够按 ...

  • Linux下grep显示前后几行信息方法介绍

    本文研究的主要是Linux下grep显示前后几行信息的相关内容,具体如下. 标准unix/linux下的grep通过下面參数控制上下文 grep -C 5 foo file 显示file文件里匹配fo ...

  • Linux中的文件压缩命令tar与rar的用法总结

    tartar 命令:用来压缩和解压文件.tar本身不具有压缩功能.他是调用压缩功能实现的  主操作模式: -A, --catenate, --concatenate   追加 tar 文件至归档 -c ...

  • 在Linux中对文件进行批量重命名文件的方法

    在Linux中,当你想要改变一个文件名,使用mv命令就好了.然而mv不能使用通配符重命名多个文件.可以用sed.awk或者与xargs结合使用来处理多个文件的情况.然而,这些命令行即繁琐又不友好,并且 ...