提取html书签中的标题和网址超链接
导出html书签
- 01
我固执的相信有人不会导出html书签,所以再演示下大家看看。(绝不是为了凑篇幅) 打开IE浏览器,点击五角星/点击向下箭头/导入和导出。
- 02
依次点击:导出到文件/下一步。
- 03
选择收藏夹,下一步。
- 04
选择你要导出的书签文件,点击下一步。IE浏览器的优点就在于此,可以很精确的单独导出特定文件夹的书签。
- 05
点击“浏览”选择你要导出书签文件的路径(记得给书签文件重命名下,方便查找,否则导出的文件默认是以bookmarks.html命名),点击导出。
txt文本编辑器华丽登场
- 01
其实我一直在思考,这个html书签你双击打开的时候在ie上是能看见标题的,并且这些标题文本都是可以复制的,但是就是不能看见链接!
- 02
既然能看见书签标题,那书签标题就一定存在这个html文件中,基于这个思维,那保存文本最小的文件莫过txt文档,恍然大悟,把其后缀名改为txt会是神马情况?
- 03
尼玛,原来网址和书签标题都在里面!不过看起来有点乱,但是这难不倒喜欢折腾的我。仔细观察发现网址和标题的前后都有特定的字符!这太熟悉了!
还是要借助万能的、无比强大的excel
- 01
新建一个excel工作簿,快捷键ctrl+a/ctrl+c/ctrl+v组合使用,复制粘贴所有文本到excel中。
- 02
我们删除第一列发现所有数据都被删除,说明我们的数据都在第一列。那选中第一列,现在开始使用excel的数据分列功能。
- 03
选择分隔符号,下一步。
- 04
我们观察在网址的前后都有个"符号,那我们先选择这个符号作为分割符,点击下一步。
- 05
预览发现黑色部分其实已经被分割到其它列,点击完成。
- 06
删除A列,A列已经不是我们需要的信息。
- 07
调整列宽,是文本全部显示在单元格内,我们需要的网址和书签标题,已经基本显示出来,删除我们不需要的列,得到下面的大致内容。(我们需要的网址是.html结尾的,那个.ico结尾的不是我们需要的,果断删除!)
- 08
经过观察不难发现,标题的前后分别有个“>”和“<”特殊符号,相同的方式,利用这个符号进行分列处理,删除多余列,最终得到我们需要的信息。