大家好，欢迎来到IT知识分享网。

更新：通过一些朋友的回复，了解到，可能文章太长了，有朋友只是简略浏览，所以还没有明白程序工作流程。

简单介绍，这个程序是给程序员用的，使用这个软件，必须是会写正则的朋友，或者是有朋友帮忙写正则。

这个程序不是针对某个网站或者网页而写的，而是一个“采集框架 ”——说是框架，有点大了。

但是核心的一点就是，只要会写正则，几分钟就可以针对一个采集目标，编写一个采集规则。

只需要4（3）个正则，就可以完成任务。

列表网址、页面标题、页面内容、页面链接。

如果是逐页采集模式，列表网址的正则可以忽略。

————————————————

前言

爱学习、爱使用移动设备阅读电子书的朋友，不能不拥有一款属于自己的采集利器。

而使用此程序即可以简单轻松的实现采集任务。

采集程序 -【开源项目】

采集效果图

采集程序 -【开源项目】

程序介绍

在程序运行子目录 Config 是程序的配置的保存目录。

path.txt

[config]

Config\HtmlFormatConfig.xml

[task]

Config\task\

config 设置采集内容格式化的配置保存路径

task 设置任务工作规则保存和加载路径

采集工作窗体

采集程序 -【开源项目】

起始网址

采集开始的网址，如果是逐页的模式，则是第一页的地址；

如果是列表的模式，则是第一个列表页面的地址。

列表网址

匹配下一个列表页面地址的正则表达式。

采集程序 -【开源项目】

在逐页模式下，不用填写。

页面标题

匹配页面标题的正则表达式

页面内容

匹配页面内容的正则表达式

页面链接

匹配内容页面链接的正则表达式

在逐页模式，采集到一个内容页面之后，可以匹配到下一个页面链接。

在列表模式，采集到一个列表页面之后，就可以匹配到若干个页面链接。

分页标识

识别是否为分页标题的匹配正则表达式

首页标识

第一页的标识，比如标题【科技业的员工到底有多年轻（1）】，那么标识可以是(1)

保存路径

采集内容的保存目录

分页处理

是指采集的文章资料是进行了分页的，那么程序会根据设定的规则，判断是否是分页章节，如果是，则不重复添加标题。

比如

科技业的员工到底有多年轻（1）

科技业的员工到底有多年轻（2）

科技业的员工到底有多年轻（3）

那么采集过程中，只会写入一个标题【科技业的员工到底有多年轻】

保存为一个文件

如果勾选，则采集到的所有内容都写入到一个文件中

开始

开始采集并将内容保存

测试

在消息框显示采集的效果

格式化设置窗体

采集程序 -【开源项目】

左边是匹配到的字符，后边是表示要替换成的字符。

程序运行时，会将第二行（如果有两行）的字符拷贝一份转换为大写组合在一起，进行格式化。

换行标签、空白标签、缩进标签

可以输入包含正则在内的字符进行匹配

章节标题

{0}表示采集的序号（采集一个地址则加1），{1}表示采集到的标题。

辅助功能

可以将输入的字符进行大小写转换

编写新规则

编写采集规则需要有一定的正则表达式的知识，如果不了解阅读这个页面：（正则表达式30分钟入门教程）http://deerchao.net/tutorials/regex/regex.htm

任务是以xml文件的形式保存，文件名命名格式是：任务名称 – 网站名称.xml

采集程序 -【开源项目】

在任何一个任务状态下，只需要修改任务名称，或者网站名称，再点击保存任务，即可新建一个任务。

如果名称一样会提示是否覆盖。

这里以博客园新闻为例

博客园新闻是一个列表式的采集任务——在一个页面可以匹配得到若干个页面地址

http://news.cnblogs.com/

使用firebug或者其它前端调试工具，可以轻松得到采集特征

比如下图

采集程序 -【开源项目】

点击红框【点击查看页面中的元素】然后在页面的【创业公司如何评估 – 度量公司潜力的方法】位置点下。

就可以定位到html代码

这样就可以获取到内容页面的链接特征

<
h2
class
=”news_entry”
>

<
a
target
=”_blank”
href
=”/n/182026/”
>创业公司如何估值 — 度量公司潜力的方法
</
a
>

</
h2
>

然后需要观察这个标识是不是唯一特征的，也就是这个特征匹配到的都是自己期望中的内容。否则就需要增加更多的限制特征。

将特征编写为匹配的正则表达式

采集程序 -【开源项目】

源码说明

采集程序 -【开源项目】

解决方案有3个项目组成

Forms是视窗程序

Framework是采集程序

Helper是辅助程序

采集程序 -【开源项目】

由于考虑到以后会增加不同的采集任务，因此采用MDI窗体。

Config目录是默认配置

FrmFormatConfig是内容格式化配置窗体

FrmGatherWorker是采集工作窗体

MDIParentMain是窗体容器

采集程序 -【开源项目】

Config是内容格式化配置实体类

Task是采集任务规则实体类

Worker是采集工作类

采集程序 -【开源项目】

Worker采集工作类说明

先看看3个主要事件

///

<summary>

///
错误触发事件，传入参数引发的异常对象、错误的类型、当前工作的网址

///

</summary>

public
event Action<Exception, ErrorType,
string> OnError;

///

<summary>

///
工作结束触发事件

///

</summary>

public
event Action OnWorkEnd;

///

<summary>

///
一次/地址采集完成触发事件，传入参数采集内容的标题、内容、网址

///

</summary>

public
event Action<
string,
string,
string> OnWorkItemEnd;

创建对象

Worker work =
new Worker(_httpRequest, _config, _task);

work.OnError += w_OnError;

work.OnWorkItemEnd += work_OnWorkItemEnd;

work.OnWorkEnd += work_OnWorkEnd;

定义内容处理

///

<summary>

///
一次(个网址)采集完成后，执行内容写入文件操作

///

</summary>

private
void work_OnWorkItemEnd(
string curWebTitle,
string curWebContent,
string curUrl)

{


//
将采集到的内容写入到文件流中


byte[] byteWebContent = Encoding.UTF8.GetBytes(curWebContent);


if (_task.IsSaveOnlyFile)

    {


//
如果当前内容标题为空，则可能分页


if (!
string.IsNullOrEmpty(curWebTitle))

        {


byte[] byteWebTitle = Encoding.UTF8.GetBytes(curWebTitle);

            _curSavaFile.Write(byteWebTitle,
0, byteWebTitle.Length);

        }

        _curSavaFile.Write(byteWebContent,
0, byteWebContent.Length);

    }


else

    {


using (FileStream curSavaFile2 =
new FileStream(
“
{0}{1}.txt
“.FormatWith(_task.SavePath, curWebTitle), FileMode.OpenOrCreate, FileAccess.ReadWrite))

        {

            curSavaFile2.Write(byteWebContent,
0, byteWebContent.Length);

        }

    }

    UpdateWorkMessage(
“
\n已采集：{0}，网址：{1}
“.FormatWith(curWebTitle, curUrl));

    Application.DoEvents();

}

其它更多，请下载源码查看

其它

运行程序下载：https://files.cnblogs.com/yelaiju/NWebGather.rar

.net framework 4.0微软官网下载
http://www.microsoft.com/zh-cn/download/details.aspx?id=17718

源码下载：https://files.cnblogs.com/yelaiju/NWebGather-src.rar

开源地址：https://github.com/alifellod/NWebGather

不了解github下载源码的方式，请看文章：采集程序 -【开源项目】

正则词典（手册）采集程序 -【开源项目】

相关推荐项目:

园友:
SmartBooks作品
https://github.com/smartbooks/SmartSpider

园友:心态要好推荐 http://blog.csdn.net/sq_zhuyi/article/details/7924776

各位朋友对采集有兴趣，可以一起维护和贡献代码，如此大家都可以轻松的共享同一个采集框架。

免责声明：本站所有文章内容,图片，视频等均是来源于用户投稿和互联网及文摘转载整编而成，不代表本站观点，不承担相关法律责任。其著作权各归其原作者或其出版社所有。如发现本站有涉嫌抄袭侵权/违法违规的内容,侵犯到您的权益，请在线联系站长,一经查实,本站将立刻删除。本文来自网络,若有侵权，请联系删除，如若转载，请注明出处：https://yundeesoft.com/33400.html

采集程序 -【开源项目】

前言

程序介绍

采集工作窗体

格式化设置窗体

编写新规则

源码说明

创建对象

其它

相关推荐

发表回复