东坡下载:内容最丰富最安全的下载站!

帮助|文件类型库|最新更新|下载分类|排行榜

上传下载服务器软件远程监控网络相关主页浏览主页制作电子邮件网站优化网络储存常用浏览器迅雷百度云盘

首页网络软件网络相关 → 尊天网页采集器(网页信息抓取) v1.0.0.1 绿色版

尊天网页采集器(网页信息抓取)

尊天网页采集器(网页信息抓取)v1.0.0.1 绿色版

  • 大小:2.5M
  • 语言:中文
  • 平台:WinXP, WinAll
  • 更新:2013-07-09 09:49
  • 等级:
  • 类型:网络相关
  • 网站:http://www.uzzf.com
  • 授权:免费软件
  • 厂商:
  • 产地:国产软件
好用好玩 50%(0)
坑爹 坑爹 50%(0)
软件介绍软件截图相关软件软件教程网友评论下载地址

虽然现在网上类似网页采集器非常之多,但各有各的优点,这里给大家分享一款尊天网页采集器,功能齐全,反应迅速,最主要是绿色免费的。

功能简介

本软件通过互联网,采集网页信息。有两大特色功能:
1,可以采集js之后的动态信息。
2,可以设定采集的正则表达式。
另外,本软件内置多种采集方案,分别对应静态网页和动态网页。
官网的图片(人脸)搜索引擎的数据都是用这个软件采集,然后才做索引的。
防止网页采集:防止采集第一种方法:在文章的头尾加上随机不固定的内容。网站采集者在采集时,通常都是指定一个开始位置和一个结束位置,截取中间的内容。

使用步骤

1,输入网址,正常浏览网页到达采集目标后,点击工具栏上的“查看js后源码”图标,则显示执行js后的网页内容。如果没有看到相关内容,可以等待片刻再次点击,以保证js代码执行完毕。通过浏览完整的网页源码,我们可以确定使用方案1还是方案2。如果更改网址的页码就可以导航到下一页,则使用方案1;如果是通过脚本动态更新网页内容,则使用方案2。
2,点击工具栏上的“运行采集方案”图标,根据步骤1,选择方案1或2。如果已经有方案1和2生成的downloadtotal.txt文件,也可以选择方案3。填入必要的信息或者表达式,点击“开始采集”按钮,系统将自动采集。点击对话框的“取消”按钮,则不启动采集任务直接关闭对话框。
3,点击工具栏上的“停止采集方案”图标,系统终止采集任务。

注意事项

1,正则表达式不要保留汉字,汉字尽量用.+?代替掉;
2,时间间隔不要设置太短,过短则脚本可能无法执行完毕;
3,方案2如果正则表达式没有匹配,可能是因为时间间隔过短导致,加长时间间隔或许可以。
4,对于网页源码中的换行符号可以不理会,采集器会忽略。
5,网页URL表达式和js表达式中用*代表变化的参数,就如上例中的pageid=*一样。
6,正则表达式目前只支持.+?,且只能处理一个表达式。
7,方案1和2生成的downloadtotal.txt文件的第一行为正则表达式中包含的.+?数目,即采集信息项的数量。
8,正则表达式不要包含回车和换行符号。
9,如果程序提示配置不对无法运行,则下载安装微软的vcredist_x86.exe程序即可。

网页信息如何修改

单改静态页的可以直接打开那个页面的源码,想改哪些文字就哪些,其他的不懂就不动,达到效果就行!
动态的应该有个后台管理的吧,涉及到数据库的,把你要改的部分换成你想要的

网页错误详细信息

网页上有错误的一般解决方法:
1、点击“开始”菜单,打开“运行”。   
2、输入regsvr32 jscript.dll后选择“确定”。出现提示后,点击确定。   
3、再次输入regsvr32 vbscript.dll选择“确定”。再一次出现提示后,确定。
4、经过以上两次成功提示,说明已成功修复IE组件,清除一下浏览器的Cookies和缓存,打开ie浏览器-上方的工具->Internet选项->删除Cookies,还有删除临时文件。

安美奇网页采集器
类型:网络相关大小:123KB语言:中文时间:4-16评分:5.0

PC官方
安卓官方手机版
IOS官方手机版

尊天网页采集器(网页信息抓取)截图

下载地址

尊天网页采集器(网页信息抓取) v1.0.0.1 绿色版

热门评论
最新评论
第 1 楼 上海有线通 网友 东坡网友 发表于: 2019/1/17 15:16:09
通常是尽可能的首先抓取重要性的网页,这样保证在有限的资源内尽可能地照顾到那些重要性高的网页。

支持( 0 ) 盖楼(回复)

昵称:
表情: 高兴 可 汗 我不要 害羞 好 下下下 送花 屎 亲亲
字数: 0/500 (您的评论需要经过审核才能显示)

编辑推荐

报错

请简要描述您遇到的错误,我们将尽快予以修正。

转帖到论坛
轮坛转帖HTML方式

轮坛转帖UBB方式