使用aardio抓取网页数据

发布时间:2020-07-15 07:47:29 作者:wen66to88
来源:网络 阅读:982

项目说明:【抓取网页数据】

项目介绍:
采集指定网页内容,通过模式匹配匹配到要采集的数据格式返回到数组中

项目步骤:
1.创建匹配模式表
2.请求网页连接
3.过滤文本,并对数据去重处理
4.显示结果

效果展示:   

使用aardio抓取网页数据

完整代码:

    import console; 
/*
项目说明:【抓取网页数据】
项目介绍:
    采集指定网页内容,通过模式匹配匹配到要采集的数据格式返回到数组中
项目步骤:
    1.创建匹配模式表
    2.请求网页连接
    3.过滤文本,并对数据去重处理
    4.显示结果
*/
//参考来源:http://bbs.aardio.com/forum.php?mod=viewthread&tid=11218&extra=page%3D1

import web.rest.jsonClient;

var httpUrl="http://www.meijumi.vip/usa/katong/5754.html";

//1.获取用于查找的模式匹配数组
var parttern = {};
table.push(parttern, `ed2k\://[^\s"']+`);

//2.请求网页链接
var http = web.rest.jsonClient();
var magnet = http.api(httpUrl,,parttern);
var urls = magnet.get();

//console.log("采集到的数据列表:");
//for(k,v in urls){ 
//  console.log(k, v);
//}

//3.过滤文本,并对数据去重处理
var resultStr="";
if(urls){
    var f = `S01E`;//过滤文本
    if(#f){
        //筛选结果
        urls = table.filter(urls, function(v){
            return string.find(v,f); 
        })  

        urls = table.unique(urls);//数组去重
    } 
    //提取结果
    resultStr = string.join(urls,'\r\n');//将字符串数组使用指定的分隔符合并为一个字符串   
}

//4.显示结果
console.log("采集结果:", resultStr)

console.pause(true);
推荐阅读:
  1. python如何实现基本抓取网页
  2. 使用Python抓取网页tag的方法

免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。

采集 匹配 去重

上一篇:易宝典——体验O365中的Teams 实验手册之十 了解Teams服务管理

下一篇:toad schema展示方式修改

相关阅读

您好,登录后才能下订单哦!

密码登录
登录注册
其他方式登录
点击 登录注册 即表示同意《亿速云用户服务条款》