GoldData将采集数据融合到两张关联关系表

发布时间:2020-08-09 15:02:01 作者:dataman100
来源:网络 阅读:454

概述

在上一期中,我们抓取了新闻数据,现在我们要通过GoldData融合到两张数据库表news_site和news表当中去。如下图所示:

GoldData将采集数据融合到两张关联关系表

GoldData将采集数据融合到两张关联关系表

GoldData将采集数据融合到两张关联关系表

我们很容易看到这两张表存在关联,那是怎样将数据写入关联呢,我们将接上一期在此一一介绍。

定义融合映射

数据集news ==> 表news_site

在“融合管理”中,选择数据集"news",选择数据库表news_site点击“添加”按扭,然后再点击“编辑映射”。如下图所示:

GoldData将采集数据融合到两张关联关系表

关联数据方式选择“关联字段”,关联表字段"name",关联数据集JS为“dataset.source”,然后选择“保存”即可。

news_site表有两个字段:一个是id字段,由于是自增长字段,所以不用关联;另一个是name字段,选择映谢方式为“数据集字段”,而内容是来自于数据集news的source字段。

手动作业

我们回到“融合管理”页面,点击“融合作业”,然后点击“手动作业”,打开“手动作业”子页面,如下图所示:

GoldData将采集数据融合到两张关联关系表

在这里我们可以看到融合是没问题的。点击“提交且下一条”,则会将合并结果写入到数据库表当中。如下图所示:

GoldData将采集数据融合到两张关联关系表

然后回到“融合作业”子页面,点击“开始融合”,将会开始自动融合。如下图所示:

GoldData将采集数据融合到两张关联关系表

系统就将会将数据集的数据按照指定的规则进行一个个的融合了。

数据集news ==> 表news

在“融合管理”中,选择数据集"news",选择数据库表news点击“添加”按扭,然后再点击“编辑映射”。如下图所示:

GoldData将采集数据融合到两张关联关系表

关联数据方式选择“不关联,数据追加”,这将意味着数据集里的新数据将会追加到表news新记录里,但当然老数据不会追加为news新记录里,也就是多次反复融合也不会在表news里产生重复数据。

对于字段映射,说明如下:

字段 说明
id 自增长,不用映射
title 直接映射为数据集字段title
pub_date 使用JS 将数据集字段pubdate内容添加:00即可
site_id 映射表news_site,通过数据集字段source查找得到id
content 直接映射为数据集字段content
date_created 用JS创建该值即可

手动作业

我们回到“融合管理”页面,点击“融合作业”,然后点击“手动作业”,打开“手动作业”子页面,如下图所示:

GoldData将采集数据融合到两张关联关系表

确认正确无误,点击“提交且下一条”,数据将会写入数据库中。如下图所示:

GoldData将采集数据融合到两张关联关系表

然后回到“融合作业”子页面,点击“开始融合”,将会开始自动融合。

结语

通过GoldData后,我们很容易将数据及数据之间关系融合到关系数据库表中。接下来我们还介绍自关联数据的融合。

推荐阅读:
  1. 百融榕树使用Python 的优势,百融榕树做好前期数据处理
  2. 数据库将两张表进行横向连接(拼接成一张表的形式显示)

免责声明:本站发布的内容(图片、视频和文字)以原创、转载和分享为主,文章观点不代表本网站立场,如果涉及侵权请联系站长邮箱:is@yisu.com进行举报,并提供相关证据,一经查实,将立刻删除涉嫌侵权内容。

数据融合 数据采集 golddata

上一篇:dimp时报错,字符串截断

下一篇:jmeter学习指南之常用函数的使用

相关阅读

您好,登录后才能下订单哦!

密码登录
登录注册
其他方式登录
点击 登录注册 即表示同意《亿速云用户服务条款》