# 矢量大数据

基于Spark的矢量大数据计算是将GIS与Spark计算框架深度融合,提供海量矢量数据的分布式计算服务能力。通过MapGIS SDE和MapGIS DataStore存储海量矢量数据,进而通过分布式存储的基础上快速构建分布式要素数据集FeatureRDD,其能够将MapGIS基础算法与Spark计算框架进行深度融合,所覆盖的基础算法包括几何计算、空间判断、空间分析等,通过Spark框架实现分布式空间运算,并能将计算结果通过FeatureRDD快速写回到MapGIS DataStore和MapGIS SDE。矢量大数据计算服务能够支持亿万级矢量数据的分布式空间计算,相对于传统计算模式性能有明显的提升,满足海量矢量数据快速计算的应用需求。

# 数据管理服务

# 拷贝数据任务

# 功能说明

该功能主要用于DataStore中存储组件间复制数据,或者从外部本地/HDFS共享的文本型矢量数据(GeoJSON、Json、CSV、Text等)转换复制到DataStore存储。

拷贝数据任务主要用于数据迁移,可以在postgresql、hdfs(后续可能会支持es、hbase)间拷贝数据,拷贝过程中支持对数据进行过滤。

# 操作说明

1. 进入"矢量大数据"菜单中"功能服务"页面,在该页面默认会列出所有可用的分析功能服务,当输入关键字后,可筛选出与关键字相关的分析功能服务。

2. 点击拷贝数据任务,进入参数配置页面,参数见下说明,如下图所示:

3. 输入参数,点击提交按钮,若正在提交,则显示如下图:

4. 任务正常提交完,则显示任务ID,提示如下图,点击查看,进入Spark监控页面查看任务执行情况。

5. 待正常执行完后,则可在DataStore目录中看到结果,亦可在平台桌面中看到结果图层数据,如下图所示[左:DataStore 右:平台桌面]。

参数说明

参数名称
参数说明
参数示例
是否必填
备注
输入图层URL 源数据存储地址 http://192.168.96.101:9091/datastore/rest/
dataset/pg/service/show/show/JBNT_MKT
输入图层元信息URL 源数据字段映射文件
如果源数据在pg中,该参数不需要设置,如果源数据在hdfs中,为了防止字段类型自动识别出错,最好通过此参数提供字段映射
图层过滤条件 源数据属性过滤条件 Mparea>10000
空间范围xmin 源数据空间过滤条件 113.4
空间范围xmax 源数据空间过滤条件 114.3
空间范围ymin 源数据空间过滤条件 27.5
空间范围ymax 源数据空间过滤条件 28.8
时间范围start 源数据时间过滤条件 2018-01-18 00:00:00
时间范围end 源数据时间过滤条件 2018-01-18 13:00:00
结果图层URL 拷贝目的地址 pg://mapgis@mapgis/192.168.81.223:5432/
postgis/summarymesh_hexgon_96_101_001

# 创建索引

# 功能说明

该功能主要用于对静态大矢量数据基于预先在HDFS存储中建立格网一层空间索引,减少其他分析功能直接从数据库读取原始数据的过程,从而加快分析计算功能。

创建索引服务用于对矢量空间数据建立空间二级索引(第一级:根据划分好的矩形网格,将空间数据分文件存储;第二级:每个网格中的空间数据建立Rtree索引),并将索引数据存放在HDFS上

# 操作说明

1. 进入"矢量大数据"菜单中"功能服务"页面,在该页面默认会列出所有可用的分析功能服务,当输入关键字后,可筛选出与关键字相关的分析功能服务。

2. 点击创建索引任务,进入参数配置页面,参数见下说明,如下图所示:

3. 输入参数,点击提交按钮,若正在提交,则显示如下图

4. 任务正常提交完,则显示任务ID,提示如下图,点击查看,进入Spark监控页面查看任务执行情况。

5. 待正常执行完后,则可在DataStore中非结构化存储目录中看到结果,如下图所示。

参数说明

参数名称
参数说明
参数示例
是否必填
备注
输入图层URL 源数据存储地址 http://192.168.96.101:9091/datastore/rest/dataset/
pg/service/show/show/JBNT_MKT
输入图层元信息URL 源数据字段映射文件 如果源数据在pg中,该参数不需要设置,如果源数据在hdfs中,为了防止字段类型自动识别出错,最好通过此参数提供字段映射
图层过滤条件 源数据属性过滤条件 Mparea>10000
分区数 Spark并行任务数 10
结果图层URL 索引存放目录 pg://mapgis@mapgis/192.168.81.223:5432/postgis/
summarymesh_hexgon_96_101_001
Hdfs空目录

# 计算字段

# 功能说明

对存储在DataStore中矢量数据,使用该工具来创建和填充新属性字段或编辑现有字段,从而生成一份具有新属性的矢量数据。

# 操作说明

1. 进入"矢量大数据"菜单中"功能服务"页面,在该页面默认会列出所有可用的分析功能服务,当输入关键字后,可筛选出与关键字相关的分析功能服务。

2. 点击计算字段任务,进入参数配置页面,参数见下说明,如下图所示:

3. 任务正常提交完,则显示任务ID,提示如下图,点击查看,进入Spark监控页面查看任务执行情况。

4. 待正常执行完后,则可在DataStore目录中看到结果,亦可在平台桌面中看到结果图层数据,如下图所示[左:DataStore 右:平台桌面]。

参数说明

参数名称
参数说明
参数示例
是否必填
备注
输入图层URL 源数据存储地址 http://192.168.96.101:9091/datastore/rest/dataset/
pg/service/show/show/JBNT_MKT
输入图层元信息URL 源数据字段映射文件 如果源数据在pg中,该参数不需要设置,如果源数据在hdfs中,为了防止字段类型自动识别出错,最好通过此参数提供字段映射
输入图层过滤条件 源数据属性过滤条件 Mparea>10000
空间范围xmin 源数据空间过滤条件 113.4
空间范围xmax 源数据空间过滤条件 114.3
空间范围ymin 源数据空间过滤条件 27.5
空间范围ymax 源数据空间过滤条件 28.8
时间范围start 源数据时间过滤条件 2018-01-18 00:00:00
时间范围end 源数据时间过滤条件 2018-01-18 13:00:00
新字段名 新字段名称 newFld
新字段类型 新字段的类型 DOUBLE
计算表达式 : 新字段取值的计算表达式。 fld0*(fld1+20)-fld2
结果图层URL 目的地址 pg://mapgis@mapgis/192.168.81.223:5432/postgis/
summarymesh_hexgon_96_101_001
结果图层数据库用户 结果存储数据库的用户名
结果图层数据库密码 结果存储数据库的用户密码

# 矢量瓦片裁剪

# 功能说明

该功能主要用于并行快速创建矢量数据金字塔结构,即矢量瓦片,生成的瓦片数据保存在mongodb缓存数据库中,WebClient前端能直接对接瓦片服务,从而浏览地图。

矢量瓦片裁剪服务基于spark分布式计算框架,提供批量生成矢量瓦片的能力;输入为矢量图层(支持多图层),输出为对应的pbf文件。

# 操作说明

1. 准备好需要裁剪的原始数据,并将原始数据存储到MapGisDataStore的矢量大数据中。该过程可以直接通过mapgis桌面注册postgresql数据源完成。

2. 进入"矢量大数据"菜单中"功能服务"页面,在该页面默认会列出所有可用的分析功能服务,当输入关键字后,可筛选出与关键字相关的分析功能服务。

3. 点击矢量瓦片裁剪任务,进入参数配置页面,参数见下说明,如下图所示:

4. 输入参数,点击提交按钮,若正在提交,则显示如下图

5. 任务正常提交完,则显示任务ID,提示如下图,点击查看,进入Spark监控页面查看任务执行情况。

6. 待正常执行完后,则可在DataStore中切片数据存储目录中看到结果,并可在线浏览切片数据,如下图所示。

参数说明

参数名称
参数说明
参数示例
是否必填
备注
图层地址列表 被裁剪图层的存储地址 http://192.168.96.101:9091/datastore/rest/
dataset/pg/service/show/show/JBNT_MKT
1.如果是单图层,可在右侧的目录树中进行选择。 2.如果是多图层,只能手动填写,图层地址之间用逗号分隔。
图层名列表 自定义矢量瓦片图层名 株洲市,长沙市,岳阳市 如果是多图层,图层名之间用逗号分隔。
保留字段 矢量瓦片中需要保留的字段 mpshape,地类名称,地类编码
起始层级 适量瓦片的起始层级 5
结束层级 适量瓦片的截止层级 15
保留拓扑关系 是否启用保留拓扑关系算法 true 选择ture,裁剪结果会尽量保持相邻图元之间的拓扑关系,但是会加大裁剪过程耗时。
化简方式 化简策略选择 MaxPointInline MaxPointInline通过每条边设置最少保留点来防止化简过度。Distance通过距离阈值来进行化简
比例 最少保留点设置,此处百分比为总点数的百分比。 50
距离 距离设置,通过距离阈值来进化简 12
分区数 裁剪任务spark并行度 10
输出图层URL 结果数据存储路径 mongo://19218.96.101:40000/vectortile/xxx 支持mongo和pg-XL
裁剪模式 裁剪模式 目前有批量裁剪和逐层裁剪可供选择 批量裁剪耗电脑资源大,相对耗时短,建议数据量小时启用

# 空间分析服务

# 叠加分析

# 功能说明

该功能主要对两个矢量数据进行叠加分析,并依据条件,可对叠加结果进行汇总统计,形成结果。

# 操作说明

1. 进入"矢量大数据"菜单中"功能服务"页面,在该页面默认会列出所有可用的分析功能服务,当输入关键字后,可筛选出与关键字相关的分析功能服务。

2. 点击叠加分析任务,进入参数配置页面,参数见下说明,如下图所示:

3. 输入参数,点击提交按钮,若正在提交,则显示如下图

4. 任务正常提交完,则显示任务ID,提示如下图,点击查看,进入Spark监控页面查看任务执行情况。

5. 待正常执行完后,则可在DataStore目录中看到结果,亦可在平台桌面中看到结果图层数据,如下图所示[左:DataStore 右:平台桌面]。

参数说明

参数名称
参数说明
参数示例
是否必填
备注
输入图层URL 源数据存储地址 http://192.168.96.101:9091/datastore/rest/dataset/
pg/service/show/show/DLTB_MKT
输入图层元信息URL 源数据字段映射文件 如果源数据在pg中,该参数不需要设置,如果源数据在hdfs中,为了防止字段类型自动识别出错,最好通过此参数提供字段映射
图层过滤条件 源数据属性过滤条件 Mparea>10000
空间范围xmin 源数据空间过滤条件 113.4
空间范围xmax 源数据空间过滤条件 114.3
空间范围ymin 源数据空间过滤条件 27.5
空间范围ymax 源数据空间过滤条件 28.8
时间范围start 源数据时间过滤条件 2018-01-18 00:00:00
时间范围end 源数据时间过滤条件 2018-01-18 13:00:00
叠加图层URL 被叠加数据存储地址 http://192.168.96.101:9091/datastore/rest/dataset/
pg/service/show/show/JBNT_MKT
叠加图层元信息URL 叠加数据字段映射文件 如果源数据在pg中,该参数不需要设置,如果源数据在hdfs中,为了防止字段类型自动识别出错,最好通过此参数提供字段映射
叠加图层过滤条件 叠加数据属性过滤条件 地类名称=大坪村
分区数 Spark任务并行度 10
容差 拓扑重建容差 0.0001
叠加类型 支持交、并、差 Interset
统计字段信息 结果汇总设置 [
{
"field":"trip_distance",
"statisticTypes":["mean","sum"]
},
{
"field":"speed",
"statisticTypes":["mean", "count"]
}
]
如果不想直接返回叠加结果,而是想对叠加结果进行统计,返回统计结果,此参数可以设置需要统计的字段和统计类型
计算引擎 支持spark、pg Spark
结果图层URL 目的地址 pg://mapgis@mapgis/192.168.81.223:5432/postgis/
summarymesh_hexgon_96_101_001

# 缓冲分析

# 功能说明

该功能主要用于创建可进一步分析的区域,适用于两个图层,对其中一个图层进行缓冲,在区域里对另一个图层进行汇总分析。

# 操作说明

1. MapGIS 10各产品线文档整理:根据产品管理部提供文档模板,调整Desktop操作手册格式。进入"矢量大数据"菜单中"功能服务"页面,在该页面默认会列出所有可用的分析功能服务,当输入关键字后,可筛选出与关键字相关的分析功能服务。

2. 点击创建缓冲任务,进入参数配置页面,参数见下说明,如下图所示:

3. 输入参数,点击提交按钮,若正在提交,则显示如下图

4. 任务正常提交完,则显示任务ID,提示如下图,点击查看,进入Spark监控页面查看任务执行情况。

5. 待正常执行完后,则可在DataStore目录中看到结果,亦可在平台桌面中看到结果图层数据,如下图所示[左:DataStore 右:平台桌面]。

场景:如果问题是学校1英里范围内有哪些建筑物?答案可以通过在学校周围创建1英里缓冲区并将缓冲区与包含建筑物覆盖物的图层重叠来找到。最终的结果是学校1英里范围内的一层建筑物。

参数说明

参数名称
参数说明
参数示例
是否必填
备注
输入图层URL 源数据存储地址 http://192.168.96.101:9091/datastore/rest/dataset/
pg/service/show/show/DLTB_MKT
输入图层元信息URL 源数据字段映射文件 如果源数据在pg中,该参数不需要设置,如果源数据在hdfs中,为了防止字段类型自动识别出错,最好通过此参数提供字段映射
图层过滤条件 源数据属性过滤条件 Mparea>10000
空间范围xmin 源数据空间过滤条件 113.4
空间范围xmax 源数据空间过滤条件 114.3
空间范围ymin 源数据空间过滤条件 27.5
空间范围ymax 源数据空间过滤条件 28.8
时间范围start 源数据时间过滤条件 2018-01-18 00:00:00
时间范围end 源数据时间过滤条件 2018-01-18 13:00:00
缓冲距离 缓冲距离,和缓冲距离单位为一组参数,与缓冲表达式为二选一参数 10
缓冲距离单位 缓冲距离单位 meter(米)、kilometer(千米)、none(数据单位)
缓冲计算表达式 缓冲计算表达式 fld0*(fld1+20)-fld2
缓冲类型 缓冲类型 flat(平头)、round(圆头)
缓冲选项 缓冲选项 all(聚合所有)、list(聚合相交部分)、none(不做处理) 目前只支持none、all
保留字段数组 保留字段数组,用逗号分隔 fld1,fld2
是否合并为多部分 几何是否合并为多部分,当保留字段选项all、list时生效 勾选是和否
统计字段信息 统计字段信息,当保留字段选项all、list时生效,值型字段支持 count,
min,max,mean,sum,
variance,stddev,range 等
[
{
"field":"trip_distance",
"statisticTypes":["mean","sum"]
},
{
"field":"speed",
"statisticTypes":["mean", "count"]
}
]
结果图层URL 目的地址 pg://mapgis@mapgis/192.168.81.223:5432/postgis/
summarymesh_hexgon_96_101_001

hdfs://192.168.96.101:9000/nyc

# 数据汇总服务

# 属性汇总分析

# 功能说明

该功能对输入数据汇总和统计计算数据数值,支持个数、最大值、最小值、均值、方差、中值等统计量的计算。

# 操作说明

1. 进入"矢量大数据"菜单中"功能服务"页面,在该页面默认会列出所有可用的分析功能服务,当输入关键字后,可筛选出与关键字相关的分析功能服务。

2. 点击属性汇总任务,进入参数配置页面,参数见下说明,如下图所示:

提示:

预览界面中名称为准,暂不可以平台桌面中看到的字段名为准,因为平台看到的有可能是大写,数据库可能是小写字母

3. 输入参数,点击提交按钮,若正在提交,则显示如下图

4. 任务正常提交完,则显示任务ID,提示如下图,点击查看,进入Spark监控页面查看任务执行情况。

5. 待正常执行完后,则可在DataStore目录中看到结果,亦可在平台桌面中看到结果图层数据,如下图所示[左:DataStore 右:平台桌面]。

参数说明

参数名称
参数说明
参数示例
是否必填
备注
输入图层URL 源数据存储地址 http://192.168.96.101:9091/datastore/rest/dataset/
pg/service/show/show/JBNT_MKT
输入图层元信息URL 源数据字段映射文件 如果源数据在pg中,该参数不需要设置,如果源数据在hdfs中,为了防止字段类型自动识别出错,最好通过此参数提供字段映射
图层过滤条件 源数据属性过滤条件 Mparea>10000
空间范围xmin 源数据空间过滤条件 113.4
空间范围xmax 源数据空间过滤条件 114.3
空间范围ymin 源数据空间过滤条件 27.5
空间范围ymax 源数据空间过滤条件 28.8
时间范围start 源数据时间过滤条件 2018-01-18 00:00:00
时间范围end 源数据时间过滤条件 2018-01-18 13:00:00
分组字段列表 分组字段列表,不选则全部合为一组
统计字段信息 统计字段信息 ,数值型字段支持 count,min,max,mean,sum,variance,
stddev,range
[
{
"field":"trip_distance",
"statisticTypes":["mean","sum"]
},
{
"field":"speed",
"statisticTypes":["mean", "count"]
}
]
结果图层URL 目的地址 pg://mapgis@mapgis/192.168.81.223:5432/postgis/
summarymesh_hexgon_96_101_001

# 格网聚合点要素

# 功能说明

该功能又称为点聚合,使用点要素图层和区要素图层,输入的区要素图层可以来自多边形图层,也可以是工具运行时计算的正方形或六边形区域格网。系统首先确定哪些点位于每个指定区域内,在确定了点和区的空间关系之后,将计算该区所有点的统计数据并分配给该地区,作为其基本属性。最基本的统计数据是该地区内点数的数量,但也可以获得其他统计数据,该功能主要用于对点数据进行聚合统计。

# 操作说明

1. 进入"矢量大数据"菜单中"功能服务"页面,在该页面默认会列出所有可用的分析功能服务,当输入关键字后,可筛选出与关键字相关的分析功能服务。

2. 点击格网聚合点要素任务,进入参数配置页面,参数见下说明,如下图所示:

3. 输入参数,点击提交按钮,若正在提交,则显示如下图

4. 任务正常提交完,则显示任务ID,提示如下图,点击查看,进入Spark监控页面查看任务执行情况。

5. 待正常执行完后,则可在DataStore目录中看到结果,亦可在平台桌面中看到结果图层数据,如下图所示[左:DataStore 右:平台桌面]。

参数说明

参数名称
参数说明
参数示例
是否必填
备注
输入图层URL 源数据存储地址 http://192.168.96.101:9091/datastore/rest/dataset/
pg/service/show/show/DLTB_MKT
输入图层元信息URL 源数据字段映射文件 如果源数据在pg中,该参数不需要设置,如果源数据在hdfs中,为了防止字段类型自动识别出错,最好通过此参数提供字段映射
图层过滤条件 源数据属性过滤条件 Mparea>10000
空间范围xmin 源数据空间过滤条件 113.4
空间范围xmax 源数据空间过滤条件 114.3
空间范围ymin 源数据空间过滤条件 27.5
空间范围ymax 源数据空间过滤条件 28.8
时间范围start 源数据时间过滤条件 2018-01-18 00:00:00
时间范围end 源数据时间过滤条件 2018-01-18 13:00:00
网格类型 格网类型 方形、六边形,给值: hexagon,square
格网边长 格网边长 1000
格网边长单位 格网边长单位 meter(米)、kilometer(千米)、none(数据单位)
聚合图层URL 聚合区图层地址 hdfs://192.168.96.101:9000/mapgisanalystserver/
nyc/trip_data_1.csv
聚合图层元信息URL 聚合区图层元信息json的URL地址,支持hdfs、http hdfs://192.168.96.101:9000/mapgisanalystserver/
datasetschema.json
聚合图层过滤条件 聚合区图层属性过滤条件 speed>100
时间间隔 时间间隔 10
时间间隔单位 时间间隔单位 second,minute,hour,day, week,month,year
时间步长 时间步长
时间步长单位 时间步长单位 second,minute,hour,day, week,month,year
时间标准起点 时间标准起点,默认 0 1970-01-0108:00:00
统计字段信息 统计字段信息 , 数值型字段支持 count,min,max,mean,sum,variance,
stddev,range 等
[{"field":"trip_distance","statisticTypes":["mean","sum"]},{"field":"speed","statisticTypes":["mean", "count"]}]
结果图层URL 目的地址 pg://mapgis@mapgis/192.168.81.223:5432/postgis/
summarymesh_hexgon_96_101_001