# 文本大数据

# 功能服务

提示:

界面将数据上载到系统中,请在对应的实时存储和HBase存储中创建好时空库或者内容库。

# 创建文本索引

# 功能说明

对输入的HDFS上的doc、pdf、xls等文档中的文本进行提取,并在ES中生成全文内容检索字段__inner__content,从而提供全文检索查询能力,且DataStore中对此字段的查询服务对结果中的关键词会增加高亮标签<em></em>;针对此输入也可是HBase中的文本内容数据表,若为此,需要给定关联ID参数,详见参数说明。

# 操作说明

1. 进入"文本大数据"菜单中"功能服务"页面,在该页面默认会列出所有可用的分析功能服务,当输入关键字后,可筛选出与关键字相关的分析功能服务。

2. 点击创建文本索引任务,进入参数配置页面,参数见下说明,如下图所示:

3. 输入参数,点击提交按钮,若正在提交,则显示如下图

4. 任务正常提交完,则显示任务ID,提示如下图,点击查看,进入IGServer-X中任务监控列表,也可以进入Spark监控页面查看任务执行情况,此任务名createTextIndex关键词。

5. 待正常执行完后,则可在DataStore目录中看到结果,会增加或更新__inner__content字段的内容。

参数说明

参数名称
参数说明
参数示例
是否必填
备注
原始数据 原始HDFS数据或HBase文本内容数据地址,即支持HDFS、HBase中的路径 http://192.168.80.108:9091/datastore/rest/dataset/
hdfs/service/archives/测试报告
必填
过滤条件 过滤条件,文件相对路径模糊匹配,多个用逗号分割 /*.docx,/附图/*.mpj,/附图/*.jpg 可选
关联ID 关联的ID,若不使用外部ID,且给的数据是HBase的文本内容数据,该参数请给HDFS数据的路径,以便系统内部使用MD5计算默认关联ID 1111 可选
是否聚合 是否聚合为一条记录,用于一条元数据对应多个文件的场景 true 可选
结果地址 索引库的URL地址 http://192.168.80.108:9091/datastore/rest/dataset/
hbase/service/test?
必填

# 文档内容提取

# 功能说明

该功能对输入的HDFS上的doc、pdf、xls等文档内容进行提取转换,形成统一的html格式的文本内容,同时提取出内嵌在文档中的图片、视频、音频等多媒体内容,保存到HBase数据表中,供后续查询、分析使用;在内容提取的同时,可附加选择在ES中创建文本索引;

# 操作说明

1. 进入"文本大数据"菜单中"功能服务"页面,在该页面默认会列出所有可用的分析功能服务,当输入关键字后,可筛选出与关键字相关的分析功能服务。

2. 点击内容提取任务,进入参数配置页面,参数见下说明,如下图所示:

3. 输入参数,点击提交按钮,若正在提交,则显示如下图.

4. 任务正常提交完,则显示任务ID,提示如下图,点击查看,进入自带的任务列表或者Spark监控页面查看任务执行情况。

5. 待正常执行完后,则可在DataStore对应的存储目录中看到有结果数据。

参数说明

参数名称
参数说明
参数示例
是否必填
备注
数据路径 原始数据路径,支持HDFS http://192.168.80.108:9091/datastore/rest/dataset/
hdfs/service/archives/测试报告
必填
过滤条件 路径过滤条件,文件相对路径模糊匹配,多个用逗号分割 /*.docx,/附图/*.mpj,/附图/*.jpg 可选
关联ID 关联的ID,若不使用外部ID,即默认使用hdfs上文件夹的路径做md5计算后的值作为关联ID 1111 可选
是否聚合 是否聚合为一条记录,用于一条元数据对应多个报告文件的场景 true 可选
是否索引 是否同时创建索引 false 可选
索引方式 支持update、rebuild两种方式,update只创建满足过滤条件的索引,rebuild为创建全量索引 update 可选
索引库地址 索引库的URL地址 http://192.168.80.108:9091/datastore/rest/dataset/
es/service/test/文本库?
可选
结果地址 结果保存内容库的URL地址 http://192.168.80.108:9091/datastore/rest/dataset/
hbase/service/test?
必填

# 文档热度计算

# 功能说明

该功能通过对文档报告的搜索记录、浏览记录、访问记录、收藏记录等用户行为,结合报告文本内容,综合对文档报告的访问热度进行计算,应用系统可根据文档报告的热度进行优先排序、推荐等。

# 操作说明

1. 进入"文本大数据"菜单中"功能服务"页面,在该页面默认会列出所有可用的分析功能服务,当输入关键字后,可筛选出与关键字相关的分析功能服务。

2. 点击文档热度计算任务,进入参数配置页面,参数见下说明,如下图所示:

3. 输入参数,点击提交按钮,若正在提交,则显示如下图

4. 任务正常提交完,则显示任务ID,提示如下图,点击查看,进入Spark监控页面查看任务执行情况。

5. 待正常执行完后,则可在DataStore目录中看到结果

参数说明

参数名称
参数说明
参数示例
是否必填
备注
索引库地址 索引库中文档数据地址 http://192.168.80.108:9091/datastore/rest/dataset/
es/service/test/文本库?
必填
过滤条件 过滤条件,对要计算的数据进行过滤 ID>5 可选
日志数据地址 历史搜索词数据地址,支持es和HDFS两种存储,默认为ES索引库中文档关搜索关键词记录表 Hdfs日志文件为txt,格式如下(一行一个搜索关键词): 可选
热度字段 热度字段名称,计算结果保存字段,默认为__inner__hot __inner__hot 可选

# 文档报告内容提取

# 功能说明

该功能能够按段落解析doc文档的内容,并将内容存储到elasticsearch中。

# 操作说明

1. 进入"文本大数据"菜单中"功能服务"页面,在该页面默认会列出所有可用的分析功能服务,当输入关键字后,可筛选出与关键字相关的分析功能服务。

2. 点击文档报告内容提取任务,进入参数配置页面,参数见下说明,如下图所示:

3. 输入参数,点击提交按钮,若正在提交,则显示如下图

4. 任务正常提交完,则显示任务ID,提示如下图,点击查看,进入Spark监控页面查看任务执行情况。

5. 待正常执行完后,则可在DataStore目录中看到结果

参数说明

参数名称 参数说明 参数示例 是否必填 备注
报告路径 报告存储在hdfs上的路径 hdfs://192.168.199.50:9000/doc/工勘报告
文档数据集 文档数据集的地址url es://192.168.199.50:9300/testdb_mdo_1652085892030/def
ES集群名 es集群的名称 escluster
分区数 任务并行度 5