我正在从 Titan 迁移到 Datastax。我有一个包含大约 5000 万个节点的图表,由人员、地址、电话等组成
我想计算一个 Person 节点连接(有多少人拥有相同的电话、地址等)。
在 Titan 中,我编写了一个遍历所有人员节点的 Hadoop 作业,我可以编写一个 gremlin 脚本来查看有多少人在这个特定节点上拥有相同的电话
因此,作为输入属性,我有:
titan.hadoop.input.format=com.thinkaurelius.titan.hadoop.formats.hbase.TitanHBaseInputFormat
titan.hadoop.input.conf.storage.backend=hbase
对于查询过滤器,我只查询人员节点
titan.hadoop.graph.input.vertex-query-filter=v.query().has('type',Compare.EQUAL,'person')
并运行我使用的脚本
titan.hadoop.output.conf.script-file=scripts/calculate.groovy
这将为每个节点计算该人拥有的共享电话连接数。
object.phone_shared= object.as('x').out('person_phones').in('person_phones').except('x').count()
有没有办法在 Datastax 中编写这种脚本来检查人员节点。我看到 Datastax 使用 Spark 分析来计算节点,例如,
但我没有找到更多关于如何使用分析运行自定义脚本的文档
谢谢