背景
希望在 JasperServer 中自动创建域。域是用于创建临时报告的数据“视图”。列的名称必须以人类可读的方式呈现给用户。
问题
理论上,组织可能希望将超过 2,000 条可能的数据包含在报告中。数据来自非人类友好的名称,例如:
支付期匹配代码劳动分配编码esc 依赖关系操作endoption actionendoptiondesc addresstype addresstypedesc historytype psaddresstype rolename bankaccountstatus bankaccountstatusdesc bankaccounttype bankaccounttypedesc beficiaryamount beficiaryclass beeficiarypercent benefitsubclass beficiaryclass beficiaryclassdesc benefitactioncode benefitactioncodedesc benefitagecontrol benefitagecontroldesc ageconrolagelimit ageconrolnoticeperiod
问题
您将如何自动将此类名称更改为:
- 支付期间匹配代码
- 劳务分配代码描述
- 依赖关系
想法
使用谷歌的你的意思是引擎,但我认为它违反了他们的服务条款:
lynx -dump «url» | grep "Did you mean" | awk ...
语言
任何语言都可以,但是像 Perl 这样的文本解析器可能更适合。(列名仅限英文。)
不必要的完美
我们的目标不是 100% 完美地分解单词;以下结果是可以接受的:
- 注册生效日期 -> 注册生效日期
- 登记结束日期 -> 登记男性倾向于日期
- 注册要求集 -> 注册要求集
无论如何,人类都需要仔细检查结果并纠正许多。将一组 2,000 个结果减少到 600 个编辑将大大节省时间。专注于具有多种可能性的某些案例(例如,治疗师姓名)是完全忽略了这一点。