我必须从一个不均匀且有点复杂的文件中读取文本基本上是按这个顺序
Index . word / DOC_id : position1 postition2 (....and so on), DOC_id : position1 postition2 (....and so on),
所以一个词可以出现在 n 个文档中,并且可以在一个文档中出现 n 次。例如,我正在复制文件的一小部分,由于空间限制,我不能放置出现次数过多的单词。
例子:
13137 . speeding / D85 : 5999 ,
13138 . spell / D53 : 1513 ,
13139 . spelling / D3 : 344 351 ,
13140 . spending / D71 : 398 ,
13141 . spiderman / D60 : 650 733 997 1023 1053 1133 1152 1169 ,
13142 . spiders / D75 : 704 , D91 : 19834 ,
(...and so on)
请任何人都可以帮我解决这个问题。另外,我可以在生成此文件时以更好的方式格式化文件吗,也许我可以重新格式化它并生成格式更好的文本文件。
谢谢你 :)