我正在尝试使用readtext()
R Studio 中的 readtext 包从 PDF 文件中提取的文本中删除“\r\n-”。以下是我在 R 中的代码:
library(readtext)
jd <- readtext("C:/Users/HomeUser/Documents/Sales Manager.pdf")
jd_text <- jd$text
jd_text2 <- gsub(pattern = "\r\n-?|•", replacement = " ", jd_text)
以下是提取的原始文本jd_text
:
"Sales Manager\r\nCFB Bots 是一家专注于智能自动化 (IA) 的技术服务提供商。我们与\r\n大型企业合作,共同推进他们的数字化转型之旅,并帮助他们及其员工在工作的未来\r\n中茁壮成长。我们的使命是共同创造未来的数字化劳动力,我们的愿景\r\nis 是让工作变得愉快。有关更多信息,请访问 www.cfb-bots.com。\r\n我们正在寻找高绩效为我们不断发展的业务开辟道路并建立新联系的领跑者。作为销售经理,您将通过实现我们的客户获取和收入增长目标,在保持公司的竞争力方面发挥重要作用。\r\n您将成为在销售过程的每个阶段,从计划到完成销售,都是关键\r\n联络人。\r\n如果您对技术充满热情,并且渴望解决我们客户的\r\n挑战,请继续阅读以了解更多信息。\r\n您可以获得:\r\n− 实现销售目标的激励\r\n− 接触最新的行业趋势和技术\r\n− 无尽的学习和成长机会\r\n− 提高销售计划、分析和管理技能\r\n − 灵活的工作与生活福利\r\n你会做:\r\n销售策略\r\n- 开发..."
我能够在jd_text
using中删除许多“\r\n-” gsub()
。从jd_text2
下面输出:
如果您对技术充满热情并且渴望解决我们客户的挑战,请继续阅读以了解更多信息。您可以获得:− 实现销售目标的激励措施 − 接触最新的行业趋势和技术 − 无尽的学习和成长机会 − 提高销售计划、分析和管理技能 − 灵活的工作与生活福利您将做:制定销售策略..."
如您所见,我能够删除“灵活的工作生活福利”之后出现的“\r\n-”,而前几个“\r\n-”中的“-”仍然存在。jd_text
但是,当我将直接从R Studio 控制台的显示中提取的原始文本粘贴到一个新变量jd_test
中,再次应用gsub()
时,我能够实现我的目标:
jd_test <- "Sales Manager\r\nCFB Bots is a technology service provider specializing in Intelligent Automation (IA). We partner with\r\nlarge enterprises in their Digital Transformation journey and help them and their employees thrive\r\nin the Future of Work. Our mission is to co-create the Digital Workforce of the Future, and our vision\r\nis to make work enjoyable. For more information, please visit www.cfb-bots.com.\r\nWe are looking for a high performing frontrunner to blaze the trail and make new connections for\r\nour growing business. As a Sales Manager, you will play a vital role in keeping the Company\r\ncompetitive by achieving our customer acquisition and revenue growth targets. You will be the key\r\nliaison in every stage of the sales process, from planning to closing the sales.\r\nIf you are passionate about technology and are motivated by a hunger to solve our clients’\r\nchallenges, read on to find out more.\r\nYou can gain:\r\n− Incentive for achieving sales targets\r\n− Exposure to the latest industry trends and technologies\r\n− Endless learning and growth opportunities\r\n− Sharpen sales planning, analytical and management skills\r\n− Flexible work-life benefits\r\nYou will do:\r\nSales Strategy\r\n- Develop ..."
jd_test2 <- gsub(pattern = "\r\n-?|•", replacement = " ", jd_test)
jd_test2 的输出:
销售经理 CFB Bots 是一家专注于智能自动化 (IA) 的技术服务提供商。我们与大型企业合作开展数字化转型之旅,帮助他们及其员工在未来的工作中茁壮成长。我们的使命是共同创造未来的数字化劳动力,我们的愿景是让工作变得愉快。欲了解更多信息,请访问 www.cfb-bots.com。我们正在寻找一位表现出色的领跑者,为我们不断发展的业务开辟道路并建立新的联系。作为销售经理,您将通过实现我们的客户获取和收入增长目标,在保持公司竞争力方面发挥重要作用。您将成为销售流程每个阶段的关键联络人,从计划到完成销售。如果您对技术充满热情并且渴望解决我们客户的挑战,请继续阅读以了解更多信息。您可以获得: 实现销售目标的激励措施 接触最新的行业趋势和技术 无尽的学习和成长机会 提高销售计划、分析和管理技能 灵活的工作与生活福利您将做:制定销售策略……”
任何人都知道问题是什么,我该如何解决?我曾尝试使用pdf_text()
pdftools 包中的另一个函数,但它产生了同样令人沮丧的结果。起初我认为前几个“\r\n-”的“-”比后者稍长,但直接复制粘贴尝试似乎与这一观察相矛盾。在复制粘贴操作期间未迁移的对象中是否存在“隐藏”的内容?非常感谢任何建议!