python - 如何从具有其他变量的字符串中仅对大学名称进行子集化

Question

我在字符串部分中仅获取大学名称时遇到问题，如下所示：

Rank    Name
Country/Region
1   University of Oxford
United Kingdom
2   California Institute of Technology
United States
3   University of Cambridge
United Kingdom
4   Stanford University
United States
5   Massachusetts Institute of Technology
United States
6   Princeton University
United States
7   Harvard University
United States
8   Yale University
United States

我想要的是只有大学名称的列表。尝试使用 re.sub 但无法决定模式。任何帮助将不胜感激。谢谢！

score 0 · Accepted Answer

0

您可以使用正则表达式：

^\d +(.*)

并为每场比赛获取第 1 组的内容。

于 2019-11-15T13:56:53.513 回答

score 0 · Accepted Answer

0

Try this pattern :

^\d+\s+(.*)

于 2019-11-15T13:59:22.870 回答

score 0 · Accepted Answer

我不确定您的数据实际上是如何格式化的，但是如果它的格式像您在此处发布的那样\n，每行末尾都有一个换行符，并且数字和大学名称之间总是有三个空格，这将遍历每个线：

t = "whatever your text is"

for i in t.split("\n"):
   if i[0].isdigit():
      print(" ".join(i.split(" ")[3:]))

python - 如何从具有其他变量的字符串中仅对大学名称进行子集化

3 回答 3

Related

Reference