python - 根据前一个兄弟的文本获取下一个兄弟的文本

Question

我有以下 HTML：

<div id="infoTable">
    <h4>
      User
    </h4>
    <table>
        <tbody>
            <tr>
                <td class="name">
                    <a href="/userpage/123">BillyBob12345</a>
                </td>
            </tr>
            <tr>
                <td class="name">
                    <a href="/userpage/124">JimBob43</a>
                </td>
            </tr>
        </tbody>
    </table>
    <h4>
      Super User
    </h4>
    <table>
        <tbody>
            <tr>
                <td class="name">
                    <a href="/userpage/112">CookieMonster</a>
                </td>
            </tr>
        </tbody>
    </table>
</div>

基本上，我希望得到两个列表：

Users = [{"BillyBob12345" : "123"}, {"JimBob43" : "124"}]
SuperUsers = [{"CookieMonster" : "112"}]

我目前正在将 Python 2.7 与 BeautifulSoup4 一起使用，并且我能够找到所有用户，但我无法将他们分成各自尊重的组。

score 0 · Accepted Answer

我实际上能够使用以下方法提取信息：

if (BS.find('div').find('h4',text="User")):
    FindUsers = BS.find('div').find('h4', text="User").findNext('table').find('td', {"class" : "name"}).findAll('a')
    Users = [{u.text.strip() :  u['href'].split('/')[2]} for u in FindUsers ]

score 0 · Accepted Answer

如果您碰巧知道它们是按该顺序排列的，则可以使用列表推导来创建这些字典列表，并使用以下方法解析“用户页”编号.split('/')：

firstTable = soup.findAll('table')[0]
users = [{a.text : a['href'].split('/')[2]} for a in firstTable.findAll('a')]

secondTable = soup.findAll('table')[1]
superUsers = [{a.text : a['href'].split('/')[2]} for a in secondTable.findAll('a')]

>>> users
[{'BillyBob12345': '123'}, {'JimBob43': '124'}]
>>> superUsers
[{'CookieMonster': '112'}]

如果您想访问名称“用户”然后将其用于字典，您可以使用：

>>> firstTable.previousSibling.previousSibling
<h4>
      User
    </h4>

python - 根据前一个兄弟的文本获取下一个兄弟的文本

2 回答 2

Related

Reference