感谢@hrbrmstr,我为“ Scraping a xml document (nested url-structure) ”问题找到了一个非常好的解决方案。
但由于这种洞察力,它出现了另一个问题:
现在我得到了以下数据结构......
$Vorname : chr "Jan" "Jan" "Jan" "Jan" ...
$ Nachname : chr "Aken" "Aken" "Aken" "Aken" ...
$ ID : chr "1627" "1627" "1627" "1627" ...
$ Fraktion : chr "Die Linke" "Die Linke" "Die Linke" "Die Linke" ...
$ Reli : chr "" "" "" "" ...
$ Geschlecht: chr "Männlich" "Männlich" "Männlich" "Männlich" ...
$ Auss_ord : chr "Auswärtiger Ausschuss" "Gremium nach § 23c Absatz 8 des Zollfahndungsdienstgesetzes" "Verteidigungsausschuss" "Unterausschuss Abrüstung, Rüstungskontrolle und Nichtverbreitung" ...
唯一实际变化的变量是“Auss_ord”,其中包含不同的议员佣金作为价值。
现在,我想要实现的是从当前的长版本切换到数据框的宽版本。
对于“Auss_ord”中的每个唯一值(某些文本字符串),都应该有一个新列,并且如果另一个对象具有相同的值,还应该检查它是否为“真”。
以便...
Vorname Nachname ID Fraktion Reli Geschlecht Auss_ord
<chr> <chr> <chr> <chr> <chr> <chr> <chr>
1 Jan Aken 1627 Die Linke Männlich Auswärtiger Ausschuss
2 Jan Aken 1627 Die Linke Männlich Gremium nach § 23c Absatz 8 des Zollfahndungsdienstgesetzes
3 Jan Aken 1627 Die Linke Männlich Verteidigungsausschuss
4 Jan Aken 1627 Die Linke Männlich Unterausschuss Abrüstung, Rüstungskontrolle und Nichtverbreitung
5 Stephan Albani 1769 CDU/CSU Männlich Ausschuss für Bildung, Forschung und Technikfolgenabschätzung
6 Stephan Albani 1769 CDU/CSU Männlich Ausschuss für Gesundheit
7 Katrin Albsteiger 1770 CDU/CSU römisch-katholisch Weiblich Schriftführer/in
8 Katrin Albsteiger 1770 CDU/CSU römisch-katholisch Weiblich Ausschuss für die Angelegenheiten der Europäischen Union
……应该变成……
我尝试过重塑操作,例如
d1 <- dcast(df, Vorname ~ Nachname ~ ID ~ Fraktion ~ Reli, value.var="ausord")
或者
d2 <- reshape(df, idvar = "ID", timevar = "Auss_ord", direction = "wide")
...但是我没有得到任何正确的结果,除了(对我来说)检查值的唯一性的非常棘手的实现