问题标签 [clickstream]
For questions regarding programming in ECMAScript (JavaScript/JS) and its various dialects/implementations (excluding ActionScript). Note JavaScript is NOT the same as Java! Please include all relevant tags on your question; e.g., [node.js], [jquery], [json], [reactjs], [angular], [ember.js], [vue.js], [typescript], [svelte], etc.
pandas - 实时对点击流数据进行数据预处理
我正在开发一个实时检测网络用户活动异常的项目。必须实时检测用户的任何恶意或恶意活动。输入数据是用户的点击流数据。点击数据包含用户 ID(唯一用户 ID)、点击 URL(网页 URL)、点击文本(用户点击的网站中的文本/功能)和信息(用户输入的任何信息)。该项目类似于入侵检测系统 (IDS)。我正在使用 python 3.6,我有以下查询,
- 考虑到数据集中的所有属性都是分类值,这是进行数据预处理的最佳方法。
- 可以应用热编码或标签编码等编码方法,但必须实时处理数据,这使其难以应用
- 根据项目要求,将 3 列(单击 URL、单击文本和键入的信息)视为特征列。
我真的很困惑如何处理数据预处理。任何见解或建议将不胜感激
python - 点击流和相似度矩阵
我有一个序列列表,表示通过网站的用户导航路径。具有以下形式:
S1 = [2,5,3,7,3]
S2= [2,7,3,9,4,3,5,6,1]
等等……</p>
如您所见,序列的长度不必相同。我正在尝试计算一个相似度矩阵以作为聚类算法的输入,在本例中为 DBSCAN。我遇到的问题是我在互联网上找到的每个示例,使用的序列都具有相同的长度。所以我试图解决的主要挑战是使用不同长度的序列计算相似度矩阵。我会很感激一些帮助!