research-on-frequent-pattern-mining-based-on-hotspot-trajectories

Draft Research Proposal

轨迹热点挖掘的基础概念与公式

1. 关系（Relation）

给定集合

A = {a_{1}, a_{2}, . . ., a_{n}}

和

B = {b_{1}, b_{2}, . . ., b_{m}}

，如果元素

a_{i}

和

b_{j}

之间存在关系，则定义如下：

单向关系： $a_{i} \to b_{j}$ 或 $a_{i} \leftarrow b_{j}$
双向关系： $a_{i} \leftrightarrow b_{j}$

2. 并置模式（Co-location）

定义集合

A, B

之间的关系集合

R_{A B}

为并置模式：

R_{A B} = {a \to b \lor b \to a \lor a \leftrightarrow b ∣ a \in A, b \in B}

3. 参与集（Participation Set）

集合

A, B

之间的所有关系所含元素的集合：

C = {\forall a, \forall b ∣ a \in A, b \in B, \exists a \to b \lor \exists b \to a}

4. 参与度（Participation Rate）

衡量集合

A, B

之间关系的强度：

γ_{A B} = \frac{| C |}{| A | + | B |}

5. 频繁并置（Prevalent Co-location）

若参与度满足阈值

γ_{m i n}

，则称为频繁并置模式集合：

P R_{A B} = {R_{A B} ∣ γ_{A B} \geq γ_{m i n}}

6. 轨迹序列（Trajectory Sequence）

由物理空间中

k

个坐标点按照时间顺序线性连接构成：

R = {N, E}

其中：

$N = {n_{1}, n_{2}, . . ., n_{k}}$ （轨迹点集合）
$E = {e_{1}, e_{2}, . . ., e_{k - 1}}$ （轨迹边集合）

7. 轨迹序列集合（Trajectory Sequence Set）

如果集合

G_{a}

由

m

条轨迹序列构成，则定义为：

G_{a} = {R_{1}, R_{2}, . . ., R_{m}}

8. 轨迹序列并置（Trajectory Sequence Co-location）

如果

G_{b} \subseteq G_{a}

，且

G_{b}

中所有轨迹都经过节点

n_{i}

，则称

G_{b}

为轨迹序列并置集合，

n_{i}

为并置节点。

9. 轨迹序列频繁并置（Trajectory Sequence Prevalent Co-location）

假设轨迹序列并置集合

G_{c}

中的轨迹数量为

m

，且满足频繁度阈值：

m \geq m_{m i n}, m_{m i n} \geq 2

则称

G_{c}

为轨迹序列频繁并置集合。

10. 轨迹热点（Trajectory Hotspots）

在轨迹序列频繁并置集合中，如果存在

k \geq 2

个连续的并置节点，且满足路径长度阈值：

k \geq k_{m i n}, k_{m i n} \geq 2

则称

G_{d}

上存在轨迹热点

H

：

H = {n_{1} \to n_{2} \to . . . \to n_{k}}

实验原理（Markdown 版）

课题：基于热点轨迹的频繁模式挖掘研究
目标：在保证时空效率的前提下，体系化挖掘 Geo‑Trajectories 数据中的热点路径（Hotspot Trails），并为后续的行为预测与智能推荐奠定理论基础。

1. 轨迹数据建模

设移动对象的原始轨迹为离散点序列

R = {p_{1}, p_{2}, \dots, p_{m}}

，其中

p_{i} = (x_{i}, y_{i}, t_{i}, {meta}_{i}), i = 1, \dots, m .

为了降低计算复杂度与噪声，采用时间采样

Δ t = 15 min

与空间网格化（R&D 网格）将原始轨迹映射到 节点集合

V

与 有向边集合

E

：

节点： $v \in V ⟺ \exists p_{i} 落入网格 g_{v}$
边： $e = (v_{i} \to v_{j}) \in E ⟺ p_{k} \in g_{v_{i}}, p_{k + 1} \in g_{v_{j}}$

得到 一阶路径表（1‑degree path table）：

T_{1} = {(v_{i}, v_{j}, {traj\_set}_{i j}) ∣ (v_{i} \to v_{j}) \in E} .

其中

{traj\_set}_{i j}

为经过该边的轨迹 ID 集合。

2. 并置模式与热点路径定义

2.1 并置模式（Co‑location Pattern）

给定两个对象集

A, B

与空间关系谓词

R (\cdot)

，其并置模式定义为

C_{A, B} = {(a, b) ∣ a \in A, b \in B, R (a, b) = true} .

2.2 频繁并置

参与度：

γ_{A, B} = \frac{| C_{A, B} |}{| A | + | B |}

.
若

γ_{A, B} \geq γ_{min}

，称

A, B

存在频繁并置。

2.3 热点路径（Hotspot Trail）

长度阈值 $k_{min}$
支持阈值 $m_{min}$

若存在有向节点序列

H = (v_{1} \to \dots \to v_{k})

满足：

$k \geq k_{min}$
经过该序列的轨迹集合 ${SG}_{H}$ 满足 $| {SG}_{H} | \geq m_{min}$

则称

H

为热点路径。

3. 三类热点挖掘算法

类别	代表	适用场景	核心复杂度
Apriori‑Join	NDTTJ	轨迹稀疏	$O (n^{2})$ 时间， $O (n^{2})$ 空间
Pattern‑Growth	NDTTT	轨迹密集	$O (n \log n)$ 时间， $O (n)$ 空间
Graph‑Traversal	TTHS	大规模图结构明显	$O (n)$ 时间， $O (n)$ 空间

3.1 NDTTJ — N‑Degree Trajectory Table Join

初始队列：筛出满足 $m_{min}$ 的一阶边。
连接规则：若 $p_{1} = (v_{1} \dots v_{r}), p_{2} = (v_{r} \dots v_{r + 1})$ ，则

new_path = p_{1} \cup p_{2}, new_sg = {sg}_{p_{1}} \cap {sg}_{p_{2}} .

剪枝： $| new_sg | < m_{min}$ 直接丢弃。
迭代至无新路径或达到 $max\_depth$ 。

3.2 NDTTT — N‑Degree Trajectory Table Traversal

深度优先，以尾节点为锚增长，不产生候选集，适合稠密路径。

3.3 TTHS — Trajectory‑Traversal Hotspot Search

利用 Neo4j / JanusGraph 免索引邻接优势，按边权“度”剪枝。

4. 多维特征工程

4.1 时间特征

平均起始时刻 $\bar{h} = \frac{1}{| SG |} \sum_{i} h_{i}$
时间熵 $H_{t} = - \sum_{b} p_{b} \log_{2} p_{b}$

4.2 空间特征

欧氏路径长： $L = \sum_{i = 1}^{k - 1} ‖ v_{i + 1} - v_{i} ‖_{2}$
空间熵：对经纬度各做 1D 熵并求和。

4.3 语义特征

主导 POI： $\arg max_{c} freq (c)$
POI 熵 $H_{p o i}$ ，衡量类型多样性。

5. 数据流程汇总

flowchart TD
    %% ========== ① 数据清洗 ==========
    A["Geolife .plt<br/>Raw trajectories"] -->|"15-min<br/>Sampling"| B["Cleaned CSV"]

    %% 拆分
    B --> NODES["nodes.csv"]
    B --> EDGES["edges.csv"]
    B --> META["traj_metadata.csv"]

    %% ========== ② 热点挖掘 ==========
    %% ---- Path-table line ----
    META --> PT1["1-degree<br/>Path Table"]
    PT1 --> HT1["NDTTJ / NDTTT<br/>Hotspots"]:::algo

    %% ---- Graph line ----
    NODES & EDGES --> GDB["Neo4j / JanusGraph"]:::store
    GDB --> HT2["TTHS<br/>Hotspots"]:::algo

    %% 合并
    HT1 & HT2 --> M["Merged hotspot set"]

    %% ========== ③ 三维特征 ==========
    M -->|时间映射| TF["Temporal features"]
    M -->|空间投影| SF["Spatial features"]
    M -->|POI映射| PF["Semantic features"]
    NODES --> PF
    META  --> TF

    TF & SF & PF --> EH["Enhanced hotspot table"]

    %% ========== ④ 质量清洗 ==========
    EH -->|"IQR-trim<br/>(length)"| CQ{"滤除极端值"}
    CQ --> FP["Final cleaned paths.csv"]

    %% ---------- 样式 ----------
    classDef algo  fill:#ffe2e2,stroke:#d44,stroke-width:1.3px,color:#000;
    classDef store fill:#e1ecff,stroke:#4682ff,stroke-width:1.3px,color:#000;

高阶语义热点轨迹频繁模式挖掘方案

背景说明

本方案以 cleaned_paths.csv 为核心数据基础，构建在三类轨迹热点挖掘算法（NDTTJ / NDTTT / TTHS）之上，结合已构造的时空、POI 语义、轨迹结构等多维特征，提出一个可落地、可解释的频繁语义路径模式挖掘系统，其目标是：

发挥三类热点挖掘算法生成路径序列的结构优势（稳定、高覆盖）；
基于熵加权构建支持度体系（SU-Support），挖掘更有区分度和语义代表性的热点路径模式；
借助自适应算法调度与剪枝，提升效率和表达质量；
支持后续 Web 可视查询与 API 接口输出。

建模与支持度构建

三维熵加权支持度定义（SU-Support）

传统频繁模式支持度为：

Support (H) = | T_{H} |

我们引入三维稳定性加权（空间、时间、语义）：

SU (H) = | T_{H} | \cdot (1 - λ \cdot H_{s}^{'} (H)) \cdot (1 - μ \cdot H_{t}^{'} (H)) \cdot (1 - ν \cdot H_{p o i}^{'} (H))

$H_{s}^{'}, H_{t}^{'}, H_{p o i}^{'} \in [0, 1]$ ：分别为空间、时间、POI 熵归一化后值；
$λ, μ, ν$ ：三维惩罚系数，控制熵惩罚强度；
当三个熵值越高，路径越不稳定，SU 值越小。

差分进化优化权重系数

使用差分进化（Differential Evolution）寻找三元最优权重参数：

目标函数：

max_{λ, μ, ν} [α \cdot Coverage (θ) - (1 - α) \cdot Redundancy (θ)]

$Coverage$ ：SU 前 K 模式覆盖所有轨迹的比例；
$Redundancy$ ：前 K 模式之间的 Jaccard 平均相似度；
$θ$ ：SU 阈值，保留高质量候选集；
$α$ ：权衡因子，推荐值为 0.7。

自适应算法调度机制

核心思想：

NDTTJ 适合稀疏轨迹结构（连接型 Join）
NDTTT 适合中等密度（深度优先 Path-Growth）
TTHS 适合稠密区域（图结构下 DFS 遍历）

实现方式：

对每条路径计算空间密度：

ρ (H) = \frac{1}{H_{s}^{'} (H) + ε}

设置分界阈值 $ρ_{l}, ρ_{h}$ ：

密度区间	调用算法
$ρ < ρ_{l}$	NDTTJ
$ρ_{l} \leq ρ < ρ_{h}$	NDTTT
$ρ \geq ρ_{h}$	TTHS

可训练决策树/聚类划分 $ρ$ 区间，动态微调

模式构建与双层消歧流程

步骤一：SU-FP-Tree 构建

将 path 序列构建 FP-Tree，使用 SU 值作为浮点计数；
前缀遍历生成候选模式集 $P_{1}$

步骤二：PrefixSpan 补充

使用 Spark MLlib 执行 PrefixSpan，补充遗漏的序列模式 $P_{2}$
最终模式集 $P = P_{1} \cup P_{2}$

步骤三：超图 k-Truss 精炼

将模式转为超边图结构 $G$ ，节点为热点格点；
执行 $k$ -truss 分解（ $k = ⌈ | H | / 2 ⌉$ ）保留强连通模式

步骤四：信息密度增益剪枝

定义模式信息增益：

Gain (H) = \frac{SU (H)}{| H | \cdot \log_{2} (| {POI}_{H} | + 1)}

$| {POI}_{H} |$ ：该路径涵盖的 POI 类别数目
使用阈值 $τ_{G}$ 保留高 Gain 模式

实验流程与模块落地

模块	工具/方法	输入列	说明
特征归一化	pandas/sklearn	`time_entropy`, `spatial_entropy`, `poi_entropy`	归一化到 [0,1]
SU 计算 & DE调参	numpy + deap	`frequency`, 上述熵列	输出 SU 值和 (λ,μ,ν)最优组合
调度标签学习	sklearn DecisionTreeClassifier	`source`, `spatial_entropy`	预测当前热点适用算法类别
FP-Tree 构建	自定义 FP-Tree 类	`path`, `SU`	构建序列频繁模式树
PrefixSpan	Spark MLlib	`path`	规则匹配追加候选
k-truss 剪枝	NetworkX or custom impl	`path`节点	保留强结构模式
Gain 计算	numpy	SU值, `path_length`, `poi_types`	信息密度排序