计算机科学精选论文|於志文教授:用户行为感知理解面临的十个科学问题-k8凯发旗舰

计算机科学精选论文|於志文教授:用户行为感知理解面临的十个科学问题

计算机科学精选论文|西北工业大学於志文教授“用户行为感知理解面临的十个科学问题”

原文信息:yu, z., du, h., yi, f. et al. ten scientific problems in human behavior understanding. 

ccf trans. pervasive comp. interact. 1, 3–9 (2019).

一下信息来源:


用户行为感知理解对于现实生活中的很多应用是非常重要的,如个性化推荐、智能家居、城市规划,甚至疾控、反恐等。虽然目前在该领域已取得了一些重要成果,但仍存在很多理论和技术上的问题有待进一步地探索。

用户行为感知理解的研究框架(如图1)由四部分构成:数据收集、建模分析、性能评价、应用服务。通过分析每一部分存在的相关问题,总结了该领域所面临的三大挑战:一、用户行为本身的特点所带来的挑战;二、用户行为相关数据带来的挑战;三、模型和评价上存在的挑战。

图1. 用户行为感知理解的研究框架

在研究框架和三大挑战基础上,论文指出当前用户行为感知理解面临的10个重要科学问题:

1. 用户行为的演化性

人类的行为是随着时间改变的,例如用户的阅读兴趣偏好可能随年龄增长而变化。这一特性称之为行为的演化性,该特性对用户行为理解的模型提出了要求:模型不仅要识别用户的行为类型,还要能判别用户行为何时发生改变。现有的机器学习算法与模型大多数只能输出结果,不能展示行为在时间上的、演化的细节。

针对行为演化性这一特性,在研究中应该考虑一些问题,包括哪些行为具有演化性、应用的模型能否检测行为在何时发生改变以及改变的原因、模型能否适应行为的演化并输出随时间变化的结果,以及输出的结果有几种可能性。

在未来的研究中,需要考虑构建智能的模型,让其可以随着行为的演化自适应地做出调整。更重要的是,由于用户行为理解研究的目标是揭示人类行为的规律,因此模型也需要输出具有解释性的信息。

2. 用户行为的多面性

多面性是指用户行为的表现不是唯一的,例如,一个人的个性在工作坏境中可能表现出稳重的一面,而在休闲娱乐时表现出活泼的一面。在不同方面,用户行为有不同的表现,甚至有一些未知的侧面。

现有方法对一个人的理解通常是单方面的,很难获得一个完整的画像,因此,从行为的多面性角度考虑仍有很多需要解决的问题,例如,哪些侧面可以反映用户行为的多面性?是否所有的侧面都是可以理解的?哪些侧面不能进行感知和分析?在理解用户行为方面,每个侧面的权重是否是相同的?如何确定他们的权重?

面对这些问题,研究人员首先要探索可以捕捉完整用户画像的方法,然后再对每一个行为侧面实现进一步分析。

3. 用户行为的善变性

人类行为是会被周围的环境以及身边的人影响的,也就是说人类行为是善变的,那么,哪些因素会影响用户的行为?这些影响是否可以量化?正如我们所知,一个人的情感是会被其他人影响的,如从众心理和情绪感染。在大多数情况下,这些影响是由主观因素造成的,对这些影响因素的分析需要结合心理学和社会学领域的知识。

另外,这些影响因素也是难以衡量的,我们无法确定是不是所有的影响因素都可以量化。对于难以量化的影响因素,我们又该如何去估计或者模拟它们的影响力?这些问题的解决方法可能还需要参照其他领域的模型。

4. 行为数据的碎片化

为了全面描绘用户的行为活动,需要采集来自不同设备的感知数据,这些数据分散在不同的空间区域和时间片段,最终导致了用户行为数据的碎片化。例如,用户行为的感知数据可能分布在不同的场所,包括家里、办公室或者健身房等;同样也可能分散在一天的不同时间段(早、中、晚)。

因此,如何整合/汇集这些碎片化的数据是理解用户行为的必要前提。针对数据碎片化的研究比如,碎片化的数据之间存在怎样的关联关系?碎片化数据的哪一部分是相对更重要的?面向不同的研究背景,是否需要平衡不同数据碎片之间的权重?或者,是否存在某一个标准可以用来指导研究人员高效的解决数据碎片化的问题?

5. 行为数据的异构性

异构性是指用户行为感知数据的不同构成形式,包括图像、文本、视频以及语音等。用户行为由于被不同类型的传感器感知与获取,进而形成了异构的行为数据集。尽管现有的工作讨论了异构数据在用户行为感知中的作用,然而如何协同的融合分析异构数据仍需进一步探索。

例如,城市中的游行事件不仅可以用新闻文本进行描述,还可以通过相关的照片、视频以及用户的评论进行展示。然而,将这些异构数据进行融合表达依旧是研究的难点。存在的问题包括,如何挖掘不同异构数据之间关系(如,文本与图像之间的关联)?如何基于已有的数据补全缺失的数据类型?在何种情况下,异构数据的融合会比单一类型数据的效果更好? 

6. 行为数据的时空关联

位置与时间信息是用户行为的两类重要特征,同时,行为存在空间和时间上的关联,形成了行为数据的时空关联特性。例如,用户周期性的行为活动(例如,呼吸)会使感知数据在时间维度存在自相关性;用户在相似空间区域的行为也存在相关性。

尽管已有工作探讨了行为数据时空关联的重要性,但是仍存在以下问题急需解决。如何实现时空数据的关联?模型和算法是否能够在学习过程中考虑数据的时空关联?如何将数据的时空关联特性形式化表达?进一步的,如何评估数据时空关联带来的效果?是否存在方法用于调整空间和时间关联特征的权重?

此外,伪时空关联、时空关联的过度使用以及将数据的时空关联性误解为数据的“因果性”都应在研究中避免。

7. 行为数据的代表性

代表性是指行为数据能否准确代表相关用户个体/群体的行为规律或模式。来自不同平台的行为数据所涉及人群在年龄分布、地理分布、收入水平等方面往往存在显著差异,具有不同的分布特性。例如,公共交通智能刷卡系统更多收集“上班族”的行为数据,各类社交应用则更多蕴含“年轻一代”的行为数据。

直接使用这样的数据将不能准确地反映现实世界的真实情况,极有可能得出错误的模型或结论,进而导致不可靠的科学发现,例如google流感预测出现偏差、2016年美国大选预测失败等。如何采样才能收集具有代表性的数据是研究的重点。

此外,公开平台中的行为数据往往是经过多种手段处理之后的数据,从而无法准确的代表用户的行为规律和模式,影响用户行为感知与理解的建模。因此,需要评判获取的数据是否在行为建模中具有代表性。

8. 数据的稀疏性

在大数据时代,研究用户的行为仍存在数据稀疏性的问题。由于感知手段的不充分、感知能力的不全面等多方面因素,会造成行为感知数据稀疏;由于用户自我隐私保护、个体认知能力、行为性格习惯等方面的因素,导致很多用户不够活跃,行为数据稀疏。

信息物理空间交织导致用户数据稀疏性更加显著:不同空间数据不对称,使得多空间数据汇聚后,数据维度更高,但属性和关系缺失严重,由此带来高维数据属性稀疏、实体间关系稀疏。因此,如何解决数据稀疏性至关重要。尽管已有多种解决数据稀疏性的方法,然而它们仍旧难以满足日益增长的研究需求和挑战。同时,在数据稀疏性之外,数据分布的不平衡性也是一个重要的研究问题。

9. 用户行为的可计算性

使用现有的数据、技术和方法,是否能保证所有行为都是可以计算的,包括感知、建模等。如何从理论上证明可计算性,用户行为在什么条件下是可以计算的,又是什么因素限制了对该行为的计算能力,这些问题都值得思考。

已有研究通过计算每个人移动轨迹的熵,估计人类活动可预测性的局限;北京大学张大庆教授团队提出了菲涅尔区模型,揭示了基于wi-fi的活动识别方法的界限。因此,在行为感知理解研究中首先应该思考一个基本问题:人类行为在多大程度下是可以计算的,感知或者理解的上限是多少。只有在可计算性的理论基础上,我们才能提高理解用户行为模型的性能,并在当前领域取得开拓性成果。

10. 模型系统的可比较性

用户行为感知理解可以采用不同的设备、数据、方法、实验环境,那么能否建立用户行为理解的基准,是否可以用一套公开的数据集进行评估,哪些技术、算法可以作为基准,以及基本的评估指标有哪些?

对于相同或者相似的研究问题,如用户定位,研究人员通常采用不同的传感技术、数据集、模型和算法,且在不同的实验环境中完成,这些差异的存在使得很多研究无法完全进行比较,从而不能确定哪些实验结果是可以接受的、哪些实验结果是完美的、哪些结果是不合理的。在用户行为感知理解领域仍然缺乏一个完善的评估系统,一些通用的benchmark。

文中还讨论了一些可能的解决途径,包括跨领域/学科合作、跨组织/平台/机构合作、利用群智的力量、关注基础研究等。作者希望在不断的探讨中激发该领域更多创造性的研究。



登录用户可以查看和发表评论, 请前往  登录 或  注册
scholat.com 学者网
免责声明 | 关于k8凯发旗舰 | 用户反馈
联系k8凯发旗舰:
网站地图