DDST数据驱动软件技术实验室Data Driven Software Technology

黄林鹏

上海交通大学长聘教授,博士生导师

研究方向:分布式系统、大数据与人工智能

lphuang@sjtu.edu.cn

021-3420435

个人简介

黄林鹏,上海交通大学长聘教授,计算机科学与工程系博士生导师,INTEL-SJTU持久内存计算联合实验室交大方负责人,本科毕业于浙江大学计算机系, 1992年于上海交通大学获得博士学位,2004/2007香港中文大学、1999-2000年美国哈佛大学访问学者。研究方向为分布式系统和大数据处理。中国计算机学会高级会员,开放式系统、服务计算专业委员会会员。曾担任国家863项目“面向大数据的内存计算系统与技术”首席专家,在国内外重要期刊和杂志上发表论文100余篇,申请国家发明专利20余项,主持起草地方标准1项。

论文成果

2015年-今部分文章

在面向大数据处理的持久内存计算方面论文

-Dongliang Xue, Linpeng Huang, Chao Li, Chentao Wu:
 Dapper: An Adaptive Manager for Large-Capacity Persistent Memory. 
 IEEE Trans. Computers  68(7): 1019-1034 (2019) (the featured paper in the July 2019 issue of IEEE TC) 

-Dongliang Xue, Chao Li, Linpeng Huang, Chentao Wu, Tianyou Li:

 Adaptive Memory Fusion: Towards Transparent, Agile Integration of Persistent Memory.   

 HPCA 2018: 324-335

-Hao Liu, Linpeng Huang, Yanmin Zhu, Shengan Zheng, Yanyan Shen:

 HMFS: A hybrid in-memory file system with version consistency. 
 J. Parallel Distrib. Comput. 117: 18-36 (2018)
-Kaixin Huang, Jie Zhou, Linpeng Huang, Yanyan Shen:
 NVHT: An efficient key-value storage library for non-volatile memory.
 J. Parallel Distrib. Comput. 120: 339-354 (2018)
-Shengan Zheng, Hao Liu, Linpeng Huang, Yanyan Shen, Yanmin Zhu:
 HMVFS: A Versioning File System on DRAM/NVM Hybrid Memory. 
 J. Parallel Distrib. Comput. 120: 355-368 (2018)
-Kaixin Huang, Shengan Zheng, Yanyan Shen, Yanmin Zhu, Linpeng Huang:
 An Adaptive Eviction Framework for Anti-caching Based In-Memory Databases. 
 DASFAA (2) 2018: 247-263
-Shengan Zheng, Hong Mei, Linpeng Huang, Yanyan Shen, Yanmin Zhu:

 Adaptive Prefetching for Accelerating Read and Write in NVM-Based File Systems. 

 ICCD 2017: 49-56

-Shengan Zheng, Linpeng Huang, Hao Liu, Linzhu Wu, Jin Zha:

 HMVFS: A Hybrid Memory Versioning File System. 

 MSST 2016: 1-14

-Renke Wu, Linpeng Huang, Haojie Zhou:
 RHKV: An RDMA and HTM friendly key-value store for data-intensive computing. 
 Future Generation Comp. Syst. 92: 162-177 (2019)
-Renke Wu, Linpeng Huang, Peng Yu, Haojie Zhou:
 EDAWS: A distributed framework with efficient data analytics workspace towards discriminative services for critical infrastructures. 
 Future Generation Comp. Syst. 81: 78-93 (2018)
-Yang Shi, Yanmin Zhu, Linpeng Huang:
 Partial-PreSET: Enhancing Lifetime of PCM-Based Main Memory with Fine-Grained SET   Operations. 
 International Journal of Parallel Programming 46(4): 736-748 (2018)
-Qipeng Zhang, Tianyou Li, Pan Deng, Yuting Chen, Linpeng Huang, Andy Rudoff:

 SPMP: A JavaScript Support for Shared Persistent Memory on Node.js. 

 ICA3PP (2) 2018: 354-366

-Xin Cui, Linpeng Huang, Shengan Zheng:

 ADAM: An Adaptive Directory Accelerating Mechanism for NVM-Based File Systems. 

 ICA3PP (1) 2018: 578-592

-Haixin Huang, Kaixin Huang, Litong You, Linpeng Huang:

 Forca: Fast and Atomic Remote Direct Access to Persistent Memory. 

 ICCD 2018: 246-249

-Yijie Mei, Kaixin Huang, Yanmin Zhu, Linpeng Huang:

 Statistical Monitoring for NVM Write. 

 ICPADS 2018: 26-33

-Hao Xu, Yanmin Zhu, Yuting Chen, Linpeng Huang, Tianyou Li, Pan Deng:

 JSNVM: Supporting Data Persistence in JavaScript Using Non-Volatile Memory. 

 ICPADS 2018: 457-464

-Kangping Dong, Linpeng Huang, Yanmin Zhu:

 Exploiting RDMA for Distributed Low-Latency Key/Value Store on Non-volatile Main Memory. 

 ICPADS 2017: 225-231

-Weitong Jin, Yanmin Zhu, Linpeng Huang:

 Accelerating Traditional File Systems on Non-volatile Main Memory. 

 ICPADS 2017: 453-460

-Zhixiang Mao, Shengan Zheng, Linpeng Huang, Yanyan Shen:

 A DAX-enabled mmap mechanism for log-structured in-memory file systems. 

 IPCCC 2017: 1-8

-Zhenjie Wang, Linpeng Huang, Yanmin Zhu:

 SCMKV: A Lightweight Log-Structured Key-Value Store on SCM. 

 NPC 2017: 1-12

-Jie Zhou, Yanyan Shen, Sumin Li, Linpeng Huang:

 NVHT: an efficient key-value storage library for non-volatile memory. 

 BDCAT 2016: 227-236

-Jin Zha, Linpeng Huang, Linzhu Wu, Shengan Zheng, Hao Liu:

 A consistency mechanism for NVM-Based in-memory file systems. Conf. 

 Computing Frontiers 2016: 197-204

-Jiashun Zhu, Sumin Li, Linpeng Huang:

 Wamalloc: An Efficient Wear-Aware Allocator for Non-Volatile Memory.

 ICPADS 2016: 625-634

-游理通, 王振杰, 黄林鹏. 一个基于日志结构的非易失性内存键值存储系统[J].

 计算机研究与发展, 2018, 55(9): 2038-2049. 


人工智能和服务计算等方面文章

-Weiyu Cheng, Yanyan Shen, Yanmin Zhu, Linpeng Huang:
 Incorporating Interpretability into Latent Factor Models via Fast Influence Analysis 
 KDD 2019
-Xiaolong Gong, Linpeng Huang, Fuwei Wang
 Feature Sampling based Unsupervised Semantic Clustering for Real Web Multi-view Content.
 AAAI 2019
-Xiaolong Gong, Hao Xu, Linpeng Huang:
 HAN: Hierarchical Association Network for Computing Semantic Relatedness. 
 AAAI 2018: 671-678
-Weiyu Cheng, Yanyan Shen, Yanmin Zhu, Linpeng Huang:
 A Neural Attention Model for Urban Air Quality Inference: Learning the Weights of Monitoring Stations. 
 AAAI 2018: 2151-2158
-Weiyu Cheng, Yanyan Shen, Yanmin Zhu, Linpeng Huang:

 DELF: A Dual-Embedding based Deep Latent Factor Model for Recommendation. 

 IJCAI 2018: 3329-3335

-Xiaolong Gong, Linpeng Huang, Fuwei Wang:

 Deep Semantic Correlation Learning Based Hashing for Multimedia Cross-Modal Retrieval. 

 ICDM 2018: 117-126

-Haonan Xu, Yanmin Zhu, Yanyan Shen, Linpeng Huang:

 Mining Magnitude-Oblivious Periodical Patterns of Dockless Shared Bike Demands.

 ICPADS 2018: 18-25

-Fuwei Wang, Xiaolong Gong, Linpeng Huang:

 Time-Dependent Pre-attention Model for Image Captioning. 

 ICPR 2018: 3297-3302

-Jianpeng Hu, Linpeng Huang, Tianqi Sun, Yuchang Xu, Xiaolong Gong:

 Log2Sim: Automating What-If Modeling and Prediction for Bandwidth Management of Cloud Hosted Web Services. 

 ICWS 2018: 99-106

-Xiaolong Gong, Linpeng Huang, Fuwei Wang:

 Fusing Semantic Prior Based Deep Hashing Method for Fuzzy Image Retrieval. 

 PRICAI (1) 2018: 402-415

-Xian Zhou, Yanyan Shen, Yanmin Zhu, Linpeng Huang:

 Predicting Multi-step Citywide Passenger Demands Using Attention-based Neural Networks.

 WSDM 2018: 736-744

-Renke Wu, Linpeng Huang, Peng Yu, Haojie Zhou:

 SunwayMR: A distributed parallel computing framework with convenient data-intensive applications programming. 

 Future Generation Comp. Syst. 71: 43-56 (2017)

-Luxi Chen, Linpeng Huang, Chen Li, Xiwen Wu:

Self-adaptive architecture evolution with model checking: A software cybernetics approach.

 Journal of Systems and Software 124: 228-246 (2017)

-Chengyuan Yu, Linpeng Huang:

 CluCF: a clustering CF algorithm to address data sparsity problem. 

 Service Oriented Computing and Applications 11(1): 33-45 (2017)

-Jianpeng Hu, Linpeng Huang, Juan Huang, Tianqi Sun, Yingjun Ouyang:

 What-If Model Construction and Validation of Web Systems Based on Log Mining. 

 APSEC 2017: 505-512

-Xiaolong Gong, Fuwei Wang, Linpeng Huang:

 Weighted NMF-Based Multiple Sparse Views Clustering for Web Items. 

 PAKDD (2) 2017: 416-428

-Chengyuan Yu, Linpeng Huang:

 A Web service QoS prediction approach based on time- and location-aware collaborative filtering.

 Service Oriented Computing and Applications 10(2): 135-149 (2016)

-Renke Wu, Linpeng Huang, Peng Yu, Kai Shen, Qiuwei Shi, Haojie Zhou:

 Meta-Model Evolution with Self-Adaptation: An Empirical Development Approach for Distributed Parallel Computing Framework.

 Trustcom/BigDataSE/ISPA 2016: 2227-2234

-Luxi Chen, Linpeng Huang, Chen Li, Tao Zan:

 Integrating behavior analysis into architectural modeling.

 Frontiers Comput. Sci. 9(1): 15-33 (2015)

-Chen Li, Linpeng Huang, Luxi Chen:

 Breeze graph grammar: a graph grammar approach for modeling the software architecture of big data-oriented software systems. 

 Softw., Pract. Exper. 45(8): 1023-1050 (2015)

-Luxi Chen, Linpeng Huang, Hao Zhong, Chen Li, Xiwen Wu:

 Breeze: A modeling tool for designing, analyzing, and improving software architecture. 

 RE 2015: 284-285

-Bei Cao, Linpeng Huang, Jianpeng Hu:

 Experimental Frame Design Using E-DEVSML for Software Quality Evaluation. 

 SEKE 2015: 310-313

近期项目

    -分布式持久内存文件系统,科技部重点研发计划,课题负责人,2018.9-2021.8 
    -面向大数据的内存计算关键技术与系统,863计划,项目首席专家 2015.1-2017.12
    -面向混合内存的系统软件机理和关键技术研究,自然科学基金,主持 
    -持久内存计算技术,Intel-SJTU 联合实验室资助课题,主持

项目研究方向简介:     

      随着信息技术的发展,被采集、存储和处理的数据量急剧膨胀,数据规模和数据处理能力间的矛盾日益严峻,传统的以计算为中心的系统架构难以应对大数据处理对时效、性能方面的要求,而以内存优先为原则的传统大内存计算方式,通过对数据组织管理和编程模型进行革新,提升了大数据的处理性能。
       在传统大内存架构系统中,大数据被组织并存储在传统大内存中,系统通过对被存储在内存中的大数据集进行实时查询与分析实现对复杂数据的处理,但大数据集仍需从外存加载,中间计算结果有时还需在外存存储,数据在内存和外存间可能存在频繁交换,而最后的计算结果还需存储在外存,由于内存和外存之间的I/O 性能并不匹配,“数据I/O”瓶颈仍是这种计算方式需要解决的重要问题。
       随着硬件工艺的发展,工业界研发了多种非易失性存储介质NVM,这些存储介质具有空闲能耗低、读写速度快、可按字节寻址、存储密度高等潜在优势,特别近期英特尔推出Optane DC Persistent Memory模块,单条最大容量可达512GB,为大数据的高效处理带来巨大的机遇。NVM的出现和应用,将打破内存和存储的界限,提高大数据处理的时效性。基于传统DRAM 和NVM的混合内存体系架构的出现给计算机系统软件的设计带来了挑战。如何对混合内存进行统一管理和有效使用,在混合内存中实现数据的有效组织、可靠存储和高效访问,都是面向内存计算的混合内存体系架构亟待解决的重要问题。
        课题组从2015年开始,在科技部、自然科学基金委的资助下,对面向大数据的新型内存计算系统软件进行研究,具体包括:
       863项目“面向大数据的内存计算关键技术与系统”旨在针对大数据对内存计算技术的挑战, 围绕内存计算技术和系统相关的体系架构、核心软件及大数据应用等重要环节,深入研究新型混合内存体系结构、混合内存计算系统软件、并行编程模型以及大数据管理等关键技术,探索基于新型混合内存体系结构的内存计算前沿核心技术,构建新型混合内存体系结构、开发内存计算系统软件、并行处理环境及数据管理等验证平台和原型系统,通过关键技术与系统的示范性应用,促进面向大数据处理的内存计算核心技术的进步。项目基于新型非易失存储介质,设计并研制了具有持久内存管理系统、混合内存文件系统、混合内存并行编程和运行支撑中间件、混合内存数据管理系统和支持大数据实时处理的混合内存服务器原型验证系统,并开展了面向大数据处理的示范应用验证。该项目包括8个课题, 由黄林鹏教授担任项目首席专家。
       国家自然科学基金项目“面向混合内存的系统软件机理和关键技术研究”以面向混合内存体系架构的系统软件设计为研究对象,探索支持混合内存管理的内存分配、回收和地址映射方法,设计混合内存高效统一管理机制;研究基于原地写操作、按字节访问的持久内存一致性抽象模型,设计灵活的支持混合内存多模式访问的系统接口;研究混合内存体系架构下支持语义描述的内存数据结构,设计并实现相应的用户态语义文件系统;通过原型系统构建和系统模拟仿真,对设计的支持混合内存的系统软件的有效性和合理性进行验证。
      大数据时代的到来对存储系统提出了挑战,传统的分布式文件系统基于磁盘或固态硬盘,面对海量大数据访问时往往遭遇性能瓶颈。持久性内存同时具有硬盘的非易失性和接近内存的访问性能,而RDMA所提供的低延迟、高带宽的远程内存访问与持久性内存相结合则为更加高性能的数据存储带来了机遇。与此同时,持久性内存与RDMA的结合也存在一些挑战,包括如何在RDMA访问模式下维护持久性内存一致性,如何利用RDMA特性减少分布式文件系统中的网络通信和数据拷贝,如何保证元数据服务的可扩展性以应对大数据应用需求等。针对这些挑战,课题组承担科技部重点研发计划课题“分布式持久内存文件系统”拟设计分布式持久性内存文件系统的软件架构,包括五个主要研究点:
    (1)一致性保障:研究轻量级数据一致性机制,维护单节点内文件元数据和数据的一致性,以及多节点间文件数据及副本数据的一致性;
    (2)数据访问策略:设计并实现本地直写式数据访问策略,在基于RDMA数据传输的分布式环境下,将文件数据缓存到本地,有效节省通信开销和网络带宽;
    (3)新型I/O机制:设计并实现客户端主动式小文件新型I/O,减少数据拷贝,并使得网络、服务器以及客户端之间的负载优化均衡;
    (4)可扩展元数据服务:设计一种分布式的文件系统元数据布局,提高元数据访问性能,并为上层应用提供可扩展的元数据服务;
    (5)典型应用支持:实现POSIX兼容接口以支撑CDN等典型应用,满足大数据访问和处理的需求。
课题研究经费750万,时间2018.9-2021.8。 

学术活动

国家级教学成果一等奖, 2018年(公示中,排名6)
大类招生、平台培养、特色发展—大电类人才培养新体系的构建与实践

教学课程

 上海市精品课程(创建负责人),上海交通大学通识核心课程(负责人)

 程序设计思想与方法

其他


主编 大数据丛书一册

数据密集型计算和模型 童维勤、黄林鹏主编

上海科学技术出版社 2015年 第1版

翻译出版教材10册,包括

- 计算机算法的设计与分析 Aho,Hopcroft,Ullman著 黄林鹏 等译 机械工业出版社 2007.7

 - 计算机程序设计艺术(第4卷 第0册) Donald E. Knuth著 黄林鹏 等译 机械工业出版社 2010.1

 - 算法引论:一种创造性方法 Udi Manber著 黄林鹏等译 电子工业出版社 2010.1

 - 面向对象软件工程 沙赫查 著 黄林鹏 等译 机械工业出版社 2009.2


DDST

数据驱动软件技术实验室

地址:上海市闵行区东川路800号上海交通大学电信群楼东313
Email: ddst@sjtu.edu.cn