这说的说多了都是废话话我两部手机一部移动的一部联通,在地下停车场移动的有信号联通就无服务、上来就有信号了

是该评价下了!特意用了几天看简单点:好手机,小米造真手机,京东出不爱废话,不会特意去夸大抹黑。我只想跟打算买这个型号的朋友唠唠手机,无论什麼牌也就用2-3年。到时不坏配置跟不上玩腻了你也要换所以买合适自己的就行了。不差钱你随意要想用舒心的,选2000+旗舰比较均衡。經济有限的够用的,千元机目前红米n4x最合适。还有魅蓝e2,360n5这些都是神机了。千元机不注重性能但是偏重续航买中端机的,就买上年降价的旗舰zukz2por,小米5-5s-5plus荣耀v8。这些比新出的努比亚z17mini什么都好不要听忽悠什么几核,没用手机好比是一个人,处理器是心脏运存是路。心脏不好多少路他也跑不了只要心脏好,身体才棒跑的路才远。所以选手机处理器,系统优化很重要再者运存足够。价钱合适伱就出手吧我选红米n4x,冲着高通6253g运存,小米的品牌优化现在用着挺好。即使是16g(可用6g我不下载视频)也够用。内存不够了就去文件管理里清空存储一下腾出好多空间。开发者选项所有动画都选0.5速度就上来了。而且手机千万不要边冲边玩那是最毁电池的。就这樣吧

主持人:很荣幸的介绍第一位演講者他是来自香港城市大学的祝建华教授。祝老师在美国和香港都有很长的工作经历对于传播社会学有很深的造诣。今天他给大家演講的题目是一个文科教授眼中的大数据有请。

祝建华:谢谢周老师的介绍用现在的网络语言,我是一个文科男或者是老年文科男。朂近大家最有印象的是莫言在接受诺贝奖时说了一句话文学不是科学,文学是做无用的东西我想解释一下文学不等于文科,文科的面哽广在国外分为人文学科和社会科学。我们做的其实是社会科学当然在座的大部分应该是理科男或者工科男。我很感谢会议把我的发訁放在第一位我觉得我有点对不起组织者,讲一些文科男或者社会科学研究人员对大数据的看法有些看法也许不是那么乐观,有些保留这些问题只是供大家参考。

今天上午几个发言人都讲到了现在的大数据是大热我做了一个小小的统计,(如图)左边在Google搜索词中有關大数据的搜索很多右边是SCI/SSCI期刊里有关大数据的研究论文,相比之下学术界对大数据的关心热情比整个社会来的更积极。有关大数据嘚论文在最近几个月有非常大的增加反而一般用户的关心当中大数据是平滑的在增加。

我进一步看了一下研究大数据的学者当中都是來自什么学科的?首先第一位应该是信息科学计算机科学,占27%相等的是工程技术,当然在很多学校工程技术跟计算机信息科学和技术昰交叉在一起的这两个部分占了一半以上。然后是两个比较大的应用领域医学生物化学是一类,下面是基础研究数学、物理。再往丅两个比较小的团队一个是商学院,一个是社会科学加起来15%左右。我们做的研究差不多落在这15%里面

虽然是文科男,但一直在做数据以前做的都是小数据,我有幸被邀请参加了中国计算机学会最近成立的大数据专家委员会也参与了大数据委员会对大数据研究的一些熱点问题和发展趋势的评选工作。按照我的理解最近发布的对大数据研究的八个热点问题和十大趋势,在全球范围内至今是最系统的一些看法和表述当然美国和欧洲各个机构,各个商业学术团体都有一些非常精辟、非常精彩的看法但从全面性讲这可能是第一个文件。

夶数据这个概念最近一直在受到关注的同时也是有很多批评的意见。也许大家都见过这一条报道他是Sybase的技术总裁,他讲大数据是一个夶谎话Sybase在座的可能都很熟悉这个公司,是做数据库的长期为企业做BI应用工具的。他们一直在做大数据的工作所以觉得现在所有讲的東西早已有之,不是什么新的东西所以,从这个角度讲他觉得是有点泡沫有点夸张。做时政研究的人并不完全认同有些地方是有点誇大,但没有夸大到是虚假的泡沫

再回到4个V,什么是大数据从4个V可以衍生到中文当中的多快好省这四个词。哪些是理论上应该实现的哪些实际上已经在展现,哪些现在还有差距的是不是多快好省。多大家讲的个案很多,做数据分析有一对基本的概念就是我们不僅关心了是个案,同时关心的是变量变量就是特征值。如果是做一个网络流量的数据我们关心的是网民各种各样的特征值,做产品的話产品也有更多的特征值。这两者的交叉用一个二维的表来说,个案就是每一行变量就是每一列。在这样的范围内讨论按照我的想法我们应该关心的是总体和样本之间的选择,到底我们应该是做样本还是选总体

我想引入另外一个概念,我们有一个叫总体数据大镓都非常清楚,最容易解释的是每十年中国和其他很多国家都要对全国的居民进行人口普查最近一次的人口普查2010年,发现13.8亿另外一个概念我们经常用的是样本,抽查每一年国家人口统计中心或者国家统计局还要做千分之二的样本调查,知道在两次大的十年之间的人口普查之间中国人口增长的变化

实际上我们现在在讲的大数据,理论上讲应该指的就是总体数据但实际上在很多情况下,由于技术的原洇由于人为的原因,由于其他原因按照我的看法,除了少数数据的原始拥有者例如淘宝或者是新浪微博,或者是今天上午讲到的国镓电网或者是教育网他们也许是真正掌握了总体数据的。对于绝大部分第三方来讲我们并没有拿到总体,那多的都是局部这个局部吔许是很高的百分比,70%、80%哪怕是缺了这10%、20%,也许局部数据跟总体就有很大的差别

我们社会科学做时政研究的人来看,很多情况下样本數据虽然它的规模要小很多,但实际上比局部数据要更有价值更可靠。我这里做了一个很小的模拟随机产生了一万个个案。从一万個点中我抽了500个点随机抽的。500个点看上去很稀疏但是它对总体的代表是很好的。我抽了500个个案的样本计算百分值也是在原点。再抽80%嘚样本数人为的设定一些界限,使得其右方向偏它的数就有所偏离。

数据是用来描述客观事件的一般把事件分成两类,一类是常态嘚一类是异常的。最极端的是前几年有人讲的黑天鹅事件理论上存在,实际上很少发生如果发生的话,它对社会带来的影响是极其災难性的后果如果我们我们有总体,那没有问题任何事件都在数据当中可以反映。如果我们有幸获得总体数据以淘宝为例,淘宝的總体数据仅仅是淘宝网上的它并不是中国电子商务所有的数据,还有京东还有其他。谁要说我研究的对象是中国电子商务淘宝的数据再海量也是一个局部数据,而不是总体数据

不管怎么说如果你正好有这么一个总体数据,你就不用担心你想描述的事件是常态的还是異态的不会漏掉东西,结果一定是准确和精确的如果我们有样本,只要你的抽样方法是符合随机概率的原则你的基本结论,你的样夲对总体是有无偏的估计的就是准确的,但不一定精确只要样本足够大,跟总体差距就在1到3个百分点之间如果我们要研究的是一些異常事件,比如黑天鹅事件样本数会经常遗漏这些异常数据。假定是局部数据的话哪怕你是总体的80%,甚至90%你研究的就是常规事件,伱的代表性也许很差局部数据不管你的规模多大,都是最坏的数据为什么?因为你漏掉了被你选择的都是一种自我选择机制这种机淛是无所不在的,时刻影响到我们数据的质量很多情况下我们研究者并不知道为什么我们缺少的一些东西,任何数据的缺少背后都有社會、经济、法律、自然等等原因我们的观点是做大数据,要么就做总体如果你有能力,要么就是做样本掌握你的方法,你能估算你嘚误差在哪儿如果依靠局部数据,被局部数据的海量规模所迷惑其实是害死人的。

历史上有过很多案例在我们教学过程中每次必讲嘚是美国1936年的总统选举。2012年的选举刚刚结束其中有一个非常让人注意的是有关选举的预测问题。这种预测从1932年开始到现在有80年的历史了那个案例一直成为一个经典,当时有两家公司在做预测第一家是杂志,随着杂志寄加了问卷回来250万份问卷,那时美国全国的选民大概是1亿左右250万已经是相当大的数量。他们经过回收发现蓝顿比罗斯福高了14%,以绝对优势当选另外有一家现在是全球知名的品牌,那時刚刚开始搞的一个小小的调查研究民意测验中心,调查了5000人他选择的是随机抽样的方法,预测是罗斯福当选56%。最后罗斯福以压倒性的票数胜过蓝顿发送杂志订购杂志的人相对知识多一点,更有钱所以对共和党更支持。而随机样本虽然小5000人,大概有一点多的百汾点跟总体有一定的差别,但大面是准确的只是大,但不注意数据的代表性后果更严重。

我们现在讲大数据这是以前社会科学家們做的小样本,我们用的数据叫做少个案、多变量我们数据的结构有N个个案,理想当中的大数据不仅要变量多,而且个案多不光是N個,也许是无穷大的也许我的接触是有限的,我的观察是现实生活中我们现在用到的大数据仅仅是个案多变量并不多。早晨有人的演講当中用了7万个变量预测借贷款这当然是一个革命。以前我们所谓的多变量只有几百个最多也就是上千个,7万个变量是从什么地方来嘚真的是惊人的。多个案少变量的数据结构是我们面临的大数据的基本环境。造成的原因之一就是每个人占据了其中的一小部分也僦是所谓的数据孤岛。真正要使我们有多个案多变量大数据的方法,就像今天早上启动的大数据联盟通过分享、通过整合才能做。

快其实是效果跟效益之间的选择。我还是用社会科学文科男们做的研究作为慢的例子和现在的大数据的一些基本方法来做比较我们做的嘟是手工标注的,现在都是自动分类的从规模上是没办法比的,我们一般一个样本只有几千个现在几百万是小的,到万亿才是常态的从准确率来讲,人工永远超过机器的有人统计过,我也是自己观察一下机器学习的准确率平均差不多在80%左右,当然也有些做自然语訁处理的做人工智能的会跟我辩论,说某一个特定的项目他们能做到90%但是如果把所有的研究都拿来平均一下,80%是比较乐观的标记人笁情况下基本能做到90%、95%,一般学术期刊上准确率低于95%是不会接受的问题是你怎么知道你的准确率?我们的一般方法是对同样的内容要有兩个或者更多的人分别独立的进行标注而且是背靠背的互相不知道。通过各自的理由最后计算相互的相似度。

大部分情况下如果是全洎动的连准确率都是无法知道的现在大量的用网上抓做预测的,到底预测以后准不准永远是一个未知数。从误差来讲人工判断有误差,但这些误差都是个人误差如果有几个人同时做的话,其实误差可以非常小的机器学习的误差是系统性的,如果你知道偏在哪儿鈳以很容易的就把它改过来,关键是误差差在什么地方不知道这就是我刚才讲的,如果是我们已经拿到了局部的数据你不知道局部的系统误差是往左偏,还是往右偏偏高了还是偏低了并不知道。所以按照我们的看法人工小规模的小样本的数据,研究结果是准确的泹是不够精确,所谓精确就是不够稳定继续学习的方法倒过来,因为你有海量的数据几百万,几千万非常精准。其实精准这个词从渶文里面只讲准不讲精精而不准是大数据现有的一个问题。很自然的想到我们需要把人工标注和自动分类结合起来有监督的机器学习。机器学习包括训练集的质量训练集规模和你的算法,这三者的重要性就是按照这个排位的

省,到底是省的人还是省的能源。大数據肯定省的是人但省人的同时在耗能。也是一个环保的问题我不想多讲实际上是惊人的。如果现在才开始规划不注意的话,也许几姩以后大数据就成为我们一个新的污染工业污染的重工业。确实存在的我今天早上刚刚听说准备在什么地方建立大数据中心,来几百萬台服务器你可以想象得到所耗用的能源和它产生的辐射,我不是学物理的我相信辐射也是非常可怕的。实际上现在数据的增加每姩递增的速度远远超过我们现在除尘能力的速度。在这种情况下除非我们的除尘材料有突破,不然我们必须要想一个问题到底要把总體数据保存下来吗?联通只能保存4个月还是抽样,把大数据变小

这个问题是所有问题的核心,没有答案的我只想说几个问题。第一大数据是好,但是大数据在哪里如果我们拿不到大数据,就是一个橱窗里面的蛋糕只能在外面看。按照我的看法我们可以把大数據分成几种,小规模的、中型规模、巨型规模的小规模的非常多,免费就何以得到中规模大部分情况下也是免费的或者是一些低成本嘚。真正的大数据其实是得不到的做应用也好,做工具服务的也好都必须考虑这个问题。这就讲到数据的分析工具实际上对大数据嘚分析工具并不发达,我们现在所用到的绝大部分工具都是用来解决小数据问题的用来解决常态数据对异态数据的统计工具。现在基本仩没有最近有人发表一篇文章讲用于大数据相关分析的一些重要思想,这个工作就相当于高斯一百多年前提出的小数据相关关系的年代也就是说,我们处理大数据的能力还是处在起步的阶段现在只能分析二元,而不是多元7万个个案的模型我没看过,也许我们这种学院派的人士比较保守我不相信他们能做到,因为现在用的都是传统的经典的工具

对大数据怎么看?我的看法不全部是乐观的也不全蔀是悲观的。数据的存在肯定是一个新世纪、新纪元从数据的潜在价值来讲也是存在的,但是数据的应用数据的分享,其实是有很多問题的数据的除尘跟数据的分析研究,其实是刚刚开始应用现在远远走在了研究的前面。很乐意跟大家一起讨论交流谢谢大家!

主歭人:谢谢祝老师精彩的演讲。首先有很多观点我是非常赞同祝老师的观点。比如理论笑到最后祝老师也指出了存在的很多大的理论問题。下面有请程学旗的代表大数据专业委员会介绍一下关于大数据的热点和趋势的讨论

程学旗代表:我报告的题目是大数据的热点问題和2013年的发展趋势。这是CCF大数据专家委员会在内部做的很详细的调研结果

关于背景我先做一些简单的介绍。去年我们开了一个大数据的楿关会议会上很多专家提出来,我们能不能在CCF下面成立一个大数据专家委员会从今年年初开始,我们一直在筹备这个事情今年10月份茬大连中国计算机大会上宣布大数据专家委员正式成立。成立的时候大家有一个很困惑的地方虽然每个人都在谈我是做大数据的,或者說跟大数据有关的但是有很多问题大家都没弄清楚。比如说到底什么叫做大数据到下来还没有一个让所有人都内容公认的定义。大数據本身的内涵是什么不同的人讲的时候会有不同的答案。

另外大数据它为什么能够成为一个热点,哪些问题是来自大数据的挑战这些问题大家都不清楚。计算机大会2000人的规模同样的问题问不同的人可以得到不同的答案。正因为这样的原因在大数据专家委员会内部形成了一个共识,能不能在专家委员会内部先做一个调研专家委员会现在有70人,学术界有46人产业界有14人,海外代表有10人在这70人里我們做了一个调研,尝试的对刚才提到的问题给出一个初步的答案

具体操作是这样的。先是在70人里面发问卷你所认为的大数据的核心问題是什么,大数据的发展趋势是什么从收上来的问卷里我们又摘录出来一些问题,经过归并整理又形成侯选问题。让70位的专家去投票再从里面选择,最后经过建议归并整理形成了最后的答案。

下面来看大数据热点问题的侯选项目其实一开始我们想要回答什么是大數据的核心问题,但后来把侯选问题拿到之后大家又做了一个分析。征集上来的问题相互之间有一定的关联有的力度粗一些,有的力喥细一些经过慎重考虑,后来改成叫做热点问题我们对这些问题的回答是非常谨慎的。

我们收集到了14个热点问题的侯选项划分成了㈣个大的板块。第一个是科学问题第二个是技术问题,第三个是应用实践问题第四个是大数据的生态问题。科学问题里我们关注一个昰大数据真正的科学问题是什么大数据的基本内涵是什么,大数据计算模式有什么样的一些模式。技术问题方面关注到大数据本身是洇为多元形态是多种多样的。还有大数据的空间的问题大数据在网络上分布,涉及到传输、存储以及运算大数据时间维的问题,涉忣到大数据的时效性在线处理,怎么样把大数据变成一些小数据再从小数据里进行数据价值的提炼。各行各业的人都在说我在做大数據最重要的是发现大数据的应用能力是什么。还有大数据的存储系统、平台系统方方面面的系统提出了各种各样非常苛刻的要求。另外大数据的质量问题,大数据的安全和隐私问题大数据已经向资源化的角度来发展,就涉及到里面的共享问题比如如何去共享,共享的时候有方方面面的问题引发出来还有大数据的生态环境。

我下面做一一的解读每一个问题后面都有一个数字,数字是70位委员投票嘚结果通过最后的投票票数和归并,最后形成了八个问题第一个热点问题,数据科学与大数据的学科边界有两个方面的问题,一个昰恩数据的科学问题二是大数据的基本问题。比如数据界跟物理界、人类社会之间存在什么样的关联与差异大数据是否存在独立于应鼡领域的数据科学。如果我们把数据界跟自然界对应在数据界里大数据分类的谱系是什么。大数据区别于传统的普通的数据它的特征昰什么。刚才祝教授讲的时候讲了多快好省,4个V现在有人提出5个V、6个V,8个V的都有我们想知道到底哪些V是最关键,哪些是V是派生出来嘚大数据是否意味着是全数据,有了大数据之后是不是我什么都可以干了

第二个问题,数据计算的基本模式跟范式自从微软提出数據密集型的计算之后,我们想知道数据密集型的计算范式到底是什么基本范式里面的内涵是什么,怎么样去评价数据计算的效率数据計算的复杂度如何去评估。另外大数据方方面面的性质,首先它的体量非常大是不是去中心化自组织的计算模式是适合大数据的计算模式。

第三个问题大数据的特性与数据态。这里面有三个方面的问题一个是数据关系维问题。大数据是通过各种各样不同的数据而来嘚这些数据之间形成了很复杂的关联关系。在空间的角度来说是大数据怎么样传输怎么样移动、存储、计算。从时间的角度来说数據的生命周期,数据时间维的症状怎么样进行流化的分析。

第四个问题大数据的作用力和变换反应。里面涉及到数据的抽样、过滤、篩选等等通过一系列的操作把大数据直接变成小数据。另外大数据价值的提炼可以利用群体智慧、社会计算等等对数据的价值进行发酵,进行价值的提炼跟萃取能让我们从数据分析到数据的制造。通过人机交互融入人类的智慧是否能够让我们的价值提炼更加高效一些。这是对数据的化学反应

第五个问题,大数据的安全和隐私问题

第六个问题,大数据对IT技术架构的挑战大数据对IT的技术架构提出叻非常苛刻的要求,比如存储能力的增长远远赶不上数据增长的速度在这样的情况下,是不是需要最合理的分层存储架构因为这个原洇,我们需要对整个IT的架构进行革命性的重构也许会颠覆现在传统的模式。

第七个问题大数据的应用技产业链。大数据在不同的应用領域是有不同要求的对大数据相应的计算,各种各样的处理也是不一样的在不同的领域不同的应用需求,获取、分析、反馈的方式也鈈一样不同的应用目标代表着不同的价值导向,对大数据的价值密度有很大的影响另外,从产业链角度来说怎么样去构建合理的产業链,能够产生增效的环境让我们能够真正的去挖掘,把大数据最核心的价值挖掘出来

第八个问题,大数据的生态环境问题这里面後来又包含两个方面,一个是数据的资源化二是数据的共享管理。数据的所有权既是技术问题也是法理问题,我们怎么样对数据的权益进行认定和保护怎么样在保护各方利益的前提下实现数据的共享。刚刚说大数据涉及到政治、经济、社会、法律、科学方方面面不管是从国家的角度,从企业的角度来说都需要去构建理性的、合理的生态环境,这样才能让我们更好的利用大数据从国家的角度来说,生态环境比如说我们需要有一定的政策出台扶持企业、科研单位去做大数据的产学研。从国家的角度来说还需要进行人才的培养。

仩面是从14个侯选项里经过归并整理出来的关于大数据的八个热点问题

第二个大的方面是关于大数据的发展趋势。任何的预测都是有问题嘚我们虽然也说了预测,但心里还是有点诚惶诚恐我们只是通过初步的回答,希望起到抛砖引玉的作用让大家通过我们抛出的砖促使大家认真的考虑,研究大数据发展的热点是什么趋势是什么。因为预测是十分困难的我们只是做了非常短期的,预测一下在2013年大数據有哪些趋势我们总共设计了37个选项,对这些玄想进行归并整理之后分了几个大的板块一是整体的态势跟发展的趋势,二是大数据跟學术的关系三是大数据与人,四是大数据安全与隐私五是大数据的应用,六是大数据系统跟处理方式模式最后一个是大数据对产业會产生什么样的影响。

最后的发布是2+10的发布前面说的“2”是说我们关注的是跟大数据最相关的一些学科,最引人注目的学科大数据最引人注目的应用是哪些领域。后面的“10”是对十个具体趋势的预测首先来看最令人注目的学科。1、大数据的分析和预测在40票里投了25票,是非常高的票2、分布式计算,也可以说是云计算3、社会计算。

最令人注目的应用方面第一个是医疗,第二个是金融第三个是电孓商务,第四个是城市管理这可能跟在座的很多朋友预期还是比较相符的。

后面的十个趋势第11、12是大企业大数据和资本高度关注。大數据行业内部我们预测2013年大企业会并购一些有特色的中小企业,将形成一股热潮2013年开始有针对的投资。第10大趋势是更大的数据2013年,洇为数据越来越多多快好省的特性就显得更加的突出。第9个是大数据将催生出一些新的职业比如有数据分析师、数据科学家、数据工程师,具有丰富经验的数据方面的人才将在2013年成为稀缺的资源大数据驱动的工作机会将呈现出爆炸式的增长。第8大趋势是数据共享联盟有一些企业和组织已经开始筹集数据共享联盟了。第7个数据科学兴起。数据会不会成为一个科学年初的时候还是一个问题,但我们預测2013年可能会成为一门新兴的科学第6个大数据的安全。数据的规模越来越大方方面面的问题都会出现,比如犯罪分子可以得到更多的烸个人的信息有了更多不容易被追踪和防范的犯罪手段,会出现一些更加要命的骗局大数据已经把你出卖了。第5个大数据分析的革命性方法。这是我们每个人都十分关注的因为大数据的体量确实太大,现有的方法没有办法真正的去解决这样一些问题我们期待着2013年囿一些革命性的方法陆续被发掘出来。第4个基于海量知识的智能。2013年我们预测会有更多的成果出现第3个,大数据与云计算等资深融合我们今天的会就是一个非常好的佐证。第2个大数据隐私问题,个人隐私的保护越来越困难第1个,大数据的资源化在2013年数据会成为噺的战略指导点,是大家争抢的新焦点

简单做一下小结。大数据有大钥匙我们在CCF大数据专家委员会里通过了一些调研,整理出了八个熱点问题十个发展趋势。对热点问题和趋势只是一种初步的尝试我们希望通过这样一种举措,抛砖引玉激发大家共同去探讨,去深叺的研究大数据不管是学术界的,还是科技界还是企业界的,还是政府部门的我们一起来探讨这些问题。数据的资源化数据的隐私问题,数据跟云计算的深入融合这三个发展趋势可以说是非常肯定的,是2013年最根本的三个趋势

我们做调研从一开始有这样的想法,夶数据委员会的成立是10月19号颁布预测是在11月30号,时间是非常短的只有40多天。这里面还存在各种各样的问题我们希望能以更新的观点囷眼光去看关于大数据最核心的问题。

主持人:下面请上下一个时段的主持人郑毅

郑毅:今天大家听了一天的会,到现在还都能留在这兒说明大家对大数据这个问题是很感兴趣。我这里面也是借助周涛教授最新的一本书序言里面的一句话里面说某些观念有时会以惊人嘚力量给你知识,带来巨大的机会这些知识能解决很大的问题,它们似乎有希望解决许多基本问题澄清许多不明了的一点。每个人都迅速抓住它们作为进入某种新时政科学的法宝。李丰先生主要做的投资方面比较多一些我也想问一下,是不是在大数据领域是的出现叻一些和大数据相关的公司

苏萌:百分点做的是依据大数据,为终端消费者提供个性化的信息服务我们的几个主打的产品包括百分点嶊荐引擎,百分点分析引擎推荐引擎主要应用在电子商务网站上,同时应用在很多的媒体上

郑毅:我们是在为企业提供大数据的解决方案,这种应用模式是不是已经成为了产业的应用模式在推广的过程中会不会遇到其他的问题?

苏萌:推荐引擎是比较新兴的行业在媄国和欧洲有几家公司,早期在模仿亚马逊在做国内其实也有一些企业在做。像腾讯、百度这样的终端企业都在做我们做了模式可能哏某些家不太一样的地方是,百分点希望做的是打通用户全网的行为构建用户的全轮廓偏好的分析。基于全网的数据就像我们在做一個拼图一样,每个企业都有自己的一块在拼自己的一块,我们希望能够在一个个信息孤岛之间建立一座桥梁这个桥梁能够帮助我们更恏的拼出属于自己的拼图。

糜万军:亿赞普在国内跟移动、电信、联通合作在国外像西班牙。我们一方面是帮助运营商转型另外一方媔也是帮助解决媒体跟用户的利益。

郑毅:王总是腾讯的大家都知道腾讯是什么样的公司,您也介绍一下我们在大数据方面的工作

王益:我在腾讯负责的业务是广告,腾讯是中国互联网公司中拥有的用户群最大的一家公司所以腾讯的广告业务和其他的公司有很分明的特点。腾讯的广告更着重于个性化的广告更着重于广告及内容。

李丰:正好我们在一个礼拜之前内部为主也召开了闭门的大数据论坛,基本上你们就知道我们对这个行业是非常看好的过去一年当中,新投的跟数据有关的企业大概有4个当然我们也非常高兴百分点是其Φ一个,而且是大数据系列投资当中的第一个我们在投项目的时候,当时去看的时候看见周涛的时候,也对大数据第一次产生了印象他给我一张名片,很年轻周教授,我也不知道他是什么背景拿到名片一看,博士生导师教授。因为这件事才接触到百分点的大数據最终我们也非常高兴投了百分点,虽然前途未卜至少是良好的开始。

郑毅:在大数据时代数据是关键不管是百分点公司,还是亿贊普公司还是腾讯公司,都是在用不同的业务模式来获取数据数据的获取,还是数据隐私方面以及数据安全方面会有什么难点和痛点请苏总分析一下,百分点公司是在为电商做技术服务我们有没有具体实践方面的经验和思考跟大家分享一下。

苏萌:百分点做的事情非常简单通过对电商企业提供技术服务,这个技术服务是帮助他们做个性化我们会分析用户在这个场景下的意图,根据我们积攒下来嘚用户历史的行为以及利用群体的智慧,跟他很相似的用户他们的偏好实时的为用户他的每一个购物流程的环节实时的推荐他要购买嘚商品,以及在媒体上实时的推荐他最可能感兴趣的文章这是我们在做的一件事情。在提供技术服务的过程中我们也积攒了大量的心嘚和在推荐领域的知识,我们希望能够帮助我们服务的企业能够迅速的提升用户在网站上无论是电商网站还是媒体网站他的用户体验。茬过程中我们觉得能够规模效应那一定是能够给社会带来利益最大化的。每个企业它都花很大的人力、物理来做一个推荐引擎技术的研究那会耗费很多的资源,我们在提供推荐技术服务的过程中确实是非常清楚的了解到了用户跨网站的偏好。一个用户对我们来说就是┅个ID这个ID我不知道他是谁,没办法拼出来比如具体的姓名、电话、邮件我都不需要,只需要某一个ID这个ID比如他的品牌偏好,他喜欢阿迪另外一个人喜欢耐克,我就能比较有效的拼凑出来他在全网的兴趣图谱这个兴趣图谱帮助我们给一个新的用户,包括冷启动的问題非常有效的提供更精准的推荐服务。

郑毅:是不是可以这么理解我们其实是在为第三方的电商网站提供推荐引擎的服务,我们是在鼡我们的服务让他做部分的数据的开放和交换

苏萌:我们在给他提供技术服务的时候,就像所有的服务公司他是SaaS的模式。我们看到大數据兴起的一个基础就是软件行业的泛互联网化如果没有泛互联网化的话,传统的软件是没法形成大数据产业的在这个过程中,用户峩们的客户会主动提交他认为有必要让我们了解的用户行为根据我们的场景引擎、算法引擎、规则引擎等等实时的做推荐。

郑毅:百分點其实是在为第三方的电商网站提供推荐引擎的时候我们去和大家做数据的交换。在一些数据的获取和数据具体的一些隐私保护方面以忣其他具体的实践方面运营商为什么愿意跟我们做这些工作,跟大家分享一下

糜万军:隐私是特别敏感的问题,昨天在亦庄的论坛上說价值100亿美元的问题明显把这个价值低估了,应该远远超过100亿美元其实业界更关注的不是欧洲的运营商去谈判,欧洲应该说是对隐私特别注重的大家现在关注更多的是怎么提升利益的问题。比如运营商为什么能够跟我们分享数据从运营商角度来讲,他有海量的数据囷用户但确实没有见到什么钱。所以从他的利益角度来讲他有这种强大的愿望。从用户的角度来讲我们能够形成一个比较健康的产業链,让大家都获益这是业界更加注重的问题,包括简单的数据隐私的问题包括数据的流动,数据形成的利益分配问题

郑毅:利益汾配和利益交换,整个业务过程中会涉及到几方比如做电信数据,电信数据有普遍的用户有电信运营商,还有第三方广告商如果是茬不同的环节,一个利益交换会不会有不同的考虑

糜万军:会。本身数据隐私安全是个相对的概念很难说有完美的解决方案。像美国莋的试验仅仅是把人的各种隐私信息引进去,就能把数据挖掘出来只是用了部分的搜索日志,已经把人完全的定位出来所以隐私安铨我觉得是个相对的概念,而且法律远远落后于业界的实践和广大用户的需求这是一个不断摸索的过程。

我们做了一个预测人的医疗费鼡的公司从美国国家层面公开的数据和每个企业关于单个职工的一些数据,当时开发了一个算法可以比较动态的来预测这个人的医药費用。包括刚才祝老师讲的用了很多的变量跟数据源可以比较靠谱的预测医疗机构在这个人身上是不是赚钱。欧美是特别注重隐私的国镓但实践层面还是远远超过了法律层面。

郑毅:您讲的也是在和全球的运营商都会有一些合作不同的国家,不管是欧洲、南美还是Φ国,会有实践方面的差别吗

糜万军:我们不是为了数据而数据,因为各个国家的业务需求不一样所以会衍生出不同的产品。产品不┅样后面采集的数据也会不一样的。

郑毅:您是用腾讯的数据为腾讯自己做精准的搜索和更精准推荐的工作对于腾讯来讲,是不是所囿的部门都能访问到您的部门的数据腾讯和外界有没有数据开放或者沟通的远景和设计。

王益:腾讯内部有一个部门叫设计平台部这個部门的职责是搜集腾讯这么多部门产生的数据,所以说腾讯是应该有一个集中的数据管理机制的在这个机制上,腾讯公司有机会建立數据隐私严格保护的机制只有数据统一管理监控下才有可能做到。我也听说过微博上会流传一些故事实际上腾讯内部也经历过,我很能体会到腾讯内部对隐私保护是非常严格的所有被收集起来的数据是被按安全级别管理的,要经过好几层的审批

郑毅:这会不会对您嘚内部工作造成什么影响,这种分成的安全机制从内部工作来讲,会不会有一些其他的考虑

王益:我理解隐私保护的重要性是大家都能够理解和接受的,管理的过程其实也是督促工程师我们到底是怎么使用数据的过程不同的产品需要用不同的数据来分析。腾讯注册的QQ號有十多亿基本上覆盖了中国绝大部分的互联网人群,这个数据很重要能不能用?当然是可以用的腾讯有一个搜索引擎叫搜搜,市場份额不是很高但不管怎么样,作为一个搜索引擎留下的数据是用户当时很强烈的意图的这样的数据是可以用的,我们知道用户最近想要什么推介和广告就会依据这个信息出现结果,实现非常精准的广告定向这对业界是正向帮助的,并不会导致隐私的泄露

我个人嘚工作了解到腾讯有一个开放平台,也提供一些API用户通过平台开发的各种插件是可以了解一部分用户信息的当然这个API也是在腾讯的数据保护监管下开放合适的资源。

郑毅:李丰您看公司的时候更看重什么是更看重它在数据方面的能力,还是算法方面的能力有没有一个整体的布局,我投资这些公司这些公司之间可能数据会有一定的互补性。

李丰:我们原则上大家都说投人如果是数据驱动模式的话,囚应该是相对难找点我们先开始看的确实是技术驱动的事,我们花了很多时间把这个行业中有这个能力的人尽量的找到最难找的是第②件事,在这个前提基础上有明确的商业性的想法我们找到的技术非常好的国内和国外,因为我们在美国也投一些公司我自己在美国吔有三个早期的创业公司。技术人才我们找的非常多但找商业的想法更难一些。

中国数据公司面临一个非常大的挑战是怎么去启动的问題要不然就是趴一些大的公司的身上,或者像运营商先获得大量的数据来启动。我们大家都了解在互联网上在中国这么做,最大的風险是人靠谱不靠谱为消费者提供服务,我们肯定是行业中的外行大道理上来看应该是这样的,对消费者级的应用大家想到的比较哆的是推荐类的应用。对消费者比较合适的方式还是所谓你在心里头知道什么东西好但你很难描述这种类型的分类是我们认为比较好的應用领域。

打个比方音乐应该讲是每个人在心里头知道你大概喜欢听什么样的歌曲,但客观上来讲你很难把这个东西用语言描述出来。我想这是一个类别你有更多的诉求或者情感类的诉求,你心里知道什么好什么不好你想要什么,但很难用精准的语言刻画出来在這种消费者中比较适合做推荐。这里面又分另外一个挑战我自己看过非常多的推荐类应用,有一个小的误区我觉得阅读是比较难做的。难做的原因是理论上阅读也符合这个条件所谓条件的概念是你知道什么好什么不好,但很难拿语言精确的描述出来

我自己没准确的結论,阅读难做的原因是我问过很多典型消费者发现典型消费者在阅读问题上最大的困惑在于很多人对于判断哪篇文章好还是不好是被其他人左右的,而不是自己有非常明确的主观的判断方法

另外一部分是企业服务,像百分点、亿赞普做的都是面向企业提供的服务数據驱动应用最主要的功能是提高效率,在特定的行业当中如果它的供需关系没有到必须提升效率的阶段或者最终不好到这个阶段的话,峩们觉得数据驱动的应用是比较难普及的比如说百分点,前途虽然未卜但电商作为零售行业非常典型的特点是业态复杂,并且分布比較广同时毛利率比较差。换句话说对于零售行业在线下那么长时间证明一件事情,效率提高1%或者2%决定了这个企业在将来到底能活还昰不能活。我们的意思是从中期来看这个行业的竞争力将主要集中在小范围或者中等范围的效率提升这件事情上。在这个前提下我们覺得数据可能是一个办法,因为对于提高效率不可能从10%到100%,可能从10%变成15%、20%但这对行业非常的重要。

比如你做的是广告广告我们也投過很多公司。广告之前在中国互联网主要的问题2008年、2009年之前应该讲是非常典型的买方市场,广告主说了算因为媒体的供给量,媒体的庫存远远超过了购买需求换句话说大量媒体的广告卖不出去。至少在之前的阶段中如果互联网广告看作是企业服务市场的话,最大的挑战是它不是非常的效率驱动或者是完全由买方驱动的。慢慢的中国行业的互联网广告市场跟美国有一点点像了开始进入把效率提高嘚比较好,不管是从媒体端还是从广告主端刚才我的意思是在我们投企业服务的时候,一个行业将会或者正在进入效益变得比较重要的應用阶段的时候我们觉得数据驱动就会在里面显得是一个可能比较好的模式,至于结果我们也不好判断

郑毅:刚才李丰对两位的商业模式都有比较大的挑战,你们有没有什么话说

王益:我想补充说明一些情况,确实像李丰刚才说的中国的互联网广告很大程度上是取決于广告主开始愿意投多少钱。随着中国的互联网广告业发展了十年今天大家看广告的需求和当年确实已经发生变化了。刚才李丰说的媄国的情况我在我自己的工作中都已经开始感觉到,首先用户越来越讨厌没有道理的广告这是为什么我们要特别重视技术,需要从海量数据中挖掘足够的人工智能技术挖掘足够的知识来支持广告的投放的原因。除了用户对我们驱动之外还有一种新的业务形式是有所驅动的,就是手机广告要在手机上出广告,那一定要出得很精准这也是对我们工作的一个驱动。

再顺便说一点大家可能已经注意到國外的有些公司已经在做类似的事情,就是广告及内容今天看Facebook和Twitter手机版,Facebook除了看朋友有什么动态会夹杂一些广告夹杂的广告也是要做嘚内容相当的精准。Twitter形式看起来跟Facebook手机版很像看有哪些推文,广告也是夹杂在推文当中要跟上下文相关或者跟用户近期的兴趣非常的楿关。这是腾讯目前正在努力的方向

郑毅:刚才李丰总回避了我的一个问题,您在数据方面有没有一定的布局您给我的回答是更关注應用和人才方面。其实咱们可以借助李丰刚才提的话题聊一聊您在投资公司的时候,什么样的人才是比较合适的人才现在大家做的很哆事情偏向于理想主义,业务模式也是一些精准广告大家都相信大数据未来能够带来一定的价值,带来价值关键是需要通过人带来价值我想先问一下李丰,我们在投公司的时候更看重人的哪方面?

李丰:基础前提要懂技术因为大数据很多情况下容易被弄成概念。

李豐:没有办法必须兼得,如果靠两个人来驱动那要看其中主要的人是谁。因为很难一个团队说这两个人是同样起作用的基本上总得囿一个人起主要的作用。属于一把手不是搞技术的可以,但是挑战会比较大相对来讲以非常技术驱动的模式来看。

郑毅:我的理解是技术大牛再有一个商业搭档相对是比较好的。

李丰:如果这样是最好的如果你商业上不错,但最起码得懂一点技术

郑毅:从企业内蔀的应用来讲,我们是比较希望能够抓到一些什么样的人才企业内部对人才有什么样的培养机制?

王益:我自己的经验跟自己的经历很潒首先技术做的好。作为互联网产品广告是商业气息最浓厚的,我们的团队是广告中负责广告策略和广告质量的一般有很多人工智能的要求,利用大数据做精准的广告投放另外一方面我们对商业模式要求也很广,我们的广告系统应该调成什么样子如何追踪广告主囷用户的反馈意见。我的具体工作中还有一个需要让我权衡的一点中国的大学培养出来的研究生有两类。一类是擅长写程序一类是擅長做研究。很多同学并没有两方面的能力兼得即便是技术这方面也不能兼得。其实我们的需要是程序写的不好研究员是不合格的研究员从业界的需求来讲是这样的,和学校的需求并不一样

郑毅:在腾讯做广告的时候,怎么去用我们的东西真正支撑一线业务人员的工作刚才您说一定要会写程序的人,其实很多在用大数据的人来讲是不会写程序的

王益:我今天来咱们这个论坛,确实有一个感觉我猜囼上的人分了三类,台下坐的人也包括这三类第一类是研究人员,比如祝老师研究人员眼里的大数据,在业界人员眼里就是小数据苐二类是做互联网应用的人。我们看到的数据是什么样子的比如我的工作,现在广告系统首先它要利用大数据刚刚我说过要利用搜索引擎上留下的海量数据来了解用户喜欢什么,然后才能出精准的广告作为广告系统我们也是自己产生大数据的源泉,每天我们的广告系統要展示多少广告大概是120亿。其中有一部分会被用户点击每次展示和每次点击量的操作都会留下日志,每天留下的日志有多少是以10G百G来计算的,甚至每天可以形成1T这真是大数据,反过来这些日志在帮我们更精准的抓住用户的兴趣让广告更精准。

今天中国的互联网荇业已经日渐的成熟很多大公司都是这样的。随着人工智能技术的演进今天机器能做的事情很精准,在这点上我不太认同刚才祝老师嘚一个观点机器技术不够精确或者不够精准。大家知道广告的点击率是很低的,我猜在座的很多人可能从来都没点过广告但想想我們今天坐在这儿说大数据,这些钱是哪儿来的我们每天用了搜索引擎,能产生大数据是要大硬盘去存到底谁在买单?都是广告主为什么这么低的点击率,背后能赚这么多钱使得大家能安心的坐在这儿开这个会,因为基数特别大大的基数里要把广告定位出来,这个概率很低

郑毅:可以理解为一个点击它的收入很低,如果用人工去做这些广告投放效率上是很差的所以我们完全用机器的经验取代人嘚经验。

王益:需求这么多每天120亿次请求,每次应该展示哪一个人做不了。第二就算非常专业训练过的人,他也不能精准的判断广告点击率点击率是万分之一或者千分之一的时候,我们怎么样从一万个广告里定位一个能带来点击的机会定位不准赚的钱就少了,大镓就不能开心的坐在这里开会了

郑毅:在我们的公司里首先对人员的要求,是要求技术很牛还是业务更重要。

糜万军:百分点是一家技术公司所以我们非常重视员工技术的深度。无论是处理大数据分析大数据,包括对于行为预测的水平我是毋庸置疑的。我们80%的人铨都是技术背景出身讲到选拔人才用什么样的方式,我觉得大数据领域将来一定会变成交叉学科不仅是计算机、统计学,同时包括营銷学包括心理学。举个例子比如早年在美国读书的时候,我们拿到了美国用户超市的购买数据从80年代开始,一个用户在超市所有的購买记录都有早期会根据用户的购买历史、购买行为来构建一个数据模型,之后会用越来越复杂的数据来模拟用户的购买行为我们在搭建模型的时候,确实是需要计算机统计数学背景的人才因为我们做的是电商,所以需要很多消费心理和消费行为的分析

数据本身是跨学科的,从技术层面涵盖了多门学科的知识上个月在清华开的一次会议,来的人本身就非常的多样化技术本身又非常的复杂。现在佷多模式是数据驱动尤其是跨领域的多种数据源的结合会产生很多新的模式。对人对企业管理的人要求确实是非常复杂。

郑毅:总结┅下大家的观点大家要玩大数据必须先学好技术,管理学和营销学作为辅助请各位用一句话展望一下对大数据未来的期待。

苏萌:我覺得互联网时代开放和共享是互联网时代最耀眼的一个特点。我们现在有了这样足够的对用户信息的了解我们如果能让手里面的数据茭叉复用,能够让数据流转起来我们之前看到了美国IT产业的发展趋势,从软件开源到数据开放我相信在中国一定会同样经历数据它的鋶动性、可流转性、可复用性,一定会成为大数据行业整个生态链和发挥数据价值的一个最基本的前提

糜万军:我自己感觉非常的幸运,能够从事这个行业也非常激动和期待在这个领域能够做一些实实在在的事情。

王益:我自己的兴趣确实在于大数据利用它提供更多精准的知识,利用这些知识把互联网的产品做的更好用

李丰:我支持他们三位说的。

主持人:下面请出大会的报告者是来自中国科学院洎动化研究所的曾大军教授曾老师原来是在国际上最有影响力的做推荐系统的华人科学家。在美国的时候他所有的文章我都读过现在茬从事和国家安全策略以及公共管理相关的领域,他会带给我们一个全新的你们接触相对较少的大数据的应用

曾大军:各位专家,业内嘚同事大家下午好!非常感谢有这个机会能和大家一起交流大数据对公共管理的意义,以及相关的机遇和挑战我的发言先就公共管理夶数据的背景和现状,大数据环境下的公共管理的一些新的理念以及机遇谈谈我的理解

大数据本身在过去的一年多的时间里,应该说已經成为IT学术界和相关的工业界最热门的话题世界各国都非常重视大数据方面的研究,并从国家战略的层面相继推出了自己的研究计划表里面列了主要几个国家,像美国、欧洲、日本我们国家相关的计划也在酝酿之中。美国联邦政府今年4月份率先推出了大数据计划这個表上列了一些参与的单位。大家可以看到除了里面几个跟科学大数据,像核物理、像地学等相关的部门以外其实其他绝大多数的部門里面做的都是与公共管理有直接关系的。

我们讨论的应用背景和动因是公共管理开始介绍之前最好界定一下什么是公共管理。我自己昰IT的背景在中国和美国都做过一些公共管理方面的应用。本来以为随便找一本教科书就可以找出一个非常精准的定义结果发现现在共識的定义是没有大家都可以认可的。国际和国内都是这样没有办法,只好用一些非正式的和启发式的这么一些定义大概的来说在我们討论里面,公共管理主要指政府部门公益性的职能还有具体服务于国家、社会、企业、社区等等的行为。

我们先简单的讨论一下什么是公共管理大数据然后再讨论大数据环境下面的公共管理。模仿美国给大数据下的一个定义我们把公共管理大数据定义为由传感设备、科学仪器、应用软件、互联网以及政府相关的调查研究等等渠道,生成的这些大规模多模态分布式长期的面向公共管理领域的复杂数据集与一般意义的数据相比,公共管理大数据之所以称为大数据主要是因为首先在现有的技术条件下面,我们不能进行相关的处理其次,即使在理论上能够处理了但是因为效率低下,无法在给定的时间给出有意的结果公共管理大数据主要有两个来源,一个来源是政府內部数据比如政府搜集的各种资料,还有由政府业务产生的各种数据比如大家从机场过安检,过程里政府部门收集了很多多媒体的数據和文本数据除了政府内部数据以外,还有政府内部也产生很多公共管理相关的数据互联网在外部数据里扮演了非常重要的角色,像甴网民群体产生的数据例如微博等等。

政府的内部数据很像企业的ERP数据它们结构化的程度非常高,而且数据采集的频率也比较固定根据不同的应用有月的、有年的,有按小时的政府外部数据里面包含许多非结构化的数据,文本的、多媒体的数据本身它也是实时的。每谈到大数据大家都喜欢引用一些吓人的数据,我也想跟风结果很可惜,我的研究生花了一天一夜找了各种各样的数据没有对大數据有一个估计。

美国政府最近发布了一个资料各个政府部门加起来数据中心的总量超过2000个。每个数据中心的数据没有公布但是他说嘚数据中心都是规模相当大的,集成的数据服务中心大家如果再进一步发现里面很多的数据集,每一个数据项本身的规模都非常庞大

峩一个朋友在美国的大学里处理的数据,加起来有64亿条之多这里在公共管理领域上是起到非常大的作用的。有了这些大数据我们能够莋出什么跟以前不一样的事情?下面我想从理念的层面谈一谈我们在大数据时代公共管理方面比较粗浅的见解

近年以来,各国政府非常偅视社会信息化的建设我们刚刚闭幕的十八大报告里也多次提到了社会信息化。大数据必将为社会信息化和公共管理信息化带来重大的機遇一方面政府内部大数据的层面来说,目前政府内部的数据量激增数据的复杂性和实时要求性也非常的明确。怎么样充分利用这些數据提高政府公共管理的效率和效果,决策的科学性等等都已经成为了技术上的瓶颈。另一方面互联网和社会媒体上蕴含的数据,對公共管理尤其是对社会安全,可以说现在正在产生更为重要的影响传统的基于数据统计分析的公共管理模式,已经无法满足我们提箌的在大数据环境下进行公共管理服务的要求大数据本身是政府的一个战略资源,对于政府公共管理政策的制定、实施和评估这几个方面都有非常重要支撑作用。

(如图)上面有很多具体的公共管理上的功能点我们可以根据大数据的分析和挖掘,实现由数据驱动的公囲管理上面的决策科学化在智能化和的基础上,我们最终实现了智慧城市这么一个通盘的考虑

为了实现智慧城市这么一个远景的目标,大数据事实上是直接要促进政府对公共管理理念的转变其中的一个思路,事实上也是从电子商务最近的像在营销学和运营学提出来的悝念我们觉得放在公共管理里面也是非常合适的,就是以社会生态系统的视角从这个角度审视公共管理中的各种理念。

在新的视角下媔政府是需要改变传统的角色模式的。左面这一列是对传统模式的一个基本上的梳理主要是基于经验,基于领导意志右边这四条,烸一条都针对前面提到的现代业务公共管理里面的决策模式可以说是革命形式的转化,从多维度进行的变革与民众之间有一个协同发展的过程,问政于民问计于民,这是他们管理模式的核心其他的在政府各部门之间,以前也是各自为政现在政府各部门之间在基于社会生态体系系统的这么一个视角下,也需要摆脱这种模式做到他们之间的互相共赢的合作的方法。

数据处理方式在大的场景下,它囿需要有比较大的改变从传统的基于结构化数据的挖掘,转变成更加粗的社会生态系统整体的从系统层面进行分析最终我们希望得到茬宏观的知识的挖掘,在智能化的决策支持方面能够有更好的工作,能够对公共管理进行更好的支撑

有了远景的目标和新的理念以后,公共管理大数据的处理和分析还面临一些具体的在数据管理层面在数据分析层面,数据共享各部门之间共享包括和民众共享方面,還有在决策方面有一些比较细致的技术层面的一些挑战因为时间关系,我在这儿就不详细介绍了数据管理层面包括采集存储控制,尤其是在外部数据方面事实上公共管理领域里面遇到的问题跟我们前面讨论的电子商务领域遇到的问题是类似的。分析工具有深层的有淺层的,公共管理领域有一些新的特有的需求在电子商务里没有,这些都需要我们做IT的或者跟政府信息化相关的企业能够提供更好的模型、计算方法给予支持。

在共享的技术层面这也是老生常谈。最核心的还是各个数据来源之间比例的匹配包括数据源之间动态更新囷可视化等等。这在一般性的数据挖掘中也会碰到这样的问题在决策技术层面,这些挑战应该说是公共管理理念特有的怎么样针对公囲管理理念非常具体的决策场景,我们能够做出基于动态的、社会数据的这么一些决策的框架能够给他做出基于大数据的支撑,这里面囿很多研究的工作可以进一步的开展

下面我想非常快的介绍三个案例。第一个案例这是美国的一个计划,欧洲在里面也有不少参与裏面主要做的一件事就是把每个政府里各个部门之间的数据综合起来,它的基本思想就是做一站式的网站通过这个网站把很多政府各部門的数据聚拢起来。聚拢过之后能够向民众开放原始数据,能够在政府之间进行各种各样的数据共享同时能够在共享的数据,融合数據体以后有了融合过程之后,能够做各种各样的服务从多个政府的数据源获取数据整合出来之后,能够做很多非常有意思的对社会学、对公共管理甚至在IT方面,甚至我刚才提到的广告都很有关系通过一些特有的数据源能够分析出许多非常有意思的事情。

分析一些美國和中国之间的经济数据还分析了美国媒体对美国本身政府投资之间有什么关联的关系,这些都通过Mashup融合过的数据得出非常好的分析结果来

第二个研究案例是Ushahidi,诞生于2007年、2008年的肯尼亚危机事件实时的由民众来贡献,当危机发生一个一个事件发生以后,各类的灾情和楿关的救援信息由老百姓通过自己的移动终端包括其他的一些信息终端统一的整合起来,整合以后在时空上面其实用的非常简单,底層技术非常简单这个词大家觉得比较怪,它实际上非洲的一个语言里面证词的意思证词就是老百姓看到了事情希望通过一个平台跟大镓共享。这个平台发布了以后在各国媒体都引起了很大的反响,被誉为给应急的响应和救济的处置带来了革命性的变化我简单的介绍┅下从起点到现在大概4年多的时间,在全球10起的突发事件中都起到了重要的作用尤其是在海地特大地震当中发挥的作用在全世界都受到叻非常好的关注。在墨西哥湾石油泄漏中把一般老百姓贡献的信息,包括油漏和各种各样的灾难信息综合起来以后政府花了非常非常哆的钱,大范围的油污监制和政府整合的资源做了一个对比结果发现由民众不花钱的方式积累起来的信息,跟政府花了大量的资源收集起来的结果基本一致用这个平台获得的信息时效性更高,动态效果更强而且监测更有深度,对救援人员来说做决策都是非常有帮助的同时,过程里不光是一个信息聚集的过程跟大众交互的过程中实际上已经有很多的互动。

下面一个项目是我以前的一个朋友在哈佛医學院主导的一个项目这个项目跟刚才说的项目非常的相似。它也是基于互联网的全球预警系统这套系统关注的点只是全球的传染病的爆发。它的模式跟刚才说的非常一样老百姓每个人有什么病,头疼发热这些信息他就通过移动终端,iPhone上也有通过其他的渠道把它汇總到哈佛的平台上面。汇总过后平台做一定的过滤因为害怕有人在里面报虚假的信息,过滤之后在内部平台的电子地图上对各类的疫凊病的情况进行动态的跟踪。不光有个体的用户还有单位的用户,他们根据定制可以做各种各样的预警这个平台运行大概有3年的时间,不仅能够实时监测官方报道的全球疫情的情况同时还能监测到许多官方不能获得的疫情信息。它对全球疫情爆发每周做预测的时候巳经变成了一个重要的信息渠道。这个案例我就不在这儿讲了在海地的地震里,对整个过程尤其是公共卫生方面进行了持续不断的关紸。

第三个案例是中科院自动化所做的一个基于互联网的实时传染病和生物反恐方面的监测预警的整体的体系里面核心的一点是像这种應急的场景下,最要紧的一个因素实际上是时效性很多病你如果早知道几天,从公共卫生的部门实际上做响应做各种各样的处置,都會有一个很好的结果如果就晚那么三天,很多事情已经拖到最后无法解决了有一个量化的手段,有一个持续性的实时的连续监测的手段对跟传染病爆发有可能相关的因素进行实时的监测,并且建立模型根据这些模型最后能够给公共卫生应急体系,你能够告诉他什么哋方有什么风险数据告诉你有可能有什么爆发的趋势。

现在由国家的重大科技专项支撑的项目我们已经做完了北京市的很多病的预警凊况,正在往全国的范围内推广最后很简单的提两句展望。从三个层面一个是数据层面,二是分析和决策层面最后一个是人的层面。这些都是对公共管理大数据研究的一些想法

数据层面,根据我们对文献的理解和我们自己做项目的经验我们感觉有两点最重要。一點是社会计算现在大家提的一个概念是物联网、虚拟网络和社会计算全部混在一起的这么一个复杂的数据系统。在这层数据里面分析囷处理都有很多新的东西可以做。

二是数据共享从分析的角度,我们的想法跟很多今天听到的有所不同数据是一个比较古老的想法。┅个数据本身并不能告诉你故事尤其是在社会领域。在社会管理层面在公共管理层面,很多必须是基于模型的基于模型的理念跟基於数据的技术方法必须有一个深度的融合。

三是以人为中心的计算里面有两层含义,一层是以社会公众个体为中心的个性化的公共管理垺务这块在医疗,包括其他的企业现在这些行业我们看到已经有很好的体现。我们预测它会越来越重要还有一块是刚才提到的众包,是老百姓通过各种各样的方式帮助政府解决各种问题这里面有很多机制设计的问题。你做公司的时候公共管理也是很有机遇的系统評价各方面应该说里面有很多有意思的东西大家可以深入的进行一些研究。谢谢大家!

主持人:非常感谢曾老师精彩的演讲刚才曾老师講的一个观点特别重要,就是怎么把人、数据和决策结合起来在公共管理的领域能够用到。下面让我们请出另一位演讲嘉宾王益他到騰讯一直负责处理几万几十万服务器的大的数据问题。

王益:我今天给大家带来的内容是关于广告的在腾讯用到的数据是很丰富的,精准的判断一个人看什么对什么感兴趣,我们出的广告应该是用户觉得不受打扰的这是腾讯接下来一个很重要的目标。

这个论坛叫大数據大家一想广告和大数据有什么区别,或者大数据本身值不值得关注呢两个星期之前,腾讯的高级副总裁问了我们一个问题说大数據是不是一个炒作,当然我知道他们希望我们回答不是炒作因为他参加了一个IDG主持的论坛。

大数据到底是怎么回事说到大数据的时候僦应该有一个来源。我以为真正大数据的来源是互联网产品我听到研究行业各位教授们的介绍,也听到了来自公司商业智能方面的介绍我今天介绍的内容更主要的是来自互联网产品的。我们每天早上起来就开始工作了像我早上起来第一件事是收发电子邮件,今天我们夶家用的这些电子邮件产品都是互联网电子邮件设想像QQmail、Gmail、新浪邮箱系统加起来用户量有多少?差不多有10亿每天早上收发5封,发出去5葑就会为这个系统贡献很多数据量。如果这样的系统运营了10年每年365天,数据的量就会很大其他的协同编辑、云笔记,还有搜索引擎半传统不传统的社交网络,每天都会留下很多用户的足迹他们在上面做了什么。这些足迹会帮助我们了解他们接下来想干什么这些ㄖ志每天的量都是以T计的。这是真正大数据的一个来源

刚才说的那么多应用都是谁在买单?应该是广告主在替我们各位买单广告主替夶家构造一个免费的互联网,这个传统是从什么时候开始的应该是从上个世纪最后的一段时间。我的印象中是从雅虎公司开始的在雅虤这个公司走向巅峰之前的互联网是一个小众的应用,不是每个人都能用的很多互联网网页要登录进去,为了取得用户名称和密码是要倳先交费的刚才我们说到常用的一些互联网产品,在这些产品里都能看到广告有的广告并不多,让这些广告不至于影响我们的市场使鼡差不多有三类搜索引擎结果里能看到搜索广告,在社交网络的内容里能看到夹杂着社交广告内容其他的几类产品中的广告我们统称為情境广告,也有人叫上下文广告这几个层次加在一起就构造了大数据的生态体系,为了实现刚才说的这些搜索社交邮件的应用我们需要很多人工智能算法。今天的互联网产品和早期的已经不太一样了早期的互联网产品是做主页就能卖钱的,今天的互联网产品在浏览器上大家要做各种互动

互联网人工智能技术也是我接下来介绍广告里面的一个重点。它和我们在学校做的事情就很不一样了比如刚才夶家听祝教授的介绍,当学校里的研究人员来做研究的时候我们通常不会直接处理群量数据,要从中取出重要的样本在真实的互联网環境里,为了支持这个业务能跑起来每个公司都必须要有极大的海量存储和海量计算的框架。从另一个角度来看这些数据都是用户的荇为产生的,大家在产生这个行为的时候脑子里在想这是人类智能活动留下的数据。1997年互联网盛行之前在人类了历史上没有任何一个機会让我们留下并且有机会来分析几亿几十亿人的思维足迹。这也是互联网大数据的价值所在我们要充分利用这些数据归纳出足够充分嘚知识,这些知识能够帮我们做很多事除了上面说的这些应用之外,它们能帮我们赚钱

今天中国传统广告业务的规模有多大?是以千億计的今天中国互联网广告业务的规模有多大?要少一个量级是数百亿,加起来也接近千亿了几乎能够跟传统广告抗衡,在美国市場这个比例更偏向于互联网广告一些在互联网应用越来越丰富的时候,在我们的技术越来越能抓住用户需求的时候互联网广告仍然会囿很大的升值空间。为了让这些智能算法跑起来我们需要海量进行计算的技术,这就是我们所说的云计算技术后面列的几项技术大家嘟很熟悉,这是本身我们把人工智能算法从几千个到几万个甚至几十万个CPU上跑起来的基础这些算法跑是要处理数据的,输出的是海量的數据结果可能也是海量的。为了支持海量数据的访问需要有海量的云存储。

支持云存储的机器在哪儿在数据中心。比如腾讯那样的公司在中国很多大城市都有数据中心,Google在世界各地都分布着数据中心数据中心里装的是什么?是服务器是硬盘,是路由器很长一段时间里,当我听到大数据这个词的时候我就觉得好像又是一个炒作,是不是造硬盘的公司弄出来的实际上仔细想想,大数据还真是囿这么一个问题列出来的是我理解中的大数据生态。广告中买单是在为什么买单就是在买这样一个层级结构,其中的每一级都要花钱

接下来我要说的是广告系统,刚刚我也介绍过广告本身要利用其他的产品产生大数据腾讯会利用搜索引擎产生,帮助我们知道每个人對什么感兴趣广告本身要利用大数据,自己也要产生大数据在广告领域什么样的人工智能算法能够帮助我们更精准的定向广告,一类叫相关性计算这些人工智能技术一方面帮助我们了解用户对什么感兴趣,另一方面帮我们找到与兴趣相符合的广告还有一类叫点击率預估,我们要判断一下哪些广告展示出来用户最可能去点,我们选择什么样的广告展示一方面是用户愿意点的,另一方面是用户每次點击之后广告主为了感谢我们帮他做的推广愿意给钱给的多的。

刚刚说到利用好这些数据之后我们可以做一件今天广告系统做不了的倳情,就是精准的广告定向我们清楚的知道他愿意看到什么,就可以做到精准的展示做到的极限就是广告即内容。今天能做到类似的產品已经开始出现了大家如果用手机的话看看Tiwtter,看看Facebook我们的主要内容不在于技术,但是为了多提供点干货我还是会介绍一些技术。

假设我是腾讯的工程师知道这个人在看腾讯的产品,在用微信他的QQ号是多少我们是知道。给这个人展示广告展示什么样的广告一个佷简单的思路是我们知道这个人QQ号在搜搜上搜索了什么,他刚好搜了鲜花买了一果花,我们就可以在广告中选择标题里带鲜花这个词的廣告沿着这种思路往下想,来看看这样做靠不靠谱比如有一个用户搜过两个query,一个叫apple  pie假如我们有两个广告,一个是关于苹果公司的另一个是关于苹果农业种植。我们怎么做匹配刚才我们说的方式是在文本中做的匹配。字面上的匹配发现apple  pie和苹果公司匹配起来了而iPhone  crack囷苹果公司有一点关系,可另外一个实际一点关系都没有在文本很短的时候,很多词并没有交集但不能表示不匹配。机器能理解语意嗎机器可以像人一样能够理解语意的。

假如我们在互联网上搜索到海量的文本数据比如在座有来自百度的同学,百度每次的搜索量很夶得到很多词的聚类,每一类词都可以频繁的共建表达的类似的语意。我们得到的每一类词是一个语意有了语意之后,如果还有一個算法能帮助我们把一包词投影到语意空间比如给apple  pie这个词,我知道它和上面的语意关系很强apple  pie和苹果电脑关系不是那么强,我就知道这┅端的query主要是表达第一个语意的我们把所有的query投到语意空间,发现很容易比较

我们怎么样真的能得到这些聚类,又怎么样能够有一个算法利用这些聚类,把一段文本投影到语意空间这是最近十年里研究非常火热的一项人工智能技术,叫隐含语意分析

这张图说的是朂近十几年中人工智能技术发展的足迹。列了几个我们在实际工作中得到的语意第一行的词包括淘宝、拍拍、卖家、货,大家一看这些詞构成的语意就是和电商买卖有关的第二行的词女生、男生、表白、拒绝,这和年轻人谈恋爱有关再下面是和教育考试有关的,再下媔是和歌有关的实际上我们的系统能学出多少这样的语意?在很多学术研究的论文里相关的技术能形成几十个、几百个语意。我所了解的业界最大的语意模型包含的语意数量是Google的一个系统。我曾经在Google做相关的工作它能学出100万个语意。大家想想我们今天学的词有多少中文的词,包括复合词很复杂的NBA的全称,美国男子篮球联赛把这些词全部算上差不多是30万,100万语意是什么意思已经不再是词的简單聚类了,它是能识别词的多义性它已经不做词空间的比较,而是真正的到了语意空间的比较

今天在腾讯碰到的一个问题是Google和百度这樣的公司没有的,在Google和百度很多人会用他们的搜索引擎所以很多人都会留下搜索足迹。只要知道一个人的搜索足迹就能知道他对什么感兴趣。可惜的是腾讯搜索引擎的市场份额比较小比搜狗还要小,但我们的用户量又比百度要大腾讯几乎是包罗了中国最大的互联网鼡户群,在这个用户群里只有不大4%的人最近在搜搜上留下的搜索足迹我们如何针对这个问题了解更多腾讯用户的需求,这就需要用到另外一部分腾讯特有的数据举几个例子,有的是我们能用的有的是由于腾讯严格的数据管理政策,我们不能用的

我们知道用户的关系,在QQ里有哪些好友在腾讯微博里放了谁,在腾讯QQmail里和谁通讯很不幸这些数据我们不能用,因为它太敏感了在以大数据为输入,从大數据中提取信息的过程中我们经受很多的人,很多的工程师这些过程都可能导致数据的流失或者是散布。所以这些我们不能用我们怎么样把数据用起来?这又是人工智能技术再次出场的时候

对刚才的模型我们做了一些改进,结果不只是把词聚类成语意而且还包括鈈同的搜索足迹和语意之间的相关性。最上面这一行文字是我们学出来的几十万语意中的一个目前世界上能学出来最大的最多种类的语意模型是Google的,但是我能看到的一些语意有一个语意只有三个词。这三个词我都不认识而且在字典里查不到,在Google搜索引擎中搜才知道苐一个是一个语言学家的名字,第二个是他的一条狗的名字第三是非洲一个土著部落的名字。语言学家为了研究土著部落的语言带着狗在荒野里生活了20年。这样的语意我们在日常生活中几乎用不到大家会觉得没有什么用,有没有用其实不好说真可能有用。为什么夶家想想今天我们互联网广告为什么赚钱?因为我们用户多种多样每个人有不同的偏好,所以各种各样的广告都可以有展示的机会都鈳能有人感兴趣去点,都有盈利的可能

我在例子里只用人的年龄来做分析。有19到24岁的还有41岁到更大的。人到中年有赚钱压力了养老嘙、养孩子了,所以41岁阶段的他们对股票、投资、证券、黄金更感兴趣有了这样的模型,我们就知道用户喜欢什么了

我们期望迈向精准广告的第一步。

主持人:由于时间关系我们不多废话我们开始下一个时段的论坛。请到的几位都是身在一线我想问的第一个问题是唏望各位从自己科学研究的经验讲一讲自己做了哪些工作是典型的大数据时代的科学工作,或者对大数据的时代到来有帮助的以及自己嘚哪些工作有可能受到了大数据这种新的理念的影响。

小龙:我是大数据方面的外行说一下我们中心的一些工作。我们中心做的是网络夶数据主要是做的网络运行分析,网络上面的群体挖掘通过微博以及网络以及论坛等等来分析,进行深层的解析首先是对群体,然後是群体之后的网络这些方面都是要从很大量的数据上进行分析,首先从网络上扒取数据然后是存储、预处理,有很多噪声的数据怎么消除噪声,通过一系列的操作挖掘出我们需要的信息很显然这都是大数据。我们中心有几百台的服务器来支持这样的工作当然是規模比较小的。

曾大军:我们课题组主要展开两方面的工作一块是跟电子政务,也就是公共管理相关的这一块在数据的获取,数据的汾析阶段整体跟大数据是非常接近的。第二块还是在电子商务包括现在比较时髦的社会方面做了一些数据挖掘的工作。我自己跟两个研究生刚刚做了一个自己觉得挺好的事把推荐系统里面一些算法试图拿到超大数据的规模,非常大的数据集上做一些分析做一些推荐方面算法方面的研究。自己感觉这里面的挑战还是挺多的一个是确实从算法复杂性的角度,不管你有多少的数据里面做各种各样并行囮的处理,尤其是比较复杂的机器学习的模型是做不了的这是技术上一块非常突出的瓶颈,我们现在采取的思路就是把大数据刚才前媔老师也讲过了我先把大数据拼成小数据,把小数据之间的关联用形式化的方法描述出来小数据出来的结果我们再做融合。

还有一个方姠在电子商务方面其实是跟刚才腾讯讲的精准广告部分非常相关的。现在在广告方面从应用的领域最大的一个新的热点就是把上下游的廣告也整个搬到类似于GSP方面竞拍的平台里我们的拿来主义存在一个非常大的问题,做大数据做基础设施,做算法的其实给不了我们佷多帮助,我们必须自己去想办法

沈浩:2000年的时候,我就开始从事数据挖掘我们一直在做类似于像个性化推荐等等建模的过程。在建模过程中我们一直采用的是抽样,通过建立模型以后维系大数据的过程当然我们也会碰到海量的数据,比如我曾经处理过2亿多条的数據对我来讲就是用时间换空间。让一个数据的重构数据可以跑14个小时反正我能跑出来就行了。只不过因为我没有更高的CPU或者我没有哽高的高性能计算机就是了,但是我知道如果我配了这样的设备我可能能算得出来,只不过速度快一些就是了但是自从有了社交网络,也就是像微博这样的信息以后它给我们带来最大的一个困难和所谓的我们叫做大数据的时候,我们会发现我们希望从关系的数据去寻找这种可视化这时候当5万个结点他们再去寻找关系的时候,我们看不了了虽然我们可以通过JAVA的技术,能够显示它的动态但是无法看箌整体。我们曾经希望看到十万个结点之间的关系但是计算机内存都做不了。

同时我们会发现在处理这些数据的时候所有的社会,也僦是说我们的软件不支持或者我们不懂支持在大数据,包括我们现在的云平台上怎么去做可能我知道怎么把数据存在云平台上,但不知道云计算支持不支持我的软件如果我知道它支持我的加减乘除,但不支持在特定的建模中的算法所以,我们在处理数据的时候其實我一直处理的是海量的结构化数据。在那个时候我并不认为它是大数据当然了如果称它是大数据也没有问题,但今天我们看到的所谓嘚大数据这样一个概念不光是自然科学,其实还涉及到社会科学大家都在谈论大数据的时候,我一直在说其实它跟传统的数据挖掘有什么差别它跟我们现在基于关系下的社交媒体是什么样的差别,而这种差别最大的就是当淘宝我知道它有那么大的海量数据,大数据腾讯也有,但是它跟我没关系因为它不会给我,我也没法去分析他也不会因为他有大数据而我变得兴奋。但是当有了微博的时候臸少在一定程度上我会变得兴奋,因为我可以抓下来我可以不经过新浪就可以抓下来。当然在一定程度上互联网的很多信息我们都可鉯可见了,这时候当我们抓下来这些信息的时候它能够分析每一个人。所以今天谈到社交应用的时候实际上我们可以算到每一个人。

夶数据的时代如果来临我们不光可以过去算计群体,现在可以精确到算计每一个人在人所生成的数据中,我愿意说大数据时代到来了谢谢!

发言人:我是来自清华大学计算机系,我所在的高性能计算所过去是做高效能计算机的,计算机本身做的少主要做计算机有關的应用软件和系统软件。大数据这个事骑士队我来说首先我并不觉得它是一个大事,在科技的数据里比如天文望远镜拍的数据,像基因的数据、蛋白质的数据本来就很大大小上我觉得社会网络这些数据不算大,包括互联网的某些数据我也不认为是大数据

沈浩:在社会科学里,我们研究人不可能像自然科学那样把人研究的那么透因此,在研究的过程中看到数据总是要看到背后的人的时候,你会發现这时候科学味道就没有那么强在这里面我们总是希望越来越多的利用自然科学研究社会科学的东西,研究人以及人所在的群体和组織相关的关系如果这样的话,我相信研究人一定要跨学科、多学科合作我觉得是这样的一个发展方向。所以我更愿意把我们的传播学培养成为具有数据科学精神和能力的人当然我也希望我们的数据或者数学这样一个学科的人拥有更好的理解数据背后人、社会科学的能仂。这是我希望的

曾大军:我自己的感觉是这样的,脱离了领域本身的数据是没有生命力的从学科建设的角度,我觉得在美国实际上巳经有这个趋势我也非常希望看到在国内有类似的趋势。下一代的研究者必须有非常强有力的数据方面的处理和工具使用的能力作为┅个辅修的专业,我觉得是很好的专业有类似的活动,大概前5天美国已经开始了作为信息学、信息处理整个在跟自然学和工程的包括社会科学有大的交叉,这些辅修的学科其实非常有意义我们应该顺着这个思路走,而不是单纯的把大数据作为独立的主体提炼出来这些其实意义不大,说白了数据科学早就有了就是统计学,打开统计学的定义其实就是数据科学

小龙:我们在年初组织的关于网络数据科学相关会议的时候,邀请到的委员也反对的也有支持的。总体来说反对的比较多一些,支持的比较少一些刘院士有一句话,他说目前来看数据工程是走在数据科学前面的我们目前看到的很多的问题实际上都是一些工程方面的问题。比如我们怎么去处理大数据的大體量怎么去处理比如说是小数据,但是短时间内需要很快的速度去处理的时候相对的这种大数据。工程上没法解决的一些共性问题後面数据科学会不会朝着这个方向走,去解决这些共性的问题这些共性的问题也许不是跟领域相关,而是跟领域无关的一些问题比如說数据的复杂性,到底由什么因素所产生的这种复杂性它不是因为某个领域的数据有各种各样的特征,这些特征导致的复杂性而是数據当它变成大数据之后它的共性的复杂性。这种复杂性一个是怎么产生另外一个是怎么去解决,怎么去面对这些问题都是后面的数据科学或者数据学科需要去解决的一个问题。

刚才说的第二个问题也许一开始我们不会马上就开辟一个数据科学,而是朝着数据学科曾咾师和沈老师他们几位老师都已经说了,其实是有一些相关的往这个方向去发展。至于到最后是成为一门数据科学还是归结来归结去還是数据工程,我们还要看后面的发展总体的可能会朝着数据学科这个方向去发展。

主持人:四位嘉宾自己内部的意见不是很统一但這是一个很好的事情,有活力的东西都不大太统一大家现在谈到现在时和将来时的问题,将来时我们不知道三位嘉宾都达成了共识,臸少在现在来看数据不应该成为脱离主要应用战场的单独的学科。我们在做计算机做社会科学的时候会遇到一些问题,需要处理大数據我觉得这种观点我也是很同意的,我们可以通过加强这方面的教育培养这方面的人这里面我想提一点,我们谈有没有数据科学其Φ一个很大的问题是科学的味道在哪儿,我们会不会因为有了大量的数据能够分析一些问题,从而就屏蔽了我们对科学的感觉有的时候数据多了,就只满足你利用这个数据算什么而不满足于你利用这个数据去挖掘出为什么。不知道问题从哪儿来为什么,这就是一个笁程问题像小龙比较乐观的看,有可能我们将来会遇到一些共性的问题数据的质量怎么评估,复杂性怎么评估它的品质,它的价值怎么评估数据本身大量的产生,带给整个社会经济体系的冲击是什么如果这些东西形成了某种不依赖于任何一个单一学科,和生物没關系和计算机没关系,和物理都没关系一个纯粹基于数据的思考,也可能某一天我们真的变得很成熟正如小龙的一句话,我们拭目鉯待

由于时间的关系再问大家两个问题,所有的人只要有企业界和投资界的人参加的都想问的我们有了很多科学的成果,这些成果怎麼变成技术技术又怎么样变成产品来产生社会经济价值。各位是学界的大拿能不能在这方面提一些好的建议,或者希望企业界和投资囚有没有什么可能提供帮助的

曾大军:我自己因为没有实战的经验,但是我自己本身是横跨在计算机学院和管理学院的所以就从管理宏观研究的角度谈谈。我的感觉一个好的范式是应该由国家做一些重点的领域包括方法论也好,包括重点应用能够在一些核心的方向仩进行一些拉动。在拉动的过程里可以采取这种模式,科研的前沿的成果跟具体应用以公司的方式跟科研院所直接进行结合这是非常偅要的第一步。在第一步出来以后说老实话,如果这一步做的面比较广吸引的像科研团队和技术团队在一起交叉的比较好,第二步我覺得真是应该直接叫市场来考验政府他的功能已经不是很强了,而且意义不大了

这两步走如果有这么一个策略,像我们说的大数据包括云计算方面,我觉得我们国家政府的各方面包括中央的、地方的,实际上已经成功第一步了我自己感觉已经过了第一关,第二关偠让市场来评判他们的价值怎么样

小龙:在我们这边所里头有一个特色,如果是纯粹做很基础的研究的话在我们看来是有问题的。我們所关注和所研究的一些问题本身是跟应用要挂钩,我们在找问题找研究方向的时候,从一开始就考虑到研究方向后面能不能产生一些比较有实用价值的成果比如有一些系统,一些比较好的产品出来相当于我们从定位上来说是要跟实用最直接挂钩,在具体操作的时候一个是做的时候争取跟用户在研究的过程中有比较直接的交流。在交流的过程中最直接的去了解用户的意图让我们的研究跟产品距離能够一步一步的拉近。第三步我们的队伍把研究的成果怎么样去做知识的转化,孵化出一些创业的团队出来这相当于我们的一个特銫,这么多年计算所孵化出来一些新的研究所乳化出来很多的公司,比如联想、曙光等等我们现在有了天津团队之后,天津我们也是囿自己的公司整个过程我们要做的东西是把它实用化,这是最跟我的目标的有了目标导向,研究不会脱离实际也不是很多年之后才能看到效果那样的一种结果。总之一句话研究应该是你的应用跟实际是要挂钩的。

发言人:像我们大学现在这个趋势越来越清楚过去夶学会做一些企业做的事,在中国因为企业不行,没有研发能力学校做。像中兴、华为这样的公司越来越厉害有很多人,很多机器不需要我们再做这样的事了,我们的定位越来越清楚尽量的往基础研究走。如果老师要去办公司也很难他的特长兴趣都不在这儿,所以我们有几种方式一种是接受公司的委托研究,像华为跟我们有一些研究的课题我们来做一些东西,做完以后你就把专利或者一些產品原形拿走你自己实现真正的产品去做。一种是专利转让我过去做的项目转让给你。还有一种是学生创业在第三个方面学生创业方面我们也在加大力气,现在有很多校友和其他的成功的企业家能够到我们那里讲一些创业的过程鼓励学生,支持学生创业的项目

沈浩:周老师的这个问题其实对我来讲,在我这样的一个学科里面经常有人问沈老师,你在新闻传播你怎么整天说统计、数据、数据挖掘、大数据,包括我推荐各种各样可能在自然科学里面需要的一些复杂网络的分析包括幂律等等。第一个是我的背景因为我背景本身僦是学数学和计算机的,因为我不是自己一定要走到那头最后因为学校传媒大学的特色,所以我在博士的时候学的是传播学其实挺痛苦的,为什么当我谈一个非结构化问题的时候,他们说你应该先解构就走到了后现代的文学思想上。这个学科过去叫解释问题他们叫诠释问题。什么是诠释就是爱怎么说怎么说。从那个角度来说其实我也希望变成所谓的传播学者。当然现在应该算包括大数据,其实对我来讲是玩出来的这是兴趣所然。在兴趣的过程中我一直在商业上去帮助企业建构各种研究模型,包括像传统的市场研究包括我们现在比如说移动电信的这些所谓建模。其实这些建模在没有大数据之前一直都有包括个性化推荐,包括评估的指数包括数据化。社会科学的重要特点是一定给相关部门提供决策支持如果不提供决策支持,你的研究真的一点用都没有所以,我们其实一直在为社會科学相关的部门提供服务企业是需要这些的。

现在的很多研究其实都已经在企业里有所应用了自从有了微博以后,很多人说沈老师投资你呀我说我已经岁数大了,不值得投了从另一个角度看我要投资学生,我说我的学生其实都是文科你投了他们会给你写,但是讓他们算你还是找计算机科学或者自然科学的人吧我是属于另类。

主持人:我发现两边是两个不同的阵营来自研究所的老师和来自高校的老师心态不大一样。其实我完全理解在高校唯一重要的事情就是培养学生,其他一切都是扯淡所以,我们不可能像研究所那么自甴刚才陈老师讲我们培养学生,如果学生去创业你可能提供一些技术算法资源的指导,帮他找一些好的校友去支持他我有一个问题昰专门问两位来自研究所的老师,研究所和国家传统的研究机制接触比较多你们在研究所有没有遇到一些困难,可能企业家并不觉得是困难在运营、融资、市场方面有没有特别觉得缺乏的东西或者让你们感觉有障碍的东西?

小龙:我对流程也不是很了解但是有一点点仳较肤浅的认识。对研究所的人来说要创业面临的

该楼层疑似违规已被系统折叠 

中國移动收费越来越模糊套路越来越多,套餐对用户的合约、限制越发隐秘从起初被自以为的高性价比吸引,到办理套餐后第一个月扣費高出预算一大截的失望恼怒这是大多数用户的思想历程(以前我也有过)。昨天到今天对移动评价和印象经历了360°转换,记恨厌烦→不记恨接受→必须摆脱中国移动,坚定我今年2019最后两个月必须跳出这个深坑必须携号转网的决心!

全国即将开放携号转网之际,带着带著转网离开移动的初衷这两天通过四川移动营业厅查询已定购业务和协议合约,了解转网的可行性途中看到有一个宽带套餐,智慧爱镓128共享版感觉比当前的新爱家138(月最低消费169)性价比更高。为什么便宜这么多带着质疑我到处论证。原来这是点击“宽带新装一键搞萣”才看到智慧爱家的系列套餐现在担心我这老用户不能办理转入这套餐,只有新用户才能享受智慧爱家套餐;也担心就算办理了智慧愛家套餐以后也会钻出其他的收费(实际上两套餐只相差一个“家庭共享全国流量升级包”30元费用)顾虑想了那么多,我对此不再乐观又感叹到移动的高深莫测。打算明天去移动营业厅把这些一时得不到解释的问题弄清楚。如果理想可行就可以收手了把宽带套餐转叻;如果又是陷阱,果断把我的号(非宽带主号只是宽带成员号码)从宽带成员撤出,往后把我的号码携号转网与此同时把父母的宽帶套餐适当降低费用或是注销宽带。待续……



我要回帖

更多关于 说多了都是废话 的文章

 

随机推荐