人生倒计时
- 今日已经过去小时
- 这周已经过去天
- 本月已经过去天
- 今年已经过去个月
关于youtube新传的论文(youtube转发)
20210329经济学人精读|中国的youtube—哔哩哔哩的发展与盈亏情况
本文节选自《经济学人》2021.3.27期Business版块的一篇文章《China’s YouTube》,简单介绍了bilibili营收及发展情况
(使用浏览器扫码进入在线客服窗口)
复制联系方式
本文总共6段,建议大家先自主阅读原文,再学习精读笔记。
文末会总结此次学习写作可以使用的词句,读者也可自己总结。 会定期将内容进行总结,做成word分享,希望大家也能坚持学习
1
The mission statement of Bilibili, often dubbed “China’s YouTube”, stands out for its modesty. Instead of promising to change the world, the firm aspires merely to “enrich the everyday life of young generations in China”. If user figures are a guide, the Chinese young feel enriched. In the last quarter of 2020 the number of people who used the service at least once a month shot up by half from a year earlier , to 202m. Nearly nine in ten were under the age of 35. Videos on the platform, which range from sports highlights to selfhelp lectures and everything in between, attract an average of 1.2bn daily views .
mission statement : 宗旨说明,英文:an official statement of the aims of a company or an organization,即一家公司或组织的目标 【词汇积累】
dubbed : dub,称作,起绰号,A is dubbed被动形式表示……被称作 【词汇积累】
stand out for sth : 以……脱颖而出,引人注目 【词组积累】
aspire to do or sth : 立志于做某事 【词组积累】
user figures : 用户数据 【词汇积累】
shot up by half from a year earlier : shot up表示激增,猛涨,by half表示增长的量,表示比一年前猛增了一半 【词组积累】
selfhelp lectures : self-help表示自助的,可以表示自主学习课程 【地道表达】
1.2 bn daily views : 12亿每日观看次数 【地道表达】
Bilibili,常被称作中国的YouTube,以其谦虚的公司宗旨而引人注目,他并非承诺改变世界,而只是希望“丰富中国年轻一代的日常生活”。如果以用户数据为依据,中国年轻人确实感受到了充实感。在2020年的最后一个季度,每月至少使用这项服务一次的人数比一年前猛增了一半,达到了2.02亿,将近十分之九的人年龄在35岁以下。该平台上的视频,从体育高光时刻到自主学习,以及介于两者之间的一切,平均每天吸引12亿人次观看。
2
Launched in 2009 as a website for fans of Japanese anime, Bilibili has evolved into a diversified entertainment group. In recent months even Western musicians (such as Jessie J and Charlie Puth) and Hollywood stars (including Dwayne Johnson) have rushed to set up Bilibili accounts . Investors, too, have taken notice. Between March 2018, when the firm listed in New York, and February this year its market capitalization rose more than tenfold, to $41bn. On March 23rd it raised $2.6bn in a secondary listing in Hong Kong.
Launch : 上市。除了发射(火箭)外,还有上市的意思,launched in 2009 于2009年上市。下文中的 list in New York中的list也有上市的意思 【词汇积累】
evolved into : 进化成为 【词组积累】
rush to set up Bilibili accounts : rush to do争先箜篌地做某事,set up …… accounts则表示开设创建……的账号 【词组积累】
Between …… and ……: 表示在……和……之间,可以为两个时间段之间 【词组积累】
Bilibili于2009年上市,是一家面向日本动漫迷的网站,现已发展成为一家多元化的娱乐集团。近几个月来,甚至连西方音乐家(Jessie J和Charlie Puth)和好莱坞明星(包括Dwayne Johnson)都争先恐后地开设了Bilibili账户。投资者也注意到了这一点。从2018年3月该公司在纽约上市到今年2月,其市值增长了10倍多,达到410亿美元。3月23日,在香港二次上市中筹集了26亿美元。
3
Unlike YouTube, Bilibili refuses to clutter usergenerated videos with adverts. That way, the thinking goes, it can attract new users put off by such interruptions, and convince them to spend more time on the platform. The central aim, as described by executives, is to “convert” this “sticky community” into “paying users”. Bilibili does so in two main ways: by offering games where players purchase virtual items to advance to the next level , and access to original and licensed firms and series. This Netflixlike business, launched in 2018, now has 14.5m paying subscribers.
clutter : ~ sth (up) (with sth/sb) 凌乱地塞满;乱堆放to fill a place with too many things, so that it is untidy。文中指的是bilibili不会在用户上传的视频中,随意添加广告:clutter user-generated videos with adverts 【词汇积累】
put off by : 被……推迟,这里指的是bilibili运用不放广告的理念吸引那些被广告阻碍看视频的用户 【词组积累】
by offering games where players purchase virtual items to advance to the next level : 这里的定语从句where后面句子是完整的,不缺成分,where表示玩家在游戏中发生购买行为时的场所,也可以理解为in which
与YouTube不同,Bilibili拒绝在用户自制的视频中添加广告,这样做可以吸引新用户推迟这种中断,并说服他们花更多的时间在平台上。正如高管们所描述的,核心目标是将这个“粘性社区”转化为“付费用户”。Bilibili主要通过两种方式实现这一点:提供玩家购买虚拟物品以提升到下一个级别的游戏,以及访问原始和许可的公司和系列产品。这种类似Netflix的业务于2018年推出,目前拥有1450万付费用户。
4
The share of users who pay for things like ingame accessories and subscriptions has risen from 3.9% in 2018 to 8.0% in 2020. Receipts from these sources helped Bilibili nearly to double its revenues in each of the past three years , to 12bn yuan ($1.7bn) in 2020. It also sells adverts on parts of its platform, but they made up less than fifth of its sales.
accessory : 配件、附属品,文中指游戏中的付费物品,in-game accessories 【词汇积累】
double its revenues in each of the past three years :: 在过去的三年中收入每年都翻了一番 【地道表达】
支付游戏内附属品和订阅费的用户比例从2018年的3.9%上升到2020年的8.0%。这些来源的收入帮助Bilibili在过去三年中每年的收入翻了一番,到2020年达到120亿元人民币(合17亿美元)。它也在部分平台上销售广告,但这些广告所占的份额还不到其销售额的四分之一。
5
All this has yet to make any money . Last year Bilibili reported an operating loss of 3bn yuan, double the shortfall in 2019. Profits may remain elusive; the company must invest to maintain a pipeline of addictive games and pays top dollar to outbid big streamers like iQiyi for the rights to popular movies and shows its nascent subscription business needs.
All this has yet to make any money : 然而这还没有赚到一分钱
Shortfall : 亏空,缺口 【词汇积累】
pays top dollar : 付高价 【词汇积累】
outbid sb for sth : 出价高于某人 【词组积累】
nascent : 新生的,萌芽的 【词汇积累】
然而所有这些都还没有赚到钱。去年,Bilibili公布了30亿元的经营亏损,是2019年亏损额的两倍。利润可能仍然难以捉摸;该公司必须通过投资维持游戏渠道,并支付高价,以超过爱奇艺等大型流媒体,获得热门电影的版权,并展示其新生的订阅业务需求。
6
Bilibili’s executives are sanguine . “As our net revenues continue to grow, we do not expect our total content costs as a percentage of total revenue to substantially increase,” they wrote in the prospectus for the firm’s Hong Kong listing. Its share price, down by a third since its February peak, suggests investors want finally to see some proof.
Sanguine : 充满信心的,乐观的 【词汇积累】
Substantially : 除了基本上,总体来说,还有大大地,大幅地 【熟词僻义】
Prospectus : 招股书
Bilibili的高管们很乐观。“随着我们的净收入继续增长,我们不希望我们的总内容成本占总收入的百分比大幅增加,”他们写道,在该公司的香港上市的招股书。该公司股价自2月份高点以来下跌了三分之一,这表明投资者终于希望看到一些证据。
总结
mission statement : 宗旨说明,英文:an official statement of the aims of a company or an organization,即一家公司或组织的目标 【词汇积累】
dubbed : dub,称作,起绰号,A is dubbed被动形式表示……被称作 【词汇积累】
user figures : 用户数据 【词汇积累】
Launch : 上市。除了发射(火箭)外,还有上市的意思,launched in 2009 于2009年上市。下文中的 list in New York中的list也有上市的意思 【词汇积累】
clutter : ~ sth (up) (with sth/sb) 凌乱地塞满;乱堆放to fill a place with too many things, so that it is untidy。文中指的是bilibili不会在用户上传的视频中,随意添加广告:clutter user-generated videos with adverts 【词汇积累】
accessory : 配件、附属品,文中指游戏中的付费物品,in-game accessories 【词汇积累】
Shortfall : 亏空,缺口 【词汇积累】
pays top dollar : 付高价 【词汇积累】
nascent : 新生的,萌芽的 【词汇积累】
Sanguine : 充满信心的,乐观的 【词汇积累】
stand out for sth : 以……脱颖而出,引人注目 【词组积累】
aspire to do or sth : 立志于做某事 【词组积累】
shot up by half from a year earlier : shot up表示激增,猛涨,by half表示增长的量,表示比一年前猛增了一半 【词组积累】
evolved into : 进化成为 【词组积累】
rush to set up Bilibili accounts : rush to do争先箜篌地做某事,set up …… accounts
则表示开设创建……的账号 【词组积累】
Between …… and ……: 表示在……和……之间,可以为两个时间段之间 【词组积累】
outbid sb for sth : 出价高于某人 【词组积累】
put off by : 被……推迟,这里指的是bilibili运用不放广告的理念吸引那些被广告阻碍看视频的用户 【词组积累】
Substantially : 除了基本上,总体来说,还有大大地,大幅地 【熟词僻义】
selfhelp lectures : self-help表示自助的,可以表示自主学习课程 【地道表达】
1.2 bn daily views : 12亿每日观看次数 【地道表达】
double its revenues in each of the past three years :: 在过去的三年中收入每年都翻了一番 【地道表达】

Youtube DNN经典论文
最近在看王喆的知乎专栏,第三、四、十三篇都是Youtube的经典论文DNN:
跟着大佬又回顾了一下,发现之前真的只能算是一知半解,趁着这次把对这篇论文的新的理解记录一下,可能还会有一些错误。
论文讲解了在召回和精排两个阶段的模型:
召回:
先从特征说起:用户观看过的video的embedding,用户搜索词的embedding,用户的地理位置、年龄等side_infomation,还有exampl_age这个需要解释的特征
然后是模型:三层DNN
最后是training的loss:softmax做分类
serving的方式:nearest neighbor
里面其实有很多疑点:
1.example_age是什么
这个点专栏里说是训练时间 - 得到这条样本的时间(视频点击时间),但是我觉得这样表达不出“新视频”这个概念,也不知道用当前时间去减是啥意思,label是点击那一刻打上去的,又不是训练的时候;
所以我觉得这个example age应该是点击时间-上架时间,表示用户对新上架视频的偏好,用这个特征去捕获这个偏好了,在serve的时候全都置为0就可以消除这个偏好,毕竟这是召回阶段,可以多召回些东西。(这样就是消除用户对新视频的偏好了?)
2.为什么要做多分类,而不是预测分,多分类的话有海量视频,性能怎么保证
为什么要做多分类,而不是把样本的embedding也给到网络里做打分,这一点我是真的没弄明白;
海量视频的多分类性能的提升是用到了sampled softmax,可以参考 总的来说就是通过Q(y|x)采样出一个子集,对子集计算logits,然后用计算结果F(x,y)-log(Q(y|x))可以表示原数据集上的logits
3.serving阶段为什么不做多分类了,而是做nearest neighbor
这里首先要弄明白serving阶段的user embedding和video embedding是什么,user_embedding是最后一层relu之后的结果,比如是一个d维的向量;然后要得到一个几百万维(用d_N表示)的向量,需要过一个d*d_N维的矩阵,这个矩阵的每一列训练完之后就是video embedding;如果是serving的阶段依然是和每一列相乘,再算一个softmax,既然分母是一样的,取指数的操作也是一样的,那么就直接做点积就好了。
排序:
先从特征说起:当前排序的video的embedding,用户观看过的video的embedding,用户和video的语言embedding,time since last watch是自上次观看同channel视频的时间,previous impressions是该视频已经被曝光给该用户的次数(这里已经引入了负反馈的思路)
然后是模型:三层DNN
最后是training的loss:weighted logistic
serving的方式:e^(Wx+b)
这里面也有一些疑点:
1.training时候的weighted logistic是什么,为什么serving的时候用的是e^(Wx+b)
这个点是我重读的时候最没理解的地方,先尝试写一下,这里首先要搞清楚weighted logitstic是什么,那先回顾一下LR的公式的由来是log(odds) = w*x;这里的odds=p/(1-p)表示正样本发生的概率/负样本发生的概率;在weighted LR里面这个odds要变成W*p/(1-p)这里的W就是给正样本加的权重,至于为什么是这样有一种解释是用正负样本比去解释的,我觉得不是很合理 ;但是如果能够接受这个odds的话,那么log(odds) = w*x就可以得到odds = e^(wx),后者就是serving的目标;
再说W*p/(1-p)是什么,这里W权重是这条视频的时长T,那么sum(Ti*pi)就是E(T)即时长的期望,E(T)/(1-p)泰勒展开就是E(T)*(1+p)这里的p很小的话其实就是E(T)也就是说serving的时候其实得到的就是观看时长的期望,这里如果用到电商里用price去加权,得到的应该也是对price的预估。
还是非常建议多去看一下十大工程问题那篇专栏,讲到了更多,比如对每个用户提取等数量的训练样本、把大量长尾video的embedding置0这些方法的出发点。
急!谁能帮我在龙源期刊网找篇文章 2009年第4期《东南学术》 题目是“论新媒体时代传者与受者的身份趋同”
论新媒体时代传者与受者的身份趋同字数
东南学术 2009年4期
摘要:新媒体环境下,受众向内容制作者转变,分析关于这一现象的若干研究案例及其研究方法之优劣,不难看出:“使用与满足”学说已经无法适应当前的实际研究需求;在进一步的研究不应忽略资本和政治经济权力对新生的互动媒体所产生的影响;把传受过程结合在一起的“Produsage”,也许是能更好地理解传受趋同现象的一种研究路径。
关键词:用户自创内容;user generated content(UGC);主动受众;新媒体;研究方法
中图分类号:G206 文献标识码:A 文章编号:1008—1569(2009)04—0166—03
一、研究缘起和文献综述
近年来,受众研究领域的许多成果已经表明,观众(audienecs)或参与者(participants)不仅仅是被动地接收信息,他们开始用不同的手段创建媒体内容(Blog博客、YouTube视频、nickr图片)并通过各种社交软件与他人共享,形成自己的传播渠道。在当前web2.0的传播环境下,这种实质意义上的双向传播不仅挑战了传统媒体的操作模式,也对民主社会、经济和法律框架有着深刻的影响。
目前国内外对于受者变身传者(adicnces as producers)的研究所关注的焦点是用户自创内容(UGC—user generated content),也被称作消费者自创内容。遗憾的是,尽管各种形式的UGC最初总是出自于免费分享的目的,但是一旦它们在新媒体中吸引了眼球,就会迅速被商业渗透,成为新的谋利平台。为了扩大受众群,适应用户的多样性,像英国广播公司(BBC)这样的媒体巨头也在寻求建立这一平台,以服务现有观众并吸引潜在观众。业界的需求呼唤能够充分解释UGC行为的有力研究,但实际上大部分研究都只是应用传统媒体工业时代的分析框架,鲜有引发深思的批判视角。
现有的uGC研究主要集中在使用者创造媒体产品的行为特征、这些产品带来的经济效应以及对形成网络公共领域所产生的影响等。本文旨在提供针对UGC主体研究的概述,并批判地分析各研究中使用的方法,例如使用与满足理论(Li,2005),修正的自我表露理论(Fung,2006),或“produsage”——这个由布伦斯(Brans,2007)自造的词用“produce”+“usage”(生产与使用合二为一)来表明同时性生产和使用的混合形态。限于篇幅,本文只能集中讨论此主题的热点问题,评述相关研究的优劣,探寻比较科学的研究方法。
二、关于UGC的四个研究案例
根据每日更新的全球点击量最大的网站排行榜,Youtube和Wikipedia(维基百科)名列第三和第七。这些提供用户自创内容(UGC)的免费网站为什么能够吸引这么多人呢?关于UGC的研究力图解释这一新媒体环境下的重要现象,以下将重点概述其中四个研究案例。
案例1:德国学者Stoeckl(et al.2007)和他的同事们试图找出博客及视频制作者与那些不生产内容的“纯用户”之间的区别。他们认为UGC最让人振奋的特点就是:“消费者现在成为了制作者”、“创造并不是为了马上获利”、“UGC最终还是面向大众的”。
此研究应用“使用与满足”学说作为理论基础。这个学说假定人们是根据自己的需求而主动、有目标地使用媒介的(Katz and Blumler,1974)。此研究发出的在线调查被792人下载,其中489人完成了问卷。通过质化和量化的研究,发现博客和视频制作者谈到创作动机时最经常使用三个原因:纪录生活,娱乐,自我表达。相反,那些专业“潜水员”不生产内容的原因是:不愿付出机会成本和时间成本,以及担心隐私可能被侵犯。
案例2:同样,Li(2005)所做的研究也是立足于使用与满足框架上的。博主认同的开博动机包括:自我纪录、提高写作水平、自我表达、媒介诉求、获取信息、社交需求。
和第一个案例相似,Li的研究得到了60%的答复率。某些动机与特定的使用博客的方式有强关联。出于自我纪录动机的人倾向于设置反馈管理、使用鲜明个性的表达,以及期望读者量;而那些想要提高写作技能的人的博客就没有那么强的互动;寻求自我表达的博主甚至会在博客中加入设计的元素;强调信息诉求的博主往往添加超链接等。此研究还发现,博客中存在较强的性别差异,男性更倾向于信息诉求,而女性更多选择自我纪录、自我表达以及消磨时间;而年龄与自我纪录、自我表达和消磨时间的动机成负相关。
案例3:与上述两个案例不同,Fung在2006年所做的研究采用了“修正的自我表露”(re-vised self—disclosure)(WheeIess and Grots,1976)理论,调查了545个香港本地的博客。使用博客的满足感实际上标明了多种维度的自我表露,特别是自我满足和自我表达。研究表明。经常使用博客的人倾向于表露私密和个人事务。年轻女性拥有更长的博客经验。
案例4:任职于澳大利亚昆士兰科技大学的阿克塞尔·布伦斯(Axel Bruns)在2007年提出的“Produsage”模式在本领域中得到了广泛的关注。在Produsage模式下,所谓“产品”(pro-duction)已经不是工业时代的那种具体的完成品了,而是动态的produsage过程中一个临时的作品:就像维基百科(Wikipedia)某词条最新编辑过的一个页面、由开源软件设计者刚刚发出来的一个软件包、创作共用(Creative Commons)授权框架下的一组原创设计,这些都不是传统意义上规模化生产的“产品”,而是网络用户随用随创的“作品”,创作目的和作品形态的不同所带来的观念上的转变必须引起研究者的注意。
三、对于案例的分析
在数字媒体时代,受众拥有独特的解读媒体内容的方式。随着互联网的全球性普及,探寻传受互动中受者向传者转变的本质已成为受众研究的新热点。以上案例都是在规范的研究框架下通过翔实调查得出的审慎结论,但是,在样本选取、方法使用、理论运用等方面,显然还存在着一些不足之处。
样本选取方面,Stoeckl等人的调查所选取的样本是隶属于传统媒体的电子平台,如英国较保守的《卫报》(Guardian)网站,以及德国杂志Neon的网站。就像世界上许多其他传统媒体一样,网站上的内容其实还是由编辑人员选取和审查的,就算你能在网站上发表文章,但这些文章在原报或原刊上得以发布的机会也是微乎其微的。在中国情况也是如此,新闻线索往往是在传统媒体的追踪下被放大的,所以从这个意义上说,使用者变身媒体生产者,是限于一定的活动范围之内的(网络中),其影响力要扩散,还需要特殊的催化条件。
研究方法上,问卷可信度及统计上的抽样偏差依然存在。UGC领域的研究对象集中于年轻人身上,因为他们更精通新媒体的技巧,并有更积极的参与意识。新媒体环境下的传播技能的复杂性限制了积极参与者的数量和年龄,大部分公众还是通过报纸、广播、电视来获取信息。因此,除了尽可能减少统计软件的误差,更重要的任务是改进研究方法,尽可能设定合理的抽样范围,力求得到更加客观的结论。
这些研究还有一个共同的缺陷,就是对于管理层权力的忽视。众所周知,大众传播还是处于一些政治经济力量实体的控制之下的。拉扎斯菲尔德和默顿(Lazarsfeld&Merton,1948)认为,社会和心理机制决定了受众对媒体的需求和使用⒀。戴维·莫利(Morley,1985)指出:“观众诠释意义的能力,和中央集权的媒体机构建构文本的力量相比,简直是不值一提。”在当今新媒体受众研究的语境下,要完全抛开行政管理方面的力量,还为时尚早。
从理论框架上来看,应用“使用与满足”学说并非不妥,然而,如果用它来检验从受者到传者的角色转变,就显出不足来——由于此理论最初是用来考量二战期间美国日间广播系列剧对于受众的影响的,其出发点是媒介强效果论,现在看来,已经有些过时了。
研究新媒体时代的受众,理解受者向传者的过渡,还应从Produsage开始。正如上文所概括的那样,Produsage克服了“内容生产”这个概念从工业时代到信息时代转变的过程中所无法解决的制度性问题。它为理解数字环境下的“协同内容创新”(collaborative content creation)及其发展实践提供了一条新的研究道路。
当然,现在就认为新媒体能够完全颠覆传统意义上的传者和受众的关系还为时尚早,看看以下几个例子:鲁伯特·默多克的新闻集团收购了最成功的社交网站MySpace,流量最大的图片分享网站Flickr被雅虎并购,极富创新意识的视频分享网站Youtube也拱手出让给谷歌……技术和创新在资本的威力面前纷纷缴械,这是信息时代还未进化完全的悲哀吗?传者和受者之间那道看似无法逾越的鸿沟,会被用户之间的免费分享特性所弥补吗?这些都是开放的命题,在web2.0时代,没有人敢预言5年以后会发生什么,雨后春笋般的媒体现象,正是激发学者研究热情的源泉所在。
关于YouTube推荐系统的论文学习
本文是2010年发表在RecSys上的文章。本文主要介绍的是YouTube的个性化推荐的相关内容。
用户使用YouTube一般有三个原因:
--看他们在其他地方找到的单一视频(直接导航);
--围绕某个主题(搜索和目标导向浏览)查看特定视频;
--受他们感兴趣内容的吸引。
推荐系统主要是针对第三点,目的是帮助用户发现他们感兴趣的高质量视频,并且推荐结果应该随时间和用户最近的行为更新。
在YouTube的推荐应用中,面临以下挑战:
--用户上传的视频的元信息非常少;
--视频时长比较短(一般小于10分钟);
--用户行为短暂、多变而且噪声很多;
--视频生命周期短。
这是YouTube的推荐和普通视频网站推荐不同的地方,这些挑战也是现在很多短视频公司关注的问题。
推荐系统算法应该保持时效性和新鲜性,另外,用户必须了解为什么向他们推荐视频,这样可以帮助用户根据自己的喜好改善推荐引擎。推荐的视频是通过用户的行为来生成的,用户的行为包括观看、收藏、喜欢等来作为种子视频,然后使用各种相关性和多样性的 signals 对视频集进行排序。推荐系统的工程设计方面,保持各个模块的独立性,并且还需要对故障具有恢复能力,并在出现部分故障时适度降级。
这里有2种数据可以考虑:
1)是内容数据视频流、视频元信息(标题,标签等);
2)用户行为数据,包括显性和隐性数据。前者是指用户评分、明确表示喜欢、不喜欢等行为,后者是浏览、观看等行为。
原始数据中还含有非常多的噪声,很多不可控因素会影响原始数据的质量。
作者将相关视频定义为用户在观看给定的种子视频 v 之后可能会观看的视频,使用关联规则挖掘技术来确定视频间的相关性。视频i和j的相关性定义为:
将用户观看过的视频、喜欢过的视频、收藏过的视频等等作为种子集合,对它们进行N级的级联扩展,也就是YouTube选择召回的不是1步相关视频,而是n-步相关视频,即种子视频迭代n次后得到的相关视频集合,产生广阔和多样的候选结果。
在生成一组候选视频后,需要对这些相关视频进行排序。
用于排序的数据主要包括:
--视频质量:包括观看次数、视频评分、评论、收视和上传时间等;
--用户特征:考虑用户观看历史记录中种子视频的属性,例如观看次数和观看时间等;
--多样性:要在被推荐的视频集合的类别中做一个平衡,以保持结果的多样性。
这些数据最终被线性组合起来,得到ranking的评分。
本文虽然是2010年发表的,近年来有很多内容升级复杂化了,但是作为初学者,本文的知识点和整体思路是非常值得学习的。当时的YouTube推荐系统的核心算法就是基于Item的协同过滤算法,也就是对于一个用户当前场景下和历史兴趣中喜欢的视频,找出它们相关的视频,并从这些视频中过滤掉已经看过的,剩下就是可以用户极有可能喜欢看的视频。
本文是Google的YouTube团队在推荐系统上DNN方面的尝试,发表在16年9月的RecSys会议。本文第1节介绍了YouTube推荐系统主要面临的挑战。第2节介绍了一个简要的系统概述。第3节更详细地描述了候选集生成模型,包括如何对其进行训练并用于提供推荐服务;实验结果显示模型添加特征和DNN深度后可以显著提升预测效果。第4节详细说明了排序模型,包括使用加权逻辑回归技术以训练预测预期观察时间的模型;实验结果表明,增加隐层网络宽度和深度都能提升模型效果。 最后,第5节做了总结。
-规模大:用户和视频的数量都很大,传统适合小规模的算法无法满足;
-新鲜度:要求对新视频作出及时和合适的反馈;
-噪音:YouTube上的历史用户行为由于稀疏性和各种不可观察的外部因素而不可预测。 我们很少能获得基本真实的用户满意度,更多的是隐式反馈噪声信号。
推荐系统的整体结构如图所示:
该系统由两个神经网络组成:一个用于候选集的生成,一个用于排序。候选集生成网络将用户的Youtube活动历史记录作为输入,然后从海量视频集中筛选出一小部分(数百个)以高精度与用户相关的视频。排序网络负责基于更加精细的特征对候选集进行排序,最后将最高得分的视频呈现给用户(按它们的得分排名)。
该模型把这个推荐问题转化成极端多分类问题:对于用户U和上下文C,把语料库V中的数百万个视频(分类)i,在时间t处做准确的分类,如下所示:
其中u为用户U的embedding表示,vi 代表各个候选视频的embedding。embedding是指稀疏实体(单个视频,用户等)到实数密集向量的映射;DNN的目标就是在用户信息和上下文信息为输入条件下学习用户的embedding向量u,这对于用softmax分类器来区分视频是有用的。
整个模型架构是包含三层全连接层,使用relu激活函数。把用户观看历史数据、搜索数据做一个embedding,加上age、gender等特征作为DNN的输入;输出分线上和离线训练两个部分。训练阶段使用softmax输出概率,在服务期间则直接使用接近最近邻搜索来进行生产候选的N个视频。
1)把用户观看过的视频id列表做embedding,并对所有历史观看视频ID的embedding做平均,得到观看embedding向量。
2)同时把用户搜索过的视频id列表也做如上的embedding,得到搜索embedding向量。
3)用户的人口统计学属性做embedding得到特征向量。
4)简单的二值和连续特征,例如用户的性别,登录状态和年龄作为归一化为[0,1]的实数值直接输入到网络中。
5)example age:机器学习系统总是利用历史的例子去预测未来,所以对过去总会有一个隐含的偏差。为了矫正偏差,YouTube把训练样本的年龄当作一个特征。
1.训练样本要用youtube上的所有视频观看记录,而不只是我们的推荐的视频的观看记录。
2.为每个用户生产固定数量的训练样本。
3.丢弃搜索信息的顺序,用无序的词袋表示搜索查询。
4.如下图,图(a)从历史观看记录中随机拿出来一个作为正样本来预测它,其余的历史观看记录作为上下文;这样其实泄露了未来的信息,并且忽略了任何非对称的消费模式。相反,图(b)是从用户的历史视频观看记录中随机拿出来一个作为正样本,然后只用这个视频之前的历史观看记录作为输入;这样的预测效果好得多。
– 深度为0:这时网络就是一个把连接起来的输入层转换一下,和softmax的256维输出对应起来
– 深度为1:第一层 256个节点,激活函数 是ReLU (rectified linear units 修正线性单元)
– 深度为2:第一层512个节点,第二层256个节点,激活函数都是ReLU
– 深度为3:第一层1024个节点,第二层512个节点,第三层256个节点,激活函数都是ReLU
– 深度为4:第一层2048个节点,第二层1024个节点,第三层512个节点,第四层256个节点,激活函数都是ReLU
实验结果如下图所示:
可以看出,特征选取较多时,并且模型深度在四层时,可以得到较好的结果。
排序阶段最重要的任务就是精准的预估用户对视频的喜好程度。在排序阶段面对的数据集比较小,因此会采用更多的特征来计算。
作者在排序阶段所设计的DNN和上文的DNN的结构是类似的,但在训练阶段对视频的打分函数不再是softmax,而是采用的逻辑回归。如下图所示:
1)特征工程
尽管神经网络能够减轻人工特征工程的负担,但是我们依然需要花费精力将用户及视频数据转化为有效的特征。其主要的挑战在于如何表示用户动作的时间序列以及这些动作如何与正被评分的视频展现相关。但是通过对用户和物品之间的交互行为,我们能提取出一些有用信息,比如: 用户从这个频道里看过多少视频,用户上次观看这个主题的视频是什么时候等。
2)embedding 离散特征
每个维度都有独立的embedding空间,实际并非为所有的id进行embedding,比如视频id,只需要按照点击排序,选择top N视频进行embedding,其余置为0向量;而当多值离散特征映射成embedding之后,像在候选集生成阶段一样,在输入网络之前需要做一下加权平均。另外一个值得注意的是,离散特征对应的ID一样的时候,他们的底层embedding也是共享的,其优势在于提升泛化能力、加速训练、减小内存占用等。
3)连续特征归一化
对连续值类的特征进行归一化,作者设计一种积分函数将特征映射为一个服从[0,1]分布的变量;还可以对某些特征进行取根号、取对数和取平方的相关操作,使得网络有更强的表达能力。
给定正负样本,正样本为有点击视频,负样本为无点击视频;用观看时长对正样本做了加权,负样本都用单位权重(即不加权);采用的是基于交叉熵损失函数的逻辑回归模型训练的。
上表显示了在保留数据集上用不同的隐层配置得到的结果,这些结果表明增加隐层的宽度提升了效果,增加深度也是一样。
本文内容方面,介绍了YouTube基于深度学习的推荐系统,先用视频和用户的主要信息通过深度候选生成模型从百万级视频中找出数百个相关的视频,再用视频和用户的其他信息通过深度排序模型从数百个视频中找出几十个最有可能受用户欢迎的视频给用户。这样使得推荐系统对用户喜好的刻画能力大大增强,刻画的范围更加广泛。
本文结构方面,从推荐系统的整体结构讲起,划分为候选集生成和排序两个阶段,然后对每个阶段详细地展开讲解。整体过程条理清晰,逻辑严密,值得我们学习。
谁能详细介绍一下You Tu be?(它的特点,它的营利模式等) ??
YouTube是一个视频网站,2005年2月成立于美国加州。“YouTube”的意思是“你的电视”(美国人称电视为Tube)。自创办以来,就在年轻人当中窜红,现在YouTube拥有视频节目超过1亿部,今年8月,这家网站吸引的访问者高达7200万人次,占了网上短片分享网站的46%的市场。
在YouTube上你能找到大众关注的焦点事件,还有知名的娱乐片段以及网民自娱自乐自拍的视频短片等。如今在美国,当人们想如看电视那样上网观看视频画面时,他(她)会说:“YouTube一下”。
这家由三位PayPal前员工创建的成立只有20个月的视频网站,在2006年占据了全球互联网视频领域46%的份额。据统计,YouTube世界范围的流量平均达620万人次/天;而在美国就拥有160万人次/天的平均流量。今年10月,搜索之王Google以16.5亿美元的天价将其收购。
作为YouTube的CEO,查德·赫尔利(Chad Hurley)和他的合伙人斯蒂夫·陈(Steve Chen),远没有Google创始人“把世界变得更好”这样的鸿鹄之志。收购当日,这两个20多岁的年轻人将自己摄入镜头,让全世界都看到他们难掩的喜悦。视频画面因手持摄像机而不断摇晃,他们则滔滔不绝地讲着继续为用户“开发最创新的服务”之类的话,也许正是这样的平民性格才会创造出YouTube这样颇受草根大众喜爱的社区性网站。
大众娱乐新方式
如今,许多美国网友每天至少花一个小时泡在YouTube上。在YouTube上面用户可以找到自己期望的一切,简直就是一个视频版的Google,人们在上面通过标签(相当于关键词)可以了解今天和过去发生的一切。
这一切的开始,是在一次PayPal前员工的聚会上。当时,大家在抱怨很难分享自己拍摄的录像,Chad Hurley和Steven Chen以及另一位PayPal的前员工开始留意这个机会,到2005年2月,他们三人创建了YouTube。
深谙技术的Steven Chen和美术科班出身、富有创造性的Chad Hurley真是完美的组合。其前任雇主PayPal的斯托普尔曼评价道:“这种组合使他们既具备比较软性的元素,如迎合网上人群的喜好,又拥有技术实力。”
创始之初,Chad Hurley和Steven Che的想法是,让大家可以在YouTube上面交换自制的录像。可是从一开始就有人将电视节目和电影的片段贴在上面,YouTube成为了美国免费的录像图书馆,所有的人可以在上面任意选择他的所爱。它尤其吸引了年轻人的眼球,并几乎成为他们表达自己的一种方式。这个网站是允许人把录像上传到网上,交换、欣赏和评论的。纽约的泰勒说,YouTube完全改变了他的娱乐方式。
“便捷”、“好用”赢得消费者
YouTube的“走俏”,还在于该网站的“好用”和“便捷”。作为网站合伙人、同时兼任技术总监的Steve Chen,负责整个网站技术方面的工作。他是一个上手很快、能力很强的程序员,他曾因为解决了YouTube因网络流量急剧增长而导致的网络拥堵问题,并由此而成名。良好的“服务”,为YouTube扩大流量提供了技术保障。
YouTube使用的格式可以用无所不在的Flash播放器播放。此举消除了浏览者因没有最新版微软(Microsoft)、RealNetworks或苹果(Apple)的播放器而遭遇的窘境。这使博客(blogger)和其它人很容易从YouTube上抓取一个视频片段,并放置在自己的网页上,从而扩大了其视频内容的观众圈。
YouTube为网友提供了更好的搜索,他们可以按访问量、评价、播放列表和频道里的搜索量来排序结果;YouTube中有最高评价的和有争议的影片列表,如果知道一个影片有3000人次的访问量,500个绝妙的评价,这种感觉是很让人安心的。
Chad Hurley在YouTube被Google收购之后表示,他们将在Google的帮助下在互联网上建立一个新的视频内容模式和平台,抓住视频导入的联动新技术,而这将为他们赢得未来。
影响及评价
因特网革命:网民变信息提供者
科技发达、宽带和摄影器材的普及令短片资讯大行其道。这令网民由传统的接收资讯者,变成资讯发布者,网民更可成立自已的私人影院、影片发布站、新闻站,取代传统的传播媒体。如一名青年人方颖恒拍下的短片竟能带来如此巨大的回向及点击率,因此巴士阿叔令不少香港创作人意识到因特网世界对传统媒体的冲击。 Getdemocracy.com发言人穆尔说:“电视及影像的传播途径,正由上而下的模式,转变为由下而上。每人都可创立自己的新闻频道,或上载家庭生活短片。与此同时,愈来愈多人欣赏网上短片,令电视的收视逐渐转移至电脑屏幕。”
网上社群
不少网民借自拍短片分享个人珍藏和心得,如一名来自古巴的美国移民埃利亚斯对男人美腿有特殊喜好,遂于YouTube分享其评足心得。后来他发现在Youtube有不少志同道合者,于是成立“男人脚同好”会,3个月内已招收到逾460个会员亦有英国人透过短片教美国人吃以色列雅法橙蛋糕的方法,每天接获约200个电邮。
揭发风气
巴士阿叔事件后,YouTube涌现了不少香港网民透过手机拍摄巴士、小巴、地铁乘客众生相的影片。YouTube亦曾有一段传统名校拔萃男书院学生,以粗口Rap歌羞骂同学的片段,短片迅速在网上流传,传媒广泛报导,那些学生的行为便被批评为影响校誉。因此,youtube这种网站对短片拍摄者,甚至一般在公众场所活动的市民也有影响。
协助破案
《鸭记啊叔偷野实录》: 原载《东方日报》2006年8月31日 一间鸭寮街影音店内闭路电视拍下有人偷窃,事后短片被上载YouTube 任人浏览,有警务人员惊觉片中的主角怀疑是同袍,结果该名即将退休的警察伯伯已经被捕,案件交由深水埗区重案组调查。
侵犯版权
YouTube自成立以来,其短片曾被不少机构和公司批评为侵犯版权,如Saturday Night Live broadcast、NBC Universal、Family Guy videos owners、Turner Media、Sunrise等。
影片白痴主义
PC Magazine发言人称:“沉迷短片很浪费时间。一旦迷上,就会变成iVideots(影片白痴)。这可说是影片白痴主义……YouTube就像吃玉米花,令人欲罢不能”。
鼓吹社会不良风气
2006年6月1日,英国独立电视台(ITV)批评YouTube及近似的网站鼓吹暴力,因为这些网站上传了由手机拍摄的打斗影片。虽然YouTube禁止过份暴力和色情的影片,但ITV指与这些网站沟通时有一定困难。
2006年8月11日至19日,英国极右派团体在YouTube张贴数段恐吓影片,模仿伊斯兰教激进份子“殉道烈士”录像带,每段影片的长度是二至三分钟。影片内容是一群白人男性荷枪实弹,手持刀刃棍棒,仿效恐怖份子蒙面装扮,警告所有穆斯林马上离开英国。影片中,一名操威尔斯口音的男子警告英国穆斯林若不“回家”就会被活活烧死,并说全英国已有许多“同志”受够了穆斯林。英国伊斯兰人权委员会执行长Massoud Shadjareh说,这些影片的出现相当令他忧心。英国反法西斯主义杂志《探照灯》发行人Gerry Gable谴责YouTube容许这类提倡恐怖主义的影片存在。
对于YouTube发展方向的争论暂告结束,而对于视频网站价值的争论和商业模式的探索将会继续下去。
10月9日,视频
共享网站YouTube首页的显著位置上有一段来自创始人查德·赫利(Chad Hurley)和斯蒂夫·陈(Steve Chen)的视频,在这段视频里,两人告诉外界,他们已经将网站出售给了Google(Nasdaq:GOOG)。就在当天Google也正式宣布了这一消息,收购总价为16.5亿美元的Google股票。
由于此前业界对这一收购已经有充分预见,因此收购本身并无太大出人意表之处,一场关于YouTube最终归属和发展方向的争议终于结束了,但是,对于整个的视频互联网行业以及国内外的视频同行来说,在商业模式和发展路径问题上,依旧是悬念重重。
又一个创业传奇
查德·赫利和斯蒂夫·陈让Google的CEO施密特联想起了Google的两位创始人,而塞尔吉·布林自己也表示,在此二人身上看到了创业时的自己。
在创立YouTube之前,29岁的查德·赫利和27岁的斯蒂夫·陈曾经在eBay公司的支付部门Paypal共同工作几年。YouTube的创业灵感来源于在一次聚会上的偶然发现,与朋友在网上分享视频文件或者图片极为不便由此而萌生了做一个视频共享网站的想法。
2005年初,YouTube正式成立,同许多硅谷传奇故事的开头类似,也曾经有过一段“车库里”的经历,但是很快YouTube就走上了一条飞速发展的道路。目前,YouTube已经在视频网站当中占据了绝对领先优势,根据互联网调查公司Hitwise的数据,YouTube占据了互联网视频领域46%的份额,以绝对的优势领先于对手。
在被Google收购之后,YouTube的主要创始人和主要投资人均从这一交易中收获巨大。据估计其最主要的风险投资商红杉资本有可能从中获利4.8亿美元。而其主要创始人也借此跻身亿万富翁的行列。
查德·赫利在不久前曾一直坚持,YouTube是非卖品,在他看来IPO才是可以被接受的选择。在将公司出售之后的电话沟通会上,查德·赫利强调,他此前做出这样的表示,是因为想保持公司的独立发展,而在出售给Google之后,YouTube可以继续保持这样的独立性,而且借助Google的资源,YouTube可以更快地成为一个新的媒体平台。
重塑商业模式
在宣布被Google收购的当天,YouTube同时宣布同索尼新力、华纳音乐集团、环球音乐集团以及哥伦比亚广播公司等内容巨头达成合作,成为这些内容企业的传播渠道。而在此之前,因为版权问题,YouTube一直官司缠身。
虽然贵为互联网视频领域的翘楚,虽然已经积累了足够多的人气,但是在商业模式上,YouTube并没有表现出多少过人之处。此前,《经济学家》曾经撰文对YouTube的模式表示担忧,UGC(user generate content)的内容已经充分证明的确可以迅速吸引来很多的访问量,但是具体能否产生利润却是一个未知数。
“星巴克有舒适的座椅,但是它们并没有因此而向用户收费。”UGC的内容模式让Guba创始人之一的汤姆·迈克纳尼联想到了星巴克咖啡的商业模式。星巴克是以合理的价格,提供了舒适的环境,为此人们才乐意买高价咖啡。而这也正是提供UGC内容模式网站所追求的商业模式。通过提供免费互动的平台,这些网站提供了网上的“舒适座椅”,但问题是,到目前为止那杯能带来利润的“咖啡”还未曾出现。
有的网站,很多人都把自己的那个自拍视频都传上去,给大家看,他们有什么好处吗?
这种是自媒体营销,效果如下:
如火山小视频,发布视频可以获得火力值来获得提现。
映客可以通过粉丝刷礼物,来提现金额。
发布视频可以满足自己的社交需要。
满意自己的内心的需求,充实自己。
最重要的是可以获得自我需要。

