Business School
商学院
手机:13521943680
电话:010-62904558
在Glassdoor审查中使用语言模型,以一种我们原本无法做到的方式,帮助我们衡量了这种含糊不清的东西,称为“文化”。----阿米尔•戈德堡(Amir Goldberg)
它从一个问题开始。在阿米尔•戈德堡(Amir Goldberg)的案例中,这是一个长期争论的老问题:公司文化的多样性如何影响公司绩效?
文化多样性可能是一个巨大的优势,可以通过丰富多样的想法激发创造力。但是,人们可以轻易地想象这种多样性会以其他方式推动公司发展,从而在员工之间造成一系列阻碍绩效的分歧。
多部分功能
这个由两部分组成的功能探讨了访问超大量数据集的多种方式,这些方式正在改变斯坦福GSB教职员工的研究面貌。
在第一篇文章中,教授们讨论了大数据和机器学习如何改变了传统的学术查询方法-以及查询本身的基本宗旨。
那么,戈德伯格想知道是什么呢?
数据
传统上,对此问题感兴趣的研究人员会列出他们认为最重要的公司文化的维度-公司可以是竞争性或合作性,正式或非正式的。他们会将这些变量提炼成一份调查问卷,然后发送给不同公司的数千名员工。
作为回报,他们将获得一个整齐的结构化信息表:员工A认为Google具有竞争力和创新性,而员工B则认为沃尔玛是官僚和正式的。等等。
戈德伯格解释说,这种方法有两个基本问题。首先,研究人员将自己狭narrow的文化类型强加给原本杂乱无章的系统。其次,人们实际上并不擅长回答调查问卷。他们以意想不到的方式解释问题。他们给出他们认为研究人员想听到的答案。他们有时会猜测,因为他们不知道该说些什么。
戈德堡想采取一种不同的方法。他联系了Glassdoor,这是一个求职和招聘网站,员工在该网站上匿名并公开审查他们工作的公司。戈德堡想知道,当不受调查约束时,人们如何谈论公司的文化?同一家公司的员工是否同意工作场所的文化?如果不是,他们将以何种方式不同意?
团队
戈德堡和两位合著者,麦吉尔大学的Matthew Corritore和加州大学伯克利分校哈斯商学院的Sameer Srivastava,在七年的时间里,从492家上市公司中收集了大约500,000条评论。从大量混乱的数据中(规模和时间范围完全超出了传统调查的范围),戈德堡开始对文化的讨论进行提取和分类。他在大海捞针。
Goldberg说,在整个过程中,他得到了Stanford GSB Data,Analytics和Research Computing专家的支持。他们帮助确保对数据的访问符合Glassdoor提出的要求。对于Goldberg所从事的其他项目,DARC帮助解决了第三方数据收集的合同迷宫,构建了分析所需的内部基础结构,并将数据组织成可用的东西-借助它们,复杂的工作变得更加容易。
算法
人工完成后,对50万个Glassdoor评论的分析将是一项艰巨而艰巨的任务。因此,戈德堡转向了一种机器学习方法,该方法在技术上称为“潜在狄里克雷分配主题建模”。更非正式地讲,这是“言语交流”方法。
对该算法的唯一限制是它应该寻找多少个主题。在这种情况下,戈德堡可能会假设有50种相关的文化类型。也许是100。(此猜测可以随着时间的流逝而不断完善,以找到最具解释力的数字。)一旦算法知道要查找的主题数,它就会扫描每个文档并创建实质上是一个巨大的电子表格,以定义一个单词出现在句子中另一个单词附近的概率。在不实际理解这些词指的是什么的情况下,该算法能够将不同的词簇分类为一个或另一个文化桶。
戈德伯格说:“该算法没有自上而下地施加各种可能性,而是通过归纳推断出无需人工输入的类别,”戈德伯格说。“没有人类的了解正在发生;最基本的是,这是一个统计模型,用于查找倾向于同时出现的单词。”
分析
Goldberg和他的合作者首先在大约一百万个句子中训练了该算法,这些句子包含“文化”一词或近似的同义词(环境,气氛,态度,气候,价值,哲学,信念)。这些单词周围出现了什么单词?该培训提供了一个可靠的不同文化类别的模型,从此,研究人员将模型应用到每条评论中的每个句子中,从而可以精确地讨论有关公司文化的讨论。
再次,该分析包括近500家上市公司,这使Goldberg随后可以查看两个主要数据点。首先,给定公司内的人们如何评价其文化?他们是否同意其工作场所的文化?他们是否认为它包含多种文化?其次,该公司的资产收益率是什么—是其在市场上的有效性的代表?
戈德伯格说:“实质上,我们对任何一家特定公司的文化都不感兴趣。” “我们有兴趣简单地询问员工对于公司的文化是同意还是不同意。” 戈德堡发现,在文化上存在分歧的公司效率较低,而在拥护多元文化的公司中更具创新能力。
最终,戈德伯格说,很容易被“机器学习”的光辉吸引住,这被现代文化中无所不知的光环所吸引。Goldberg承认:“这些工具-花哨,有趣且酷”。但是,一个基本问题必须为机器学习的学术应用提供信息。“为什么需要使用它?”
他指出,除了趋势之外,研究人员还应该有一个清晰而引人注目的案例,以使用复杂且通常不透明的算法来探索巨大的数据集。这项工作可能吸引资金和关注,但是有必要吗?
戈德堡说:“就我们而言,在Glassdoor评论中使用语言模型可以帮助我们以一种我们原本无法拥有的方式来衡量这种模糊的东西,即'文化'。” “我们从这项工作中学到的东西,否则我们根本无法学到。”