什么是文本挖掘?
从大量文本数据中提取有用信息统称为文本挖掘。使用自然语言分析技术,我们通过将句子划分为单词(名词、动词、形容词等)并分析它们的出现频率和相关性来提取有用的信息。
文本挖掘也是大数据利用中非常重要的元素。大数据分析的目标数据是“结构化/定量数据”,以数值形式表达且相对容易处理,以及“非结构化、定性数据”,其具有无法用数字表达的感官方面”。
文本数据是一种典型的“定性数据”,文本挖掘的目的就是从这种“定性数据”中收集高附加值的信息。
如今,我们生活在大数据时代,除了企业内部积累的数据,例如呼叫中心客户与接线员的互动记录、客户在网页上的询问、问卷调查中的自由文本等,我们还使用社交媒体上也有大量有用的文本数据,例如公告牌上的帖子、口碑网站以及 SNS(Facebook、Twitter 等)上的文章。此外,随着近年来语音识别技术的进步,需要分析的数据量呈爆炸式增长,包括将语音数据转换为文本。这些数据不仅体量大,而且实时代表了当时的市场形势和环境、消费者对产品和服务的态度等,快速捕捉这些数据并将其用于企业活动非常重要。这将是未来业务中非常重要的因素。由于信息在互联网上传播得如此之快,很可能发生一些事情,损害公司的品牌或形象,而你甚至没有意识到。为了防患于未然,并在适当的时候采取预防措施和对策,有效利用文本挖掘已经变得司空见惯。
从客户反馈中发现“为什么?”
某种产品滞销的事实可以通过查看销售数字来确定,但找出滞销原因的最佳方法是直接倾听客户的反馈。 近年来,除了通过呼叫中心询问明确表达的客户声音之外,互联网上还充斥着客户对相关产品的不满意、满意和要求的数据。此文本数据中隐藏着关键字和提示,可以解释为什么销售没有在销售结果中显示的销售下降的更早阶段进行销售。这些文本数据中隐藏着我们不知道何时以及有多少种来自客户的评论(满意、投诉、请求等)。
通过进行文本挖掘,您可以分析这些要素之间的关系,快速了解为什么产品卖得不好,为什么会失去机会,并采取适当的措施。
为了进行这样的分析,需要将文本数据与关联的客户数据、跟踪记录数据等相结合。这使得我们能够识别按性别划分的意见差异、按购买金额划分的投诉以及按产品划分的差异。突出销售方式的差异。