Hi!请登陆

智搜:十余项NLP算法赋能,构建核心竞争壁垒

2021-3-12 23 3/12

  2010年,随着人工智能潮兴起,智能写作概念和技术在国内开始萌芽。无论是投资人,还是业务需求方,都怀着很高的热情和期待。腾讯、百度、今日头条、京东等互联网巨头先后进入这条赛道,同时智搜、文因互联等 NLP 领域领先创业公司也扎根媒体、营销、金融等细分领域。经过近十年的技术积累和商业落地,用户对智能写作的新鲜感正在退去,思考和认识也在重归理性。  用户对智能写作的核心需求是什么?  我们提倡机器写作,所为的不过“懒”字。和人类创作相比,机器写作的优势在于效率高、时效快、覆盖全面,没有主观偏见等。  媒体人员希望智能写作能够帮自己完成一篇采访稿件;自媒体人员希望机器能够帮忙产出10W+的爆文;金融分析师渴望机器写作能将自己从金融报告的海洋里摘出来;公务人员希望机器能帮忙准备一篇领导讲话稿……写作渗透工作的方方面面,甚至可以说每个人都会面临着写作的需求。  用户期待通过机器解放自己,但前提是保证内容本身的价值——原创性、可读性和可传播性。  原创,就是由机器学习人类写作并模拟人类写作习惯,全自动生成全新的内容。以微信、头条等自媒体平台而言,对于平台创作者而言,基本都会有原创要求和审核。  可读性,可以用句子通顺度,前后文逻辑统一来衡量。如果机器生成的文段,可以保证语句通顺,前后自洽不矛盾,就距离成功进了一步。  机器生成的内容具备原创和可读性,即使距离人类的创作水平还有大半距离,也可以说质量初达标。再经过用户的二次优化后,就是一篇可以传播的合格内容。  制约智能写作原创度的核心因素  目前市面上有不同的智能写作产品,针对的行业不同,写出的质量也不相同。原创性和通顺度成为用户衡量产品竞争力的关键。  俗话说,读书破万卷下笔如有神。这句话说的就是写作需要的素材积累。基于深度学习、自然语言的智能写作,依赖于算法和数据两个因素。  以京东为例,作为一家电商平台,沉淀了海量的电商文案数据,再辅以雄厚的算法技术资源,基于自身业务需求出发,研发出京东电商文案平台,为电商平台输出高质量的商品特点介绍。  智搜,则是走了一条技术市场化之路。历时5年技术攻关,积累了知识图谱、智能语义等众多核心技术。知识图谱技术,可以对资讯、营销、金融等领域的素材数据不断打标签,形成机器写作的原始素材库。据了解,智搜目前已经积累了上百亿的营销素材。  当然,我们也要认识到,在算法优化和大规模语料数据支持下的智能写作,目前远没有达到和人类一样的创作水平。智能写作的成长之路还有很远。  发力
提升原创度
智搜持续优化写作算法  除了前面提到的百亿级的营销素材,智搜团队在算法上的积累同样深厚。团队采取的了WikiAnswers,Quora,TCNP,LCQMC等专业训练集,同时还开发了非监督的中文语言生成模型,基于百亿级的文章进行训练,具备了原创的写作能力,系统可在5秒内生成10篇原创文章,每篇字数在1000-2000字,通顺度达到80%左右。  此外,智搜积累了机器写作算法、语义追踪算法、大规模金融知识图谱、智能分类算法、智能过滤算法、个性化推荐算法等十余类核心算法。其中,机器写作算法又包含了原创写作、裂变写作、稿件改写等等。原创写作属于智能写作领域的第一家,能够支持用户通过智搜写作平台生产出原创内容。  此外,智搜一直致力于算法的持续优化,希望Giiso写作机器人能够为用户带来原创性和通顺度更高的内容。近期,智搜将上线全新的机器改写算法,为用户提供更加顺畅可读的原创内容。

相关推荐