Channel: InfoQ - 促进软件开发领域知识与创新的传播

X Mark channel Not-Safe-For-Work? cancel confirm NSFW Votes: (0 votes)

X Are you the publisher? Claim or contact us about this channel.

X 0

Showing article 744 of 1638 in channel 59042100
Channel Details:

Title: InfoQ - 促进软件开发领域知识与创新的传播
Channel Number: 59042100
Language: Chinese
Registered On: February 6, 2016, 3:00 pm
Number of Articles: 1638
Latest Snapshot: January 13, 2020, 6:47 pm
RSS URL: http://www.infoq.com/cn/feed/data-science/minibooks
Publisher: https://www.infoq.cn
Description: InfoQ 是一个实践驱动的社区资讯站点，致力于促进软件开发领域知识与创新的传播。
Catalog: //infoq344.rssing.com/catalog.php?indx=59042100

↧

鸟枪换炮，如何在推荐中发挥AI Lab开源中文词向量的威力？

August 22, 2019, 1:05 am

≫ Next: 号外！Chameleon支持字节跳动小程序啦

≪ Previous: 论无服务器架构的特征

本文来自“深度推荐系统”专栏，这个系列将介绍在深度学习的强力驱动下，给推荐系统工业界所带来的最前沿的变化。本文则结合作者在工作中的经验总结，着重于介绍在推荐系统中如何使用腾讯AI Lab开源的中文词向量。

近年来，深度学习技术在自然语言处理领域中得到了广泛应用。用深度学习技术来处理自然语言文本，离不开文本的向量化，即把一段文本转化成一个n维的向量。在当前“万物皆可embedding”的思想领导下，词向量既是NLP领域中一个非常基础的工具，也是推荐、广告等业务场景中用于召回以及排序等阶段的简单且实用的核武器，主要用于进行语义相似度度量等。

词向量的核心是word2vec[1]，相应原理介绍不是本文介绍的重点。常用的训练工具有gensim，fasttext等，一般的训练步骤包括：收集语料 --> 文本过滤 --> 分词 --> 去除停用词 --> 训练模型。

目前，针对英语环境，工业界和学术界已发布了一些高质量的词向量数据，并得到了广泛的使用和验证。其中较为知名的有谷歌公司基于word2vec算法[1]、斯坦福大学基于GloVe算法[2]、Facebook基于fastText项目[3]发布的数据等。然而，目前公开可下载的中文词向量数据还比较少，并且数据的词汇覆盖率有所不足，

腾讯AI Lab开源中文词向量

腾讯AI Lab采用自研的Directional Skip-Gram (DSG)算法 [4] 作为词向量的训练算法。DSG算法基于基本的Skip-Gram，在文本窗口中词对共现关系的基础上，额外考虑了词对的相对位置，以提高词向量语义表示的准确性。

点击查看原文>

↧

Latest Images

【斗羅大陸：獵魂世界】諾丁鬥場教學｜千萬不要培養第二隊｜不用紅星武魂也能通關｜陣容使用推薦｜新手必看重點攻略｜#斗羅大陸獵魂世界 #斗羅大陸獵魂世界禮包碼...

【斗羅大陸：獵魂世界】諾丁鬥場教學｜千萬不要培養第二隊｜不用紅星武魂也能通關｜陣容使用推薦｜新手必看重點攻略｜#斗羅大陸獵魂世界 #斗羅大陸獵魂世界禮包碼...

July 20, 2025, 3:06 am

[LoliHouse] Princess-Session Orchestra - 15 [WebRip 1080p HEVC-10bit...

[LoliHouse] Princess-Session Orchestra - 15 [WebRip 1080p HEVC-10bit...

July 20, 2025, 3:03 am

CPU固定扣具導熱改良簡易分享

CPU固定扣具導熱改良簡易分享

July 20, 2025, 2:58 am

剛擺脫「黑戶」21歲青年兵役怎辦？中市府：若在學可延期徵集

剛擺脫「黑戶」21歲青年兵役怎辦？中市府：若在學可延期徵集

July 20, 2025, 2:21 am

本季5星好評！《Silent Witch沉默魔女的祕密》特裝版開放預購

本季5星好評！《Silent Witch沉默魔女的祕密》特裝版開放預購

July 20, 2025, 2:20 am

5G通訊翻新頁義傳推出眼鏡蛇MT2824全新晶片

5G通訊翻新頁義傳推出眼鏡蛇MT2824全新晶片

July 20, 2025, 1:30 am

台積電嘉科廠「50噸板車翻車」廠區停工 2個月內4起工安意外

台積電嘉科廠「50噸板車翻車」廠區停工 2個月內4起工安意外

July 20, 2025, 12:29 am

中職／明星賽曾頌恩全壘打大賽14轟奪冠兄弟隊史第4人

中職／明星賽曾頌恩全壘打大賽14轟奪冠兄弟隊史第4人

July 20, 2025, 12:24 am

在地黑毛豬、筊白筍登上營養午餐桃園食農教育首獲五星肯定

在地黑毛豬、筊白筍登上營養午餐桃園食農教育首獲五星肯定

July 20, 2025, 12:18 am

中國全面推行「網絡身份證」電子認證減低個資外洩風險

中國全面推行「網絡身份證」電子認證減低個資外洩風險

July 19, 2025, 11:58 pm

Trending Articles

行車紀錄器 panasonic CY-VRP160T 跪求拆解方法

February 24, 2019, 8:46 pm

关门一家亲：习远平、张澜澜、徐才厚

December 23, 2020, 10:17 pm

一秒还原cocos creator打包后的游戏素材

August 29, 2023, 7:23 am

母女檔聯手詐騙半年得款三千萬

January 28, 2013, 11:31 am

[下載][溫日良][海洋瘋狂][邪狼惡獸+疤面戰盔+死角第001-008話](完)[KF/ML/FD/2F/US]

February 27, 2021, 12:06 am

UAD Ampex ATR 102——专门为 UAD-2 平台而开发的磁带模拟插件

January 3, 2014, 12:00 am

VirtualBox 7.1.4 免安裝中文版 (7.1.12 安裝版) - 取代VMware的自由軟體

July 15, 2025, 8:21 pm

[转载]文强八字分析

June 5, 2014, 5:57 pm

出售: Technics SA-C05

February 26, 2018, 7:30 am

李燕铭：正部级刘慧敏感时刻落马内幕解析

July 18, 2025, 2:17 pm

杂牌笔记本BIOS 型号W13 版号k16-a-s133-v01

February 29, 2020, 1:20 am

請問~ 車用重低音改家用~

May 18, 2017, 8:56 am

出售: PI GRECO PG03 前級

January 7, 2014, 3:19 pm

cocos creator运营级别棋牌源码欢迎大家品鉴

September 4, 2020, 7:23 pm

名詞解釋：直接員工(DL)與間接員工(IDL)的差異，對工時的影響

August 29, 2017, 5:21 pm

量子覺知手札／躍遷與動能

January 22, 2025, 11:00 am

允偉富士益發酵魚粉打造無抗生素養殖

July 30, 2019, 8:29 am

【CDTV】《南方公园》第23季第2集——Band In China

October 5, 2019, 10:31 pm

出售: Blackvue DR750LW 2CH Wifi 前後車CAM連32GB記憶卡

June 30, 2017, 1:49 am

EE4.7系统卡二游戏整合包120G（适用于部分外贸寨机寨中寨）

March 21, 2025, 10:24 pm

Latest Images

【斗羅大陸：獵魂世界】諾丁鬥場教學｜千萬不要培養第二隊｜不用紅星武魂也能通關｜陣容使用推薦｜新手必看重點攻略｜#斗羅大陸獵魂世界 #斗羅大陸獵魂世界禮包碼...

【斗羅大陸：獵魂世界】諾丁鬥場教學｜千萬不要培養第二隊｜不用紅星武魂也能通關｜陣容使用推薦｜新手必看重點攻略｜#斗羅大陸獵魂世界 #斗羅大陸獵魂世界禮包碼...

July 20, 2025, 3:06 am

[LoliHouse] Princess-Session Orchestra - 15 [WebRip 1080p HEVC-10bit...

[LoliHouse] Princess-Session Orchestra - 15 [WebRip 1080p HEVC-10bit...

July 20, 2025, 3:03 am

CPU固定扣具導熱改良簡易分享

CPU固定扣具導熱改良簡易分享

July 20, 2025, 2:58 am

剛擺脫「黑戶」21歲青年兵役怎辦？中市府：若在學可延期徵集

剛擺脫「黑戶」21歲青年兵役怎辦？中市府：若在學可延期徵集

July 20, 2025, 2:21 am

本季5星好評！《Silent Witch沉默魔女的祕密》特裝版開放預購

本季5星好評！《Silent Witch沉默魔女的祕密》特裝版開放預購

July 20, 2025, 2:20 am

5G通訊翻新頁義傳推出眼鏡蛇MT2824全新晶片

5G通訊翻新頁義傳推出眼鏡蛇MT2824全新晶片

July 20, 2025, 1:30 am

台積電嘉科廠「50噸板車翻車」廠區停工 2個月內4起工安意外

台積電嘉科廠「50噸板車翻車」廠區停工 2個月內4起工安意外

July 20, 2025, 12:29 am

中職／明星賽曾頌恩全壘打大賽14轟奪冠兄弟隊史第4人

中職／明星賽曾頌恩全壘打大賽14轟奪冠兄弟隊史第4人

July 20, 2025, 12:24 am

在地黑毛豬、筊白筍登上營養午餐桃園食農教育首獲五星肯定

在地黑毛豬、筊白筍登上營養午餐桃園食農教育首獲五星肯定

July 20, 2025, 12:18 am

中國全面推行「網絡身份證」電子認證減低個資外洩風險

中國全面推行「網絡身份證」電子認證減低個資外洩風險

July 19, 2025, 11:58 pm

© 2025 //www.rssing.com