一、培訓簡述
課程中通過細致講解,使學員掌握該技術的本質。具體收益包括:
1.掌握NLP基礎
2.關鍵詞提取與文本分類方法
3.文本向量化與句法分析方法
4.NLP與深度學習技術的相應算法
5.掌握圖像識別技術
二、培訓特色
本次培訓從實戰的角度對自然語言處理(NLP)進行了全面的剖析,并結合實際案例分析和探討NLP的應用場景,給NLP相關從業人員以指導和啟迪。
三、培訓時長
共計3天,每天6課時
四、培訓大綱
單元 |
培訓模塊 |
培訓內容 |
第一單元 |
NLP入門與基礎介紹(一) |
- NLP的基本概念
- NLP的發展歷程
- NLP主要研究方向
- 句法語義分析
- 信息抽取
- 文本挖掘
- 機器翻譯
- 信息檢索
- 問答系統
- 對話系統
|
第二單元 |
NLP入門與基礎介紹(二) |
- NLP的基礎
- 分詞
- 正向最大匹配算法
- 逆向最大匹配算法
- 雙向最大匹配算法
- 基于N-gram語言模型的分詞
- 基于HMM的分詞方法
- 基于CRF的分詞法法
- 文本基本處理
- 詞性標注
- 基于最大熵的詞性標注
- 基于統計最大概率輸出詞性
- 基于HMM詞性標注
- 基于CRF的詞性標注
- 命名實體識別
- 案例
- 在線中文分詞系統實戰
- 命名實體識別接口開發
- 基于詞性標注的關鍵詞提取
|
第三單元 |
關鍵詞提取與文本分類(一) |
- 關鍵詞提取概述
- 關鍵詞提取算法
- TF-IDF
- LSA/LSI算法
- PLSA算法
- LDA算法
|
第四單元 |
關鍵詞提取與文本分類(二) |
- 文本分類算法
- 樸素貝葉斯
- 線性分類器
- 支持向量機
- Bagging模型
- Boosting模型
- 淺層神經網絡
- 案例
- 新聞主題提取
- 新聞分類實戰
|
第五單元 |
文本向量化與句法分析(一) |
- 文本向量化概述
- 文本向量化常用算法
- 詞袋算法
- HashTF算法
- Word2Vec算法
- Glove算法
|
第六單元 |
文本向量化與句法分析(二) |
- 句法分析概述
- 句法分析常用算法
- PCFG算法
- 條件隨機場算法
- 案例
- 文本情感分析的開發示例
- 基于依存句法分詞的問句相似度計算
|
第七單元 |
圖像識別項目 |
- 介紹Google圖像識別模型Inception-v3
- 使用Inception-v3做圖像識別
|
第八單元 |
貓狗分類項目 |
1.圖像數據預處理
2.貓狗分類-簡單CNN
3.貓狗分類-VGG16-bottleneck
4.貓狗分類-VGG16-Finetune |
第九單元 |
驗證碼識別項目 |
1.多任務學習介紹
2.驗證碼識別項目 |
第十單元 |
目標檢測項目 |
1.目標檢測任務介紹
2.RCNN/Fast-RCNN/Faster-RCNN算法介紹
3.YOLO算法介紹
4.SSD算法介紹
5.目標檢測項目實戰 |
第十一單元 |
目標分割項目 |
1.目標分割任務介紹
2.全卷積網絡
3.雙線性上采樣
4.特征金字塔
5.Mask RCNN算法介紹
6.目標分割項目實戰 |
第十二單元 |
圖像風格遷移項目 |
1.圖像風格遷移介紹
2.圖像風格遷移項目實戰 |
第十三單元 |
GAN項目 |
1.生成式對抗網絡GAN介紹
2.生成式對抗網絡GAN項目實戰 |
總結與考核 |
(注:大綱還可根據需求進行調整)
第二部分 師資簡介
覃棅豐
創業公司技術負責人。機器學習,深度學習領域多年一線開發研究經驗,精通算法原理與編程實踐。曾使用Tensorflow,Caffe,Keras等深度學習框架完成過多項圖像,語音,nlp,搜索相關的人工智能實際項目,研發經驗豐富。擁有兩項國家專利,同時具有多年授課培訓經驗,講課通熟易懂,代碼風格簡潔清晰。
人工智能相關工作經歷:
上海希格斯網絡科技有限公司 數據挖掘工程師
1.負責深度學習NLP算法的研究和實現。
2.負責搜索引擎的實現和優化。
上海索洛信息技術有限公司 高級算法工程師
1.負責深度學習圖像算法的研究和實現。
2.負責深度學習語音算法的研究和實現。
人工智能相關項目經驗:
人崗匹配項目 負責算法實現
● 收集了10萬份JD。
● 基于Tensorflow平臺使用LSTM+Attention算法。
● 使用JD訓練職位推薦模型。訓練好的模型可用于分析簡歷描述,并根據簡歷描述推薦一個或多個適合的職位。
項目關鍵詞提取項目 負責算法實現
● 收集了10萬份項目描述,并標記好項目中的關鍵詞。
● 基于Tensorflow平臺使用seq2seq模型。
● 從簡歷的項目描述中提取出該項目中的重點詞匯。可用于優化簡歷項目搜索結果。
人才搜索引擎項目 負責搜索引擎的實現和優化
● 搭建簡歷搜索引擎服務。
● 完成學校名,專業,公司,行業等模塊的搜索策略
● 完成搜索結果高亮服務。
● 修改搜索bug優化搜索算法。
寵物臉識別項目 負責數據處理,算法實現
● 收集了5萬張狗/貓的照片,并標記好它們臉部的區域。
● 在Linux下基于Caffe平臺使用Faster-rcnn實現狗/貓臉檢測算法。
● 推出了一款在線小游戲,用戶上傳自己家狗/貓的照片,服務器接收到照片之后用訓練好的模型檢測照片中狗/貓的臉,并把狗/貓的臉框出來,給它們的長相打一上個分數,再把處理后的照片反饋給用戶。
寵物品種識別項目 負責數據處理,算法實現
● 收集了19種貓和27種狗的照片,共3萬多張,并做好分類標簽。
● 基于Caffe平臺使用AlexNet,GoogleNet以及自己設計的網絡實現寵物品種分類算法。
● 推出了一款在線小游戲,用戶上傳自己家狗/貓的照片,服務器接收到照片之后用訓練好的模型檢測照片中狗/貓的品種,不同寵物的品種會對應不同明星的臉,再把與寵物品種相似的明星臉反饋給用戶。
寵物叫聲情感分類項目 負責數據處理,算法實現
● 收集了1萬6千條狗叫聲,分成8個類別。
● 基于Tensorflow平臺使用CNN,LSTM實現狗叫聲情感分類算法。
● 將訓練好的模型放到嵌入式設備中,實時判斷當前場景是否有狗叫聲,有狗叫聲的話是屬于什么分類。