從推甄進來研究所以來,
就開始幫忙某位所上的老師 coding 相關程式。
內容大致上是這樣的,
當一篇文章(英文)進來,首先要先將文章中的單字先去做詞性的標籤,
而這東西有現成的可以拿來用, standford Tagger 有在專門做這方面的研究。
不過因為它們是用 java 開發,也讓我熟析了環境好一下才上手 Q_Q
當詞性標完後,我自己再透過標籤後選出我所要的詞性,
然後繼續做字根還原的動作
啥是字根還原呢?就像是 police 和 policy,其實它們字根還原都是 polic
有些人會將其認為是單純的兩個字,可是就大致的方面是差不多的
而這部份也有專門的學者在研究,所以我也是拿人家來套的 XD"
我是從以下這網址列找的 ─ Porter stemmer 它有提供很多版本,
因為 PHP 比較熟,所以選擇 PHP 上手
也是讓我折騰了好久一段時間
不過接下來的工作可說是我以前玩 PHP 鮮少接觸到的
以前玩的都是小小 insert deleter update 的小專案,
了不起寫一些自以為很厲害的函式
當一篇文章字經過 tagger and stemming 結果出來之後,
我必須先去做新字根的 sorting
幸好 PHP 支援很強大, sort 可以直接拿來用
不然看到一些字排列的原理,真的有點傻眼想說要怎來弄這塊
而這還不是結束,排列之後,
假設你今天 10 篇文章進來你就必須要去統計這十篇文章的新字根
然後呢?
十篇文章要一一跟這些字根去比對,
然後列出每篇文章出現的各個字根次數。
這都是我以前完全沒有想說過會接觸到的 Q_Q
寫起來好抖,而且還要把紀錄都寫到記事本裡面去,而不是開資料庫來儲存
雖然說提升 skill 也不錯,可是長期下來懷疑自己可以撐下去嗎 QQ"
我還很嫩的啊!
就開始幫忙某位所上的老師 coding 相關程式。
內容大致上是這樣的,
當一篇文章(英文)進來,首先要先將文章中的單字先去做詞性的標籤,
而這東西有現成的可以拿來用, standford Tagger 有在專門做這方面的研究。
不過因為它們是用 java 開發,也讓我熟析了環境好一下才上手 Q_Q
當詞性標完後,我自己再透過標籤後選出我所要的詞性,
然後繼續做字根還原的動作
啥是字根還原呢?就像是 police 和 policy,其實它們字根還原都是 polic
有些人會將其認為是單純的兩個字,可是就大致的方面是差不多的
而這部份也有專門的學者在研究,所以我也是拿人家來套的 XD"
我是從以下這網址列找的 ─ Porter stemmer 它有提供很多版本,
因為 PHP 比較熟,所以選擇 PHP 上手
也是讓我折騰了好久一段時間
不過接下來的工作可說是我以前玩 PHP 鮮少接觸到的
以前玩的都是小小 insert deleter update 的小專案,
了不起寫一些自以為很厲害的函式
當一篇文章字經過 tagger and stemming 結果出來之後,
我必須先去做新字根的 sorting
幸好 PHP 支援很強大, sort 可以直接拿來用
不然看到一些字排列的原理,真的有點傻眼想說要怎來弄這塊
而這還不是結束,排列之後,
假設你今天 10 篇文章進來你就必須要去統計這十篇文章的新字根
然後呢?
十篇文章要一一跟這些字根去比對,
然後列出每篇文章出現的各個字根次數。
這都是我以前完全沒有想說過會接觸到的 Q_Q
寫起來好抖,而且還要把紀錄都寫到記事本裡面去,而不是開資料庫來儲存
雖然說提升 skill 也不錯,可是長期下來懷疑自己可以撐下去嗎 QQ"
我還很嫩的啊!
留言
張貼留言