首页 | 新闻 | 新品 | 文库 | 方案 | 视频 | 下载 | 商城 | 开发板 | 数据中心 | 座谈新版 | 培训 | 工具 | 博客 | 论坛 | 百科 | GEC | 活动 | 主题月 | 电子展
返回列表 回复 发帖

聚类(5)

聚类(5)

ITokeniser.cs

    using System.Collections.Generic;
     
    namespace WawaSoft.Search.Common
    {
        /// <summary>
        /// 分词器接口
        /// </summary>
        public interface ITokeniser
        {
            IList<string> Partition(string input);
        }
    }


StopWordsHandler.cs

    using System;
    using System.Collections;
     
    namespace WawaSoft.Search.Common
    {
     
        /// <summary>
        /// 用于移除停止词
        /// </summary>
        public class StopWordsHandler
        {        
            public static string[] stopWordsList=new string[] {"的",
                "我们","要","自己","之","将","“","”",",","(",")","后","应","到","某","后",
                "个","是","位","新","一","两","在","中","或","有","更","好"
            } ;
     
            private static readonly Hashtable _stopwords=null;
     
            public static object AddElement(IDictionary collection,Object key, object newValue)
            {
                object element = collection[key];
                collection[key] = newValue;
                return element;
            }
     
            public static bool IsStopword(string str)
            {
               
                //int index=Array.BinarySearch(stopWordsList, str)
                return _stopwords.ContainsKey(str.ToLower());
            }
        
     
            static StopWordsHandler()
            {
                if (_stopwords == null)
                {
                    _stopwords = new Hashtable();
                    double dummy = 0;
                    foreach (string word in stopWordsList)
                    {
                        AddElement(_stopwords, word, dummy);
                    }
                }
            }
        }
    }
返回列表