实战系列之天气预报实时采集

《浪潮的奇峰》是现年底新书,不过网络版在07年便从头当谷歌黑板报上连载。由于IT业的点子本比较快,加上08年金融危机加速了IT业的变,本书出版的时段作者对网络版做了众改及加。

前言:

 

今天
CYQ.Data 框架  框架群里,“路过冬天”问了单天气预报的题目,问哪里出webservice调用?于是随性就产生矣立首稿子了。

笔者是google科学家,当前google中日韩文搜索算法的要设计者。2010年投入腾讯。

 

 

天气预报,回忆中召开过那三不成。

当下本书是自身近年扣罢之老三按写作水平空前之企不用绝后的题。前少随是《圈子圈套》和《侯卫东官场笔记》。这三本书的一起特点是:作者就或者还站于时代大潮的高点,得以有较开朗的视野,并且愿意将团结之感受、体会写出来。具体到就本开,作者的优势在于:熟悉具体的IT技术,熟悉IT业纷繁复杂的轩然大波幕后蕴藏的经贸逻辑,另外是因为位置的因由,视野较开朗。概括来说就是是可观、深度(IT、商业)与广度上过大部分的IT书的撰稿人或IT业记者。

 

 

先是差的做法是:

立马本书是自家看罢之季比照IT历史书。前三照是《IT通史》《IT史记》《沸腾15年》。前少依无看罢,很相似。头绪太多,比较散乱(第二随是方兴东写的)。《沸腾15年》还对,写中国互联网15年吧的事情。这三照都是编年体。把每年的作业各个个叙述。《浪潮的巅》是传记体,通过吃众多雅商店写传来叙述整个IT业的腾飞系统,忽略了过多聊店铺、小事变,结果就是收拾本书显得异常有条。

技术总监写了单采访后台,每天早晚各个采一潮,从tq121站里集大量之天气信息及数据库,我就径直由数据库里读数据了。

 

 

另外是因为作者的技术背景,对写中干到的大部技艺问题,都能说的比较清楚。如果无技术背景的写照手,略微深入之题材便爱错。

总结:

 

这种做法充分麻烦,每天只要开始后台采数据,做成活动的,还要无半程程序自动死亡才实施,而且数据库会起大堆垃圾过时的数据。

本书提到了过多IT界的逸闻轶事,也澄清了有的不实传闻,由于笔者的位置、经历,我觉着书被之叙说相对比可信。

亮点是:可以搜集很多消息,做成很正式的天气预报站,那时候召开旅游站,天气也是要模块,所以这种方式吧殊确切。

 

 

《浪潮的峰》另外一个特征就是是勾兑在写中之要独立成章专门讲述的商贸逻辑的辨析。同样出于笔者所当的冲天,作者可以直接和众美国IT业大佬直接关系,许多IT业的商方面的见解比较我先看了之又合理,比如对摩托罗拉为什么衰落,分析的杀透彻。

第二次:

 

友好举行毕业设计,都没有采访后台,自己而写不发采集来,没数读了,只好到处百度搜索“天气预报Webservice”调用。

写被描绘及了不少稍微公司战胜大店之事例,作者也深受有了因。不过自己当《创新者的泥坑》对是场景之总结暨析更胜一筹,因为作者发现这场面不仅当IT业出现,传统的制造业如挖掘机制造、炼钢厂也油然而生了之场景。

 

 

总结:

书之结尾作者对未来的IT业大趋势啊闹局部个体的判定。作者认为手机业、亚太地区的电子商务发出或出现下一个市值上千亿的局。国内的公司作者看好阿里巴巴以及腾讯。

这种做法为甚烦躁,首先Webservice不好找,第二找到的要小站提供的,随时又会挂掉了,要是住家挂掉,你若另外寻一个?

 

优点是:找到就调用,什么吗非用无,菜鸟也克飞。

书写中立传的号大多都是国人耳熟能详的。书被则关乎到多技术细节,我道未清楚可以跳过,不伤对本书的知。从这个角度来说,这按照开显然起资格像吴晓波《大败局》一样成为MBA教材。

 

第三次:

凡是电子商务平台在首页显示下天气,那时候正赶上刚开完web版的采访系统,于是顺理直接使用搜集类库现采现显。

 

总结:

瑜是:不用和数据库打交道,现采现显,减少数据库压力,速度快,每天仅采一不良,丁点信息,缓存即可。对于天只有是装饰性的极度适用。

症结是:数据量少,不克召开会专业性天气预报站。

 

以下介绍现采现显的贯彻方式

 

1:既然要集,当然找到有天气预报的站了,这个那个好找,网上到处都是资源,只要您会采。

本百度,你找城市使广州,即会产出气象信息了,如图:

 

电子商务 1

 

随腾讯soso,如下图。当然还产生另众多浩大,只要看收获的,都足以收集,不过最好好找好立,稳定。

 

电子商务 2

 

2:采集类,一个吓之采集类,事半功倍,以下出一个简化版,足够采集天气信息

电子商务 3电子商务 4

using System;
using System.Text;
using System.Net;
using System.Text.RegularExpressions;

namespace CYQ.Tool
{
    /// <summary>
    /// 作者:路过秋天
    /// 博客:http://cyq1162.cnblogs.com
    /// </summary>
    public class GatherHelper
    {
        /// <summary>
        /// 返回获取的对象地址HTML全部代码
        /// </summary>
        /// <param name=”strUrl”>目标地点</param>
        /// <returns></returns>
        public static string GetHtmlCode(string pageUrl, Encoding encoding)
        {
            try
            {
                //返回目标页HTML代码
                WebClient webclient = new WebClient();
                webclient.Credentials = CredentialCache.DefaultCredentials;
                byte[] buffer = webclient.DownloadData(pageUrl);
                string HtmlCode = encoding.GetString(buffer);
                webclient.Dispose();    //释放WebClient资源
                return HtmlCode;
            }
            catch
            {
                return string.Empty;
            }

        }

        #region 内容截取分析
        /// <summary>
        /// 返回根据情节开始与了代码分析出内容
        /// </summary>
        /// <param name=”ContentCode”>内容代码</param>
        /// <param name=”StartCode”>内容所在开始代码</param>
        /// <param name=”EndCode”>内容所在结束代码</param>
        /// <param name=”index”>取第几长达[从1开始]</param>
        /// <returns></returns>
        public static string GetContent(string contentCode, string startCode, string endCode, int index)
        {
            string[] matchItems = null;
            return GetContent(contentCode, startCode, endCode, index, out matchItems);
        }
        public static string GetContent(string contentCode, string startCode, string endCode, int index, out string[] matchItems)
        {
            matchItems = null;
            if (string.IsNullOrEmpty(startCode) && string.IsNullOrEmpty(endCode))
            {
                return contentCode;
            }
            Regex regObj = new Regex(startCode + @”([\S\s]*?)” + endCode, RegexOptions.Compiled | RegexOptions.IgnoreCase);
            MatchCollection matchItemList = regObj.Matches(contentCode);
            if (matchItemList != null && matchItemList.Count >= index)
            {
                matchItems = new string[matchItemList.Count];
                for (int i = 0; i < matchItemList.Count; i++)
                {
                    matchItems[i] = matchItemList[i].Groups[1].Value;
                }
                index = index > 0 ? index – 1 : 0;
                return matchItemList[index].Groups[1].Value;
            }
            return string.Empty;
        }
        #endregion
    }
}

 

3:编写天气预报实体类,将募集的消息以实体返回,如果采集多只,返回就是List<实体>了

电子商务 5电子商务 6

  public class WeatherInfo
    {
        private string imgUrl;
        /// <summary>
        /// 天气图片地址
        /// </summary>
        public string ImgUrl
        {
            get { return imgUrl; }
            set { imgUrl = value; }
        }
        private string wind;
        /// <summary>
        /// 天气风力
        /// </summary>
        public string Wind
        {
            get { return wind; }
            set { wind = value; }
        }
        private string cityName;
        /// <summary>
        /// 天气都名称
        /// </summary>
        public string CityName
        {
            get { return cityName; }
            set { cityName = value; }
        }
        private string temperature;
        /// <summary>
        /// 天气温度
        /// </summary>
        public string Temperature
        {
            get { return temperature; }
            set { temperature = value; }
        }
        private string description;
        /// <summary>
        /// 天气说明
        /// </summary>
        public string Description
        {
            get { return description; }
            set { description = value; }
        }

 

4:编写采集Soso的天气预报类

 

A:新建采集天气预报类:WeatherSearch

电子商务 7电子商务 8

    /// <summary>
    /// 作者:路过秋天
    /// 博客:http://cyq1162.cnblogs.com
    /// </summary>
    public class WeatherSearch
    {
        /// <summary>
        /// 数据搜集来源于腾信搜搜天气预报
        /// </summary>
        /// <param name=”cityName”></param>
        /// <returns></returns>
        public static WeatherInfo Get(string cityName)
        {
              //待实现
        }

        private static WeatherInfo GetFormCache(string cityName,string key)
        {
            object weather = HttpContext.Current.Cache.Get(key);
            if (weather!=null)
            {
                return weather as WeatherInfo;
            }
            return null;
        }

    }

 

关键说明:

收集一涂鸦后,记得缓存起来,不然老是访都现采,刷刷就为soso给封了,切身经历什么。

 

B:Get函数分解:

1:先念博缓存,注意缓存Key用日期做key,可以一本万利缓存今天以及去昨天的缓存。

电子商务 9电子商务 10

        public static WeatherInfo Get(string cityName)//中文城市名
        {
            if (string.IsNullOrEmpty(cityName))
            {
                return null;
            }
            string todayKey = cityName + DateTime.Now.ToString(“yyyyMMdd”);
            WeatherInfo weather = GetFormCache(cityName, todayKey);
            if (weather == null)
            {
                //待实现
            }
        }

2:读不顶缓存就现采了,调用采集类

电子商务 11电子商务 12

 if (weather == null)
  {
                weather = new WeatherInfo();
                weather.CityName = cityName;
                cityName = System.Web.HttpUtility.UrlEncode(cityName + “天气”, Encoding.GetEncoding(“gb2312”));
                string url = “http://www.soso.com/q?num=1&w=” + cityName;

                //采集所有html
                string html = GatherHelper.GetHtmlCode(url, Encoding.GetEncoding(“gb2312”));
                //接下来要实现
  }

说明:

这边都要就此中文编码传过去,至于url,是本人发觉的无比精简的参数,现在就将搜搜的搜索页面的全html抓回了,接下去就是分手有想要之音信。

3:分析html,缩小范围,对于一大堆html,我们只要这同局部

电子商务 13电子商务 14

<!–上面的受简单–>
<div class=”w_main”>
                                            <ol>
                                                <li class=”w_space” title=”北风4-5级”><span>今天(周五)</span>
                                                    <img src=”http://cache.soso.com/zdq/wea/s\_a3.png” onload=”setPng(this,48,48)” />
                                                    <span>21 / 28<em>°</em>C</span><span class=”w_w”>多云转阵雨</span> </li>
                                                <li title=”北风3-4级”><span>明天(周六)</span>
                                                    <img src=”http://cache.soso.com/zdq/wea/s\_a3.png” onload=”setPng(this,48,48)” />
                                                    <span>22 / 28<em>°</em>C</span><span class=”w_w”>多云转阵雨</span> </li>
                                                <li title=”微风”><span>后天(周日)</span>
                                                    <img src=”http://cache.soso.com/zdq/wea/s\_a33.png” onload=”setPng(this,48,48)” />
                                                    <span>18 / 29<em>°</em>C</span><span class=”w_w”>多云</span> </li>
                                            </ol>
</div>
<!–下面的也罢让略去–>

说明:

俺们以GetContent方法好生有利的缩小范围,只要找到唯一的序曲标签及收标签,不见面正则,也如出一辙截取。

4:使用GetContent步步截取所要信息

电子商务 15电子商务 16

if (string.IsNullOrEmpty(html)) { return null; }
                //缩小范围
                html = GatherHelper.GetContent(html, “<div class=\”w_main\”>”, “</div>”, 1);
                if (string.IsNullOrEmpty(html)) { return null; }

                //说明
                weather.Description = GatherHelper.GetContent(html, “<span class=\”w_w\”>”, “</span>”, 1);
                //图片
                weather.ImgUrl = GatherHelper.GetContent(html, “<img src=\””, “\””, 1);
               
                //风向
                weather.Wind=GatherHelper.GetContent(html, “title=\””, “\””, 1);

                //温度
                weather.Temperature = GatherHelper.GetContent(html, “/> <span>”, “<em>”, 1);

5:存入缓存并清除昨天底苏存信息[扣押用出示几上的音讯了]

电子商务 17电子商务 18

                HttpContext.Current.Cache.Insert(todayKey, weather);
                string yesterdayKey = cityName + DateTime.Now.AddDays(-1).ToString(“yyyyMMdd”);

                if (HttpContext.Current.Cache.Get(yesterdayKey)!=null)
                {
                    HttpContext.Current.Cache.Remove(yesterdayKey);
                }

 

5:界面调用

电子商务 19电子商务 20

 protected void Page_Load(object sender, EventArgs e)
    {
        WeatherInfo info = WeatherSearch.Get(“广州”);
        if (info != null)
        {
            litCity.Text = info.CityName;
            litDescprtion.Text = info.Description;
            imgUrl.ImageUrl = info.ImgUrl;
            litWind.Text = info.Wind;
            litTemperature.Text=info.Temperature;
        }
    }

 

6:调用结果

电子商务 21

 

 

最后结言:

本博没有迅速评论通道,大伙积极点下手。

再不济手动复制-》“此文是,值的引荐”!!

-_-…!!!

IE6好卡,鼠标又疯狂,单击双击混在一起,本文写起来好辛苦~~

 

 

本文示例下载地址:CYQ.Data 轻量数据层之路
bug反馈、优化建议、最新框架下载

 

Leave a Comment.